- En la industria tecnológica, cada pocos años, cada vez que aparece una nueva tecnología de IA, se repite la fantasía de que “esta vez la interfaz de lenguaje natural lo cambiará todo”
- Siri, Alexa, los chatbots, la plataforma de AirPods y, más recientemente, los modelos de lenguaje de gran tamaño (LLM), todos se han subido a esta ola
- Sin embargo, en la práctica, la forma en que usamos nuestras computadoras casi no cambia
- La gente tiende a creer que el lenguaje natural, por ser “natural”, necesariamente debe ser la forma final
- La tesis de este texto es que la interfaz de lenguaje natural no es un ideal y, en realidad, no es un método eficiente
El lenguaje natural es un método de transmisión de datos lento y con muchas pérdidas
- El lenguaje natural es un mecanismo de transmisión de datos para intercambiar ideas y conocimiento entre personas
- En la transmisión de datos, hay dos factores importantes: la velocidad y la tasa de pérdida (lossiness)
- Pensamos a un ritmo de 1,000 a 3,000 palabras por minuto, pero la velocidad a la que hablamos o escribimos para expresarlo es mucho más lenta
- Por ejemplo, leer/escuchar (recepción) es rápido, pero escribir/hablar (emisión) es lento → el lenguaje natural es un cuello de botella
- En cambio, las personas usan gestos (pulgar arriba, asentir con la cabeza, etc.) para comunicarse de forma más rápida y concisa
- Esto se parece a la compresión de datos → hay pérdidas, pero es excelente en velocidad y conveniencia
- El ejemplo más eficiente parece ser ese momento en que una pareja que lleva muchos años junta entiende lo que el otro necesita sin decir nada
Evolución de la interacción entre humanos y computadoras
- Las primeras computadoras usaban interfaces de texto basadas en comandos, pero con la introducción de la GUI fue posible realizar tareas más fácilmente mediante elementos visuales
- Actualmente estamos en un estado de equilibrio productivo que combina GUI y atajos de teclado
- Atajos como ⌘b, ⌘t, ⌘c/v no son lenguaje natural, sino una forma de compresión de datos, mucho más rápida y eficiente
- Herramientas como Linear, Raycast y Superhuman llevan este tipo de entrada comprimida al máximo → cuando uno se acostumbra, es posible ejecutar tareas casi al mismo tiempo que las piensa
- Las interfaces táctiles se han establecido como una función complementaria, pero el trabajo de productividad serio sigue haciéndose en escritorio
- En móvil, ingresar texto es lento e incómodo (promedio de 36 WPM) → no existe una alternativa de atajos adecuada para móvil
- Por eso, las herramientas de productividad móvil no han podido desarrollarse tanto como las de escritorio
Las interfaces conversacionales están en desventaja en velocidad de entrada
- La voz es un medio de entrada más rápido que teclear (150 WPM vs 60 WPM), pero en el uso real resulta ineficiente
- Ejemplo: “Hey Google, dime el clima” es 10 veces más lento que tocar el ícono de una app
- La razón por la que Siri y Alexa fracasaron no fue la calidad de salida de la IA, sino la molestia del método de entrada
- Los LLM tampoco resuelven la ineficiencia del método de entrada
- Explicar en una oración algo que puede hacerse con un solo botón es, más bien, un retroceso
La UI conversacional debe usarse como un recurso complementario
- Los LLM son muy útiles no para reemplazar las interfaces existentes, sino como complemento
- El autor, de hecho, redactó el borrador de este texto hablando por voz con ChatGPT mientras caminaba → usó el LLM como compañero de pensamiento
- Ese es un trabajo centrado en el pensamiento, no en la velocidad, y no reemplaza el flujo de trabajo existente, sino que constituye un caso de uso completamente nuevo
- El ejemplo más ideal es un caso de hackatón en StarCraft II que usó Alexa como medio de entrada auxiliar
- En lugar de reemplazar mouse/teclado, utilizó la voz como forma adicional de entrada para ampliar el ancho de banda de transmisión de datos
- Herramientas como Figma, Notion o Excel no serán reemplazadas por una UI de chat
- En cambio, los LLM deberían posicionarse como una meta-capa siempre activa que conecte herramientas entre sí
- Ejemplo: incluso mientras el usuario trabaja con mouse o teclado, debería poder ejecutar comandos simples por voz
- Para lograrlo, la IA no debe ser una app aislada, sino funcionar a nivel de sistema operativo
- Al mismo tiempo, también hacen falta formas de hacer más rápida la entrada por voz (por ejemplo, silbidos, reconocimiento emocional, etc.)
- Incluso en una interfaz conversacional, al final la velocidad y la conveniencia son lo esencial
Conclusión: hay que verlo desde la lógica del complemento, no del reemplazo
- El título de este texto es una exageración para atraer clics
- La verdadera tesis no es “estar en contra de las interfaces conversacionales”, sino estar en contra del pensamiento de suma cero
- La IA no reemplaza las interfaces existentes, sino que es un elemento complementario que abre nuevas posibilidades
- El futuro ideal es aquel en el que las personas y las computadoras tienen una interacción natural e inconsciente
- Como cuando, en la mesa del desayuno, la mantequilla llega automáticamente sin que nadie tenga que pedirla
5 comentarios
Yo también estuve pensando algo parecido en cuanto a la interfaz, pero no se me ocurría una nueva interfaz que realmente encajara.
El artículo https://upsidelab.io/blog/design-voice-user-interface-starcraft presentado en el texto principal es de 2018, pero igual resulta interesante.
Me pregunto de qué manera se elegirá y utilizará en el futuro.
A los humanos no les gusta la incertidumbre al conversar, por lo que les cuesta renunciar al deseo de usar palabras precisas. Pero ChatAI y los LLM, por su propia naturaleza, implican incertidumbre. Si la información probabilística solo dependiera de mí, estaría bien, pero cuando hasta la otra parte depende de probabilidades, eso genera estrés. A veces, una forma determinista puede hacerte sentir más tranquilo.
Opinión de Hacker News
Aclara bien varias cosas que había intentado explicarles a personas interesadas en la "conversación" con las computadoras
Partes en las que el artículo está equivocado
Star Trek muestra bien un uso adecuado de las interfaces conversacionales
La UI por voz es más efectiva cuando se usa junto con teclado y mouse
Hace falta encontrar formas de transmitir la entrada por voz más rápido
El título del artículo puede llevar a malentendidos
A las personas extrovertidas y con perfil de gestión les gusta lanzar palabras para resolver problemas
Hasta hace 20 o 30 años, los humanos no estaban computarizados
Las herramientas de IA de texto a CAD no entienden bien lo que quiere el usuario
Quisiera que la relación con la computadora fuera como la telepatía