El caso contra las interfaces conversacionales

(julian.digital)

25 puntos por GN⁺ 2025-04-03 | 5 comentarios | Compartir por WhatsApp

En la industria tecnológica, cada pocos años, cada vez que aparece una nueva tecnología de IA, se repite la fantasía de que “esta vez la interfaz de lenguaje natural lo cambiará todo”
Siri, Alexa, los chatbots, la plataforma de AirPods y, más recientemente, los modelos de lenguaje de gran tamaño (LLM), todos se han subido a esta ola
Sin embargo, en la práctica, la forma en que usamos nuestras computadoras casi no cambia
La gente tiende a creer que el lenguaje natural, por ser “natural”, necesariamente debe ser la forma final
La tesis de este texto es que la interfaz de lenguaje natural no es un ideal y, en realidad, no es un método eficiente

El lenguaje natural es un método de transmisión de datos lento y con muchas pérdidas

El lenguaje natural es un mecanismo de transmisión de datos para intercambiar ideas y conocimiento entre personas
En la transmisión de datos, hay dos factores importantes: la velocidad y la tasa de pérdida (lossiness)
Pensamos a un ritmo de 1,000 a 3,000 palabras por minuto, pero la velocidad a la que hablamos o escribimos para expresarlo es mucho más lenta
Por ejemplo, leer/escuchar (recepción) es rápido, pero escribir/hablar (emisión) es lento → el lenguaje natural es un cuello de botella
En cambio, las personas usan gestos (pulgar arriba, asentir con la cabeza, etc.) para comunicarse de forma más rápida y concisa
Esto se parece a la compresión de datos → hay pérdidas, pero es excelente en velocidad y conveniencia
El ejemplo más eficiente parece ser ese momento en que una pareja que lleva muchos años junta entiende lo que el otro necesita sin decir nada

Evolución de la interacción entre humanos y computadoras

Las primeras computadoras usaban interfaces de texto basadas en comandos, pero con la introducción de la GUI fue posible realizar tareas más fácilmente mediante elementos visuales
Actualmente estamos en un estado de equilibrio productivo que combina GUI y atajos de teclado
Atajos como ⌘b, ⌘t, ⌘c/v no son lenguaje natural, sino una forma de compresión de datos, mucho más rápida y eficiente
Herramientas como Linear, Raycast y Superhuman llevan este tipo de entrada comprimida al máximo → cuando uno se acostumbra, es posible ejecutar tareas casi al mismo tiempo que las piensa
Las interfaces táctiles se han establecido como una función complementaria, pero el trabajo de productividad serio sigue haciéndose en escritorio
En móvil, ingresar texto es lento e incómodo (promedio de 36 WPM) → no existe una alternativa de atajos adecuada para móvil
Por eso, las herramientas de productividad móvil no han podido desarrollarse tanto como las de escritorio

Las interfaces conversacionales están en desventaja en velocidad de entrada

La voz es un medio de entrada más rápido que teclear (150 WPM vs 60 WPM), pero en el uso real resulta ineficiente
Ejemplo: “Hey Google, dime el clima” es 10 veces más lento que tocar el ícono de una app
La razón por la que Siri y Alexa fracasaron no fue la calidad de salida de la IA, sino la molestia del método de entrada
Los LLM tampoco resuelven la ineficiencia del método de entrada
Explicar en una oración algo que puede hacerse con un solo botón es, más bien, un retroceso

La UI conversacional debe usarse como un recurso complementario

Los LLM son muy útiles no para reemplazar las interfaces existentes, sino como complemento
El autor, de hecho, redactó el borrador de este texto hablando por voz con ChatGPT mientras caminaba → usó el LLM como compañero de pensamiento
Ese es un trabajo centrado en el pensamiento, no en la velocidad, y no reemplaza el flujo de trabajo existente, sino que constituye un caso de uso completamente nuevo
El ejemplo más ideal es un caso de hackatón en StarCraft II que usó Alexa como medio de entrada auxiliar
- En lugar de reemplazar mouse/teclado, utilizó la voz como forma adicional de entrada para ampliar el ancho de banda de transmisión de datos
Herramientas como Figma, Notion o Excel no serán reemplazadas por una UI de chat
En cambio, los LLM deberían posicionarse como una meta-capa siempre activa que conecte herramientas entre sí
- Ejemplo: incluso mientras el usuario trabaja con mouse o teclado, debería poder ejecutar comandos simples por voz
Para lograrlo, la IA no debe ser una app aislada, sino funcionar a nivel de sistema operativo
Al mismo tiempo, también hacen falta formas de hacer más rápida la entrada por voz (por ejemplo, silbidos, reconocimiento emocional, etc.)
Incluso en una interfaz conversacional, al final la velocidad y la conveniencia son lo esencial

Conclusión: hay que verlo desde la lógica del complemento, no del reemplazo

El título de este texto es una exageración para atraer clics
La verdadera tesis no es “estar en contra de las interfaces conversacionales”, sino estar en contra del pensamiento de suma cero
La IA no reemplaza las interfaces existentes, sino que es un elemento complementario que abre nuevas posibilidades
El futuro ideal es aquel en el que las personas y las computadoras tienen una interacción natural e inconsciente
- Como cuando, en la mesa del desayuno, la mantequilla llega automáticamente sin que nadie tenga que pedirla

5 comentarios

dbs0829 2025-04-04

Yo también estuve pensando algo parecido en cuanto a la interfaz, pero no se me ocurría una nueva interfaz que realmente encajara.

winterjung 2025-04-03

El artículo https://upsidelab.io/blog/design-voice-user-interface-starcraft presentado en el texto principal es de 2018, pero igual resulta interesante.

girr311 2025-04-03

Me pregunto de qué manera se elegirá y utilizará en el futuro.

fantajeon 2025-04-03

A los humanos no les gusta la incertidumbre al conversar, por lo que les cuesta renunciar al deseo de usar palabras precisas. Pero ChatAI y los LLM, por su propia naturaleza, implican incertidumbre. Si la información probabilística solo dependiera de mí, estaría bien, pero cuando hasta la otra parte depende de probabilidades, eso genera estrés. A veces, una forma determinista puede hacerte sentir más tranquilo.

GN⁺ 2025-04-03

Opinión de Hacker News

Aclara bien varias cosas que había intentado explicarles a personas interesadas en la "conversación" con las computadoras
- El ejemplo usado hace imaginar una situación en la que operas un auto solo hablando mientras conduces
- Eso es incómodo, te impide conversar con los pasajeros, y hablar con la computadora consiste en hacer que haga lo que quieres
- Hay formas más simples y rápidas que expresarlo en lenguaje natural
Partes en las que el artículo está equivocado
- La afirmación de que "el lenguaje natural es un mecanismo de transmisión de datos"
- En un mecanismo de transmisión de datos importan la velocidad y la pérdida
- El lenguaje natural no tiene ninguna de esas dos cosas
- En las interfaces conversacionales, las características principales no son la transmisión de información sino la "felicidad de la ignorancia" y la "interpretación inteligente"
- La "felicidad de la ignorancia" te permite plantear el objetivo sin necesidad de saber cómo lograrlo
- La "interpretación inteligente" permite interpretar la intención más que la orden
- Como en la gestión de equipos, con un equipo experimentado puedes esperar buenos resultados incluso con instrucciones simples
Star Trek muestra bien un uso adecuado de las interfaces conversacionales
- La interfaz de voz complementa la entrada manual y se usa como canal auxiliar
- No sirve tanto para dar entradas de control específicas por voz, sino para delegar, consultar y usarla sin depender de la ubicación
- La interacción por voz se usaba en forma de explicación, y seguramente entendieron bien qué cosas se sentían forzadas
La UI por voz es más efectiva cuando se usa junto con teclado y mouse
- La memoria visual y la auditiva tienen búferes separados, y el búfer auditivo tiene margen disponible
- Preguntar el clima por voz es más rápido que abrir una app
- El lenguaje se comprime automáticamente y crea palabras nuevas para conceptos complejos
- Igual que se abrevian los títulos de libros, la UI por voz también puede volverse eficiente
Hace falta encontrar formas de transmitir la entrada por voz más rápido
- Me hizo pensar en el video de Travis Rudd programando en Python con la voz
- Fue impresionante la experiencia de leer material de estudio y resolver cuestionarios mediante una interfaz de voz
El título del artículo puede llevar a malentendidos
- Los títulos pensados para provocar clics no son buenos
A las personas extrovertidas y con perfil de gestión les gusta lanzar palabras para resolver problemas
- Al escribir un correo, es importante dar la impresión de que se consideraron varias opciones
- Quienes realmente hacen el trabajo reconocen que lanzarle palabras a una computadora es ineficiente
Hasta hace 20 o 30 años, los humanos no estaban computarizados
- Hubo afirmaciones de que la computación vestible era el futuro
- Pero estar adicto a las pantallas y a los controles remotos no es algo humano
- La gente prefiere usar un control remoto
Las herramientas de IA de texto a CAD no entienden bien lo que quiere el usuario
- Un taller mecánico quiere dibujos, no un poema de 300 palabras
Quisiera que la relación con la computadora fuera como la telepatía
- Es peor que la computadora lo haga todo por ti
- Es más fácil enseñarles a los humanos a pensar como una computadora
- JavaScript resuelve el 80% de los problemas con el 20% de la funcionalidad
- ChatGPT/Bard/Gemini escriben JavaScript en su lugar
- Las interfaces móviles no son adecuadas para escribir