Agentes de IA: se necesita más "confiabilidad" que "más capacidades"

¿Por qué la reserva de vuelos se convirtió en el "Hello World" de las demos de agentes de IA?
- Los usuarios prefieren una UX ya terminada (por ejemplo, Google Flights) antes que una IA que les reserve un vuelo
- Un solo error puede desatar un complejo infierno de servicio al cliente
- Un sistema intuitivo y predecible puede ser, de hecho, más innovador
La IA todavía está en una etapa temprana, y los usuarios comunes esperan consistencia y previsibilidad
- Ejemplo: incluso con 80% de precisión, si entrega resultados consistentes, puede ser aceptable
  En cambio, una precisión irregular del 90% destruye la confianza
- Muchos proyectos de IA pasan esto por alto y persiguen demos llamativas y funciones forzadas → al final pierden la confianza
Cada vez más IDE están perdiendo transparencia
- El usuario no puede saber qué está haciendo la IA
- Ejemplo: el caso viral en Reddit de Cursor borrando todo el trabajo
  - También hubo un problema de falta de experiencia del usuario con el control de versiones, pero la causa real fue el diseño de UI/UX
  - Un buen diseño debe prevenir errores, explicar claramente el comportamiento de la IA y ofrecer una función de deshacer
En sus inicios, Cursor:
- Ofrecía una interacción transparente y ligera con una interfaz de autocompletado con Tab
- Ganó popularidad construyendo la confianza del usuario gradualmente
- Un diseño simple y reversible fue eficaz para reducir la desconfianza hacia la IA
Devin, que recibió una inversión de $200 millones, apunta a ser un "agente totalmente autónomo"
- Sistemas complejos, respuestas lentas y resultados impredecibles provocaron un colapso de la confianza
- Un enfoque demasiado ambicioso terminó generando más confusión para el usuario

Rapidez vs. confiabilidad: el dilema de los equipos de desarrollo de IA

Los equipos de desarrollo de IA deben elegir entre lo siguiente:
- Moverse rápido y aceptar errores
- Priorizar la confiabilidad y la estabilidad
La respuesta es enfocarse en funciones que puedan ofrecer resultados sobresalientes en un alcance pequeño y mejorarlas de forma iterativa y constante

Principio clave: previsibilidad por encima de la complejidad

Hay que enfocarse en tareas bien entendidas, en lugar de sistemas complejos
Los agentes de IA siguen siendo transformadores, pero estas tres cosas deben estar al centro:
- Confiabilidad
- Transparencia
- Previsibilidad

Workflow vs. agente

El enfoque de Anthropic: "Si una tarea puede expresarse como un workflow, construye un workflow y no un agente"
- Un workflow es predecible, controlable y simple
- Como los agentes son complejos y difíciles de controlar, solo deberían usarse en situaciones realmente dinámicas

1 comentarios

GN⁺ 2025-04-01

Opinión en Hacker News

El agente de "reservar vuelos" ya se volvió material de chiste. Incluso se mencionó en la keynote de un evento reciente de AI engineering de Swyx
- Creo que este artículo subestima la dificultad del problema
- En una UI donde humanos ingresan datos o conversan, existe una posibilidad infinita de errores
- A los humanos se les da mal expresarse con claridad, y también es difícil entender con precisión las capacidades del software
Investigadores de Google DeepMind están trabajando en investigación para aumentar la confiabilidad de los agentes
- Es importante una evaluación rigurosa que represente el comportamiento de los usuarios
- Publicaron una demo de razonamiento avanzado del agente sobre 80,000 páginas de los archivos del asesinato de JFK
- Incluso con una pequeña cantidad de archivos, la diferencia de confiabilidad/precisión frente a grandes actores de IA es grande
Reservar vuelos es una tarea que no se le puede dejar a la IA
- En viajes familiares o personales se necesitan muchos trucos y consideraciones
- Hay varios factores: sitios oficiales, comparación de precios, verificación de fechas, consideración de puntos de tarjeta de crédito, etc.
En muchos casos la gente tiende a intentar encajar la IA en workflows existentes
- Los workflows existentes ya tienen UX/UI optimizadas
- Usar IA puede no ser la solución para resolver el problema
A partir de mi experiencia usando Cursor, llegué a la conclusión de que la confiabilidad es importante
- La salida de los modelos rápidos requiere más correcciones
- Es importante usar de forma explícita ciertas librerías
Creo que en los avances tecnológicos de los últimos 20 años la confiabilidad ha sido más importante
- Solo se necesitaban algunas funciones nuevas, como smartphones, rutas de manejo y almacenamiento en la nube
- Ahora importan más la duración de la batería y los controles parentales en los dispositivos de los hijos
Un comentario en un hilo de Reddit sobre el estado actual de la programación con IA resume cómo me siento
- Los nuevos ingenieros que entran a programación por la IA se están saltando elementos básicos esenciales
- Pero aun así me tranquiliza saber que todavía tengo mi lugar
Tengo el principio de que, cuando la IA escribe código, al menos debo poder entender ese código
- No puedo seguir la forma de trabajar de los "vibe coders" que no entienden el código que escribió la IA
Creo que el workflow es más importante que los agentes
- Cuando los agentes estén listos para ejecutar tareas con alta precisión, entonces se podrá usar el workflow
- Buscaré cómo crear workflows efectivos, precisos y fáciles de diagnosticar
Google Flights ya ofrece una UX perfecta
- Creo que al usar agentes de IA, la búsqueda web es más confiable y rápida
- No estoy convencido de que la IA vaya a volverse útil, y me pregunto si las pruebas realmente se hicieron bien

Agentes de IA: se necesita más "confiabilidad" que "más capacidades"

Rapidez vs. confiabilidad: el dilema de los equipos de desarrollo de IA

Principio clave: previsibilidad por encima de la complejidad

Workflow vs. agente

Lecturas relacionadas

1 comentarios

Opinión en Hacker News