Por qué los agentes de IA siguen fallando: el problema no es el modelo, sino el diseño del "mundo"
(dev.to)Cuando uno intenta construir agentes de IA basados en LLM en la práctica,
siempre termina chocando con una pared muy parecida en algún momento.
- Claramente el modelo se ha vuelto más inteligente, pero
- la ejecución sigue siendo inestable
- no se puede explicar por qué actuó de esa manera
- y aun con la misma entrada, los resultados cambian
Así que normalmente se llega a esta conclusión.
“Todavía al modelo le falta capacidad. Probemos con un modelo más grande.”
Pero lo que realmente sentí tras pasar por varios intentos y errores fue que el núcleo del problema no era la inteligencia del modelo, sino que
no estaba diseñado el ‘mundo’ en el que opera el agente.
La esencia del problema: el mundo existe solo en la cabeza del modelo
En muchas arquitecturas de agentes,
el estado, las reglas y las posibilidades de acción
están todos metidos implícitamente dentro del razonamiento del modelo.
Es decir,
- qué es posible
- por qué falló cierta acción
- cuándo cambió el estado
para todo eso se espera que el modelo lo “recuerde y lo razone”.
Con esta estructura,
por más que el modelo mejore,
es difícil asegurar depuración, reproducibilidad y explicabilidad.
Cambio de enfoque: arquitectura centrada en el mundo
Por eso, en este texto propongo darle la vuelta al enfoque y diseñar agentes no desde una perspectiva
centrada en el modelo (Intelligence-Centric), sino
centrada en el mundo (World-Centric).
La idea central es simple.
- El mundo debe existir explícitamente fuera del modelo
- el estado debe fijarse como un Snapshot
- los cambios de estado deben ocurrir solo por una única vía llamada Patch/Apply
- y “¿esta acción es posible?” debe calcularse de forma estructural
Y el principio más importante se resume en esta frase.
La inteligencia no debe ejecutar, solo proponer
El modelo puede proponer “qué le gustaría intentar”,
pero no tiene autoridad para cambiar realmente el estado.
¿Por qué importa esto?
Con esta estructura pasan cosas interesantes.
- Las acciones imposibles ni siquiera llegan a la etapa de ejecución
- los fallos no se explican como “el modelo es tonto”, sino por razones estructurales
- incluso si la selección de acciones es aleatoria, el sistema no se rompe
Porque
la corrección (correctness) no la garantiza el razonamiento del modelo, sino las reglas del mundo y el modelo de estado.
Creo que este enfoque está más cerca de un
“sistema operable en producción”
que de una demo de investigación.
Lo que este texto no es
- Un tutorial de un nuevo framework de agentes ❌
- un artículo comparando rendimiento de modelos ❌
- una discusión sobre prompt engineering ❌
Más bien,
“¿Por qué estamos construyendo agentes de IA de una forma tan inestable?”
Esa era la pregunta que quería plantear.
También me interesa cómo se vería este enfoque desde la perspectiva de las máquinas de estados tradicionales, los motores de workflow, los DSL o incluso PL.
También son bienvenidas opiniones o críticas desde la perspectiva de:
“¿En qué termina reduciéndose todo esto, al final?”
Aún no hay comentarios.