Experimento de memoria en agentes de IA: el conocimiento resumido en realidad empeora el rendimiento
(blog.clawsouls.ai)Estos son los resultados de un experimento real sobre cómo dar memoria a un agente de IA.
Se probaron 4 configuraciones de memoria con el mismo agente de IA (Claude) y se le hicieron las mismas 20 preguntas sobre un proyecto de software real.
Resultados (sobre 5 puntos):
• Híbrida (experiencia + síntesis): 4.95
• Memoria experiencial (logs en bruto): 4.55
• Línea base (sin memoria): 3.30
• Memoria sintética (resumen organizado): 2.65
El hallazgo más sorprendente: la memoria sintética, cuidadosamente organizada, quedó por debajo de no tener memoria en absoluto.
Lo llamaron el "efecto de exceso de confianza" — el conocimiento resumido de forma limpia le da al agente una confianza infundada y reduce su capacidad de admitir que no sabe algo. En cambio, los registros experienciales en bruto preservan rastros de incertidumbre, lo que lleva al agente a razonar de manera más honesta.
Artículo (preprint): https://doi.org/10.5281/zenodo.18802214
Datos del experimento (públicos): https://github.com/clawsouls/experiential-memory-dataset
4 comentarios
Era algo que ya venía sintiendo empíricamente, pero la memoria sintética está incluso peor de lo desastrosa que imaginaba.
Es cierto. Yo también al principio esperaba que la memoria sintética fuera al menos mejor que la línea base, pero me sorprendieron los resultados.
Al analizarlo, vi que la clave era la "preservación de la incertidumbre". En los logs sin procesar quedan rastros como "probé esto, pero no funcionó" o "no sé cuál es la causa", así que el agente responde que no sabe lo que no sabe; en cambio, en el resumen todo ese contexto se borra y termina dando respuestas incorrectas con seguridad.
Entonces, ¿cambiaría algo si la memoria sintética se configurara para incluir el proceso, los fracasos y los éxitos de esas tareas?
Buena pregunta. De hecho, la condición "híbrida" de nuestro experimento iba exactamente en esa dirección: una configuración que proporcionaba un resumen organizado junto con registros de experiencia en bruto.
Como resultado, el híbrido obtuvo la puntuación más alta, con 4.95/5.0. Si solo se daba el resumen, era 2.65, pero al agregar registros del proceso como "falló" o "causa desconocida", más bien se compensaban las debilidades del resumen.
Así que la conclusión es que "el problema no es el resumen en sí, sino que debe incluir también el proceso y la incertidumbre".
Sin embargo, como N=1, se necesita investigación posterior para saber si esto puede usarse de forma general con distintos tipos de usuarios.