MemAware – un benchmark para medir si un agente de IA sabe "qué es lo que sabe"
(github.com/kevin-hs-sohn)Mientras construíamos un sistema de memoria para agentes de IA, encontramos una limitación común en los benchmarks existentes.
Los benchmarks de memoria actuales como LoCoMo, LongMemEval y MemoryAgentBench prueban todos lo mismo: "¿puede encontrar la respuesta en conversaciones pasadas?" Eso es una prueba de rendimiento de un motor de búsqueda, no una prueba de un sistema de memoria.
En los agentes reales con múltiples sesiones, lo difícil es recordar por cuenta propia contexto pasado que el usuario no mencionó.
Ejemplo
Easy — cuando se puede encontrar por búsqueda porque las palabras clave coinciden:
"Mi gato Luna sigue rascando el sofá nuevo. Recomiéndame métodos de entrenamiento."
→ Debe recordar que Luna es el gato del usuario
Medium — mismo dominio, pero con palabras clave distintas:
"¿A qué hora debería poner la alarma para llegar a tiempo a la reunión de las 8:30?"
→ Debe recordar el trayecto de ida de 45 minutos mencionado 6 semanas antes. Si buscas "alarma reunión", no aparece la conversación sobre el traslado
Hard — conexión entre dominios completamente distintos:
"Pedí mi certificado de notas de la universidad de la que me gradué en 2010, pero me dijeron que no hay registros con mi nombre actual."
→ Debe recordar que el usuario cambió su apellido de Johnson. "certificado de notas" y "cambio de nombre" no comparten ninguna palabra clave
Resultados
Baseline sobre 900 preguntas (300 por cada nivel de dificultad):
| Método | Easy | Medium | Hard | Total |
|---|---|---|---|---|
| Sin memoria | 1.0% | 0.7% | 0.7% | 0.8% |
| Búsqueda BM25 | 4.7% | 1.7% | 2.0% | 2.8% |
| BM25 + búsqueda vectorial | 6.0% | 3.7% | 0.7% | 3.4% |
Hallazgos clave:
- La búsqueda BM25 casi no ayuda. La mejora es mínima, de 0.8% → 2.8%, y consume 5 veces más tokens
- La búsqueda vectorial también da 0.7% en Hard — igual que no tener memoria. Con similitud semántica no se puede conectar "solicitud de certificado" → "cambio de nombre"
- La estrategia de "buscar siempre" solo desperdicia costo. Consume ~4.7K tokens por pregunta, pero la mayoría es ruido irrelevante
Las memorias actuales basadas en RAG (ChatGPT Memory, Mem0, MemGPT, etc.) siguen todas el patrón de "buscar cada vez", y estos datos muestran que eso tiene una limitación estructural cuando se trata de contexto implícito.
Está basado en los datos de sesión de LongMemEval (ICLR 2025, licencia MIT) y tiene una estructura de plugins para poder probar tu propio sistema de memoria.
Me interesa conocer opiniones sobre enfoques que puedan resolver la dificultad Hard.
Aún no hay comentarios.