Por qué falla el contexto largo
(dbreunig.com)- En los modelos de lenguaje grandes más recientes, la incorporación de ventanas de contexto largas con soporte de hasta 1 millón de tokens generó expectativas de una mejora drástica en el rendimiento de los agentes
- En la práctica, el contexto largo no produce mejores respuestas y, por el contrario, provoca fallas del sistema debido a adicción al contexto, errores, confusión y conflictos
- Los problemas más representativos son el envenenamiento del contexto (poisoning), la distracción del contexto (distraction), la confusión del contexto (confusion) y el choque del contexto (clash)
- Estos problemas afectan aún más a los agentes, especialmente en flujos complejos con múltiples fuentes de información, conexión con herramientas y razonamiento de varias etapas
- En un próximo artículo se abordarán soluciones prácticas y estrategias para evitarlos
La importancia de gestionar el contexto
- Los modelos frontier grandes recientes ofrecen ventanas de contexto extensas con soporte de hasta 1 millón de tokens
- Muchas personas esperan que no haya problema en meter todas las herramientas, documentos e instrucciones dentro de una ventana grande
- Sin embargo, en la práctica la sobrecarga de contexto provoca distintos tipos de fallas y, en especial, se vuelve un problema crítico en aplicaciones orientadas a agentes
Envenenamiento del contexto (Context Poisoning)
- El envenenamiento del contexto es el fenómeno por el cual alucinaciones (hallucination) o errores entran al contexto y luego se consultan repetidamente
- El reporte técnico de Gemini 2.5 de Deep Mind describe casos en los que, durante un juego, un estado incorrecto del juego permanecía en la sección de objetivos o de resumen, haciendo que el agente repitiera conductas equivocadas con estrategias sin sentido y objetivos imposibles
- Este contexto contaminado puede nublar el juicio del agente de forma temporal o prolongada
Distracción del contexto (Context Distraction)
- La distracción del contexto ocurre cuando el contexto se vuelve tan largo que el modelo se concentra en exceso en el contexto por encima de lo aprendido durante el entrenamiento
- Incluso con la ventana de más de 1M tokens de Gemini 2.5 Pro, en la práctica, cuando el contexto supera los 100,000 tokens, el modelo solo repite el historial previo y le cuesta elaborar planes creativos
- Una investigación de Databricks confirmó que, en el caso de Llama 3.1 405b, la precisión ya cae bruscamente a partir de los 32,000 tokens
- Esto sugiere que, en la práctica, ventanas extremadamente grandes solo son útiles para resumen (summarization) y búsqueda de hechos (retrieval)
Confusión del contexto (Context Confusion)
- Si se colocan demasiadas herramientas o definiciones dentro del contexto, el modelo genera respuestas de baja calidad, como llamadas a herramientas innecesarias o inadecuadas
- Según el Function-Calling Leaderboard de Berkeley, cuanto más herramientas se ofrecen, más baja el desempeño de todos los modelos, y las llamadas innecesarias ocurren con frecuencia
- En el paper del benchmark GeoEngine, el modelo Llama 3.1 8b falló cuando se le dieron 46 herramientas, pero tuvo éxito cuando solo recibió 19
- La información incluida en el contexto es percibida por el modelo como información que debe considerar obligatoriamente, por lo que el ruido innecesario termina generando problemas
Choque del contexto (Context Clash)
- El choque del contexto es el estado en el que la información recopilada en varias etapas o las descripciones de herramientas contienen elementos mutuamente contradictorios o en conflicto
- Investigaciones de Microsoft y Salesforce muestran que, en conversaciones de múltiples turnos, este fenómeno conduce a una caída promedio del 39% en el rendimiento
- Esto se debe a una estructura en la que se forma una suposición incorrecta en la respuesta inicial y luego se sigue dependiendo demasiado de esa respuesta
- El riesgo de conflicto aumenta al conectarse con herramientas externas como MCP
Conclusión y perspectiva
- La llegada del contexto de un millón de tokens fue vista como una innovación, pero en la práctica aumentan nuevos tipos de errores como contaminación, distracción, confusión y conflicto
- Estos problemas son especialmente críticos en sistemas de agentes donde se acumulan recolección múltiple de información, encadenamiento gradual de herramientas y largos historiales de conversación
- Como soluciones, pueden proponerse varias estrategias como carga dinámica de herramientas y aislamiento del contexto, que se tratarán en detalle en un artículo posterior
Siguiente artículo: “Cómo arreglar tu contexto”
Aún no hay comentarios.