Por qué falla el contexto largo

(dbreunig.com)

3 puntos por GN⁺ 2025-07-06 | Aún no hay comentarios. | Compartir por WhatsApp

En los modelos de lenguaje grandes más recientes, la incorporación de ventanas de contexto largas con soporte de hasta 1 millón de tokens generó expectativas de una mejora drástica en el rendimiento de los agentes
En la práctica, el contexto largo no produce mejores respuestas y, por el contrario, provoca fallas del sistema debido a adicción al contexto, errores, confusión y conflictos
Los problemas más representativos son el envenenamiento del contexto (poisoning), la distracción del contexto (distraction), la confusión del contexto (confusion) y el choque del contexto (clash)
Estos problemas afectan aún más a los agentes, especialmente en flujos complejos con múltiples fuentes de información, conexión con herramientas y razonamiento de varias etapas
En un próximo artículo se abordarán soluciones prácticas y estrategias para evitarlos

La importancia de gestionar el contexto

Los modelos frontier grandes recientes ofrecen ventanas de contexto extensas con soporte de hasta 1 millón de tokens
Muchas personas esperan que no haya problema en meter todas las herramientas, documentos e instrucciones dentro de una ventana grande
Sin embargo, en la práctica la sobrecarga de contexto provoca distintos tipos de fallas y, en especial, se vuelve un problema crítico en aplicaciones orientadas a agentes

El envenenamiento del contexto es el fenómeno por el cual alucinaciones (hallucination) o errores entran al contexto y luego se consultan repetidamente
El reporte técnico de Gemini 2.5 de Deep Mind describe casos en los que, durante un juego, un estado incorrecto del juego permanecía en la sección de objetivos o de resumen, haciendo que el agente repitiera conductas equivocadas con estrategias sin sentido y objetivos imposibles
Este contexto contaminado puede nublar el juicio del agente de forma temporal o prolongada

La distracción del contexto ocurre cuando el contexto se vuelve tan largo que el modelo se concentra en exceso en el contexto por encima de lo aprendido durante el entrenamiento
Incluso con la ventana de más de 1M tokens de Gemini 2.5 Pro, en la práctica, cuando el contexto supera los 100,000 tokens, el modelo solo repite el historial previo y le cuesta elaborar planes creativos
Una investigación de Databricks confirmó que, en el caso de Llama 3.1 405b, la precisión ya cae bruscamente a partir de los 32,000 tokens
Esto sugiere que, en la práctica, ventanas extremadamente grandes solo son útiles para resumen (summarization) y búsqueda de hechos (retrieval)

Si se colocan demasiadas herramientas o definiciones dentro del contexto, el modelo genera respuestas de baja calidad, como llamadas a herramientas innecesarias o inadecuadas
Según el Function-Calling Leaderboard de Berkeley, cuanto más herramientas se ofrecen, más baja el desempeño de todos los modelos, y las llamadas innecesarias ocurren con frecuencia
En el paper del benchmark GeoEngine, el modelo Llama 3.1 8b falló cuando se le dieron 46 herramientas, pero tuvo éxito cuando solo recibió 19
La información incluida en el contexto es percibida por el modelo como información que debe considerar obligatoriamente, por lo que el ruido innecesario termina generando problemas

El choque del contexto es el estado en el que la información recopilada en varias etapas o las descripciones de herramientas contienen elementos mutuamente contradictorios o en conflicto
Investigaciones de Microsoft y Salesforce muestran que, en conversaciones de múltiples turnos, este fenómeno conduce a una caída promedio del 39% en el rendimiento
Esto se debe a una estructura en la que se forma una suposición incorrecta en la respuesta inicial y luego se sigue dependiendo demasiado de esa respuesta
El riesgo de conflicto aumenta al conectarse con herramientas externas como MCP

La llegada del contexto de un millón de tokens fue vista como una innovación, pero en la práctica aumentan nuevos tipos de errores como contaminación, distracción, confusión y conflicto
Estos problemas son especialmente críticos en sistemas de agentes donde se acumulan recolección múltiple de información, encadenamiento gradual de herramientas y largos historiales de conversación
Como soluciones, pueden proponerse varias estrategias como carga dinámica de herramientas y aislamiento del contexto, que se tratarán en detalle en un artículo posterior

Siguiente artículo: “Cómo arreglar tu contexto”