3 puntos por GN⁺ 2025-07-06 | Aún no hay comentarios. | Compartir por WhatsApp
  • En los modelos de lenguaje grandes más recientes, la incorporación de ventanas de contexto largas con soporte de hasta 1 millón de tokens generó expectativas de una mejora drástica en el rendimiento de los agentes
  • En la práctica, el contexto largo no produce mejores respuestas y, por el contrario, provoca fallas del sistema debido a adicción al contexto, errores, confusión y conflictos
  • Los problemas más representativos son el envenenamiento del contexto (poisoning), la distracción del contexto (distraction), la confusión del contexto (confusion) y el choque del contexto (clash)
  • Estos problemas afectan aún más a los agentes, especialmente en flujos complejos con múltiples fuentes de información, conexión con herramientas y razonamiento de varias etapas
  • En un próximo artículo se abordarán soluciones prácticas y estrategias para evitarlos

La importancia de gestionar el contexto

  • Los modelos frontier grandes recientes ofrecen ventanas de contexto extensas con soporte de hasta 1 millón de tokens
  • Muchas personas esperan que no haya problema en meter todas las herramientas, documentos e instrucciones dentro de una ventana grande
  • Sin embargo, en la práctica la sobrecarga de contexto provoca distintos tipos de fallas y, en especial, se vuelve un problema crítico en aplicaciones orientadas a agentes

Envenenamiento del contexto (Context Poisoning)

  • El envenenamiento del contexto es el fenómeno por el cual alucinaciones (hallucination) o errores entran al contexto y luego se consultan repetidamente
  • El reporte técnico de Gemini 2.5 de Deep Mind describe casos en los que, durante un juego, un estado incorrecto del juego permanecía en la sección de objetivos o de resumen, haciendo que el agente repitiera conductas equivocadas con estrategias sin sentido y objetivos imposibles
  • Este contexto contaminado puede nublar el juicio del agente de forma temporal o prolongada

Distracción del contexto (Context Distraction)

  • La distracción del contexto ocurre cuando el contexto se vuelve tan largo que el modelo se concentra en exceso en el contexto por encima de lo aprendido durante el entrenamiento
  • Incluso con la ventana de más de 1M tokens de Gemini 2.5 Pro, en la práctica, cuando el contexto supera los 100,000 tokens, el modelo solo repite el historial previo y le cuesta elaborar planes creativos
  • Una investigación de Databricks confirmó que, en el caso de Llama 3.1 405b, la precisión ya cae bruscamente a partir de los 32,000 tokens
  • Esto sugiere que, en la práctica, ventanas extremadamente grandes solo son útiles para resumen (summarization) y búsqueda de hechos (retrieval)

Confusión del contexto (Context Confusion)

  • Si se colocan demasiadas herramientas o definiciones dentro del contexto, el modelo genera respuestas de baja calidad, como llamadas a herramientas innecesarias o inadecuadas
  • Según el Function-Calling Leaderboard de Berkeley, cuanto más herramientas se ofrecen, más baja el desempeño de todos los modelos, y las llamadas innecesarias ocurren con frecuencia
  • En el paper del benchmark GeoEngine, el modelo Llama 3.1 8b falló cuando se le dieron 46 herramientas, pero tuvo éxito cuando solo recibió 19
  • La información incluida en el contexto es percibida por el modelo como información que debe considerar obligatoriamente, por lo que el ruido innecesario termina generando problemas

Choque del contexto (Context Clash)

  • El choque del contexto es el estado en el que la información recopilada en varias etapas o las descripciones de herramientas contienen elementos mutuamente contradictorios o en conflicto
  • Investigaciones de Microsoft y Salesforce muestran que, en conversaciones de múltiples turnos, este fenómeno conduce a una caída promedio del 39% en el rendimiento
  • Esto se debe a una estructura en la que se forma una suposición incorrecta en la respuesta inicial y luego se sigue dependiendo demasiado de esa respuesta
  • El riesgo de conflicto aumenta al conectarse con herramientas externas como MCP

Conclusión y perspectiva

  • La llegada del contexto de un millón de tokens fue vista como una innovación, pero en la práctica aumentan nuevos tipos de errores como contaminación, distracción, confusión y conflicto
  • Estos problemas son especialmente críticos en sistemas de agentes donde se acumulan recolección múltiple de información, encadenamiento gradual de herramientas y largos historiales de conversación
  • Como soluciones, pueden proponerse varias estrategias como carga dinámica de herramientas y aislamiento del contexto, que se tratarán en detalle en un artículo posterior

Siguiente artículo: “Cómo arreglar tu contexto

Aún no hay comentarios.

Aún no hay comentarios.