- Los modelos de lenguaje grandes (LLM) muestran una caída de rendimiento y una menor confiabilidad en conversaciones de múltiples turnos
- En comparación con un solo turno, se confirmó experimentalmente una caída promedio del 39% en escenarios multiturno
- Los factores principales son una pequeña disminución de aptitud y una fuerte caída de confiabilidad, es decir, falta de consistencia en los resultados
- Los LLM tienden a hacer suposiciones incorrectas desde etapas tempranas o a intentar llegar a la respuesta final demasiado pronto
- Como resultado, si un LLM se equivoca al inicio de la conversación, se observó que no logra recuperarse y pierde el rumbo
ABSTRACT
- Los modelos de lenguaje grandes (LLM), como interfaces conversacionales, tienen el potencial de ayudar a definir, explorar y corregir gradualmente los requisitos mediante conversaciones de múltiples turnos, incluso cuando el usuario no puede expresar completamente lo que necesita
- Sin embargo, aunque la mayoría de las evaluaciones de LLM se concentran solo en entornos de instrucción completamente especificada en un solo turno, el análisis de registros reales de conversación muestra con frecuencia el fenómeno de subespecificación (underspecification)
- En este estudio se comparó a gran escala el rendimiento de los LLM mediante simulaciones en entornos de un solo turno y multiturno (subespecificado)
- Como resultado, en los 15 LLM principales se observó una caída promedio del 39% en conversaciones multiturno, explicada por una ligera reducción de aptitud y una drástica caída de confiabilidad
- Se detectó que, si un LLM toma una ruta equivocada al principio de la conversación, después no logra recuperarse, pierde la dirección y vaga sin rumbo
Introduction
- Los LLM más recientes (por ejemplo, ChatGPT, Gemini, Claude, etc.) ofrecen interfaces capaces de mantener conversaciones de múltiples turnos
- Aunque el usuario no describa claramente todos los requisitos desde el principio, estos pueden concretarse gradualmente mediante un intercambio iterativo de preguntas y respuestas (subespecificado → refinado)
- En la práctica, muchos usuarios presentan requisitos ambiguos al inicio de la conversación, pero la mayoría de las evaluaciones se realiza solo en entornos de especificación completa en un solo turno
- Algunos trabajos previos intentan evaluar interacciones multiturno, pero a menudo tratan cada turno como un episodio independiente, por lo que subestiman el impacto de la ambigüedad frecuente en conversaciones humanas reales
- Para cerrar esta brecha, este estudio propone un entorno de sharded simulation (dividir la información en varias piezas y revelar solo una por turno) para simular con precisión situaciones de instrucciones ambiguas y conversaciones multiturno
Resumen de los principales hallazgos
- Cuando el LLM recibe toda la instrucción de una sola vez en un solo turno, mostró un 90% de rendimiento, pero en instrucciones ambiguas multiturno cayó a 65% (una disminución promedio de 25 puntos)
- Este fenómeno aparece después de apenas dos turnos de conversación y se observó de forma consistente en todos los LLM: abiertos, cerrados, grandes y pequeños
- El análisis de las causas de la caída de rendimiento apunta a (1) pérdida de aptitud (aptitude loss) y (2) un fuerte aumento de la falta de confiabilidad (unreliability)
- En un solo turno, los modelos con mayor aptitud también mostraban mayor confiabilidad, pero en multiturno la confiabilidad es baja independientemente de la aptitud
- Es decir, si un LLM toma una dirección equivocada durante una conversación multiturno, no puede recuperarse; a esto lo denominan fenómeno de “lost in conversation”
- Causas principales
- Respuestas demasiado largas e intentos prematuros de dar la respuesta final
- Suposiciones incorrectas ante información ambigua
- Dependencia excesiva de intentos previos equivocados
- Existe una gran brecha entre el uso real de los LLM y la forma en que se evalúan los modelos
- Cuanto más principiante es el usuario, más probable es que dé instrucciones incompletas al inicio, por lo que este fenómeno se vuelve uno de los principales obstáculos para la aplicación práctica
- El artículo presenta: resumen de investigaciones previas, descripción del entorno de simulación, 6 tareas generativas y sus métricas de evaluación, experimentos a gran escala con 15 LLM, y además implicaciones prácticas y recomendaciones concretas para productos y uso profesional
Background and Related Work
- Los modelos de lenguaje de generaciones anteriores (por ejemplo, BART, GPT-2, T5) en la práctica no podían responder a conversaciones multiturno, por lo que se evaluaban principalmente en un solo turno
- Tras la aparición de ChatGPT, creció el interés por la evaluación multiturno, y se realizaron evaluaciones crowdsourced como MT-bench
- Sin embargo, la mayoría de los marcos de evaluación sigue limitada a conversaciones episódicas (evaluación individual de cada turno), sin considerar la continuidad de las conversaciones ambiguas reales
- En el mundo real, siguiendo el “principio del mínimo esfuerzo”, es común que las personas den instrucciones ambiguas (a.k.a. subespecificación), y los LLM también sufren una caída de rendimiento por conclusiones prematuras ante falta de información y escasa adaptación
- Este estudio se plantea con el objetivo de evaluar escenarios más cercanos al entorno real, donde la ambigüedad es un factor central
Simulating Underspecified, Multi-Turn Conversation
3.1 Sharding Process
- La instrucción originalmente completamente especificada se divide en varios shards (fragmentos de información)
- Ejemplo: en lugar de incluir todas las condiciones en una sola oración, se revela solo una pieza de información por turno (contexto, cifras, condiciones, etc.)
- El primer shard siempre explica el objetivo general de la instrucción, y los shards posteriores van entregando gradualmente información adicional (contexto, condiciones, etc.) en cada turno
- Este proceso de sharding se construyó con alta calidad mediante propuesta+verificación con un LLM (GPT-4o) y complementación manual
- Para cada tarea se elaboraron entre 90 y 120 instrucciones fragmentadas (sharded instructions), revisadas manualmente durante varias horas
3.2 Simulating Sharded Conversations
- La simulación de conversación usa tres roles: el LLM evaluado (assistant), un simulador de usuario que conoce todos los shards, y un sistema de clasificación y puntuación de respuestas
- Primer turno: el simulador de usuario entrega solo el primer shard al assistant → el assistant responde → se clasifica su estrategia (aclaración, pregunta, intento de respuesta, etc.) y se extrae la respuesta → se evalúa esa respuesta
- Siguientes turnos: se revela solo uno de los shards restantes y se repite el proceso / en cada turno el assistant puede responder libremente
- Fin de la conversación: (1) cuando el evaluador determina que la respuesta es correcta, o (2) cuando ya no quedan shards por revelar
- El simulador de usuario se implementó con un LLM (GPT-4o-mini), con capacidad de entregar shards de forma natural y hacer rephrase automático
- En todo el experimento, los errores de clasificación o extracción de los LLM auxiliares fueron menores al 5%, y los casos desfavorables para el assistant fueron menos del 2%
- El assistant fue evaluado en estado predeterminado, sin información especial sobre el entorno (de forma similar a un escenario real, donde no se le da contexto adicional sobre la simulación)
3.3 Simulation Types
- FULLY-SPECIFIED (FULL): se entrega la instrucción completa en un solo turno; se usa como línea base de rendimiento
- SHARDED: se revela solo un fragmento de información por turno; es el experimento central del estudio sobre conversaciones multiturno ambiguas
- CONCAT: se entrega de una sola vez toda la instrucción fragmentada en formato de viñetas; sirve para evaluar solo la pérdida de información de la instrucción
- RECAP: después de la conversación fragmentada, al final se resumen o se vuelven a entregar todos los shards; una forma simple de intervención tipo agente
- SNOWBALL: en cada turno se agrega un nuevo shard y además se repiten todos los shards ya revelados, para que el assistant no pierda información; es un experimento de refuerzo de memoria
Task and Metric Selection
4.1 Task Selection
- Total de 6 tareas: programación (Code), bases de datos (generación de SQL), llamadas a funciones de API (Actions), matemáticas (Math), tabla→texto (Data-to-Text), y resumen tipo preguntas y respuestas (Summary)
- Ejemplos: escribir una función en Python, convertir una consulta en lenguaje natural a SQL, etc.
- Para cada tarea se seleccionaron entre 90 y 120 instrucciones de benchmarks de alta calidad, y después del sharding se validaron manualmente
- Las seis tareas representan tanto escenarios de programación como de no programación, e incluyen distintos casos como Summary, que requiere contexto largo
4.2 Metric Selection
- Métricas de evaluación
- Rendimiento promedio (P): puntuación media obtenida en varias simulaciones (0~100)
- Aptitud (A90): valor del 10% superior de los resultados de simulación (percentil 90, mejor caso)
- Confiabilidad (U90_10): diferencia entre el 90% superior y el 10% inferior de las puntuaciones (mide consistencia/variabilidad de resultados)
- Ejemplo: en un box-plot, la parte superior representa la aptitud y el rango entre arriba y abajo representa la confiabilidad
- Las seis tareas agregan puntajes con métricas consistentes (correctitud, similitud, BLEU, etc.)
- Los métodos detallados, el código, los ejemplos, el muestreo y todos los parámetros experimentales también se incluyen en el apéndice/Appendix
Simulation Scale and Parameters
- Se construyeron un total de 600 instrucciones para 6 tareas, y se realizaron experimentos en los escenarios FULL/CONCAT/SHARDED
- Para 15 LLM (GPT-4, Claude, Gemini, etc.), se corrieron 10 simulaciones por cada combinación, generando más de 200 mil datos experimentales
- Todos los experimentos se realizaron con temperature 1 (muestreo), y en experimentos adicionales (7.2) también se analizó el efecto de temperature
- Con este enorme conjunto de datos de simulación fue posible identificar las principales causas y patrones de la caída de rendimiento y del comportamiento de los LLM en conversaciones multiturno subespecificadas
Lost in Conversation Experiment
- A continuación, el texto explica en detalle la configuración experimental, los resultados por modelo, el análisis de las causas de la caída de rendimiento, los intentos de mitigación (RECAP/SNOWBALL), y las implicaciones prácticas junto con recomendaciones concretas
1 comentarios
Opiniones en Hacker News
Me alegra ver un paper que confirma algo que cualquiera que haya usado herramientas LLM de verdad ya sabe por experiencia. El concepto de “conversación” fue creado por la interfaz del producto. Mantener limpio el contexto es importante. Cuando el contexto se contamina, no se recupera, así que hay que reiniciar con una conversación nueva
temperature). Si borras otros mensajes, se debería actualizar el contexto para que se refleje en las respuestas posteriores. Eso también podría corregir la ilusión de que el LLM es inteligente. No sé si esto ya es estándar o simplemente no me he acostumbrado. Si no lo es, dejo la idea en dominio público. Por otro lado, también sería práctico tener un “subcontexto LLM” que gestione el contexto principal. O sea, cuando la respuesta es demasiado larga o extensa, un LLM secundario la resume/ordena y así afina el contexto de toda la conversación. O más simple todavía, un botón de “editar mensaje” para que una persona lo organice directamenteEsto viene de tendencias bien conocidas en los LLM: exceso de confianza, falta de autorreflexión e incapacidad de reconocer cuándo deberían pedir más información. Al ver los resultados de modelos de razonamiento, en situaciones confusas el LLM no pide aclaraciones adicionales y solo sigue adivinando qué quiso decir el usuario. Esto muestra los límites prácticos de la idea de reemplazar a los programadores humanos. La parte realmente difícil es la “interacción con stakeholders” para convertir requisitos ambiguos en algo claro
Me gusta mucho la técnica de hacer que el LLM resuma lo discutido hasta el momento en formato de prompt conciso, luego corregirlo/editarlo yo mismo y empezar una conversación nueva. Me ha funcionado bastante bien, y creo que pronto se automatizará
/compact, que resume la conversación para reducir el uso de tokensYo mismo ideé TSCE (Two-Step Contextual Enrichment). Al usarlo en 300 tareas con GPT-35-turbo, el rendimiento mejoró +30pp. Está disponible libremente como framework abierto. También hice 300 experimentos adicionales con gpt-4.1. El baseline falló 149/300 veces al eliminar em-dash, mientras que TSCE falló 18/300 veces. También publiqué todos los datos y scripts
text.replace("—", "-")He resuelto problemas usando dos sistemas (LMM + curator automático). Uno es el propio LLM, el otro es un “curador del pensamiento” que reemplaza y administra dinámicamente partes del contexto. No se basa en reglas claras, sino en la capacidad del LLM para completar huecos. Ayuda a dividir el problema en partes pequeñas para resolverlo, y luego esos resultados se juntan para alcanzar el objetivo final
Me sorprende que el branching/forking no sea algo básico en las herramientas principales de chat. Sí se pueden editar respuestas, pero en ese caso se pierde mucho del otro contexto. Mi flujo de trabajo es 1. planear 2. construir 3. ramificar 4. iterar. Creo que podar/ramificar prompts debería ser una herramienta clave para usar LLM
Cuando las interfaces de LLM se diseñan alrededor de conversaciones de un solo hilo, aparecen problemas. La mayoría de los usuarios espera conversaciones lineales. Por eso hice el bot de Telegram experai_bot como UI universal para LLM y usé el enfoque de “si no es respuesta, es conversación nueva”. Para conservar el contexto, necesariamente hay que continuar con una estructura en árbol de respuestas. A los no expertos les cuesta entender este enfoque. Además, en los modelos de OpenAI (según 3.5 y 4o), mientras más se repite la misma pregunta, más se acortan los espacios o las opciones y más inexactos se vuelven los resultados. Si se minimiza el mensaje de sistema, los resultados se mantienen relativamente mejor. Si hace falta, se puede agregar un mensaje de sistema mediante una opción
La razón principal por la que hice promptdown fue permitir editar por completo todo el historial del chat en cada turno. La estructura estándar de “append-only” dificulta este tipo de cosas
Da la sensación de que, en el estado actual del mundo LLM, todo el mundo está resolviendo los mismos problemas una y otra vez
Los LLM de verdad se sienten como un genio en una botella. Te responden tres preguntas, pero después de eso empiezan a decir puras tonterías