El impacto negativo del Chain-of-thought en tareas donde pensar empeora el desempeño humano

(arxiv.org)

1 puntos por GN⁺ 2024-11-01 | 1 comentarios | Compartir por WhatsApp

Chain-of-thought (CoT) se usa como si fuera una estrategia base para mejorar el rendimiento de los LLM y LMM, pero al trasladar a la evaluación de modelos seis tipos de tareas de psicología donde los humanos se equivocan por el razonamiento verbal, el desempeño cayó con fuerza en algunas de ellas
La caída fue especialmente marcada en aprendizaje estadístico implícito, reconocimiento de rostros difícil de verbalizar y aprendizaje de reglas con excepciones; en gramática artificial, OpenAI o1-preview tuvo una precisión absoluta hasta 36.3% menor que GPT-4o zero-shot
En reconocimiento facial, los 6 LMM evaluados rindieron peor bajo condición CoT, y en clasificación de vehículos con excepciones GPT-4o necesitó 331% más iteraciones para aprender las etiquetas correctas frente a direct prompting
En juicio de inconsistencia lógica, intuición espacial y agregación de preferencias multidimensionales, CoT no fue consistentemente perjudicial, y conocimiento previo de lógica, contexto largo y experiencias sensoriomotoras distintas a las humanas explicaron parte de las diferencias
Los casos de sobrepensamiento humano sirvieron como pista para encontrar tareas donde CoT falla de forma más eficiente que al azar, pero decidir si usar CoT o no requiere considerar tanto la capacidad del modelo como la estructura de la tarea

Riesgos de cuando CoT se vuelve la opción por defecto

Chain-of-thought (CoT) es una técnica de prompting que le indica al modelo “piensa paso a paso” o hace que incluya una estructura de razonamiento intermedio en la respuesta
En grandes metaestudios, CoT mejoró el rendimiento sobre todo en tareas de matemáticas y razonamiento simbólico, pero también se observaron caídas en áreas como clasificación de texto
En los modelos OpenAI o-series y en LLM/LMM recientes como la interfaz web de Claude y los modelos thinking, la inferencia en tiempo de razonamiento se está volviendo un componente base
Lo que aún falta es un patrón fino sobre en qué situaciones CoT reduce el rendimiento de manera sistemática
Este estudio toma como pista tareas de psicología donde “pensar” resulta perjudicial para los humanos y busca tareas donde CoT también se vuelve dañino en modelos

Seis tipos de evaluación tomados de la psicología humana

Se organizaron seis prototipos representativos de tareas donde el pensamiento verbal humano reduce el rendimiento, y cada uno se extendió a evaluación de LLM y LMM
Los 3 tipos donde la caída de rendimiento con CoT fue clara:
- Aprendizaje estadístico implícito: clasificar si cadenas generadas con gramática artificial pertenecen al mismo patrón
- Estímulos difíciles de expresar con lenguaje: reconocimiento facial donde, tras ver un rostro, hay que encontrar a la misma persona entre imágenes candidatas
- Aprendizaje de reglas con excepciones: aprender mediante retroalimentación repetida etiquetas mezcladas entre una regla general casi correcta y excepciones
Los 3 tipos donde la caída con CoT no fue consistente:
- Tareas de inferencia en lenguaje natural para juzgar oraciones lógicamente inconsistentes
- Tareas de intuición espacial para estimar el nivel del agua al inclinar una taza
- Tareas de agregación de preferencias para elegir la mejor opción entre apartamentos con muchas características
Los 6 datasets extendidos se publicaron como human overthinking benchmark

Las tres tareas donde CoT se desestabilizó con fuerza

Aprendizaje estadístico implícito: clasificación de gramática artificial
- Las “palabras” artificiales se generaron con finite-state grammar (FSG), y tras ver 15 ejemplos de entrenamiento el modelo debía clasificar si una nueva cadena provenía de la misma gramática
- Se construyeron 4,400 problemas de clasificación a partir de 100 FSG; en cada FSG, 22 de 44 palabras pertenecían a la gramática y las otras 22 se generaron cambiando una letra de palabras existentes
- Los modelos evaluados fueron OpenAI o1-preview, GPT-4o, Claude 3.5 Sonnet, Claude 3 Opus, Gemini 1.5 Pro y Llama 3·3.1 70B/8B Instruct
- CoT redujo la precisión en la mayoría de los modelos
  - o1-preview tuvo en un subconjunto de 440 problemas una precisión absoluta 36.3% menor que GPT-4o zero-shot
  - GPT-4o cayó de 87.50% zero-shot a 64.40% con CoT, una baja de 23.10 pp
  - Claude 3 Opus bajó de 70.70% a 62.70%, 8.00 pp menos
  - Gemini 1.5 Pro cayó de 68.00% a 61.95%, 6.05 pp menos
  - Llama 3.1 70B Instruct bajó de 65.90% a 57.10%, 8.80 pp menos
  - tree-of-thought e in-context reasoning steering mejoraron algo el rendimiento, pero no cerraron de forma significativa la brecha frente al rendimiento zero-shot de GPT-4o
Reconocimiento facial: estímulos visuales difíciles de verbalizar
- Una tarea clásica de verbal overshadowing se adaptó para LMM: elegir entre 5 imágenes candidatas a la misma persona de una imagen facial inicial
- El dataset consistió en 500 problemas y 2,500 rostros únicos; los rostros candidatos de cada problema compartían la misma descripción de raza, género, rango de edad, color de ojos, largo de cabello, color de cabello y tipo de cabello
- Las imágenes se generaron con stable-image-ultra, y se usó como candidatos un par de imágenes de la misma persona y 4 imágenes de personas distintas con la misma descripción
- Los 6 LMM evaluados empeoraron con CoT
- GPT-4o: 64.00% → 51.20%
- Claude 3 Opus: 44.00% → 29.60%
- Claude 3.5 Sonnet: 97.80% → 94.80%
- Gemini 1.5 Pro: 66.00% → 54.60%
- InternVL2 26B: 9.20% → 6.00%
- InternVL2 Llama3 76B: 15.77% → 13.77%
- También aparecieron caídas similares en configuraciones de menor dificultad y en clasificación binaria, lo que sugiere que CoT no solo interfirió con el orden de las imágenes sino con el proceso de razonamiento mismo
Aprendizaje de reglas con excepciones: clasificación de etiquetas de vehículos
- En esta tarea de clasificación de vehículos, el modelo debía asignar etiquetas binarias a una lista de vehículos, recibir retroalimentación después de cada predicción y repetir hasta acertar todas las etiquetas al mismo tiempo
- Cada vehículo incluía 1 característica correlacionada al 80% con la etiqueta, 3 características no relacionadas con la etiqueta y 1 característica que identificaba individualmente al vehículo
- Si el modelo aprendía la regla general casi correcta, fallaba en las excepciones; si aprendía la correspondencia entre la característica identificadora y la etiqueta, podía resolver todo el conjunto
- Se dividieron 2,400 vehículos en 240 listas de 10 y se evaluó hasta 15 iteraciones máximas
- CoT aumentó fuertemente el número de iteraciones necesarias para aprender las etiquetas en todos los modelos evaluados
- GPT-4o: direct 2.9 → CoT 12.5, aumento de 331%
- Claude 3.5 Sonnet: 2.3 → 6.4, aumento de 178%
- Claude 3 Opus: 2.4 → 5.5, aumento de 129%
- GPT-4o con direct prompting llegaba a clasificación completa en la segunda o tercera iteración, pero con CoT en promedio seguía en un nivel de 8 aciertos de 10 incluso después de 15 iteraciones
- Si se usaba un steering prompt fuerte indicando explícitamente que emparejara las placas, CoT también alcanzaba el nivel zero-shot, pero el CoT base no lograba elegir el espacio de razonamiento óptimo

Las tres tareas que mostraron diferencias entre humanos y modelos

Juicio de inconsistencia lógica
- En experimentos con humanos, pedir primero que explicaran por qué un par de oraciones inconsistentes podía coexistir reducía el rendimiento al juzgar si realmente había inconsistencia
- La evaluación en modelos se amplió a 3,216 problemas usando pares de entailment de SNLI, MNLI y datasets sintéticos
- GPT-4o y Llama 3.1 70B Instruct mejoraron mucho con CoT
- GPT-4o: MNLI 53.2% → 93.9%, SNLI 51.4% → 94.3%
- Llama 3.1 70B Instruct: MNLI 55.6% → 81.6%, SNLI 50.4% → 82.3%
- Los participantes humanos originales fueron reclutados sin especialización en lógica formal, pero los LLM pudieron haber visto conocimiento sobre acertijos lógicos y manipulación lógica en sus corpus de entrenamiento, por lo que CoT pudo aumentar el rendimiento en combinación con tokens extra
- En modelos con alto rendimiento zero-shot como Gemini 1.5 Pro y Claude 3 Opus apareció algo de caída con CoT
Intuición espacial
- La tarea de inclinar tazas consistía en elegir el nivel de agua de una taza vacía para que, al inclinar ambas tazas con el mismo ángulo, el agua tocara los bordes en ambos lados
- La tarea humana original pedía dibujar directamente el nivel del agua, pero la evaluación en LMM se transformó en preguntas visuales de opción múltiple con marcas A~D
- Se generaron 100 problemas junto con imágenes dibujadas por código, y se evaluaron GPT-4o, Claude 3.5 Sonnet, Claude 3 Opus, Gemini 1.5 Pro e InternVL2 Llama3 76B
- No se observó una diferencia significativa entre zero-shot y CoT
- GPT-4o: 38% → 40%
- Claude 3.5 Sonnet: 42% → 38%
- Claude 3 Opus: 42% → 38%
- Gemini 1.5 Pro: 35% → 36%
- InternVL2 Llama3 76B: 39% → 31%
- La ventaja humana en condiciones no verbales proviene de simulación visual y motora, pero en esta configuración no es razonable asumir que los LMM tengan representaciones basadas en experiencia motora como las humanas
Agregación de preferencias multidimensionales
- La tarea de elegir apartamento consistía en ver muchas características de 4 apartamentos y elegir el mejor
- En experimentos humanos, dar mucha información en poco tiempo y luego pedir reflexión produjo peores elecciones que una condición con distractor task
- La evaluación en modelos creó 80 características de apartamentos y oraciones positivas, negativas o neutrales para cada característica; luego GPT-4o evaluó el impacto de cada oración de -5 a 5 y con eso se construyeron 300 tareas de elección
- En GPT-4o, Claude 3.5 Sonnet y Claude 3 Opus, CoT tendió a mejorar el rendimiento; en Llama 3.1 70B Instruct el rendimiento fue bajo porque en condición CoT muchas veces no devolvía correctamente la respuesta
- A diferencia de la memoria de trabajo humana, los modelos pueden referenciar muchas oraciones dentro del contexto, por lo que CoT puede funcionar sumando la importancia de las características

Validación de la heurística y limitaciones

Para comprobar si las tareas elegidas a partir de casos de sobrepensamiento humano encontraban mejor fallas de CoT en la práctica, se usaron como base bootstrap 378 comparaciones zero-shot vs CoT de Sprague et al. 2025
Al extraer y comparar 50 diferencias numéricas por modelo de las 6 tareas, no hubo ni una sola muestra entre 100,000 remuestreos con una caída media de rendimiento mayor que la observada en el estudio
Incluso considerando solo la frecuencia de caídas de rendimiento, solo 11 de 100,000 muestras cayeron al mismo nivel o más, lo que dio un valor p estimado menor a 0.00011
La heurística basada en psicología humana ayuda a encontrar mejor casos donde CoT falla, tanto en tamaño del efecto como en frecuencia
Aun así, esta heurística no cubre todos los casos donde CoT es malo y puede pasar por alto fallas importantes para modelos aunque no sean interesantes en humanos

Implicaciones para despliegue y evaluación de CoT

CoT es una forma efectiva de ampliar las capacidades del modelo, pero en ciertas configuraciones puede reducir fuertemente el rendimiento, por lo que su aplicación por defecto debe revisarse según la tarea
En tareas donde el lenguaje no expresa bien diferencias perceptuales finas, en tareas que requieren captar patrones estadísticos complejos de forma implícita y en aprendizaje de reglas con muchas excepciones, el razonamiento intermedio verbal puede ser una interferencia
No se puede equiparar directamente el resultado de humanos y modelos, y sacar conclusiones antropomórficas sobre los modelos no forma parte del alcance de este estudio
Las diferencias entre humanos y modelos también deben reflejarse en la evaluación
- Los modelos pueden usar contextos más largos que los humanos
- Los modelos pueden haber visto patrones lógicos y resolución de problemas en sus corpus de entrenamiento
- Los modelos pueden no compartir la simulación basada en experiencia motora de los humanos
En el futuro, otras formas de inducir razonamiento como prompting comparativo o analógico también podrían evaluarse considerando a la vez los resultados de la psicología humana y las limitaciones de los modelos

1 comentarios

GN⁺ 2024-11-01

Opiniones en Hacker News

Se parece de forma escalofriante a los problemas que enfrentamos en Pioneer al crear flujos de trabajo humano+LLM para situaciones de alto riesgo y alta complejidad.
Los humanos son inteligentes, hacen muchos juicios y cálculos de forma inconsciente/implícita, y también usan muchos atajos mentales.
Por eso, si intentas automatizar siguiendo tal cual el proceso real, el pensamiento implícito sale a la superficie y todo se vuelve más lento; también tuvimos que cambiar de forma bastante creativa la manera de construir flujos de trabajo con LLM.
- Parece que lenguaje se confunde con lógica o sentido común.
  Ya lo vimos en psiquiatría o en el periodismo moderno, pero gracias a los LLM queda claro que para un lenguaje gramaticalmente correcto y que fluye con naturalidad solo hace falta un modelo del “mundo” del lenguaje; la comprensión de la realidad, la comprensión espacial, las pistas sociales, la lógica de sentido común y la lógica matemática son casi opcionales.
  Me gustaría proponer llamar a la base lingüística de los LLM Word Model. No es un error tipográfico.
  Intentar destilar un modelo del mundo a partir de un Word Model parece un buen punto de partida para una remake moderna de la cueva de Platón.
- Esto no es un problema de velocidad, sino que trata de que al usar COT, la precisión del modelo retrocede en ciertas tareas.
  
  En experimentos amplios en tres configuraciones, encontramos que un conjunto diverso de modelos de punta, cuando usan reasoning en el momento de inferencia, rinden considerablemente peor que sus equivalentes zero-shot. Por ejemplo, OpenAI o1-preview tuvo una caída de hasta 36.3% en precisión absoluta frente a GPT-4o.
  Es decir, el problema identificado aquí es que COT es una forma menos efectiva que el completado de chat sin modificar para algunas tareas, no solo que hace todo más lento.
Hace tiempo, probando, vi que un LLM sufría este tipo de problema.
Le pedí ordenar tres frutas de la más grande a la más pequeña; creo que eran naranja, arándano y toronja.
Con un prompt simple lo resolvía fácilmente, pero si agregaba algo como “piensa paso a paso”, intentaba resolverlo verbalmente y por lo general se equivocaba.
- Me pregunto cuánto se relaciona esto con cómo aprendemos matemáticas.
  Las respuestas a problemas matemáticos simples se aprenden hasta cierto punto de forma instintiva, y en algún momento también desarrollas intuición para cosas como integrales o derivadas.
  Pero en cuanto te piden explicar por qué, o peor aún, demostrarlo, se vuelve mucho más difícil. Incluso si la respuesta inicial podía ser correcta.
- Un LLM no piensa: comprime internet en un formato inteligente de compresión con pérdida, le pone una buena interfaz y luego extrae cosas de ahí.
  La cadena de pensamiento es parecida a recomprimir varias veces un JPG para “mejorar” su calidad. Si no está ahí, no está.
- Sería interesante pensar cómo se equivocó.
  En la parte de “pensar paso a paso” llegó temprano a una conclusión incorrecta, quizá incluso una conclusión inferida de forma sutil, y como los LLM son muy malos para deshacer errores, probablemente avanzó hacia una conclusión internamente consistente pero equivocada.
  Para mí, mucho del COT parece un mecanismo para hacer más lento al LLM y evitar conclusiones demasiado tempranas, pero si al principio saca una conclusión equivocada, puede salir contraproducente en un contexto peor que usarlo sin COT.
- Siempre me pareció interesante cómo cambian los resultados si al problema de ordenamiento le agregas condiciones adicionales como color, olor o posición.
  En esencia, lo entiendo como que esas condiciones afectan el espacio de probabilidades y debilitan los patrones emergentes que solemos sobrevalorar.
- La respuesta de Claude sale así:
  Si se ordenan las tres frutas de la más grande a la más pequeña, son toronja, naranja y arándano.
  Dice que la toronja normalmente mide unas 4 a 6 pulgadas de diámetro, por lo que claramente es la más grande de las tres; la naranja suele medir 2 a 3 pulgadas, y el arándano unas 0.5 pulgadas, así que es el más pequeño.
Visto de otra manera, un potente algoritmo de autocompletado está extendiendo repetidamente documentos existentes con base en el conjunto de entrenamiento.
Si a veces intervienes para cambiar el estilo del documento de preguntas y respuestas a un formato menos común, el resultado final puede volverse menos deseable.
- La mitad de HN piensa así, y la otra mitad probablemente lo vería de esta manera:
  Un cerebro artificial justo antes de la singularidad mostró otra señal de acercarse a la conciencia. El desempeño del proceso de cadena de pensamiento es exactamente igual al de los humanos, y es otra prueba de que la AGI llegará antes de 2030.
- Este encuadre es más largo, mucho más difícil de captar y transmite menos información.
Además, la cadena de pensamiento tiene un costo computacional muy alto.
Definitivamente parece demasiado costosa para ofrecerla gratis como los productos Web 2.0 de generaciones anteriores.
No parece posible exprimir AGI de las probabilidades de tokens con prompts repetidos.
Cuando miremos atrás, si hubiera que elegir un paper que haya impulsado el colapso y estallido de la burbuja de la IA, podría ser este.
Es interesante la parte de “tareas en las que pensar hace que los humanos rindan peor”.

Esos tres casos son aprendizaje estadístico implícito, reconocimiento visual y clasificación de patrones con excepciones.
Me fascina que nuestro cerebro de lagarto sea mejor en inferencia estadística implícita.
- Basta pensar en lo rápido que, al atrapar una pelota, el cerebro de lagarto calcula la trayectoria de la pelota y dónde debe poner la mano.
- Por definición, ¿no es pensar siempre razonamiento explícito?
  Y una estimación de Fermi bien pensada parece que le ganaría siempre al cálculo a ojo del cerebro de lagarto. Aunque en esa zona intermedia parece que ambos interfieren de forma perjudicial.
- Esto era justo lo que estaba buscando.
  Tareas en las que hay que confiar en la intuición, no pensar.
Muestra algo interesante sobre el procesamiento de información tanto en sistemas biológicos como en sistemas de IA.
Ambos comprimen información. El cerebro crea patrones neuronales eficientes a partir de la experiencia, y la IA desarrolla representaciones internas mediante el entrenamiento.
Cuando se fuerza a expresarlo con palabras, esa codificación eficiente se “descomprime” y puede perder patrones sutiles.
Por eso, en tareas como el reconocimiento visual, optimizadas para ocurrir casi de inmediato mediante procesamiento paralelo, pasarlas por una cadena de pensamiento serial solo empeora el desempeño.
95% × 95% = 90.25%
Muy interesante. ¿En qué tipo de tareas pensar hace que los humanos rindan peor?
- Los atletas rinden mucho peor cuando empiezan a pensar en sus movimientos, estrategias o tácticas.
  Los atletas de élite rinden mejor en un estado de flow, sin pensar en nada y dejando que el cuerpo y la memoria muscular trabajen.
  En el momento en que piensas en microajustes como subir más el codo, empiezas a controlar conscientemente el cuerpo, lo cual es más de un orden de magnitud más lento y menos coordinado que el modo automático e inconsciente.
  La creatividad y las ideas nuevas son parecidas. Si piensas algo deliberadamente paso a paso, es difícil encontrar una solución novedosa e innovadora.
  Hay una razón por la que los momentos de “¡ajá!” llegan en la ducha: el subconsciente está pensando el problema en lugar de forzar el pensamiento por un camino específico.
  Creo que hay bastantes áreas en las que hacer pasar el proceso de pensamiento por una plantilla específica impide usar todos los recursos y la capacidad cerebral disponibles.
- La respuesta está en el texto. Uno de los ejemplos es la gramática.
  Dicen que mucha gente empeora en cuanto intenta explicar la gramática con palabras.
- También puedes olvidar una contraseña fuerte si intentas deletrear mentalmente cada carácter uno por uno.
  Pero si te sientas frente al teclado y te relajas, la escribes perfectamente de forma automática.
Me acordé de un mantra que escuché en clases de ajedrez:
Si piensas mucho, piensas mal
- La frase original de Bent Larsen es: “una variante larga es una variante equivocada”.

El impacto negativo del Chain-of-thought en tareas donde pensar empeora el desempeño humano

Riesgos de cuando CoT se vuelve la opción por defecto

Seis tipos de evaluación tomados de la psicología humana

Las tres tareas donde CoT se desestabilizó con fuerza

Aprendizaje estadístico implícito: clasificación de gramática artificial

CoT redujo la precisión en la mayoría de los modelos

Reconocimiento facial: estímulos visuales difíciles de verbalizar

Aprendizaje de reglas con excepciones: clasificación de etiquetas de vehículos

Las tres tareas que mostraron diferencias entre humanos y modelos

Juicio de inconsistencia lógica

Intuición espacial

Agregación de preferencias multidimensionales

Validación de la heurística y limitaciones

Implicaciones para despliegue y evaluación de CoT

Lecturas relacionadas

1 comentarios

Opiniones en Hacker News