El impacto negativo del Chain-of-Thought en tareas donde pensar reduce el desempeño humano
(arxiv.org)Chain-of-Thought y degradación del rendimiento
-
Resumen de Chain-of-Thought (CoT)
- CoT es una estrategia ampliamente usada en modelos grandes de lenguaje y multimodales.
- Se sabe que mejora el rendimiento en varias tareas, pero identificar en qué configuraciones es efectivo sigue siendo un reto en curso.
-
Objetivo de la investigación
- Se busca identificar las características de las tareas en las que CoT puede reducir el rendimiento del modelo.
- Inspirándose en la psicología cognitiva, se examina (i) cuándo el pensamiento o la deliberación verbal perjudican el desempeño humano, y (ii) cuándo las limitaciones que dominan el desempeño humano se generalizan a los modelos de lenguaje.
-
Casos principales del estudio
- Se experimenta con tres casos: aprendizaje estadístico implícito, percepción visual y clasificación de patrones con excepciones.
- Se encontró que usar pensamiento durante la inferencia reduce significativamente el rendimiento en varios modelos de última generación (por ejemplo, OpenAI o1-preview muestra una caída de hasta 36.3% en precisión absoluta frente a GPT-4o).
-
Hallazgos adicionales
- Se identificaron tres tareas que cumplen la condición (i) pero no la (ii).
- En estas tareas, aunque el pensamiento verbal reduce el desempeño humano, CoT mantiene o mejora el rendimiento del modelo.
-
Conclusión
- Aunque no existe un paralelismo exacto entre los procesos cognitivos de los modelos y los de los humanos, considerar casos en los que pensar afecta negativamente el desempeño humano ayuda a identificar configuraciones que también pueden afectar negativamente a los modelos.
- Al conectar la literatura sobre deliberación humana con la evaluación de CoT, se ofrece una nueva herramienta para entender la selección de prompts y el impacto del pensamiento durante la inferencia.
Resumen de GN⁺
- Este estudio muestra que CoT no mejora el rendimiento del modelo en todas las situaciones.
- Plantea la posibilidad de predecir la degradación del rendimiento del modelo a partir de casos en los que el pensamiento humano afecta negativamente el desempeño.
- Resulta interesante aprovechar las ideas de la psicología cognitiva para entender el efecto de CoT.
- Como proyecto con funciones similares, se recomiendan varios modelos de lenguaje de OpenAI.
Aún no hay comentarios.