1 puntos por GN⁺ 2024-11-01 | Aún no hay comentarios. | Compartir por WhatsApp

Chain-of-Thought y degradación del rendimiento

  • Resumen de Chain-of-Thought (CoT)

    • CoT es una estrategia ampliamente usada en modelos grandes de lenguaje y multimodales.
    • Se sabe que mejora el rendimiento en varias tareas, pero identificar en qué configuraciones es efectivo sigue siendo un reto en curso.
  • Objetivo de la investigación

    • Se busca identificar las características de las tareas en las que CoT puede reducir el rendimiento del modelo.
    • Inspirándose en la psicología cognitiva, se examina (i) cuándo el pensamiento o la deliberación verbal perjudican el desempeño humano, y (ii) cuándo las limitaciones que dominan el desempeño humano se generalizan a los modelos de lenguaje.
  • Casos principales del estudio

    • Se experimenta con tres casos: aprendizaje estadístico implícito, percepción visual y clasificación de patrones con excepciones.
    • Se encontró que usar pensamiento durante la inferencia reduce significativamente el rendimiento en varios modelos de última generación (por ejemplo, OpenAI o1-preview muestra una caída de hasta 36.3% en precisión absoluta frente a GPT-4o).
  • Hallazgos adicionales

    • Se identificaron tres tareas que cumplen la condición (i) pero no la (ii).
    • En estas tareas, aunque el pensamiento verbal reduce el desempeño humano, CoT mantiene o mejora el rendimiento del modelo.
  • Conclusión

    • Aunque no existe un paralelismo exacto entre los procesos cognitivos de los modelos y los de los humanos, considerar casos en los que pensar afecta negativamente el desempeño humano ayuda a identificar configuraciones que también pueden afectar negativamente a los modelos.
    • Al conectar la literatura sobre deliberación humana con la evaluación de CoT, se ofrece una nueva herramienta para entender la selección de prompts y el impacto del pensamiento durante la inferencia.

Resumen de GN⁺

  • Este estudio muestra que CoT no mejora el rendimiento del modelo en todas las situaciones.
  • Plantea la posibilidad de predecir la degradación del rendimiento del modelo a partir de casos en los que el pensamiento humano afecta negativamente el desempeño.
  • Resulta interesante aprovechar las ideas de la psicología cognitiva para entender el efecto de CoT.
  • Como proyecto con funciones similares, se recomiendan varios modelos de lenguaje de OpenAI.

Aún no hay comentarios.

Aún no hay comentarios.