2 puntos por GN⁺ 2025-03-08 | Aún no hay comentarios. | Compartir por WhatsApp
  • Cómo los comportamientos cognitivos hacen posibles los razonadores auto-mejorables, o los cuatro hábitos de STaRs muy efectivos

  • Razonamiento en tiempo de prueba: es un paradigma poderoso que permite a los modelos de lenguaje pensar durante más tiempo y con más cuidado sobre problemas complejos. El aprendizaje por refuerzo (RL) puede promover la auto-mejora de los modelos de lenguaje en tareas verificables, pero mientras algunos modelos muestran un rendimiento considerable, otros se estancan rápidamente. Por ejemplo, Qwen-2.5-3B supera ampliamente a Llama-3.2-3B bajo el mismo entrenamiento de RL.

  • Propiedades intrínsecas: surge la pregunta de cuáles son las propiedades intrínsecas que permiten una auto-mejora efectiva. Para investigarlo, se introduce un marco que analiza cuatro comportamientos cognitivos clave: verificación, backtracking, establecimiento de subobjetivos y encadenamiento hacia atrás. Estos comportamientos son utilizados por solucionadores humanos expertos y por modelos de lenguaje exitosos.

  • Resultados experimentales: Qwen muestra naturalmente estos comportamientos de razonamiento, mientras que Llama inicialmente carece de ellos. En experimentos sistemáticos con conjuntos de datos de comportamientos controlados, se descubrió que preparar a Llama con ejemplos que incluyen estos comportamientos de razonamiento permite lograr mejoras significativas durante RL, hasta igualar o superar el rendimiento de Qwen.

  • Importancia de los comportamientos de razonamiento: el factor importante no es la precisión de la respuesta correcta, sino la presencia de comportamientos de razonamiento. Un modelo preparado con soluciones incorrectas que incluyen patrones de razonamiento correctos logra un rendimiento similar al de un modelo entrenado con soluciones correctas.

  • Preentrenamiento continuo: mediante filtrado con datos de OpenWebMath para amplificar los comportamientos de razonamiento, se hace posible que el modelo Llama siga la trayectoria de auto-mejora de Qwen. Esto establece una relación fundamental entre los comportamientos iniciales de razonamiento y la capacidad de mejora, y explica por qué algunos modelos de lenguaje aprovechan eficazmente cómputo adicional.

Aún no hay comentarios.

Aún no hay comentarios.