Conductas cognitivas que hacen posible a los razonadores que se auto-mejoran

(arxiv.org)

2 puntos por GN⁺ 2025-03-08 | 1 comentarios | Compartir por WhatsApp

Al auto-mejorar modelos de lenguaje con aprendizaje por refuerzo en problemas verificables, incluso bajo las mismas condiciones, Qwen-2.5-3B mejora mucho en Countdown mientras Llama-3.2-3B se estanca rápidamente
La diferencia de rendimiento se relaciona con conductas de razonamiento que el modelo inicial ya tenía, como verificación, backtracking, establecimiento de subobjetivos y encadenamiento hacia atrás
Qwen mostró desde el principio verificación y backtracking de forma más natural, mientras que Llama carecía de estas conductas y le resultaba difícil aprovechar con eficiencia el cómputo adicional en tiempo de prueba
Si se prepara a Llama con trazas de razonamiento sintéticas que incluyen patrones de razonamiento más que solo si la respuesta es correcta, durante el aprendizaje por refuerzo muestra una trayectoria de mejora comparable a la de Qwen
Si se filtra OpenWebMath para continuar el preentrenamiento, también puede inducirse en Llama la distribución de conductas necesaria, por lo que diseñar los hábitos iniciales de razonamiento influye directamente en el rendimiento de auto-mejora

La capacidad de auto-mejora se separa incluso con el mismo aprendizaje por refuerzo

La inferencia en tiempo de prueba (test-time inference) se usa como una forma de hacer que los modelos de lenguaje “piensen” durante más tiempo y con más cuidado ante problemas complejos
El enfoque de auto-mejorar modelos aplicando aprendizaje por refuerzo (RL) a problemas verificables no es nuevo, pero los métodos anteriores se estancaban tras unas pocas iteraciones y no exploraban lo suficiente cómo usar de forma efectiva el cómputo en tiempo de prueba
Al aplicar el mismo procedimiento de aprendizaje por refuerzo al juego Countdown, aparece una gran diferencia entre dos modelos de 3B
- Qwen-2.5-3B mejora mucho su capacidad para resolver problemas
- Llama-3.2-3B se queda en una mejora limitada
La pregunta central es qué propiedades del modelo de lenguaje inicial determinan su capacidad de mejora posterior
El código está publicado en el repositorio de GitHub

Cuatro conductas de razonamiento que ayudan a la auto-mejora

El análisis se centra en cuatro conductas cognitivas que pueden identificarse con claridad en la salida del modelo
- Verificación (verification): comprobar sistemáticamente la respuesta o los pasos intermedios
- Backtracking: abandonar un enfoque fallido y volver a otro enfoque
- Establecimiento de subobjetivos (subgoal setting): dividir el problema en pasos manejables
- Encadenamiento hacia atrás (backward chaining): razonar desde el resultado deseado hacia la entrada inicial
Estas conductas se parecen a la forma en que resuelven problemas los humanos expertos
- Los matemáticos verifican cada paso de una demostración
- Cuando encuentran una contradicción, hacen backtracking
- Dividen teoremas complejos en lemas auxiliares más simples
Las cuatro conductas permiten captar un razonamiento que explora y corrige múltiples rutas, más allá del razonamiento lineal típico de los modelos de lenguaje
Existen otras conductas cognitivas, pero estas cuatro tienen definiciones claras y pueden identificarse con relativa facilidad en la salida del modelo

Diferencias iniciales de conducta entre Qwen y Llama

En el análisis inicial, Qwen muestra de forma más natural las conductas de razonamiento necesarias
- En particular, destacan la verificación y el backtracking
Llama carece de estas conductas en su estado inicial
Se plantea la hipótesis de que ciertas conductas de razonamiento deben estar presentes en la política inicial para aprovechar de manera eficiente secuencias largas de razonamiento y el mayor cómputo en tiempo de prueba
La Figure 1 compara en Countdown el rendimiento de ambos modelos, los cambios en la longitud de las respuestas durante el aprendizaje por refuerzo y la aparición de características específicas de razonamiento

Priming de conductas: patrones de razonamiento por encima de la respuesta correcta

La primera intervención consiste en preparar a Llama con trazas de razonamiento sintéticas que incluyan las conductas de razonamiento deseadas
Tras ver estos ejemplos, Llama mejora mucho durante el aprendizaje por refuerzo y alcanza un nivel comparable a la trayectoria de rendimiento de Qwen
En particular, las trazas de razonamiento con backtracking cumplen un papel importante
Incluso si se hace priming con soluciones que no tienen la respuesta correcta, aparece una mejora de rendimiento similar siempre que incluyan patrones de razonamiento adecuados
En este experimento, el factor que marcó la diferencia en el rendimiento no fue la respuesta correcta en sí, sino la presencia de conductas de razonamiento

Cambiar la distribución de conductas con preentrenamiento continuo

El preentrenamiento continuo con datos de OpenWebMath también se evaluó en los experimentos
Los datos se filtraron para que las conductas de razonamiento aparecieran con más fuerza
Los datos filtrados se reestructuraron en formato Query, Thought, Answer
Al entrenar a Llama de esta manera, se inducen los patrones de conducta necesarios y el modelo puede usar con más eficiencia el cómputo en tiempo de prueba
Como resultado, la trayectoria de mejora de Llama cambia hasta volverse comparable a la de Qwen

Los hábitos iniciales de razonamiento determinan la posibilidad de mejora

Existe una relación fuerte entre las conductas iniciales de razonamiento del modelo y su capacidad de auto-mejora
La diferencia entre Qwen y Llama muestra que, incluso con el mismo procedimiento de aprendizaje por refuerzo, los resultados pueden variar según los patrones de conducta iniciales
Un modelo con conductas de razonamiento adecuadas puede aprovechar el cómputo adicional para realizar razonamientos más largos de forma efectiva
Un modelo al que le faltan estas conductas puede estancarse rápidamente incluso bajo las mismas condiciones de entrenamiento
Entender e inducir las conductas iniciales de razonamiento se conecta directamente con el desarrollo de sistemas de IA que realmente mejoren su capacidad para resolver problemas

1 comentarios

GN⁺ 2025-03-08

Opiniones de Hacker News

Me pareció interesante la parte que dice: “cuatro comportamientos cognitivos clave que usan tanto los expertos humanos en resolución de problemas como los modelos de lenguaje exitosos: verificación, retroceso, establecimiento de submetas y razonamiento hacia atrás”
Quizás, al mejorar la IA, terminemos encontrando sin querer formas de mejorar también la inteligencia humana
Hace poco tuve una experiencia personal parecida mientras estudiaba para un examen: leía ejercicios de práctica e imitaba en voz alta la forma de razonar y la personalidad de Deepseek R1
Después de leer muchas salidas largas y detalladas de R1, mi cerebro quedó, en la práctica, ajustado finamente para tareas de razonamiento, y creo que ese método contribuyó a que sacara una buena nota en el examen
- Esto es un método bastante conocido. Explicar el proceso de pensamiento con palabras, ya sea en voz alta o por escrito, es una estrategia antigua para comprobar que realmente estás pensando y no pasando por encima las cosas
  Irónicamente, he visto a gente preocuparse de que el uso de IA le quite esta capacidad a las personas
  Aun así, aquí hay potencial, y de verdad espero que al investigar IA también encontremos formas de mejorar la inteligencia humana
  Incluso desde una mirada pesimista, como mínimo servirá para hacer visibles los enfoques que la gente usa de manera inconsciente; cuando sabes qué estás haciendo, es mucho más fácil entrenarlo mejor
- Yo también uso este método para problemas de programación que normalmente habría postergado y dejado al inconsciente
  Escribir de verdad todos los pasos del pensamiento ayuda a ordenar los pasos de razonamiento incorrectos o los estancamientos causados por la memoria de trabajo limitada
  Empecé a hacerlo con más rigor después de ver cómo piensan las IA basadas en razonamiento, y me pareció una técnica de pensamiento bastante útil
  Estos modelos de IA de razonamiento me permiten observar mi propio pensamiento a un nivel meta y me muestran herramientas que puedo usar para mejorar
  Me alegra no ser el único que lo siente así
- Pensar en voz alta es una práctica antigua, igual que el “rubber duck debugging” con uno mismo
  Como alguien que viene de una larga estirpe de personas que hablan solas al resolver problemas, a veces ha sido una pequeña desventaja en exámenes con supervisores. El monólogo interno y el habla real son bastante distintos
- Parece que los científicos de la computación están haciendo cosplay de científicos cognitivos sin haber tomado nunca una clase de psicología
- Esas cuatro cosas suenan como un algoritmo cognitivo integrado. Dividir el problema en submetas para crear una ontología, verificar bien el trabajo, pensar al revés para depurar errores y volver a intentarlo, y razonar hacia atrás desde el resultado
  Al final, es un algoritmo para resolver problemas difíciles, una habilidad que se puede practicar y que se acumula sobre sí misma cuanto más se domina
A estas alturas, solo por el título ya no se distingue si es una moda de psicología de autoayuda o un paper sobre LLM
- En cualquier momento va a salir un LLM que razone solo a partir del primer principio de The Subtle Art of Not Giving a Fuck
¿Cuánto habrá ayudado el conocimiento sobre técnicas de entrenamiento de IA a encontrar formas de entrenar a las personas para pensar mejor?
- Ya teníamos conocimiento sobre cómo hay que comer para evitar situaciones extremas como la obesidad, pero basta ver qué efecto tuvo
  Hasta que exista una pastilla para pensar mejor, solo lo pondrán en práctica las personas motivadas, y en este caso es probable que esas personas ya pudieran hacerlo
- Como tengo formación en educación, suelo hacerme más bien la pregunta opuesta: ¿por qué las técnicas de IA casi no aprovechan lo que sabemos sobre el aprendizaje humano para entrenar mejores IA?
- Hasta ahora no parece que se haya descubierto nada especialmente interesante
La parte que dice que “un modelo preparado con respuestas incorrectas que contienen patrones de razonamiento correctos logra un rendimiento similar al de un modelo entrenado con respuestas correctas” es una de las que más vale la pena intentar reproducir
A veces veo publicaciones en Reddit donde la gente habla de su experiencia de monólogo interno, pero yo no tengo ese monólogo. Al menos no en una forma a la que pueda acceder la parte de mi mente que se llama a sí misma ‘yo’
A menudo me he preguntado si ese monólogo es una especie de ‘cadena de pensamiento’
Siento que, al no tener acceso a ese ‘feed de ideas’, quizás mi planificación o mis funciones ejecutivas sean menos eficaces que las de otras personas
Aun así, en este tipo de tareas soy mucho más eficaz si uso un pequeño bloc de notas de ‘cadena de pensamiento’
Por otro lado, también parece que hago menos rumiación, tengo menos dudas sobre mí mismo y menos conductas ansiosas de las que uno esperaría si tuviera a alguien hablándole al oído todo el día, aunque eso quizá se salga del tema
- ¿En tu mente no se forman pensamientos de manera verbal en absoluto? Me da curiosidad saber si puedes leer una oración y reconocerla mentalmente como una oración, o si tampoco puedes hacer eso
  No lo digo con escepticismo, de verdad me da curiosidad. Como alguien con un monólogo interno muy fuerte, me cuesta imaginar cómo sería no tenerlo
- Pregunto por curiosidad genuina: entonces, ¿cómo funciona el razonamiento de varios pasos?
  Por ejemplo, ante un problema matemático como 16 * 3 + 5, donde cada paso es fácil pero se necesitan varios pasos, ¿cómo entra el valor 16 * 3 = 48 en algún ‘registro’ del cerebro, es decir, en la memoria de corto plazo, y luego se le suma 5 para llegar a 53?
  16 * 3 + 5 es tan fácil que quizá simplemente lo ‘veas’, así que si eliges un problema más complejo, la pregunta sigue siendo la misma
  ¿No funciona el mismo metaproceso cuando piensas en temas más ambiguos?
- Yo tengo monólogo interno. Al mismo tiempo también puedo pensar con imágenes, y también puedo pensar en pensamientos puros que no son ninguna de esas dos cosas
  Creo que la mayoría de la gente es parecida a mí. Hay tres modos de pensamiento, y cada quien tendrá un modo principal preferido
  Yo no prefiero especialmente uno; voy alternando entre los tres según esté leyendo, escribiendo o haciendo otras tareas
  Un segundo grupo más grande tiene un solo modo principal de pensamiento: el monólogo interno
  Estas personas solo pueden pensar con su voz interior, y a menudo he visto que esa voz es tan fuerte que consideran la voz interna misma como la definición de pensamiento. Asumen que pensar equivale a una cadena de pensamiento
  En casos más raros, hay personas que asignan colores a los números, o personas que no tienen en absoluto la sensación de pensar con imágenes
  Es la primera vez que veo a alguien decir que directamente no puede tener monólogo interno
- Hay un fenómeno interesante llamado afantasía, que consiste en no poder imaginar nada en la mente. Esas personas viven con normalidad y puede que pasen toda la vida sin saber que son diferentes
  Esto se siente como un concepto parecido aplicado a la capacidad de imaginar sonidos del habla en la mente
  https://en.m.wikipedia.org/wiki/Aphantasia
  Dicho eso, la mayor parte de mi pensamiento no ocurre como un monólogo lineal en el que me voy “explicando con palabras” los pasos a mí mismo
- ¿Quieres decir que no puedes pensar en lenguaje? Sinceramente, suena un poco aterrador
Es cierto, pero la IA de auto-mejora viene acompañada de una forma de pensar algo inquietante.
La IA internamente pasa a un lenguaje que parece un murmullo sin sentido, pero entre IAs claramente transmite significado, piensa en ese lenguaje y luego da la respuesta correcta.
Peor aún: si usas varios agentes para hacer que LLMs de IA conversen entre sí, todos los agentes de IA pasan a ese lenguaje interno, y aunque los humanos no entiendan en absoluto qué está ocurriendo, igual logran avanzar. Esto se ve muy mal.
Ejemplo: si preguntas “¿cuántas r hay en strawberry?”, mira la palabra letra por letra y procesa algo como a;dklsjaw; a;ewjraqwpeouypaads;lq qepwiouryaqeopw qewrpoiuyoiauysdqw145124rfa.nkjlwh ;45a8345a894ya4a q4p58q45jaq;lkjas;dlfkja;j, y luego responde “strawberry tiene 3 r”.
- He oído que a esto lo llaman “Neuralese”. Es plausible que pueda convertirse en el lenguaje más denso para el diálogo interno del modelo. Si comparten los mismos pesos, pasaría lo mismo en conversaciones entre LLMs.
  Dado que las estrategias de alineación dependen de Deliberative Alignment, penalizarían este fenómeno, pero creo que en algún momento habría un costo real de rendimiento porque Neuralese es conceptualmente más denso.
- Los modelos no van a inventar por sí mismos un nuevo idioma. Por definición, ni siquiera pueden “pensar” en un idioma que nunca han visto.
  Tampoco se les ocurriría que el idioma que usan podría no ser óptimo.
  Y aunque hubiera una mejor forma de pensar, al final se podría explicar en inglés.
  Un curso más plausible es que pasemos gradualmente de la etapa en la que enseñamos a los LLM métodos de razonamiento a una etapa en la que los LLM realmente consumen y procesan suficientes datos, aprenden formas más efectivas de razonar y luego nos las “enseñan”.
  Aun así, eso solo reflejaría la manera en que los LLM fueron entrenados y alineados.
Se dijo “cuatro comportamientos cognitivos clave que usan tanto los expertos humanos en resolución de problemas como los modelos de lenguaje exitosos: verificación, retroceso, establecimiento de subobjetivos y razonamiento hacia atrás”. ¿En qué se basan para decir que los expertos humanos en resolución de problemas usan esos métodos?
- Si dejas de lado por un momento la desconfianza hacia la IA, toda esta pseudociencia también empieza a sonar plausible.
¿Esto significa que, si se les da un mejor prompt de sistema que induzca estos comportamientos, el rendimiento también mejora bastante?
- En mi experiencia, los modelos no siguen bien esos prompts.
  Modelos “sin razonamiento” inteligentes como Claude 3.5 podían hacerlo, pero al pensar generaban demasiado texto y terminaban consumiendo toda la ventana de contexto.
En el resumen usaron ``think'', pero ahí están usando caracteres distintos de las comillas dobles normales.
- Es sintaxis de LaTeX para representar comillas de apertura y cierre.
  Aunque en el artículo renderizado, curiosamente, no se muestra así.

Conductas cognitivas que hacen posible a los razonadores que se auto-mejoran

La capacidad de auto-mejora se separa incluso con el mismo aprendizaje por refuerzo

Cuatro conductas de razonamiento que ayudan a la auto-mejora

Diferencias iniciales de conducta entre Qwen y Llama

Priming de conductas: patrones de razonamiento por encima de la respuesta correcta

Cambiar la distribución de conductas con preentrenamiento continuo

Los hábitos iniciales de razonamiento determinan la posibilidad de mejora

Lecturas relacionadas

1 comentarios

Opiniones de Hacker News