Meta Chain-of-Thought: aprender a pensar

(arxiv.org)

2 puntos por GN⁺ 2025-01-12 | 1 comentarios | Compartir por WhatsApp

Meta Chain-of-Thought (Meta-CoT) es un framework que va más allá del CoT que solo escribe los pasos finales de la solución, e intenta modelar también el proceso de pensamiento latente antes de llegar a la respuesta.
En problemas matemáticos de alta dificultad, la solución final de estilo libro de texto omite la exploración, verificación y experimentación del pensamiento real, lo que dificulta que el modelo aprenda el proceso de generación de la solución.
GPT-4o y Claude también pueden fallar en algunas evaluaciones de expresiones algebraicas, pero el CoT con “step by step” aumenta los cálculos intermedios, eleva la probabilidad de obtener la respuesta correcta y revela diferencias en la cantidad de cómputo de inferencia.
La familia OpenAI o1 genera salidas más largas y amplía la brecha de desempeño en benchmarks matemáticos difíciles como HARP, mostrando un comportamiento relacionado con la exploración en tiempo de inferencia.
La ruta de implementación de Meta-CoT se propone como un pipeline de entrenamiento que combina supervisión de procesos, datos sintéticos, búsqueda MCTS y A*, instruction tuning basado en trazas de búsqueda linealizadas, y post-entrenamiento con aprendizaje por refuerzo.

El problema al que apunta Meta-CoT

La base de los modelos de lenguaje a gran escala actuales es la predicción del siguiente token: el texto o las modalidades continuas se dividen en secuencias discretas de tokens, y el modelo se entrena para maximizar la probabilidad del siguiente token.
Este enfoque se apoya en la idea de que “compression is intelligence”.
- Para predecir el siguiente token, el modelo debe aproximar la distribución de los datos y realizar inferencia implícita dentro de sus activaciones.
La pregunta central es la relación entre la complejidad del flujo de datos y la capacidad del modelo para aprender el algoritmo que genera esos datos.
El razonamiento matemático se usa como un buen ámbito para evaluar esta pregunta.
- En problemas como “1+2”, la mayoría responde de inmediato “3”.
- Un problema más complejo de evaluación de expresiones algebraicas en realidad se simplifica a 1, pero incluso LLM potentes como GPT-4o y Claude pueden no responderlo correctamente ni una sola vez.
La instrucción “think step by step” y CoT hacen que se generen pasos intermedios, elevando mucho el desempeño.
- En el ejemplo de expresión algebraica, se muestra que el valor es 1 mediante factorización, simplificación de fracciones y cálculo de denominadores comunes.

Límites del CoT existente

La expansión con CoT, en teoría, permite invertir una cantidad arbitrariamente grande de cómputo en la predicción del token de respuesta correcta.
La literatura teórica existente considera que CoT brinda a los LLM un nuevo nivel de complejidad expresiva y que, bajo supuestos como memoria infinita, podría incluso permitir completitud de Turing.
En la práctica, los LLM todavía solo pueden resolver de forma confiable problemas de complejidad limitada.
El proceso real de generación de datos en razonamientos complejos no está suficientemente capturado en los datos CoT comunes.
- En problemas simples, el procedimiento de solución de libro de texto coincide relativamente bien con el proceso real de generación de la solución.
- En problemas complejos, los pasos de la solución final omiten el proceso de exploración no lineal previo a llegar a esa solución.

Definición de Meta Chain-of-Thought

Meta-CoT modela los pensamientos latentes z1 ... zK que existen antes de ir directamente desde la pregunta a los pasos finales de solución y la respuesta.
El CoT clásico puede verse como que la respuesta a está condicionada por los pasos de solución s1 ... sn.
Meta-CoT considera que los pasos de solución y la respuesta (a, s1 ... sn) están condicionados por el proceso de pensamiento latente z1 ... zK.
Es una estructura que generaliza un paso más la lógica del CoT existente e incorpora como objetivo de aprendizaje el proceso de pensamiento fuera de la solución final.
En problemas complejos, aunque la solución final sea corta, el proceso para descubrirla puede ser largo y no lineal.

Caso del problema “windmill” de la IMO 2011

El famoso problema windmill de la International Mathematics Olympiad 2011 se usa como caso de razonamiento complejo.
La solución pública de este problema puede expresarse en unas pocas frases y no requiere conocimientos previos especiales.
La dificultad real está en que la solución tiene una estructura muy no lineal.
- Muchos participantes intentaron usar construcciones de convex hull o herramientas de Hamiltonian graph theory, pero eso no condujo a la solución.
- Los participantes que resolvieron el problema siguieron un enfoque experimental con mucha exploración geométrica y razonamiento inductivo.
La utilidad de la construcción inicial de la solución final solo se vuelve visible si ya se conoce todo el enfoque.
Por eso, el proceso real de generación de la solución no encaja bien con una forma autorregresiva que avanza de izquierda a derecha.

Resultados de HARP y uso de tokens de la familia o1

Se plantea que la familia de modelos OpenAI o1 realiza razonamiento Meta-CoT de forma autorregresiva en tiempo de inferencia.
En el benchmark matemático HARP, la familia o1 muestra en general un desempeño superior al de los modelos estándar de razonamiento existentes.
Cuanto mayor es la dificultad de los problemas, más grande es la brecha de desempeño entre o1 y otros modelos.
- Sin embargo, se observa una excepción interesante en el modelo LLaMa 3.1.
En la cantidad de tokens generados, la familia o1 también muestra un comportamiento diferente al de los modelos existentes.
- En problemas de Level 1, genera una cantidad de tokens similar a la de las soluciones escritas por humanos.
- En niveles de mayor dificultad, genera muchos más tokens por problema y, al mismo tiempo, la brecha de desempeño frente a los modelos existentes también se agranda.
Las soluciones públicas de problemas difíciles no representan el proceso real de generación, lo que lleva a la hipótesis de que el Meta-CoT más largo de la familia o1 puede aproximar mejor ese proceso.

El rol de la exploración y la verificación

En problemas complejos orientados a objetivos puede existir una brecha de dificultad significativa entre generación y verificación.
Esta brecha se vincula con problemas abiertos fundamentales de la informática teórica, pero demostrarlo queda fuera del alcance de la investigación.
Las respuestas a problemas difíciles presentes en corpus de texto pueden verse como el resultado de un largo proceso de exploración.
Pero ese proceso de exploración en sí generalmente no está representado en los datos.
Si los datos Meta-CoT no existen o existen solo de forma limitada, al modelo le resulta difícil aprender directamente el proceso real de generación del razonamiento de alta dificultad.

Experimento con LLaMa 3.1 8B

Se realizó un supervised fine-tuning a gran escala sobre el base model LLaMa 3.1 8B con el dataset Numina MATH.
Cada checkpoint intermedio se evaluó en el dataset de evaluación de 500 problemas de Hendrycks MATH.
En la evaluación pass@k usando un oracle verifier, se observó que el desempeño mejora mucho a medida que aumenta k.
La Figure 2 muestra que el dataset filtrado presenta un mejor escalamiento que los datos originales y que aún no llegó a un plateau.
Al aumentar k de pass@2 a pass@64, incluso en modelos pequeños crece mucho la probabilidad de obtener al menos una solución correcta.

Rutas de entrenamiento y preguntas abiertas

Como métodos para crear Meta-CoT se tratan la supervisión de procesos y la generación de datos sintéticos basada en búsqueda.
La generación sintética de Meta-CoT incluye algoritmos de búsqueda como Monte Carlo Tree Search (MCTS) y búsqueda A*.
El pipeline orientado a un sistema único end-to-end combina instruction tuning con trazas de búsqueda linealizadas y post-entrenamiento con aprendizaje por refuerzo.
El proyecto “Big MATH” es un intento de apoyar esta investigación reuniendo más de 1,000,000 de problemas matemáticos verificables y de alta calidad.
Entre las preguntas abiertas de investigación se incluyen las leyes de escalamiento de la inferencia y la búsqueda, el rol del verifier y la posibilidad de descubrir nuevos algoritmos de razonamiento mediante meta-RL.

1 comentarios

GN⁺ 2025-01-12

Opiniones de Hacker News

La crítica a CoT resulta convincente. En especial, el punto central es la desconexión entre la imitación algorítmica y la exploración cognitiva real.
Los autores usan ejemplos de matemáticas avanzadas, como el “windmill problem” de la Olimpiada Internacional de Matemáticas, para mostrar problemas difíciles de resolver mediante pensamiento secuencial por fuerza bruta. Quedan expuestos los límites de un marco que depende de datasets estáticos y de un proceso de generación rígido. CoT falla no porque no pueda generar respuestas, sino porque no tiene una forma de concebir la respuesta como lo hace la creatividad humana.
Me impresionó la frase: “La superinteligencia no consiste en descubrir cosas nuevas, sino en descubrir nuevas formas de descubrir”.
- Entonces más adelante también aparecerán problemas que requieran una “nueva forma de descubrir nuevas formas de descubrir”, y así sucesivamente.
- Basta con entrenarlo con metarrazonamiento. Se puede entrenar el proceso de descubrir cómo descubren las personas, así que no parece un gran problema: se crea un dataset y se entrena.
- Me gusta la frase citada al final. Me pregunto si alguien recuerda la fuente original.
- Sobre el windmill problem, está https://www.3blue1brown.com/lessons/windmills.
La gran idea del paper es que CoT tiene limitaciones en algunos problemas complejos. Hay problemas para los que no existe un método “de libro de texto” para encontrar la solución, y esos problemas requieren una metodología propia.
La parte clave es: “En esencia, para empezar a generar la solución ya hay que conocer el enfoque completo. El proceso generativo que subyace a la solución no es un proceso autorregresivo que avanza de izquierda a derecha”.
Matemáticamente, esto puede formalizarse como una interpretación que ve el razonamiento como un proceso de variables latentes. Mientras que el CoT clásico ve la probabilidad de la respuesta final como una marginalización sobre una cadena de razonamiento latente, el proceso real de generación de respuestas para problemas complejos debe verse como una distribución de probabilidad conjunta de la respuesta condicionada a un proceso generativo latente. Por eso llaman Meta-CoT a q → z1 → … → z.
Esto parece un punto de partida bastante importante. Por ejemplo, si le preguntas a o1-pro cómo operar un diodo láser de 1550 nm a 1 GHz reduciendo las pérdidas geométricas sin usar colimadores caros, con materiales de uso general, nuevos enfoques de fabricación o física de primeros principios, se rompe la ilusión de que o1-pro es extraordinario. La ingeniería “nueva” todavía está fuera de alcance, y como no hay un libro de texto sobre cómo hacer ese tipo de ingeniería, estos problemas no se resuelven de forma autorregresiva de izquierda a derecha.
- Me sorprende cuánto se ha desplazado el estándar.
  Ahora parece que, para que un modelo de IA sea “extraordinario”, habría que darle un problema que los humanos aún no han resuelto en algún campo difícil arbitrario y que escupa una buena solución. Una IA así, por supuesto, sería extraordinaria y cambiaría el mundo, pero es bastante sorprendente que cualquier cosa por debajo de eso ya no cuente como “extraordinaria”.
- Dudo que incluso un humano pueda dar una solución adecuada a este problema sin consultar a la realidad física, es decir, sin experimentar.
  Algunas partes de la realidad no son computables, así que al final solo se puede llegar ahí dejando que el universo las simule directamente.
- La idea de “problemas para los que no existe un método de libro de texto para encontrar la solución” no coincide con mi experiencia interactuando con LLMs.
  Incluso cuando hacía preguntas de una forma que la mayoría de la gente no entendería, por las respuestas podía ver que la pregunta en sí se había interpretado correctamente. Que la respuesta fuera correcta es otra cuestión, pero sí aparecía cierta interpretación que no era de ejemplo de libro de texto.
- Dicen que “no hay un libro de texto sobre cómo hacer ingeniería nueva”, pero ¿no hay libros sobre el método científico?
  Como dicen otros comentarios, esperar que una superinteligencia dentro de una caja descubra cosas que requieren experimentación y observación es físicamente casi imposible. Tendría que limitarse a campos como la matemática pura, donde basta con escribir en papel y pensar en axiomas; pero justamente esos campos están entre los más difíciles para lograr avances. La humanidad también llegó hasta aquí a lo largo de miles de años, con muchos eruditos aportando partes muy pequeñas.
¿La comunidad de investigación ya llegó a un consenso en que “los modelos de lenguaje no solo ajustan correlaciones entre palabras secuenciales, sino que aprenden el significado implícito del texto”? Me da curiosidad si hay papers que traten este tema.
- La comunidad de investigación no está para nada de acuerdo en esto; hay varias posturas. En procesamiento de lenguaje natural, a grandes rasgos, hay dos perspectivas.
  El paper de Bender y Koller de 2020[1] sostiene que el significado no puede aprenderse solo a partir de la forma, y que los LLM se entrenan con forma. En el experimento mental “The Octopus Test” del paper aparece un pulpo que puede interceptar la conversación de dos humanos, pero se explica que “con solo la forma como datos de entrenamiento, no aprendió significado”.
  En cambio, el texto de Yoav Goldberg[2] trata de manera más informal la fundamentación y qué aprenden los LLM. En general, el argumento es que el ajuste por instrucciones y el postentrenamiento pueden anclar con significado términos como “summarize”.
  [1] https://aclanthology.org/2020.acl-main.463/
  [2] https://gist.github.com/yoavg/59d174608e92e845c8994ac2e234c8...
- Siempre me da la impresión de que quizá no haya una diferencia real entre “el significado implícito del texto” y “las correlaciones entre palabras secuenciales”.
  El hecho de que un LLM pueda comunicarse eficazmente con humanos se parece más a un descubrimiento sobre las regularidades de la semántica de la comunicación humana que a un descubrimiento sobre la inteligencia de las redes neuronales.
- Definitivamente no es algo consensuado. En ciencias de la computación, la teoría del significado no forma parte originalmente del campo, y casi no hay gente con antecedentes en investigación previa relacionada, así que aparecen afirmaciones audaces de este tipo por todos lados.
  Sea cual sea la forma en que se asigne semántica al lenguaje natural, es difícil considerar que un modelo de machine learning use esa semántica.
  Lo mejor que se puede decir es que, bajo el aprendizaje supervisado estilo Transformer, es decir, el objetivo de “predecir la siguiente palabra”, la estructura de correlación de las palabras produce una distribución extremadamente burda que aproxima la semántica del lenguaje natural. Eso en sí nunca estuvo en disputa; el punto discutido es qué tipo de aproximación extrema es.
  Por ejemplo, las condiciones de verdad de “tengo una pluma en la mano” son que, de hecho, tenga una pluma en la mano. Para significar eso en ese contexto, muy plausiblemente se requiere acceso directo a esas condiciones de verdad. Una máquina no puede acceder a las condiciones de verdad de ese enunciado, así que no puede significarlo.
  Si una máquina dice “tengo una pluma en la mano” en una situación adecuada, la “aproximación extrema de la semántica del lenguaje natural” tiene que ver con esa situación y con qué es lo “adecuado”.
  Desde una postura crítica hacia los LLM y el pensamiento típico de ciencias de la computación, se considera que el rango de “situaciones” en las que una respuesta así parece adecuada, es decir, las condiciones del prompt, es muy estrecho. Que la respuesta le parezca adecuada al usuario es una condición de ingeniería de que la herramienta funciona bien, no significa que el modelo entienda la semántica del lenguaje natural.
  Por lo tanto, puede decirse que los LLM aproximan conversaciones entre agentes que entienden la semántica en situaciones limitadas, y que modelan el uso adecuado del lenguaje. Se podría llamar un modelo de “adecuación promedio de la respuesta”, pero no puede significar realmente “tengo una pluma en la mano”.
Hay que tener cuidado con expresiones que se apoyan en el principio de que “la compresión es inteligencia” o en la inducción de Solomonoff.
En los dos trabajos completos citados arriba, “A Formal Theory of Inductive Inference”, la palabra “intelligence” aparece 0 veces, “Compression” también 0 veces, y “reasoning” aparece solo 1 vez en la frase “using similar reasoning”.
Naturalmente, el interés de Solomonoff era la inferencia inductiva. No sé si alguna vez dijo que “la compresión es inteligencia”, y esta idea y el eslogan parecen haberse desarrollado mucho después. La fuente original tampoco está clara.
Es cierto que la inducción de Solomonoff está profundamente relacionada con el problema de predecir el siguiente símbolo en una cadena de símbolos, pero no necesariamente tienen que ser tokens de lenguaje. La expresión común de que los LLM están en una “etapa temprana” es incorrecta. El modelado de lenguaje es una tecnología casi antigua según los estándares de ciencias de la computación, y ya entró hace mucho en una etapa de madurez técnica.
[1] https://raysolomonoff.com/publications/1964pt1.pdf
[2] https://raysolomonoff.com/publications/1964pt2.pdf
- Tiene bastante sentido decir que la inteligencia es una forma de compresión. Un modelo inductivo es pequeño, pero potencialmente puede generar una cantidad arbitraria de información.
Es un trabajo cuidadoso. Desde hace unos meses venía pensando y trabajando en ideas relacionadas, pero todavía no he podido usar recursos de cómputo de una escala similar, y quizá la dirección también era algo distinta.
Esta investigación sin duda ayuda a establecer una línea base para aprovechar mejor la arquitectura Transformer de decodificador.
¿Aquí Meta se refiere a la empresa Meta, o se está usando la palabra “meta”? ¿O ambas?
- Está usado como palabra.
  https://chatgpt.com/share/67813a3f-c7e8-8001-ab0c-7f024bc41a...
Me pregunto si hay alguna forma de saber qué proporción corresponde a casos en que los investigadores estudian algo que se les ocurrió a ellos mismos, y qué proporción a casos en que un trabajo que hacía un desarrollador independiente en línea llama la atención, se investiga y termina convertido en paper.
Que el paper use como ejemplo ecuaciones algebraicas simples de sustitución y sus soluciones paso a paso refuerza la impresión de que los LLM solo pueden reproducir recetas de resolución que ya vieron antes.
En realidad no es muy distinto de cómo aprendemos matemáticas en la escuela. El docente muestra el punto de partida y avanza paso a paso hasta el final. Llamar a esto “Meta Chain-of-Thought” se siente como inflar el currículo básico.
Tal vez la próxima vez terminen llamando al acto de levantar cubiertos básicos algo como “teoría jerárquica del movimiento físico”. En la escuela, a este “Meta Chain-of-Thought” simplemente le decían “muestra el procedimiento”. ¿De verdad es un “fenómeno” que requiere explicación? Puede que aprendamos más sobre la inducción lógica, es decir, cómo logramos pasos de razonamiento, pero todavía estamos demasiado metidos en el caldo como para describir con precisión la forma de la olla.
- No sé si eso de que “solo puede reproducir recetas que ya vio antes” se refiere a los LLM o a ti.

Meta Chain-of-Thought: aprender a pensar

El problema al que apunta Meta-CoT

Límites del CoT existente

Definición de Meta Chain-of-Thought

Caso del problema “windmill” de la IMO 2011

Resultados de HARP y uso de tokens de la familia o1

El rol de la exploración y la verificación

Experimento con LLaMa 3.1 8B

Rutas de entrenamiento y preguntas abiertas

Lecturas relacionadas

1 comentarios

Opiniones de Hacker News