LIMO: en razonamiento, menos es más (Less is More for Reasoning)

(arxiv.org)

3 puntos por GN⁺ 2025-02-10 | 1 comentarios | Compartir por WhatsApp

LIMO demuestra que, a diferencia de la creencia común de que el razonamiento matemático complejo requiere grandes volúmenes de datos supervisados, es posible extraer capacidades avanzadas de razonamiento con solo 800 muestras
Al aplicar una simple afinación supervisada (SFT) a Qwen2.5-32B-Instruct, logró una precisión de 63.3% en AIME24 y 95.6% en MATH500, superando ampliamente el 6.5% y 59.2% de los modelos previamente afinados
Aunque los datos de entrenamiento equivalen a cerca del 1% de los enfoques anteriores, muestra mejor generalización que modelos entrenados con 100 veces más datos en diversos benchmarks y escenarios no vistos anteriormente
La clave es la hipótesis de que el conocimiento de dominio ya codificado en el modelo base y unos pocos ejemplos de alta calidad que guían el proceso de resolución funcionan como plantillas cognitivas
El cuello de botella del aprendizaje de razonamiento depende menos de la complejidad de la tarea en sí y más del grado de completitud del conocimiento de preentrenamiento y de la calidad de los ejemplos de postentrenamiento que hacen que el modelo aproveche las cadenas de razonamiento

La creencia tradicional que apunta a cuestionar la hipótesis LIMO

En el aprendizaje de razonamiento tradicional, predominaba la idea de que para resolver problemas de matemáticas y programación se necesitan decenas de miles o cientos de miles de ejemplos
Este enfoque usa grandes volúmenes de datos supervisados para mostrarle al modelo lógica de múltiples pasos, aplicación de conocimiento de dominio y rutas de solución estructuradas
Aunque hubo casos exitosos, la recopilación y el entrenamiento con datos a gran escala implican costos computacionales considerables
La hipótesis LIMO sostiene que el umbral para extraer razonamiento complejo depende más de dos condiciones que de la dificultad de la tarea
- Si el conocimiento necesario está presente de forma latente dentro de los parámetros del modelo
- Si un pequeño número de ejemplos muestra eficazmente el proceso de resolución de problemas y hace que el modelo aproveche el espacio computacional durante la inferencia

Por qué es posible con pocos datos

Los modelos base recientes incluyen mucho más contenido matemático durante la etapa de preentrenamiento
- El conjunto total de entrenamiento de Llama 2 fue de 1.8T tokens
- Llama 3 usa 3.7T tokens para razonamiento matemático
Con este cambio, el foco del aprendizaje de razonamiento pasa de incorporar nuevo conocimiento matemático a extraer el conocimiento ya codificado
La expansión del cómputo durante la inferencia también es una condición importante
- Las técnicas que extienden cadenas largas de razonamiento elevan de forma significativa la capacidad de razonamiento
- El cómputo durante la inferencia funciona como un espacio de trabajo cognitivo en el que el modelo despliega y aplica el conocimiento adquirido en el preentrenamiento
LIMO plantea que, cuando se combinan abundante conocimiento de preentrenamiento y suficientes recursos de cómputo durante la inferencia, se puede activar la capacidad de razonamiento con unas pocas muestras de alta calidad en lugar de datos masivos

Cómo se seleccionan las 800 muestras

El enfoque LIMO no empieza por reunir muchos datos, sino por una selección rigurosa para encontrar muestras de alta calidad
Aplica filtrado por múltiples capas sobre un gran conjunto de pares QA
- Realiza primero un filtrado aproximado de dificultad para eliminar los problemas fáciles
- Identifica problemas desafiantes mediante una evaluación de dificultad más detallada
- Diversifica los puntos de conocimiento para asegurar una cobertura amplia
Las cadenas de razonamiento se revisan por separado
- Coherencia lógica
- Claridad paso a paso
- Exactitud de la solución
Tras este proceso, se construye un dataset pequeño pero fuerte compuesto finalmente por 800 muestras de entrenamiento

Rendimiento en benchmarks

LIMO se basa en Qwen2.5-32B-Instruct y realiza una SFT simple usando solo las 800 muestras seleccionadas
Sus principales resultados son los siguientes
- Precisión en AIME24: 63.3%
- Precisión en MATH500: 95.6%
Los modelos previamente afinados registraron 6.5% en AIME24 y 59.2% en MATH500, mostrando una gran diferencia frente a LIMO
Los datos de entrenamiento necesarios se limitan a cerca del 1% de los enfoques anteriores
En diversos benchmarks matemáticos y multidisciplinarios mostró una fuerte generalización fuera de distribución y alcanzó una mejora absoluta total de 45.8%
También supera en varios escenarios no vistos anteriormente a modelos entrenados con 100 veces más datos

Contribuciones y materiales publicados

La contribución central de LIMO es formalizar la hipótesis de razonamiento Less-Is-More, según la cual se pueden extraer capacidades de razonamiento complejo con pocos ejemplos
Construye un dataset siguiendo los principios de LIMO y afina Qwen2.5-32B-Instruct mediante SFT simple
Los resultados experimentales muestran un rendimiento competitivo en benchmarks difíciles de razonamiento matemático y un desempeño superior fuera de distribución
El análisis y el ablation study verifican la eficacia de los principios de selección de datos y exploran su aplicabilidad según el nivel de conocimiento del modelo base, el tamaño del modelo y las diferencias de arquitectura
También investiga el requisito mínimo de datos para obtener un rendimiento competitivo
El modelo, el código y el dataset seleccionado están disponibles en el repositorio de GitHub

1 comentarios

GN⁺ 2025-02-10

Comentarios de Hacker News

Es un resultado impresionante, pero hay dos puntos que vale la pena señalar: el modelo ya fue ajustado a partir de Qwen-2.5 Instruct, que incluye millones de ejemplos matemáticos cuidadosamente seleccionados en el preentrenamiento y el ajuste fino supervisado
Además, para crear 817 ejemplos matemáticos perfectos para LIMO, filtraron un conjunto de 10 millones de problemas matemáticos usando modelos recientes como R1
Es decir, ya se invirtió mucha inteligencia en producir datos de ajuste fino lo más informativos y destilados posible, así que no tengo claro si esto es más o menos impresionante que simplemente ajustar con todo el conjunto inicial de 10 millones y obtener el mismo resultado
Aunque probablemente eso habría sido menos atractivo como titular
- Los autores también señalaron esos dos puntos en el resumen como condiciones umbral para inducir razonamiento complejo: un modelo base de preentrenamiento extremadamente pulido y un conjunto de ejemplos de altísima calidad para el posentrenamiento
  El problema de ajustar con el conjunto inicial de 10 millones, intuitivamente, parece requerir una cantidad enorme de datos de ajuste fino para mover el rendimiento, mientras que con solo 817 ejemplos sería difícil cambiar mucho el gradiente
  Ese conjunto inicial en realidad cumple el papel de imponer una regularización bastante fuerte
  Últimamente hay mucho interés en mostrar que datos pequeños y escalado en tiempo de inferencia pueden dar grandes resultados
  Ejemplos recientes son TinyZero: https://github.com/Jiayi-Pan/TinyZero y s1 Simple Test Time Scaling: https://arxiv.org/abs/2501.19393
- No entiendo por qué se critica tanto usar información de modelos anteriores para crear modelos más eficientes
  Avanzar aprovechando trabajo previo no tiene nada de malo, y mejorar la eficiencia también es progreso
  Cuando haces kombucha, no criticas que no hayan ensamblado el SCOBY microorganismo por microorganismo
- También puede verse como que seleccionar una muestra de 817 entre 10 millones requiere 12,290 bits de información
- Basta imaginar que existe un libro de texto que da la comprensión necesaria para obtener puntajes altos en competencias de matemáticas, y que contiene menos de 1,000 problemas explicados
  Eso por sí mismo sería un gran descubrimiento en metacognición
- El artículo y esta explicación se parecen bastante a crear un libro de texto con ejemplos cognitivos “lo más informativos y destilados posible” para enseñar razonamiento de siguiente nivel a un estudiante que ya completó el aprendizaje básico
  El progreso de los LLM en los últimos años ha mostrado que es posible modelar y predecir respuestas humanas plausibles, como si el LLM generara respuestas de “razonamiento” humano
  Dicho de otro modo, muchas respuestas se parecen más a una cadena de generación de tokens que a razonamiento especialmente reflexionado
  Esto se vuelve más claro si te sientas al lado de alguien que va “hablando solo” mientras resuelve un problema
  Puedes entender la definición de tokgen con solo escuchar conversaciones en un restaurante
  Muchas conversaciones son reacciones casi perfectamente predecibles a un prompt, más que pensamiento profundo
  Para distinguirlas de palabras que salen tras una pausa de reflexión, se puede usar la etiqueta thought y token generation, es decir, tokgen
No soy experto en esta área, pero me parece que un modelo preentrenado con internet ya adquiere la mayor parte de las capacidades necesarias para el razonamiento matemático
Solo que, como su objetivo es predecir la distribución de la siguiente palabra de todo internet, y la mayor parte del texto en internet no es texto de ese tipo de razonamiento, normalmente no usa mucho esa capacidad
Es parecido a cuando hace algunos años los modelos de generación de imágenes mejoraban mucho si agregabas “unreal engine” al prompt
El modelo estaba entrenado para generar la distribución de imágenes de internet, y como la mayoría no eran particularmente impresionantes, pero las imágenes que incluían “unreal engine” solían ser capturas de pantalla de alta calidad, la distribución generada se desplazaba hacia resultados de mayor calidad
Así que tiene sentido que la capacidad de razonamiento matemático mejore con pocos ejemplos de entrenamiento, porque el modelo ya posee la mayor parte de esa capacidad latente y solo hace falta ajustar algunas conexiones para que realmente la use
- Es bastante parecido a cuando Anthropic analizó y manipuló conceptos en las activaciones para crear golden gate Claude o para maximizar/minimizar rasgos como “buggy code”[0]
  [0]: https://www.anthropic.com/news/mapping-mind-language-model
- Sumando un poco a eso, la identificación y continuación de patrones también puede aplicarse a evaluaciones de razonamiento simbólico
  Por ejemplo, eso se ve si defines la semántica de un lenguaje de programación funcional mediante reglas de reescritura
  Si el modelo puede traducir el problema a un lenguaje suficientemente preciso, empezar a hacer pattern matching con el programa generativo codificado en el LLM y evaluar implicaciones lógicas, se entra en un terreno muy interesante
  La predicción autorregresiva podría transformarse en evaluación y cómputo simbólico incremental, mientras el LLM de fondo sigue guiando la selección de evaluaciones y la exploración de objetivos
  Si el modelo base ya contiene suficiente contenido como para acoplarle limpiamente un lenguaje más preciso, probablemente no haría falta un corpus gigantesco para reforzar estas reglas de evaluación
- La mayor parte del razonamiento que muestra R1 me suena a la forma de expresarse de un niño de quinto de primaria, lo que respalda la explicación anterior
  Aun así, si seguimos comprimiendo el conocimiento necesario para el razonamiento matemático, quizá terminemos con una forma que combine teoría de categorías con algo basado en reglas como Prolog
- Esto podría significar que, aunque ajustes el modelo base con aprendizaje supervisado o por refuerzo, por lo general el modelo no se vuelve esencialmente más inteligente, y que solo el aprendizaje autosupervisado inicial durante el preentrenamiento logra eso
  Claro, también sería raro que ninguna cantidad de aprendizaje por refuerzo pudiera volver realmente más inteligente a un LLM
Mi conjetura es que algunos dominios, como las matemáticas, son generales pero tienen una escala de vocabulario efectivo anormalmente grande, como todos los números posibles, así que entrenarlos con métodos que funcionan en dominios con vocabularios de tamaño normal sale más caro
En este tipo de dominios problemáticos, entrenar pasos de razonamiento puede reforzar un conjunto relativamente pequeño de vocabulario general, como “sumar”, “inverso” y “resolver”
Eso separa la aritmética de las combinaciones numéricas de los problemas individuales y deja de enfatizar respuestas correctas de un solo disparo
Basta con entrenar N ejemplos de razonamiento y M ejemplos de aritmética; no hace falta entrenar N*M problemas matemáticos completos
Así que hay que gastar más recursos de razonamiento, pero se pueden obtener mejores respuestas con menos entrenamiento
Dejando de lado la teoría, del lado aplicado parece buena idea usar este proceso general de razonamiento para estructurar la fórmula final y luego pasársela a un evaluador tradicional
Entonces el razonamiento y su entrenamiento solo tendrían que llegar hasta la manipulación simbólica
Sería un enfoque como Wolfram Alpha, donde el procesamiento de lenguaje natural se le pasa mucho después al evaluador
- Pregunta relacionada: ¿ha habido algún LLM que sea una calculadora perfecta?
  Algo al que le das una expresión con operaciones estándar +/- e enteros, y siempre devuelve el resultado correcto
  No recuerdo haber visto un paper relacionado, pero tampoco soy experto
Siento que hace poco leí dos cosas que parecen contradecirse: que los LLM nunca podrán generalizar la demostración de teoremas, y lo que dice este paper, que “los LLM modernos ya pueden poseer abundante conocimiento matemático en el espacio de parámetros, y la tarea pasa de la adquisición de conocimiento a la inducción de conocimiento”
Ya no sé bien qué pensar
- Para tragarse esta píldora amarga, parece que hay que admitir que todo el conocimiento humano es en la práctica una distribución finita relativamente “pequeña”, y que los modelos ya son lo bastante grandes como para hacer matching de patrones sobre ella, así que los LLM sí pueden “generalizar”
- ¿No será que los LLM pueden generar el espacio de búsqueda correcto para un problema, pero el proceso de identificar la solución dentro de ese espacio es ineficiente?
  Dicho de otro modo, la mayoría de los estudiantes que estudian apuntes de matemáticas de secundaria llevan dentro la posibilidad de ganar una medalla de oro de olimpiada
  Porque las matemáticas en sí no van mucho más allá del contenido de secundaria
  Pero llevar a un estudiante real de secundaria hasta nivel de medalla de oro olímpica es difícil, y podría ser algo parecido a P vs NP
- Tanto del lado exagerado como del lado escéptico, vamos a seguir viendo a mucha gente decir cosas que son verificables
  A veces siguen afirmando lo mismo incluso cuando tienes capturas de pantalla que contradicen sus afirmaciones
  En particular con los escépticos, puedes usar directamente los LLM de gama alta y comprobar: “¿esto realmente hace lo que alguien dice que no puede hacer?”
  Muchas veces sí lo hace
  Si ves papers recientes presentados por escépticos, a veces hacen afirmaciones sobre los LLM más nuevos pero solo prueban versiones de hace más de un año
  Eso pasó hace poco de verdad^
  Si quieres estar seguro de qué es correcto, no queda otra que usarlo tú mismo y juzgar qué es cierto
  ^ https://x.com/tylercowen/status/1881051976102035880
- Se puede tener abundante conocimiento matemático y aun así no ser bueno demostrando teoremas
  A la inversa, se puede ser bueno demostrando problemas de matemáticas competitivas sin tener abundante conocimiento matemático
  También es posible tener abundante conocimiento matemático y ser bueno demostrando teoremas, pero principalmente solo dentro de tu propia especialidad
- La frase “los LLM nunca podrán hacer X” simplemente parece estar siempre equivocada
Así como los modelos de difusión de imágenes mostraron que es posible resumir una aproximación plausible de todo el mundo visual en un modelo de 5 GB, ¿los patrones de razonamiento también se pueden comprimir de forma similar?
¿Será que los patrones de razonamiento usados en todos los dominios son en realidad lo bastante pocos como para contarse, y por eso pueden capturarse con un conjunto de entrenamiento relativamente pequeño?
- Yo diría que no hay tantos patrones de razonamiento verdaderamente generales, es decir, estrategias o enfoques
  Pero el razonamiento aplicado no solo necesita patrones de razonamiento, sino también un repertorio de pasos de razonamiento efectivos por dominio que puedan aplicarse siguiendo ese enfoque
  Además, incluso usando todo el conocimiento y los pasos de razonamiento aprendidos, también hacen falta combinaciones de capacidades para superar bloqueos cuando no se llega a la solución
  En un dominio como las matemáticas, una cantidad pequeña de pasos de razonamiento especializados puede llevarte bastante lejos, pero las matemáticas mismas también tienen muchas subáreas como álgebra, geometría, cálculo y topología
  Hasta donde sé, las técnicas de un campo solo sirven en otro en la medida en que el problema pueda mapearse a ese otro dominio
Me pregunto si este conjunto curado de 817 problemas de matemáticas también serviría como libro de texto para entrenar a estudiantes de matemáticas con problemas variados
Si, como plantea la hipótesis de LIMO, un conjunto de datos pequeño puede afinar un modelo y sacar el potencial de razonamiento eficiente dentro de un modelo pequeño, podría haber un gran traslado de poder de los modelos grandes a los pequeños
Si este proceso puede repetirse de forma iterativa, parecería ofrecer poder casi ilimitado
Pero, ¿qué propiedades tendría que tener el conjunto de datos para alimentar ese ciclo?
Habría que enseñar a ajustar el razonamiento al tamaño del modelo, y validarlo de alguna manera, como una cobertura mínima que extienda la profundidad de la cadena de razonamiento con un factor de ramificación pequeño dentro del espacio de búsqueda, para detectar patrones profundos
Es interesante ver cómo el campo se está convirtiendo cada vez más en pedagogía de LLM
Razonar es el arte de predecir
Es destilar muchas observaciones de la realidad en un pequeño modelo de la realidad que prediga suficientemente bien nuevas observaciones
“¿Cuál es el modelo más simple que explica la mayor parte de lo que estoy viendo?” es la pregunta central que la mente intenta responder
Si dominas la técnica de construir ese tipo de modelos, entonces haces matching de patrones de nuevos problemas con nuestros modelos y usas esos modelos para predecir los resultados

LIMO: en razonamiento, menos es más (Less is More for Reasoning)

La creencia tradicional que apunta a cuestionar la hipótesis LIMO

Por qué es posible con pocos datos

Cómo se seleccionan las 800 muestras

Rendimiento en benchmarks

Contribuciones y materiales publicados

Lecturas relacionadas

1 comentarios

Comentarios de Hacker News