LADDER: un LLM que se mejora a sí mismo mediante descomposición recursiva de problemas

(arxiv.org)

1 puntos por GN⁺ 2025-03-08 | 1 comentarios | Compartir por WhatsApp

LADDER es un framework que hace que los problemas difíciles bajen a variantes más fáciles y luego vuelvan a subir, mejorando la capacidad de resolución de problemas de los LLM sin feedback humano ni datos curados.
La idea central es crear una gradiente de dificultad hasta un nivel que el modelo pueda resolver, y usar las respuestas de subproblemas verificables como peldaños para resolver problemas más difíciles.
En tareas de integración matemática, Llama 3.2 3B mejoró la precisión en problemas de nivel universitario de 1% a 82%, aunque en las contribuciones también se indica un valor inicial de 2%.
Qwen2.5 7B Deepseek-R1 Distilled logró 73% en la ronda preliminar del MIT Integration Bee solo con LADDER, superando el 42% de GPT-4o y el desempeño humano típico de 15–30%.
TTRL aplica variantes de problemas y aprendizaje por refuerzo también en tiempo de prueba, elevando la precisión en el mismo examen de 73% a 90% y alcanzando un desempeño de estado del arte superior al de OpenAI o1.

El cuello de botella de aprendizaje al que apunta LADDER

El aprendizaje por refuerzo es efectivo para entrenar LLM, pero requiere tareas verificables que se ajusten a la capacidad actual del modelo y cuyos resultados puedan comprobarse.
Si el problema es demasiado difícil para la capacidad del modelo, puede producirse un colapso, en el que el aprendizaje se detiene o el rendimiento empeora.
En áreas de razonamiento complejo, la brecha entre tareas fáciles y avanzadas es grande, por lo que es importante construir una dificultad que permita aprender de forma gradual.
LADDER parte de problemas complejos y usa descomposición recursiva de problemas, donde el modelo crea varias variantes más fáciles, y cada variante vuelve a crear subvariantes.
Cuando se llega a problemas que el modelo puede resolver de forma estable, sus respuestas se usan como peldaños para resolver variantes más difíciles.

Aprendizaje autodirigido y condiciones de verificación

En lugar de datasets creados por humanos o feedback, genera una gradiente de dificultad natural a partir de las capacidades existentes del modelo.
El aprendizaje requiere recompensas verificables, y este estudio usa integración numérica para comprobar las respuestas.
El framework permite que el modelo evalúe su propio progreso y ajuste su ruta de aprendizaje, habilitando el aprendizaje por refuerzo sin intervención humana.
La descomposición recursiva de problemas y el aprendizaje autodirigido se combinan con aprendizaje por refuerzo basado en GRPO.
La generación y verificación de variantes de problemas funciona cuando existe un mecanismo de verificación confiable.

Benchmark de integración y resultados de TTRL

En el benchmark de integración matemática, LADDER mostró mejoras de desempeño que superan lo posible con el muestreo pass@k estándar.
Llama 3.2 3B elevó su precisión hasta 82% en problemas de integración de nivel universitario.
- En el resumen del paper se indica una precisión inicial de 1%.
- En la sección de contribuciones se indica una precisión inicial de 2%.
Qwen2.5 7B Deepseek-R1 Distilled alcanzó 73% de precisión tras aplicar LADDER en la ronda preliminar del MIT Integration Bee 2025.
- GPT-4o obtuvo 42%.
- El desempeño humano típico es de 15–30%.
TTRL (Test-Time Reinforcement Learning) es un proceso de microaprendizaje que crea dinámicamente variantes de problemas en tiempo de prueba y aplica aprendizaje por refuerzo a cada instancia de prueba.
TTRL aprovecha también en inferencia el mecanismo de verificación usado durante el entrenamiento para refinar más las respuestas.
En el MIT Integration Bee, TTRL elevó el 73% logrado solo con LADDER a 90%, alcanzando un desempeño de estado del arte superior al de OpenAI o1.
Este resultado muestra que, incluso sin escalar la arquitectura ni usar supervisión humana, la descomposición estratégica de problemas y el autoaprendizaje basado en verificación pueden generar grandes mejoras de desempeño.

1 comentarios

GN⁺ 2025-03-08

Opiniones de Hacker News

Es sorprendente la cantidad de avances en ML que se están viendo esta semana
Solo en los últimos dos días vi al menos 3 resultados interesantes y prometedores, y el equipo de investigación de Google mostró que se pueden combinar redes neuronales y CLA mediante compuertas lógicas digitales
Así que incluso surge la posibilidad de reducir varios problemas no lineales a circuitos digitales simples y eficientes; hoy también llegó a la portada de HN: https://news.ycombinator.com/item?id=43286161
Como siguen apareciendo resultados que te rompen la cabeza sobre redes neuronales, lógica e inteligencia en general, uno se pregunta qué tan cerca estamos de entender realmente, desde primeros principios, cómo funciona la inteligencia
- Cosas como esta eran casi recetas secretas que la gente venía guardando desde hace más o menos un año
  Después de que DeepSeek lo publicara como open source, su valor bajó mucho, y parece que las empresas prefieren capitalizarlo en reputación antes de que alguien se les adelante
  En septiembre de 2023 hice lo mismo con fine-tuning de Llama 2, pero no conseguí aprobación para compartirlo con nadie
- Es interesante ver tantos enfoques nuevos en AI/ML ahora que la industria por fin se dio cuenta de que no se llega a AGI solo con escalado ingenuo
  Tiene la ventaja de que los jugadores pequeños también pueden competir y contribuir con innovación real, y contrasta con el ambiente que jugadores grandes como OpenAI/MS intentaron crear durante años, haciendo creer que el open source jamás podría alcanzarlos
  En los últimos años se desperdiciaron demasiados recursos, tiempo y dinero en escalar cómputo puro de GPU
  Gary Marcus lo venía señalando desde hace años, y los resultados decepcionantes de GPT-4.5, entrenado durante unos 2 años, parecen respaldarlo
- Ahora estamos como en un huerto nuevo lleno de fruta al alcance de la mano
  Más allá de su utilidad final, hay mucho brillo, mucho hype, muchas sorpresas y tanto dinero entrando que cuesta seguirle el ritmo
  Por eso muchas de las personas más capaces se interesaron, y naturalmente se están acumulando intentos por lograr avances
- Los avances en LLM se están volviendo como los nuevos avances en baterías
  Por ahora solo falta capacidad para cuantificar los trade-offs
- Parece estar relacionado con que las conferencias importantes pronto empiezan a recibir papers
  Algunas conferencias prohíben publicar preprints durante las semanas previas al envío, así que es posible que la gente se haya apurado a subirlos
Me recuerda una frase del famoso matemático de teoría de números Hendrik Lenstra: “Para todo problema irresoluble, hay un problema más simple que también es irresoluble”
- Me pregunto si esa cita es real
  Conozco la frase de George Pólya: “Si no puedes resolver el problema propuesto, intenta primero resolver un problema relacionado más simple”, pero no encontré la fuente de la cita de Lenstra
- Esto no da una inducción elegante
  A menos que lo haya dicho como insulto
Su enfoque de aprendizaje por refuerzo en tiempo de prueba se ve un poco sospechoso
Según lo entiendo, TTRL hace que el modelo de lenguaje genere versiones más fáciles de los casos de prueba, luego ejecuta aprendizaje por refuerzo sobre esos problemas simplificados y espera que también mejore el desempeño en el problema original
El problema es que usan un integrador numérico para verificar los problemas simplificados
Es posible imaginar que se generen problemas casi indistinguibles del original, y que el modelo entrene cerca de los casos de prueba en un estado donde conoce la respuesta
Parece como entrenar sobre el conjunto de prueba, aunque el resto del paper está bien
- Creo que la tarea que resuelve el modelo es integración simbólica
  Es un problema difícil de resolver incluso si el modelo puede usar una herramienta de integración numérica sobre el problema original
LADDER mostró ser efectivo en integración matemática, y dicen que subió la precisión de Llama 3.2 3B del 1% al 82% en problemas de nivel universitario
- También hay que tener en cuenta que los sistemas modernos de reescritura de términos rinden muy bien en integración simbólica: https://rulebasedintegration.org/
Frank Herbert ya lo sabía
Esto básicamente se parece a implementar la autoverificación recursiva de los mentats de Dune
El aprendizaje/aprendizaje por refuerzo en tiempo de prueba definitivamente parece el enfoque correcto para las IA matemáticas del futuro
Es una de las pocas maneras de volcar una cantidad absurda de recursos de cómputo en un problema específico, por ejemplo 10^5 GPU durante varios días, y esperar progreso incluso cuando el escalado de la inferencia en tiempo de prueba al principio no funciona bien
Por ejemplo, se puede pensar en ejecutar MCTS sobre una posición de Go con una red de valor/política mala
AlphaProof ya hizo algo así, pero da gusto volver a verlo con buenos resultados
- El punto interesante es cuánto de la mejora de desempeño se puede destilar en un LLM de tamaño pequeño
  Eso daría un mejorador de políticas, es decir, aprendizaje por refuerzo en tiempo de prueba para problemas similares, y permitiría imitar mejor la forma en que funciona AlphaZero
  Y también permitiría ver qué tan fuerte puede llegar a ser, en teoría, una red neuronal pequeña como una de 32B
Como referencia, el equipo de Tufa Labs incluye al equipo MindsAI, conocido por ARC-AGI
https://tufalabs.ai/team.html
Algunos nombres son demasiado tentadores: https://arxiv.org/abs/1507.02672
Al final del paper mencionan dos problemas clasificatorios de la MIT Integration Bee 2025 en los que el sistema se siguió equivocando
Dicen que esos problemas estaban entre los ejes más complejos del examen, pero el primero es simplemente ∫ ∛(x · ∜(x · ∜(x · √(x · √(x · ⋯ ))))) dx y, al final, basta con calcular 1/3 + 1/(34) + 1/(34*5) + ...
Así que no parece matemática muy avanzada
- Aun así, es un modelo 7B
  El problema no es avanzado, pero el modelo tampoco lo es tanto
El hecho de que esto funcione aunque sea un poco ya es bastante interesante, y más aún que parezca funcionar muy bien en matemáticas
Dicho eso, este paper forma parte de la tendencia actual de difuminar la frontera entre entrenamiento e inferencia
Parte del método consiste en descomponer preguntas cuya respuesta no se conoce en preguntas más fáciles, y aplicar aprendizaje por refuerzo sobre esas preguntas con GRPO usando un verificador numérico
El modelo reforzado de esa forma puede responder más preguntas
Me gusta este enfoque
Es algo que las personas también hacen mucho: darle vueltas a algo, invertirlo mentalmente y razonar por analogía
Si se suma aprendizaje en tiempo de prueba, se puede pensar mucho más que simplemente agregando tokens al contexto durante una inferencia fija
Así como DeepSeek y o1/o3 mostraron que se puede aumentar la capacidad generando y evaluando tokens en tiempo de inferencia, parece que también se puede aumentar la capacidad mediante fine-tuning automático en tiempo de inferencia
Espero que, cuando estas técnicas se consoliden, surja una nueva forma de hablar y pensar sobre ellas
En cierto nivel, todas parecen parte del mismo proceso fundamental y, en cualquier caso, son realmente geniales

LADDER: un LLM que se mejora a sí mismo mediante descomposición recursiva de problemas

El cuello de botella de aprendizaje al que apunta LADDER

Aprendizaje autodirigido y condiciones de verificación

Benchmark de integración y resultados de TTRL

Lecturas relacionadas

1 comentarios

Opiniones de Hacker News