LADDER: mejora de la capacidad de resolución de problemas de los LLM mediante auto-mejora
-
Introducción a LADDER: LADDER es un framework en el que los modelos de lenguaje grandes (LLM) mejoran por sí mismos su capacidad para resolver problemas al transformar gradualmente problemas complejos en formas más simples. Genera transformaciones de problemas más fáciles aprovechando las capacidades del propio modelo, sin depender de datasets existentes ni de retroalimentación humana.
-
Efectividad: LADDER mejoró la precisión de Llama 3.2 3B en el área de integración matemática de 1% a 82%, y permitió que Qwen2.5 7B Deepseek-R1 Distilled alcanzara 73% en la ronda clasificatoria del MIT Integration Bee.
-
Introducción a TTRL: TTRL (Test-Time Reinforcement Learning) es un método que realiza aprendizaje por refuerzo durante la inferencia mediante transformaciones del problema de prueba. Gracias a esto, Qwen2.5 7B Deepseek-R1 Distilled registró una puntuación de vanguardia de 90% en la ronda clasificatoria del MIT Integration Bee, superando el rendimiento de OpenAI o1.
-
Importancia de los resultados: Estos resultados muestran que el aprendizaje autónomo y estratégico puede lograr mejoras significativas de capacidad incluso sin escalar la arquitectura ni contar con supervisión humana.
1 comentarios
Opinión de Hacker News
Me pregunto qué está pasando esta semana. En los últimos dos días he visto varios avances interesantes en machine learning
Me vino a la mente una cita del famoso matemático de teoría de números Hendrik Lenstra
Su enfoque de aprendizaje por refuerzo en tiempo de prueba me parece un poco sospechoso
Demuestran la efectividad de LADDER en el tema de integración matemática. Mejoran la precisión de Llama 3.2 3B de 1% a 82%
Frank Herbert ya lo sabía. Esta es una implementación de la autoinspección recursiva de los mentats descrita en Dune
El entrenamiento/aprendizaje por refuerzo en tiempo de prueba es un enfoque adecuado para la IA matemática del futuro. Probablemente sea una de las pocas formas de usar una cantidad enorme de cómputo para un problema dado. Alphaproof ya hacía esto, pero está bien que se vuelva a hacer y con buenos resultados
Fuera de tema, pero su sitio es hermoso. Se siente como haber encontrado una mina de oro
Algunos nombres son demasiado atractivos
Al final del paper mencionan dos problemas del examen clasificatorio del MIT Integration Bee 2025. Dicen que el sistema siguió dando respuestas incorrectas