DeepScaleR: superar a O1-Preview con un modelo de 1.5B usando RL

(pretty-radio-b75.notion.site)

5 puntos por GN⁺ 2025-02-12 | 1 comentarios | Compartir por WhatsApp

DeepScaleR-1.5B-Preview: modelo ajustado finamente con aprendizaje por refuerzo (RL) a partir de Deepseek-R1-Distilled-Qwen-1.5B
Logró una precisión Pass@1 de 43.1% en AIME2024 (mejora de +14.3% frente al modelo base),
→ ¡supera el rendimiento de OpenAI o1-preview!
Entrenado con 3,800 horas GPU A100 ($4500) → escalado de RL 18.42 veces más eficiente frente a 70,000 horas GPU A100
Dataset, código y registros de entrenamiento publicados como open source → cualquiera puede experimentar con expansión de inteligencia usando RL

Refuerzo de modelos pequeños con RL

Deepseek-R1 es un modelo open source comparable con OpenAI o1, pero su proceso exacto de entrenamiento no es público
Se investigó cómo desarrollar modelos potentes de razonamiento usando RL con menor cómputo
La mayor limitación del RL tradicional es su alto costo:
→ reproducir los experimentos de Deepseek-R1 requiere al menos 70,000 horas GPU A100
Solución:
- uso de un modelo de destilación (distillation) de alto rendimiento
- introducción de la técnica "Iterative Lengthening" para escalar RL gradualmente → reducción del cómputo a 3,800 horas GPU A100

Construcción del dataset

Se usaron los datasets AIME (1984-2023) + AMC (antes de 2023) + Omni-MATH + Still
Proceso de depuración de datos:
1. Extracción de respuestas: uso de gemini-1.5-pro-002 para extraer respuestas de soluciones oficiales
2. Eliminación de duplicados: eliminación de problemas similares con embeddings basados en sentence-transformers/all-MiniLM-L6-v2
3. Filtrado de problemas no evaluables: eliminación de problemas difíciles de calificar automáticamente con sympy
Al final se obtuvieron 40,000 pares problema-respuesta, con planes de ampliar los datos en el futuro

Función de recompensa (Reward Function)

Igual que en Deepseek-R1, se aplicó un "Outcome Reward Model (ORM)":
- 1 punto: respuesta correcta en el formato adecuado (pasa la validación de sympy)
- 0 puntos: respuesta incorrecta, error de formato (como ausencia de <think>...</think>)
Motivo para no usar un "Process Reward Model (PRM)":
- prevenir el reward hacking → evitar el efecto secundario de que el modelo solo intente seguir el formato

"Iterative Lengthening": técnica para expandir el entrenamiento RL por etapas

Step 1: inicio del entrenamiento RL con contexto de 8K

Motivo:
- las respuestas incorrectas tienen en promedio 20,346 tokens, mientras que las correctas 6,395 tokens → las respuestas largas aumentan la probabilidad de error
- entrenar con contexto largo desde el inicio es ineficiente → primero se optimizó con 8K
Resultado:
- AIME Pass@1 mejoró de 28.9% → 33.9% (+5%)
- disminuyó la cantidad de tokens innecesarios → la longitud promedio de respuesta se redujo en 10,484 tokens

Step 2: expansión a contexto de 16K

Después de 1,000 pasos de entrenamiento, el modelo mostró una tendencia a pensar (razonar) por más tiempo
Pero el límite de 8K restringía el efecto del entrenamiento → se expandió a 16K
Ventajas:
- más de 2 veces más rápido que entrenar con 16K desde el inicio (evitando que la longitud promedio de respuesta pase de 3,000 → 9,000 tokens)
- alcanzó 38% de precisión en AIME2024

Step 3: "24K Magic" - mejora final del rendimiento

El rendimiento se estancó en 16K → expansión final a contexto de 24K
Como resultado, alcanzó una precisión Pass@1 de 43.1% en AIME2024, ¡superando a OpenAI o1-preview!

Resultados finales de evaluación

El modelo DeepScaleR fue evaluado en varios benchmarks matemáticos, incluidos AIME, MATH 500, AMC 2023, Minerva Math y OlympiadBench
En AIME2024, DeepScaleR-1.5B-Preview logró una precisión de 43.1%, superior a la del modelo OpenAI o1-preview
También en MATH 500 y AMC 2023, a pesar de ser un modelo de 1.5B, registró un rendimiento comparable o superior al de modelos de 7B
Incluso frente a investigaciones previas (rStar, PRIME, SimpleRL basados en RL), mostró la mejor eficiencia

Resumen clave (Key Takeaways)

El escalado con RL también es posible en modelos pequeños
- antes existía la percepción de que el RL solo era efectivo en modelos grandes
- pero incluso modelos pequeños ajustados con datos de alta calidad pueden aprender capacidades potentes de razonamiento mediante RL
- DeepScaleR mejoró de 28.9% → 43.1% (precisión en AIME)
La técnica "Iterative Lengthening" permite una expansión de longitud efectiva
- estudios previos reportaban mejoras mínimas de rendimiento en contextos de más de 16K
- la expansión gradual 8K → 16K → 24K maximizó el rendimiento

Conclusión: democratización del escalado de RL

DeepScaleR-1.5B-Preview es el primer modelo open source de RL que supera a O1-preview
Con solo 3,800 horas GPU A100 ($4500) es posible construir un modelo de alto rendimiento → demuestra el potencial de la investigación en RL de bajo costo
Planean seguir impulsando el desarrollo de modelos de razonamiento basados en RL junto con la comunidad open source

🔗 Recursos open source:

1 comentarios

GN⁺ 2025-02-12

Opiniones en Hacker News

Este modelo fue ajustado al benchmark para resolver un problema específico, y en otras tareas rinde peor que O1-Preview. Si no quieres resolver específicamente este problema, no vale mucho la pena prestarle atención. Aun así, sigue siendo impresionante
Los modelos pequeños reforzados van a ganar. Mira nuestra civilización, empresas y equipos: hay muchas personas especializadas, no un solo genio enorme
El problema es el énfasis excesivo en los benchmarks actuales. Idealmente, habría que hacer benchmarks comparándolos con los KPI de los usuarios
Lo importante es una fórmula simple y confiable para entrenar un modelo de 1B que pueda mostrar un rendimiento fuerte en tareas específicas. Antes no existía algo así. Los dispositivos edge se volverán mucho más inteligentes
Puede que yo sea muy ingenuo, pero ¿de verdad hay gente que confía en este benchmark? ¿Realmente significan algo? Parecen demasiado fáciles de manipular y no se siente como una forma precisa de saber cómo se comparan los modelos entre sí. Parece que si introduces problemas parecidos al benchmark, pero que el modelo no ha visto, el rendimiento cae bastante
¿Hay algún prompt bueno y simple para probar estos nuevos modelos de "razonamiento"? Eso de "cuenta la letra R en la palabra strawberry" ya aburre un poco
Estoy probando esto localmente con Ollama y la versión GGUF cuantizada más pequeña (769MB)
Obtuve la respuesta correcta después de revisar las respuestas aquí: https://gist.github.com/simonw/5943a77f35d1d5185f045fb53898aa52. Pero cometió un error importante al principio
¿Un modelo CoT puede llamar funciones externas? ¿Qué pasaría si tuviera acceso a una calculadora?
Sería genial si de esta forma se pudiera obtener un modelo sin censura
En realidad es bastante tonto. Le pedí que decodificara una secuencia ASCII y respondió puras tonterías. Probé phi-4 Q4 y sí lo resolvió. 9GB frente a 2GB (razonamiento). Parece que en 2GB no cabe suficiente información, así que fuera de resolver problemas matemáticos comunes o saber qué había en los datos de entrenamiento, no parece muy útil
En la universidad, honestamente a esto le llamaban sobreajuste. No parece funcionar bien fuera del conjunto de evaluación

DeepScaleR: superar a O1-Preview con un modelo de 1.5B usando RL

Refuerzo de modelos pequeños con RL

Construcción del dataset

Función de recompensa (Reward Function)

"Iterative Lengthening": técnica para expandir el entrenamiento RL por etapas

Step 1: inicio del entrenamiento RL con contexto de 8K

Step 2: expansión a contexto de 16K

Step 3: "24K Magic" - mejora final del rendimiento

Resultados finales de evaluación

Resumen clave (Key Takeaways)

Conclusión: democratización del escalado de RL

Lecturas relacionadas

1 comentarios

Opiniones en Hacker News