DeepScaleR: superar a O1-Preview con un modelo de 1.5B usando RL
(pretty-radio-b75.notion.site)- DeepScaleR-1.5B-Preview: modelo ajustado finamente con aprendizaje por refuerzo (RL) a partir de Deepseek-R1-Distilled-Qwen-1.5B
- Logró una precisión Pass@1 de 43.1% en AIME2024 (mejora de +14.3% frente al modelo base),
→ ¡supera el rendimiento de OpenAIo1-preview! - Entrenado con 3,800 horas GPU A100 ($4500) → escalado de RL 18.42 veces más eficiente frente a 70,000 horas GPU A100
- Dataset, código y registros de entrenamiento publicados como open source → cualquiera puede experimentar con expansión de inteligencia usando RL
Refuerzo de modelos pequeños con RL
- Deepseek-R1 es un modelo open source comparable con OpenAI
o1, pero su proceso exacto de entrenamiento no es público - Se investigó cómo desarrollar modelos potentes de razonamiento usando RL con menor cómputo
- La mayor limitación del RL tradicional es su alto costo:
→ reproducir los experimentos deDeepseek-R1requiere al menos 70,000 horas GPU A100 - Solución:
- uso de un modelo de destilación (distillation) de alto rendimiento
- introducción de la técnica "Iterative Lengthening" para escalar RL gradualmente → reducción del cómputo a 3,800 horas GPU A100
Construcción del dataset
-
Se usaron los datasets AIME (1984-2023) + AMC (antes de 2023) + Omni-MATH + Still
-
Proceso de depuración de datos:
- Extracción de respuestas: uso de
gemini-1.5-pro-002para extraer respuestas de soluciones oficiales - Eliminación de duplicados: eliminación de problemas similares con embeddings basados en
sentence-transformers/all-MiniLM-L6-v2 - Filtrado de problemas no evaluables: eliminación de problemas difíciles de calificar automáticamente con
sympy
- Extracción de respuestas: uso de
-
Al final se obtuvieron 40,000 pares problema-respuesta, con planes de ampliar los datos en el futuro
Función de recompensa (Reward Function)
-
Igual que en Deepseek-R1, se aplicó un "Outcome Reward Model (ORM)":
1 punto: respuesta correcta en el formato adecuado (pasa la validación desympy)0 puntos: respuesta incorrecta, error de formato (como ausencia de<think>...</think>)
-
Motivo para no usar un "Process Reward Model (PRM)":
- prevenir el reward hacking → evitar el efecto secundario de que el modelo solo intente seguir el formato
"Iterative Lengthening": técnica para expandir el entrenamiento RL por etapas
Step 1: inicio del entrenamiento RL con contexto de 8K
- Motivo:
- las respuestas incorrectas tienen en promedio 20,346 tokens, mientras que las correctas 6,395 tokens → las respuestas largas aumentan la probabilidad de error
- entrenar con contexto largo desde el inicio es ineficiente → primero se optimizó con 8K
- Resultado:
- AIME Pass@1 mejoró de 28.9% → 33.9% (+5%)
- disminuyó la cantidad de tokens innecesarios → la longitud promedio de respuesta se redujo en 10,484 tokens
Step 2: expansión a contexto de 16K
- Después de 1,000 pasos de entrenamiento, el modelo mostró una tendencia a pensar (razonar) por más tiempo
- Pero el límite de 8K restringía el efecto del entrenamiento → se expandió a 16K
- Ventajas:
- más de 2 veces más rápido que entrenar con 16K desde el inicio (evitando que la longitud promedio de respuesta pase de 3,000 → 9,000 tokens)
- alcanzó 38% de precisión en AIME2024
Step 3: "24K Magic" - mejora final del rendimiento
- El rendimiento se estancó en 16K → expansión final a contexto de 24K
- Como resultado, alcanzó una precisión Pass@1 de 43.1% en AIME2024, ¡superando a OpenAI
o1-preview!
Resultados finales de evaluación
- El modelo DeepScaleR fue evaluado en varios benchmarks matemáticos, incluidos AIME, MATH 500, AMC 2023, Minerva Math y OlympiadBench
- En AIME2024, DeepScaleR-1.5B-Preview logró una precisión de 43.1%, superior a la del modelo OpenAI
o1-preview - También en MATH 500 y AMC 2023, a pesar de ser un modelo de 1.5B, registró un rendimiento comparable o superior al de modelos de 7B
- Incluso frente a investigaciones previas (rStar, PRIME, SimpleRL basados en RL), mostró la mejor eficiencia
Resumen clave (Key Takeaways)
-
El escalado con RL también es posible en modelos pequeños
- antes existía la percepción de que el RL solo era efectivo en modelos grandes
- pero incluso modelos pequeños ajustados con datos de alta calidad pueden aprender capacidades potentes de razonamiento mediante RL
- DeepScaleR mejoró de 28.9% → 43.1% (precisión en AIME)
-
La técnica "Iterative Lengthening" permite una expansión de longitud efectiva
- estudios previos reportaban mejoras mínimas de rendimiento en contextos de más de 16K
- la expansión gradual 8K → 16K → 24K maximizó el rendimiento
Conclusión: democratización del escalado de RL
- DeepScaleR-1.5B-Preview es el primer modelo open source de RL que supera a O1-preview
- Con solo 3,800 horas GPU A100 ($4500) es posible construir un modelo de alto rendimiento → demuestra el potencial de la investigación en RL de bajo costo
- Planean seguir impulsando el desarrollo de modelos de razonamiento basados en RL junto con la comunidad open source
🔗 Recursos open source:
1 comentarios
Opiniones en Hacker News