¿Qué es DeepSeek-R1?
- El modelo o1 de OpenAI fue entrenado usando más cómputo para que los LLMs pudieran realizar mejor tareas de razonamiento.
- DeepSeek-R1 muestra un rendimiento similar o superior al modelo o1 de OpenAI, y aprendió a razonar sin supervisión humana mediante aprendizaje por refuerzo (RL) puro.
- La publicación de DeepSeek-R1 plantea varias preguntas sobre la recolección de datos, el entrenamiento del modelo y las leyes de escalado.
¿Cómo lo hicieron?
- DeepSeek-R1 es un modelo de razonamiento construido sobre DeepSeek-V3, y es un modelo Mixture of Experts (MoE) de 671B.
- DeepSeek-R1-Zero fue entrenado usando únicamente aprendizaje por refuerzo, y utiliza Group Relative Policy Optimization (GRPO) para mejorar la eficiencia.
- DeepSeek-R1 mejora la claridad y la legibilidad en las etapas iniciales usando ejemplos pequeños, y luego genera respuestas consistentes mediante aprendizaje por refuerzo y etapas de refinamiento.
Open-R1: las piezas que faltan
- La publicación de DeepSeek-R1 fue de gran ayuda para la comunidad, pero no se liberaron ni el dataset ni el código.
- El proyecto Open-R1 busca reconstruir los datos y el pipeline de entrenamiento de DeepSeek-R1, y aportar transparencia sobre cómo el aprendizaje por refuerzo mejora el razonamiento.
Plan por etapas de Open-R1
- Reproducir los modelos R1-Distill: extraer datasets de razonamiento de alta calidad de DeepSeek-R1 y realizar entrenamiento por destilación
- Replicar el pipeline de entrenamiento de RL puro de R1-Zero: construir datasets a gran escala de matemáticas, lógica y código
- Construir el proceso de entrenamiento por etapas de modelo base → SFT → RL
Cómo contribuir
- Hay varias formas de contribuir al proyecto Open-R1, como aportar código o participar en las discusiones en Hugging Face.
- Este proyecto se enfoca no solo en reproducir los resultados, sino también en compartir aprendizajes con la comunidad.
Aún no hay comentarios.