Open-R1: proyecto de reproducción completamente open source de DeepSeek-R1

(huggingface.co)

16 puntos por GN⁺ 2025-01-29 | Aún no hay comentarios. | Compartir por WhatsApp

¿Qué es DeepSeek-R1?

El modelo o1 de OpenAI fue entrenado usando más cómputo para que los LLMs pudieran realizar mejor tareas de razonamiento.
DeepSeek-R1 muestra un rendimiento similar o superior al modelo o1 de OpenAI, y aprendió a razonar sin supervisión humana mediante aprendizaje por refuerzo (RL) puro.
La publicación de DeepSeek-R1 plantea varias preguntas sobre la recolección de datos, el entrenamiento del modelo y las leyes de escalado.

DeepSeek-R1 es un modelo de razonamiento construido sobre DeepSeek-V3, y es un modelo Mixture of Experts (MoE) de 671B.
DeepSeek-R1-Zero fue entrenado usando únicamente aprendizaje por refuerzo, y utiliza Group Relative Policy Optimization (GRPO) para mejorar la eficiencia.
DeepSeek-R1 mejora la claridad y la legibilidad en las etapas iniciales usando ejemplos pequeños, y luego genera respuestas consistentes mediante aprendizaje por refuerzo y etapas de refinamiento.

La publicación de DeepSeek-R1 fue de gran ayuda para la comunidad, pero no se liberaron ni el dataset ni el código.
El proyecto Open-R1 busca reconstruir los datos y el pipeline de entrenamiento de DeepSeek-R1, y aportar transparencia sobre cómo el aprendizaje por refuerzo mejora el razonamiento.

Reproducir los modelos R1-Distill: extraer datasets de razonamiento de alta calidad de DeepSeek-R1 y realizar entrenamiento por destilación
Replicar el pipeline de entrenamiento de RL puro de R1-Zero: construir datasets a gran escala de matemáticas, lógica y código
Construir el proceso de entrenamiento por etapas de modelo base → SFT → RL

Hay varias formas de contribuir al proyecto Open-R1, como aportar código o participar en las discusiones en Hugging Face.
Este proyecto se enfoca no solo en reproducir los resultados, sino también en compartir aprendizajes con la comunidad.