16 puntos por GN⁺ 2025-01-29 | Aún no hay comentarios. | Compartir por WhatsApp

¿Qué es DeepSeek-R1?

  • El modelo o1 de OpenAI fue entrenado usando más cómputo para que los LLMs pudieran realizar mejor tareas de razonamiento.
  • DeepSeek-R1 muestra un rendimiento similar o superior al modelo o1 de OpenAI, y aprendió a razonar sin supervisión humana mediante aprendizaje por refuerzo (RL) puro.
  • La publicación de DeepSeek-R1 plantea varias preguntas sobre la recolección de datos, el entrenamiento del modelo y las leyes de escalado.

¿Cómo lo hicieron?

  • DeepSeek-R1 es un modelo de razonamiento construido sobre DeepSeek-V3, y es un modelo Mixture of Experts (MoE) de 671B.
  • DeepSeek-R1-Zero fue entrenado usando únicamente aprendizaje por refuerzo, y utiliza Group Relative Policy Optimization (GRPO) para mejorar la eficiencia.
  • DeepSeek-R1 mejora la claridad y la legibilidad en las etapas iniciales usando ejemplos pequeños, y luego genera respuestas consistentes mediante aprendizaje por refuerzo y etapas de refinamiento.

Open-R1: las piezas que faltan

  • La publicación de DeepSeek-R1 fue de gran ayuda para la comunidad, pero no se liberaron ni el dataset ni el código.
  • El proyecto Open-R1 busca reconstruir los datos y el pipeline de entrenamiento de DeepSeek-R1, y aportar transparencia sobre cómo el aprendizaje por refuerzo mejora el razonamiento.

Plan por etapas de Open-R1

  1. Reproducir los modelos R1-Distill: extraer datasets de razonamiento de alta calidad de DeepSeek-R1 y realizar entrenamiento por destilación
  2. Replicar el pipeline de entrenamiento de RL puro de R1-Zero: construir datasets a gran escala de matemáticas, lógica y código
  3. Construir el proceso de entrenamiento por etapas de modelo base → SFT → RL

Cómo contribuir

  • Hay varias formas de contribuir al proyecto Open-R1, como aportar código o participar en las discusiones en Hugging Face.
  • Este proyecto se enfoca no solo en reproducir los resultados, sino también en compartir aprendizajes con la comunidad.

Aún no hay comentarios.

Aún no hay comentarios.