DeepSeek-R1 ilustrado
(newsletter.languagemodels.co)The Illustrated DeepSeek-R1
-
Introducción a DeepSeek-R1
- DeepSeek-R1 es un hito importante en el avance de la IA y ha tenido un gran impacto en la comunidad de investigación y desarrollo de ML.
- Este modelo es un modelo de pesos abiertos y también ofrece versiones destiladas de menor tamaño.
- Comparte y refleja métodos de entrenamiento que reproducen modelos de razonamiento como OpenAI O1.
-
Resumen del entrenamiento de LLM
- DeepSeek-R1, al igual que los LLM existentes, genera un token a la vez y destaca en la resolución de problemas matemáticos y de razonamiento.
- El proceso general para crear un LLM de alta calidad es el siguiente:
- Una etapa de modelado de lenguaje que usa grandes volúmenes de datos web para predecir la siguiente palabra.
- Una etapa de ajuste fino supervisado para que el modelo pueda seguir instrucciones y responder preguntas.
- Una etapa de alineación por preferencias para refinar el comportamiento del modelo según las preferencias humanas.
-
Proceso de entrenamiento de DeepSeek-R1
- DeepSeek-R1 usa el modelo base de DeepSeek-V3 y pasa por etapas de SFT y de alineación por preferencias.
- Hay tres aspectos especiales a destacar en el proceso de creación de R1:
- Datos SFT con cadenas de razonamiento largas: incluye 600 mil ejemplos de razonamiento largo.
- LLM temporal de razonamiento de alta calidad: un modelo especializado en razonamiento, creado con una pequeña cantidad de datos etiquetados y aprendizaje por refuerzo a gran escala.
- Creación de un modelo de razonamiento mediante aprendizaje por refuerzo a gran escala: se generan ejemplos de razonamiento a través de un modelo llamado R1-Zero, y con ellos se entrena un modelo general.
-
Características de R1-Zero
- R1-Zero sobresale en tareas de razonamiento incluso sin un conjunto de entrenamiento SFT etiquetado.
- Esto sugiere que los modelos base modernos están superando cierto nivel de calidad y capacidad.
- Los problemas de razonamiento pueden verificarse o etiquetarse automáticamente.
-
Generación de datos de razonamiento para SFT
- El modelo temporal de razonamiento pasa por una etapa de entrenamiento SFT usando unos pocos miles de ejemplos de problemas de razonamiento.
- Estos datos se crean procesando las salidas de R1-Zero para hacerlas más legibles.
-
Etapa general de entrenamiento con RL
- R1 sobresale tanto en tareas de razonamiento como en las que no lo son.
- Se aplica a diversas aplicaciones utilizando modelos de recompensa de utilidad y seguridad.
-
Arquitectura
- DeepSeek-R1 está compuesto por 61 bloques decodificadores Transformer.
- Los tres primeros están formados por capas densas, y el resto por capas de mezcla de expertos.
-
Conclusión
- Ayuda a comprender los conceptos clave del modelo DeepSeek-R1.
- Se puede encontrar información adicional en el libro Hands-On Large Language Models o en GitHub.
Aún no hay comentarios.