2 puntos por GN⁺ 2025-01-28 | Aún no hay comentarios. | Compartir por WhatsApp

The Illustrated DeepSeek-R1

  • Introducción a DeepSeek-R1

    • DeepSeek-R1 es un hito importante en el avance de la IA y ha tenido un gran impacto en la comunidad de investigación y desarrollo de ML.
    • Este modelo es un modelo de pesos abiertos y también ofrece versiones destiladas de menor tamaño.
    • Comparte y refleja métodos de entrenamiento que reproducen modelos de razonamiento como OpenAI O1.
  • Resumen del entrenamiento de LLM

    • DeepSeek-R1, al igual que los LLM existentes, genera un token a la vez y destaca en la resolución de problemas matemáticos y de razonamiento.
    • El proceso general para crear un LLM de alta calidad es el siguiente:
      1. Una etapa de modelado de lenguaje que usa grandes volúmenes de datos web para predecir la siguiente palabra.
      2. Una etapa de ajuste fino supervisado para que el modelo pueda seguir instrucciones y responder preguntas.
      3. Una etapa de alineación por preferencias para refinar el comportamiento del modelo según las preferencias humanas.
  • Proceso de entrenamiento de DeepSeek-R1

    • DeepSeek-R1 usa el modelo base de DeepSeek-V3 y pasa por etapas de SFT y de alineación por preferencias.
    • Hay tres aspectos especiales a destacar en el proceso de creación de R1:
      1. Datos SFT con cadenas de razonamiento largas: incluye 600 mil ejemplos de razonamiento largo.
      2. LLM temporal de razonamiento de alta calidad: un modelo especializado en razonamiento, creado con una pequeña cantidad de datos etiquetados y aprendizaje por refuerzo a gran escala.
      3. Creación de un modelo de razonamiento mediante aprendizaje por refuerzo a gran escala: se generan ejemplos de razonamiento a través de un modelo llamado R1-Zero, y con ellos se entrena un modelo general.
  • Características de R1-Zero

    • R1-Zero sobresale en tareas de razonamiento incluso sin un conjunto de entrenamiento SFT etiquetado.
    • Esto sugiere que los modelos base modernos están superando cierto nivel de calidad y capacidad.
    • Los problemas de razonamiento pueden verificarse o etiquetarse automáticamente.
  • Generación de datos de razonamiento para SFT

    • El modelo temporal de razonamiento pasa por una etapa de entrenamiento SFT usando unos pocos miles de ejemplos de problemas de razonamiento.
    • Estos datos se crean procesando las salidas de R1-Zero para hacerlas más legibles.
  • Etapa general de entrenamiento con RL

    • R1 sobresale tanto en tareas de razonamiento como en las que no lo son.
    • Se aplica a diversas aplicaciones utilizando modelos de recompensa de utilidad y seguridad.
  • Arquitectura

    • DeepSeek-R1 está compuesto por 61 bloques decodificadores Transformer.
    • Los tres primeros están formados por capas densas, y el resto por capas de mezcla de expertos.
  • Conclusión

    • Ayuda a comprender los conceptos clave del modelo DeepSeek-R1.
    • Se puede encontrar información adicional en el libro Hands-On Large Language Models o en GitHub.

Aún no hay comentarios.

Aún no hay comentarios.