8 puntos por GN⁺ 2025-01-21 | 5 comentarios | Compartir por WhatsApp
  • DeepSeek presentó DeepSeek-R1-Zero y DeepSeek-R1, su primera generación de modelos de razonamiento
  • DeepSeek-R1-Zero fue entrenado únicamente con aprendizaje por refuerzo (RL) a gran escala, y adquirió por sí mismo diversas capacidades de razonamiento
  • Sin embargo, presentaba problemas de repetición/legibilidad y mezcla de idiomas, por lo que se propone DeepSeek-R1, que añade una etapa de SFT para corregir eso y mejorar el rendimiento
  • DeepSeek-R1 alcanza un rendimiento al nivel de OpenAI-o1 en tareas de matemáticas, código y razonamiento
  • Para apoyar a la comunidad de investigación, se publican DeepSeek-R1-Zero, DeepSeek-R1 y modelos de destilación creados transfiriendo los patrones de razonamiento de esos modelos
  • En particular, el modelo DeepSeek-R1-Distill-Qwen-32B logró un rendimiento superior a OpenAI-o1-mini

Resumen del modelo

  • Post-Training: aprendizaje por refuerzo a gran escala sobre el modelo base

    • DeepSeek-R1-Zero es un modelo de primera generación al que se le aplicó solo RL, sin SFT
    • A través del proceso de RL, adquirió diversos patrones de razonamiento como exploración de Chain-of-thought, autoverificación y reflexión (reflection)
    • Esto muestra que “incluso sin SFT, un modelo grande puede obtener fuertes capacidades de razonamiento solo con RL”
    • DeepSeek-R1, basado en este proceso, añadió SFT en una etapa intermedia para reforzar aún más la capacidad de razonamiento y el uso general del lenguaje
  • Distillation: los modelos pequeños también pueden ser potentes

    • Se demostró que los patrones de razonamiento aprendidos por un modelo grande pueden transferirse también a modelos pequeños
    • Usando datos generados por DeepSeek-R1, se realizó fine-tuning sobre series como Qwen y Llama, y los modelos densos (dense) pequeños también mostraron un excelente rendimiento
    • Se publicaron modelos destilados de distintos tamaños, como 1.5B, 7B, 8B, 14B, 32B y 70B

Descarga de modelos

DeepSeek-R1 Models

  • DeepSeek-R1-Zero / DeepSeek-R1
    • Parámetros: 671B en total (37B de parámetros activos reales)
    • Longitud de contexto de 128K
    • Se pueden descargar en HuggingFace y fueron entrenados con RL sobre la base del modelo DeepSeek-V3-Base

DeepSeek-R1-Distill Models

  • Destilados sobre la base de las series Qwen2.5 y Llama3
  • Se ofrecen distintos tamaños de parámetros, desde 1.5B hasta 70B
  • Fueron afinados usando datos de razonamiento de alta calidad generados por DeepSeek-R1
  • Como se modificaron algunas configuraciones (tokenizer, config), es necesario usar la configuración indicada

Resultados de evaluación

DeepSeek-R1-Evaluation

  • DeepSeek-R1 obtuvo puntajes altos en inglés (MMLU, DROP, etc.), código (Codeforces, LiveCodeBench, etc.), matemáticas (AIME, MATH-500, etc.) y chino (C-Eval, etc.)
  • En particular, mostró altos registros de pass@1 en matemáticas, como AIME y MATH-500
  • En comparación con OpenAI-o1-mini, Claude y GPT-4, mostró un rendimiento competitivo en varios apartados

Distilled Model Evaluation

  • Los modelos destilados también mostraron resultados sobresalientes en benchmarks de matemáticas (AIME, MATH, etc.) y código (Codeforces, etc.)
  • DeepSeek-R1-Distill-Qwen-32B y DeepSeek-R1-Distill-Llama-70B mostraron altos valores de pass@1 y gran capacidad para resolver código, lo que sugiere el potencial de uso de modelos pequeños

Sitio web de chat y plataforma API

Cómo ejecutarlo localmente

DeepSeek-R1 Models

  • Puede ejecutarse consultando el repositorio de DeepSeek-V3 para revisar detalles como la configuración de longitud máxima de 128K tokens

DeepSeek-R1-Distill Models

  • Se pueden usar de la misma forma que los modelos Qwen y Llama
  • Ejemplo: se pueden servir rápidamente usando vLLM, SGLang, etc.
  • Se recomienda configurar la temperatura (temperature) alrededor de 0.5~0.7

Licencia

  • La serie DeepSeek-R1 se distribuye bajo licencia MIT
  • Sin embargo, hay que tener en cuenta que los modelos basados en Qwen siguen Apache 2.0 y los basados en Llama siguen la licencia llama3.x
  • Tiene una política de licencias flexible, con permiso para uso comercial y para crear modelos modificados o derivados

5 comentarios

 
crawler 2025-01-21

He visto que algunas personas ponen enlaces de forma vistosa en los comentarios o incluso citan el texto principal; ¿de casualidad hay algún lugar donde estén resumidas las sintaxis que se pueden usar en los comentarios?
Después de pasar unos días viendo el sitio, cada vez me gusta más y hasta me dan ganas de dejar comentarios.

 
savvykang 2025-01-21

https://news.hada.io/guidelines

> Compatible con Markdown
> Se admite tanto en el contenido como en los comentarios.
> Básicamente sigue la especificación CommonMark.
> Las imágenes no son compatibles.

 
crawler 2025-01-21

Gracias. Quise intentar usar una cita en otro comentario, pero como no podía editarlo, por seguridad no la puse; al final sí era Markdown correcto.
Lo voy a usar, me será útil jaja

 
GN⁺ 2025-01-21
Comentarios de Hacker News
  • Estoy haciendo experimentos con una versión cuantizada de Llama 3. Ejecuto el modelo y registro los logs usando Ollama y el plugin llm-ollama. Después de cargar el modelo, puedo probar varios prompts con uvx. Escribí los resultados del experimento en el blog.

  • DeepSeek-R1-Zero tenía problemas de repeticiones, legibilidad y mezcla de idiomas. Para resolver eso, introdujeron DeepSeek-R1. En experimentos usando OpenAI o1 y QwQ-32B-Preview, QwQ tendía a caer en bucles de repetición. DeepSeek-R1 resuelve esos problemas. Al estar disponible bajo licencia MIT, más gente puede evaluarlo.

  • Con la pregunta sobre cuántas letras 'r' tiene "strawberry", muestra el proceso en el que el modelo debate consigo mismo y encuentra la respuesta correcta. Mencionan que ese proceso es divertido.

  • Al comparar ChatGPT o1, DeepSeek DeepThink y Gemini 2.0 Flash Thinking Experimental, ChatGPT o1 fue el mejor y DeepSeek fue el más débil. Al probar DeepSeek-R1, mostró un rendimiento mejor que antes. En casos de uso personales, sentí que el LLM era más útil.

  • Salió un benchmark en el que el modelo Llama 8B es más potente que Claude 3.5 Sonnet. Expresan sorpresa de que un modelo pequeño muestre un rendimiento tan fuerte.

  • Mencionan que es sorprendente que una empresa pequeña fundada hace un año pueda competir con OpenAI. Dicen que China está por delante de Estados Unidos en IA y que, al ofrecer el modelo como open source, realmente es una empresa "Open AI".

  • Había expectativas iniciales sobre DS3, pero encontraron problemas como fallas en function calling, baja en la calidad de las respuestas y falta de soporte. Sin embargo, gracias a eso bajó el tráfico hacia otras API y mejoró la latencia.

  • Expresan confusión sobre la diferencia entre las versiones 7b y 8b. Avisan que subieron la versión Qwen 7B a Ollama.