Presentación del modelo DeepSeek-R1

(github.com/deepseek-ai)

8 puntos por GN⁺ 2025-01-21 | 5 comentarios | Compartir por WhatsApp

DeepSeek presentó DeepSeek-R1-Zero y DeepSeek-R1, su primera generación de modelos de razonamiento
DeepSeek-R1-Zero fue entrenado únicamente con aprendizaje por refuerzo (RL) a gran escala, y adquirió por sí mismo diversas capacidades de razonamiento
Sin embargo, presentaba problemas de repetición/legibilidad y mezcla de idiomas, por lo que se propone DeepSeek-R1, que añade una etapa de SFT para corregir eso y mejorar el rendimiento
DeepSeek-R1 alcanza un rendimiento al nivel de OpenAI-o1 en tareas de matemáticas, código y razonamiento
Para apoyar a la comunidad de investigación, se publican DeepSeek-R1-Zero, DeepSeek-R1 y modelos de destilación creados transfiriendo los patrones de razonamiento de esos modelos
En particular, el modelo DeepSeek-R1-Distill-Qwen-32B logró un rendimiento superior a OpenAI-o1-mini

Resumen del modelo

Post-Training: aprendizaje por refuerzo a gran escala sobre el modelo base
- DeepSeek-R1-Zero es un modelo de primera generación al que se le aplicó solo RL, sin SFT
- A través del proceso de RL, adquirió diversos patrones de razonamiento como exploración de Chain-of-thought, autoverificación y reflexión (reflection)
- Esto muestra que “incluso sin SFT, un modelo grande puede obtener fuertes capacidades de razonamiento solo con RL”
- DeepSeek-R1, basado en este proceso, añadió SFT en una etapa intermedia para reforzar aún más la capacidad de razonamiento y el uso general del lenguaje
Distillation: los modelos pequeños también pueden ser potentes
- Se demostró que los patrones de razonamiento aprendidos por un modelo grande pueden transferirse también a modelos pequeños
- Usando datos generados por DeepSeek-R1, se realizó fine-tuning sobre series como Qwen y Llama, y los modelos densos (dense) pequeños también mostraron un excelente rendimiento
- Se publicaron modelos destilados de distintos tamaños, como 1.5B, 7B, 8B, 14B, 32B y 70B

Descarga de modelos

DeepSeek-R1 Models

DeepSeek-R1-Zero / DeepSeek-R1
- Parámetros: 671B en total (37B de parámetros activos reales)
- Longitud de contexto de 128K
- Se pueden descargar en HuggingFace y fueron entrenados con RL sobre la base del modelo DeepSeek-V3-Base

DeepSeek-R1-Distill Models

Destilados sobre la base de las series Qwen2.5 y Llama3
Se ofrecen distintos tamaños de parámetros, desde 1.5B hasta 70B
Fueron afinados usando datos de razonamiento de alta calidad generados por DeepSeek-R1
Como se modificaron algunas configuraciones (tokenizer, config), es necesario usar la configuración indicada

Resultados de evaluación

DeepSeek-R1-Evaluation

DeepSeek-R1 obtuvo puntajes altos en inglés (MMLU, DROP, etc.), código (Codeforces, LiveCodeBench, etc.), matemáticas (AIME, MATH-500, etc.) y chino (C-Eval, etc.)
En particular, mostró altos registros de pass@1 en matemáticas, como AIME y MATH-500
En comparación con OpenAI-o1-mini, Claude y GPT-4, mostró un rendimiento competitivo en varios apartados

Distilled Model Evaluation

Los modelos destilados también mostraron resultados sobresalientes en benchmarks de matemáticas (AIME, MATH, etc.) y código (Codeforces, etc.)
DeepSeek-R1-Distill-Qwen-32B y DeepSeek-R1-Distill-Llama-70B mostraron altos valores de pass@1 y gran capacidad para resolver código, lo que sugiere el potencial de uso de modelos pequeños

Sitio web de chat y plataforma API

Es posible probar conversaciones con DeepSeek-R1 en chat.deepseek.com
También se ofrece la plataforma de API compatible con OpenAI platform.deepseek.com

Cómo ejecutarlo localmente

DeepSeek-R1 Models

Puede ejecutarse consultando el repositorio de DeepSeek-V3 para revisar detalles como la configuración de longitud máxima de 128K tokens

DeepSeek-R1-Distill Models

Se pueden usar de la misma forma que los modelos Qwen y Llama
Ejemplo: se pueden servir rápidamente usando vLLM, SGLang, etc.
Se recomienda configurar la temperatura (temperature) alrededor de 0.5~0.7

Licencia

La serie DeepSeek-R1 se distribuye bajo licencia MIT
Sin embargo, hay que tener en cuenta que los modelos basados en Qwen siguen Apache 2.0 y los basados en Llama siguen la licencia llama3.x
Tiene una política de licencias flexible, con permiso para uso comercial y para crear modelos modificados o derivados

5 comentarios

xguru 2025-01-21

Deepseek - el gigante silencioso que lidera la competencia de IA en China
Deepseek V3 mostró un rendimiento deficiente en benchmarks que prueban si hay sobreajuste
Notas sobre DeepSeek v3 - "¿De verdad es mejor que GPT-4o o 3.5 Sonnet?"

crawler 2025-01-21

He visto que algunas personas ponen enlaces de forma vistosa en los comentarios o incluso citan el texto principal; ¿de casualidad hay algún lugar donde estén resumidas las sintaxis que se pueden usar en los comentarios?
Después de pasar unos días viendo el sitio, cada vez me gusta más y hasta me dan ganas de dejar comentarios.

savvykang 2025-01-21

https://news.hada.io/guidelines

> Compatible con Markdown
> Se admite tanto en el contenido como en los comentarios.
> Básicamente sigue la especificación CommonMark.
> Las imágenes no son compatibles.

crawler 2025-01-21

Gracias. Quise intentar usar una cita en otro comentario, pero como no podía editarlo, por seguridad no la puse; al final sí era Markdown correcto.
Lo voy a usar, me será útil jaja

GN⁺ 2025-01-21

Comentarios de Hacker News

Estoy haciendo experimentos con una versión cuantizada de Llama 3. Ejecuto el modelo y registro los logs usando Ollama y el plugin llm-ollama. Después de cargar el modelo, puedo probar varios prompts con uvx. Escribí los resultados del experimento en el blog.
DeepSeek-R1-Zero tenía problemas de repeticiones, legibilidad y mezcla de idiomas. Para resolver eso, introdujeron DeepSeek-R1. En experimentos usando OpenAI o1 y QwQ-32B-Preview, QwQ tendía a caer en bucles de repetición. DeepSeek-R1 resuelve esos problemas. Al estar disponible bajo licencia MIT, más gente puede evaluarlo.
Con la pregunta sobre cuántas letras 'r' tiene "strawberry", muestra el proceso en el que el modelo debate consigo mismo y encuentra la respuesta correcta. Mencionan que ese proceso es divertido.
Al comparar ChatGPT o1, DeepSeek DeepThink y Gemini 2.0 Flash Thinking Experimental, ChatGPT o1 fue el mejor y DeepSeek fue el más débil. Al probar DeepSeek-R1, mostró un rendimiento mejor que antes. En casos de uso personales, sentí que el LLM era más útil.
Salió un benchmark en el que el modelo Llama 8B es más potente que Claude 3.5 Sonnet. Expresan sorpresa de que un modelo pequeño muestre un rendimiento tan fuerte.
Mencionan que es sorprendente que una empresa pequeña fundada hace un año pueda competir con OpenAI. Dicen que China está por delante de Estados Unidos en IA y que, al ofrecer el modelo como open source, realmente es una empresa "Open AI".
Había expectativas iniciales sobre DS3, pero encontraron problemas como fallas en function calling, baja en la calidad de las respuestas y falta de soporte. Sin embargo, gracias a eso bajó el tráfico hacia otras API y mejoró la latencia.
Expresan confusión sobre la diferencia entre las versiones 7b y 8b. Avisan que subieron la versión Qwen 7B a Ollama.

Presentación del modelo DeepSeek-R1

Resumen del modelo

Descarga de modelos

DeepSeek-R1 Models

DeepSeek-R1-Distill Models

Resultados de evaluación

DeepSeek-R1-Evaluation

Distilled Model Evaluation

Sitio web de chat y plataforma API

Cómo ejecutarlo localmente

DeepSeek-R1 Models

DeepSeek-R1-Distill Models

Licencia

Lecturas relacionadas

5 comentarios

Comentarios de Hacker News