Presentación del modelo DeepSeek-R1
(github.com/deepseek-ai)- DeepSeek presentó DeepSeek-R1-Zero y DeepSeek-R1, su primera generación de modelos de razonamiento
- DeepSeek-R1-Zero fue entrenado únicamente con aprendizaje por refuerzo (RL) a gran escala, y adquirió por sí mismo diversas capacidades de razonamiento
- Sin embargo, presentaba problemas de repetición/legibilidad y mezcla de idiomas, por lo que se propone DeepSeek-R1, que añade una etapa de SFT para corregir eso y mejorar el rendimiento
- DeepSeek-R1 alcanza un rendimiento al nivel de OpenAI-o1 en tareas de matemáticas, código y razonamiento
- Para apoyar a la comunidad de investigación, se publican DeepSeek-R1-Zero, DeepSeek-R1 y modelos de destilación creados transfiriendo los patrones de razonamiento de esos modelos
- En particular, el modelo DeepSeek-R1-Distill-Qwen-32B logró un rendimiento superior a OpenAI-o1-mini
Resumen del modelo
-
Post-Training: aprendizaje por refuerzo a gran escala sobre el modelo base
- DeepSeek-R1-Zero es un modelo de primera generación al que se le aplicó solo RL, sin SFT
- A través del proceso de RL, adquirió diversos patrones de razonamiento como exploración de Chain-of-thought, autoverificación y reflexión (
reflection) - Esto muestra que “incluso sin SFT, un modelo grande puede obtener fuertes capacidades de razonamiento solo con RL”
- DeepSeek-R1, basado en este proceso, añadió SFT en una etapa intermedia para reforzar aún más la capacidad de razonamiento y el uso general del lenguaje
-
Distillation: los modelos pequeños también pueden ser potentes
- Se demostró que los patrones de razonamiento aprendidos por un modelo grande pueden transferirse también a modelos pequeños
- Usando datos generados por DeepSeek-R1, se realizó fine-tuning sobre series como Qwen y Llama, y los modelos densos (
dense) pequeños también mostraron un excelente rendimiento - Se publicaron modelos destilados de distintos tamaños, como 1.5B, 7B, 8B, 14B, 32B y 70B
Descarga de modelos
DeepSeek-R1 Models
- DeepSeek-R1-Zero / DeepSeek-R1
- Parámetros: 671B en total (37B de parámetros activos reales)
- Longitud de contexto de 128K
- Se pueden descargar en HuggingFace y fueron entrenados con RL sobre la base del modelo DeepSeek-V3-Base
DeepSeek-R1-Distill Models
- Destilados sobre la base de las series Qwen2.5 y Llama3
- Se ofrecen distintos tamaños de parámetros, desde 1.5B hasta 70B
- Fueron afinados usando datos de razonamiento de alta calidad generados por DeepSeek-R1
- Como se modificaron algunas configuraciones (
tokenizer,config), es necesario usar la configuración indicada
Resultados de evaluación
DeepSeek-R1-Evaluation
- DeepSeek-R1 obtuvo puntajes altos en inglés (MMLU, DROP, etc.), código (Codeforces, LiveCodeBench, etc.), matemáticas (AIME, MATH-500, etc.) y chino (C-Eval, etc.)
- En particular, mostró altos registros de pass@1 en matemáticas, como AIME y MATH-500
- En comparación con OpenAI-o1-mini, Claude y GPT-4, mostró un rendimiento competitivo en varios apartados
Distilled Model Evaluation
- Los modelos destilados también mostraron resultados sobresalientes en benchmarks de matemáticas (AIME, MATH, etc.) y código (Codeforces, etc.)
- DeepSeek-R1-Distill-Qwen-32B y DeepSeek-R1-Distill-Llama-70B mostraron altos valores de pass@1 y gran capacidad para resolver código, lo que sugiere el potencial de uso de modelos pequeños
Sitio web de chat y plataforma API
- Es posible probar conversaciones con DeepSeek-R1 en chat.deepseek.com
- También se ofrece la plataforma de API compatible con OpenAI platform.deepseek.com
Cómo ejecutarlo localmente
DeepSeek-R1 Models
- Puede ejecutarse consultando el repositorio de DeepSeek-V3 para revisar detalles como la configuración de longitud máxima de 128K tokens
DeepSeek-R1-Distill Models
- Se pueden usar de la misma forma que los modelos Qwen y Llama
- Ejemplo: se pueden servir rápidamente usando vLLM, SGLang, etc.
- Se recomienda configurar la temperatura (
temperature) alrededor de 0.5~0.7
Licencia
- La serie DeepSeek-R1 se distribuye bajo licencia MIT
- Sin embargo, hay que tener en cuenta que los modelos basados en Qwen siguen Apache 2.0 y los basados en Llama siguen la licencia llama3.x
- Tiene una política de licencias flexible, con permiso para uso comercial y para crear modelos modificados o derivados
5 comentarios
Deepseek - el gigante silencioso que lidera la competencia de IA en China
Deepseek V3 mostró un rendimiento deficiente en benchmarks que prueban si hay sobreajuste
Notas sobre DeepSeek v3 - "¿De verdad es mejor que GPT-4o o 3.5 Sonnet?"
He visto que algunas personas ponen enlaces de forma vistosa en los comentarios o incluso citan el texto principal; ¿de casualidad hay algún lugar donde estén resumidas las sintaxis que se pueden usar en los comentarios?
Después de pasar unos días viendo el sitio, cada vez me gusta más y hasta me dan ganas de dejar comentarios.
https://news.hada.io/guidelines
> Compatible con Markdown
> Se admite tanto en el contenido como en los comentarios.
> Básicamente sigue la especificación CommonMark.
> Las imágenes no son compatibles.
Gracias. Quise intentar usar una cita en otro comentario, pero como no podía editarlo, por seguridad no la puse; al final sí era Markdown correcto.
Lo voy a usar, me será útil jaja
Comentarios de Hacker News
Estoy haciendo experimentos con una versión cuantizada de Llama 3. Ejecuto el modelo y registro los logs usando Ollama y el plugin llm-ollama. Después de cargar el modelo, puedo probar varios prompts con
uvx. Escribí los resultados del experimento en el blog.DeepSeek-R1-Zero tenía problemas de repeticiones, legibilidad y mezcla de idiomas. Para resolver eso, introdujeron DeepSeek-R1. En experimentos usando OpenAI o1 y QwQ-32B-Preview, QwQ tendía a caer en bucles de repetición. DeepSeek-R1 resuelve esos problemas. Al estar disponible bajo licencia MIT, más gente puede evaluarlo.
Con la pregunta sobre cuántas letras 'r' tiene "strawberry", muestra el proceso en el que el modelo debate consigo mismo y encuentra la respuesta correcta. Mencionan que ese proceso es divertido.
Al comparar ChatGPT o1, DeepSeek DeepThink y Gemini 2.0 Flash Thinking Experimental, ChatGPT o1 fue el mejor y DeepSeek fue el más débil. Al probar DeepSeek-R1, mostró un rendimiento mejor que antes. En casos de uso personales, sentí que el LLM era más útil.
Salió un benchmark en el que el modelo Llama 8B es más potente que Claude 3.5 Sonnet. Expresan sorpresa de que un modelo pequeño muestre un rendimiento tan fuerte.
Mencionan que es sorprendente que una empresa pequeña fundada hace un año pueda competir con OpenAI. Dicen que China está por delante de Estados Unidos en IA y que, al ofrecer el modelo como open source, realmente es una empresa "Open AI".
Había expectativas iniciales sobre DS3, pero encontraron problemas como fallas en function calling, baja en la calidad de las respuestas y falta de soporte. Sin embargo, gracias a eso bajó el tráfico hacia otras API y mejoró la latencia.
Expresan confusión sobre la diferencia entre las versiones 7b y 8b. Avisan que subieron la versión Qwen 7B a Ollama.