-
DeepSeek-R1: refuerzo de las capacidades de razonamiento de los LLM
- Se presentan los modelos de razonamiento de primera generación DeepSeek-R1-Zero y DeepSeek-R1
- DeepSeek-R1-Zero fue entrenado mediante aprendizaje por refuerzo a gran escala y muestra capacidades de razonamiento sobresalientes incluso sin ajuste fino supervisado
- Sin embargo, enfrenta desafíos como problemas de legibilidad y mezcla de idiomas
- Para resolver estos problemas y mejorar el rendimiento de razonamiento, se introduce DeepSeek-R1, que incluye entrenamiento en múltiples etapas y el uso de datos iniciales antes del aprendizaje por refuerzo
- DeepSeek-R1 alcanza un rendimiento similar al de OpenAI-o1-1217
- Para apoyar a la comunidad de investigación, se ofrecen como código abierto DeepSeek-R1-Zero, DeepSeek-R1 y 6 modelos densos destilados basados en Qwen y Llama (1.5B, 7B, 8B, 14B, 32B, 70B)
-
Tema y cita
- Tema: Computación y lenguaje (cs.CL); Inteligencia artificial (cs.AI); Aprendizaje automático (cs.LG)
- Cita: arXiv:2501.12948 [cs.CL]
-
Historial de envío
- Autor del envío: Wenfeng Liang
- Fecha de envío: 22 de enero de 2025
-
Cómo acceder
- Se puede acceder al artículo en varios formatos, incluidos PDF, HTML y fuente TeX
-
Referencias y herramientas de citación
- Se ofrecen varias referencias y herramientas de citación
-
Código, datos y medios
- Se proporcionan código y datos relacionados
-
Información sobre arXivLabs
- Se ofrece información explicativa y de apoyo sobre arXivLabs
1 comentarios
Comentarios en Hacker News
El paper de DeepSeek V3 se considera lectura previa obligatoria
Tras probar el modelo
r1-14bde Ollama, da la impresión de que el modelo intenta distintos enfoques en tiempo real y elige alternativas, lo que recuerda al comportamiento humanoDeepSeek V3 apareció en el momento justo cuando Claude Sonnet empezó a fallar
La función de chat de DeepSeek es más fácil de usar que ChatGPT Pro
Sorprende que el proceso de pensamiento del modelo GPT-O1 ocurra dentro del propio modelo
No solo impresiona el rendimiento de DeepSeek R1, también los modelos destilados pequeños
Larry Ellison y Masayoshi Son buscan la inmortalidad mediante ASI
En Arxiv, más de 100 autores publicaron un paper usando el nombre del equipo