DeepSeek-R1: mejora de las capacidades de razonamiento de los modelos de lenguaje grandes mediante aprendizaje por refuerzo

(arxiv.org)

3 puntos por GN⁺ 2025-01-26 | 1 comentarios | Compartir por WhatsApp

DeepSeek-R1: refuerzo de las capacidades de razonamiento de los LLM
- Se presentan los modelos de razonamiento de primera generación DeepSeek-R1-Zero y DeepSeek-R1
- DeepSeek-R1-Zero fue entrenado mediante aprendizaje por refuerzo a gran escala y muestra capacidades de razonamiento sobresalientes incluso sin ajuste fino supervisado
- Sin embargo, enfrenta desafíos como problemas de legibilidad y mezcla de idiomas
- Para resolver estos problemas y mejorar el rendimiento de razonamiento, se introduce DeepSeek-R1, que incluye entrenamiento en múltiples etapas y el uso de datos iniciales antes del aprendizaje por refuerzo
- DeepSeek-R1 alcanza un rendimiento similar al de OpenAI-o1-1217
- Para apoyar a la comunidad de investigación, se ofrecen como código abierto DeepSeek-R1-Zero, DeepSeek-R1 y 6 modelos densos destilados basados en Qwen y Llama (1.5B, 7B, 8B, 14B, 32B, 70B)
Tema y cita
- Tema: Computación y lenguaje (cs.CL); Inteligencia artificial (cs.AI); Aprendizaje automático (cs.LG)
- Cita: arXiv:2501.12948 [cs.CL]
Historial de envío
- Autor del envío: Wenfeng Liang
- Fecha de envío: 22 de enero de 2025
Cómo acceder
- Se puede acceder al artículo en varios formatos, incluidos PDF, HTML y fuente TeX
Referencias y herramientas de citación
- Se ofrecen varias referencias y herramientas de citación
Código, datos y medios
- Se proporcionan código y datos relacionados
Información sobre arXivLabs
- Se ofrece información explicativa y de apoyo sobre arXivLabs

1 comentarios

GN⁺ 2025-01-26

Comentarios en Hacker News

El paper de DeepSeek V3 se considera lectura previa obligatoria
- La combinación de R1 + Sonnet es superior a otras combinaciones
- Se están realizando estudios de reproducción independientes en varios lugares
- La destilación de R1 es muy fácil, así que ocurrirá con frecuencia
- DeepSeek-R1 está causando un gran impacto en Silicon Valley
Tras probar el modelo r1-14b de Ollama, da la impresión de que el modelo intenta distintos enfoques en tiempo real y elige alternativas, lo que recuerda al comportamiento humano
DeepSeek V3 apareció en el momento justo cuando Claude Sonnet empezó a fallar
- El precio de DeepSeek es muy barato, lo que representa una gran ventaja
- Cambié por completo a DeepSeek en Aider y Cursor
La función de chat de DeepSeek es más fácil de usar que ChatGPT Pro
- Poder leer el proceso de pensamiento del modelo facilita la depuración
Sorprende que el proceso de pensamiento del modelo GPT-O1 ocurra dentro del propio modelo
- Hay curiosidad por saber si OpenAI publicará el proceso de pensamiento de O1
No solo impresiona el rendimiento de DeepSeek R1, también los modelos destilados pequeños
- El modelo destilado de 7b basado en Qwen también es excelente
- El modelo destilado de 32b se usa como modelo predeterminado en un servidor casero
Larry Ellison y Masayoshi Son buscan la inmortalidad mediante ASI
- Están realizando inversiones masivas para desarrollar ASI
En Arxiv, más de 100 autores publicaron un paper usando el nombre del equipo
- Esto contribuye a fortalecer el trabajo en equipo y la moral

DeepSeek-R1: mejora de las capacidades de razonamiento de los modelos de lenguaje grandes mediante aprendizaje por refuerzo

DeepSeek-R1: refuerzo de las capacidades de razonamiento de los LLM

Tema y cita

Historial de envío

Cómo acceder

Referencias y herramientas de citación

Código, datos y medios

Información sobre arXivLabs

Lecturas relacionadas

1 comentarios

Comentarios en Hacker News