3 puntos por GN⁺ 2025-01-26 | 1 comentarios | Compartir por WhatsApp
  • DeepSeek-R1: refuerzo de las capacidades de razonamiento de los LLM

    • Se presentan los modelos de razonamiento de primera generación DeepSeek-R1-Zero y DeepSeek-R1
    • DeepSeek-R1-Zero fue entrenado mediante aprendizaje por refuerzo a gran escala y muestra capacidades de razonamiento sobresalientes incluso sin ajuste fino supervisado
    • Sin embargo, enfrenta desafíos como problemas de legibilidad y mezcla de idiomas
    • Para resolver estos problemas y mejorar el rendimiento de razonamiento, se introduce DeepSeek-R1, que incluye entrenamiento en múltiples etapas y el uso de datos iniciales antes del aprendizaje por refuerzo
    • DeepSeek-R1 alcanza un rendimiento similar al de OpenAI-o1-1217
    • Para apoyar a la comunidad de investigación, se ofrecen como código abierto DeepSeek-R1-Zero, DeepSeek-R1 y 6 modelos densos destilados basados en Qwen y Llama (1.5B, 7B, 8B, 14B, 32B, 70B)
  • Tema y cita

    • Tema: Computación y lenguaje (cs.CL); Inteligencia artificial (cs.AI); Aprendizaje automático (cs.LG)
    • Cita: arXiv:2501.12948 [cs.CL]
  • Historial de envío

    • Autor del envío: Wenfeng Liang
    • Fecha de envío: 22 de enero de 2025
  • Cómo acceder

    • Se puede acceder al artículo en varios formatos, incluidos PDF, HTML y fuente TeX
  • Referencias y herramientas de citación

    • Se ofrecen varias referencias y herramientas de citación
  • Código, datos y medios

    • Se proporcionan código y datos relacionados
  • Información sobre arXivLabs

    • Se ofrece información explicativa y de apoyo sobre arXivLabs

1 comentarios

 
GN⁺ 2025-01-26
Comentarios en Hacker News
  • El paper de DeepSeek V3 se considera lectura previa obligatoria

    • La combinación de R1 + Sonnet es superior a otras combinaciones
    • Se están realizando estudios de reproducción independientes en varios lugares
    • La destilación de R1 es muy fácil, así que ocurrirá con frecuencia
    • DeepSeek-R1 está causando un gran impacto en Silicon Valley
  • Tras probar el modelo r1-14b de Ollama, da la impresión de que el modelo intenta distintos enfoques en tiempo real y elige alternativas, lo que recuerda al comportamiento humano

  • DeepSeek V3 apareció en el momento justo cuando Claude Sonnet empezó a fallar

    • El precio de DeepSeek es muy barato, lo que representa una gran ventaja
    • Cambié por completo a DeepSeek en Aider y Cursor
  • La función de chat de DeepSeek es más fácil de usar que ChatGPT Pro

    • Poder leer el proceso de pensamiento del modelo facilita la depuración
  • Sorprende que el proceso de pensamiento del modelo GPT-O1 ocurra dentro del propio modelo

    • Hay curiosidad por saber si OpenAI publicará el proceso de pensamiento de O1
  • No solo impresiona el rendimiento de DeepSeek R1, también los modelos destilados pequeños

    • El modelo destilado de 7b basado en Qwen también es excelente
    • El modelo destilado de 32b se usa como modelo predeterminado en un servidor casero
  • Larry Ellison y Masayoshi Son buscan la inmortalidad mediante ASI

    • Están realizando inversiones masivas para desarrollar ASI
  • En Arxiv, más de 100 autores publicaron un paper usando el nombre del equipo

    • Esto contribuye a fortalecer el trabajo en equipo y la moral