Lanzamiento de Deepseek R1-0528

(huggingface.co)

1 puntos por GN⁺ 2025-05-29 | 1 comentarios | Compartir por WhatsApp

Deepseek R1-0528 se presenta como un LLM de última generación
Este modelo se ofrece como código abierto, lo que aumenta su accesibilidad y utilidad
Muestra un rendimiento sólido en diversas tareas de procesamiento y generación de lenguaje natural
Gracias a una arquitectura más rápida y eficiente, ofrece ventajas para la investigación y el uso práctico
Está surgiendo como una opción adicional competitiva en el campo de la IA

Introducción al modelo Deepseek R1-0528

Deepseek R1-0528 es un modelo de lenguaje grande (LLM) de última generación, utilizable en comprensión y generación de lenguaje natural
Este modelo fue publicado como código abierto a través de Hugging Face, por lo que cualquier investigador o desarrollador puede usarlo libremente
El modelo R1-0528, desarrollado por DeepSeek-AI, fue entrenado con conjuntos de datos a gran escala y puede aplicarse a diversas tareas de procesamiento y generación de lenguaje natural, como resumen de texto, traducción, respuesta a preguntas y generación de código
En comparación con otros modelos de código abierto publicados previamente, se caracteriza por una mayor velocidad de inferencia y una estructura de red optimizada
Gracias a estas fortalezas, está ganando atención como una opción preferida para desarrolladores que buscan resultados rápidos y precisos tanto en investigación como en entornos industriales reales

Características distintivas y ventajas del modelo

Deepseek R1-0528 se diferencia de otros modelos LLM existentes en términos de escalabilidad, eficiencia y rapidez
Adopta una estructura modular que permite a los desarrolladores personalizar el modelo fácilmente y adaptarlo a distintos idiomas o dominios especializados
Gracias a algoritmos mejorados, se incrementa la velocidad de procesamiento en las etapas de entrenamiento e inferencia
Cualquier usuario puede cargar y utilizar el modelo fácilmente mediante la biblioteca de Hugging Face

Usos y efectos esperados

Puede utilizarse en diversos escenarios prácticos como investigación en IA, chatbots, generación automática de documentos y asistentes de código
Al haberse publicado como código abierto, puede facilitar la aplicación a conjuntos de datos reales y la validación del rendimiento del modelo
El lanzamiento de DeepSeek R1-0528 impulsa un entorno de competencia saludable y el progreso tecnológico dentro de la comunidad global de IA

1 comentarios

GN⁺ 2025-05-29

Comentarios en Hacker News

Al principio me enteré de que DeepSeek R1 ya se podía usar a través de OpenRouter con 7 proveedores
Enlace
Es la actualización original de DeepSeek R1 del 28 de mayo, con un rendimiento similar a OpenAI o1
Como es open source, también están disponibles los reasoning tokens
Tiene 671B parámetros en total y solo se activan 37B durante la inferencia
Es un modelo completamente open source
- Me pregunto si hay algún modelo descargable
  No conozco bien OpenRouter y no pude encontrar el modelo en Ollama, así que quiero investigar más
- No se ha revelado absolutamente nada sobre con qué datos se entrenó el modelo
  Se publicaron pesos descargables, pero en esencia no es open source reproducible
  Había un proyecto llamado "Open R1" que sí buscaba publicar directamente hasta los datos de entrenamiento,
  y me pregunto cómo va ese esfuerzo ahora
  Enlace
- No estoy de acuerdo con que DeepSeek R1 sea open source
  Que se pueda descargar no significa que sea open source
  Enlace
Me decepciona que casi no haya información sobre DeepSeek R1
Tampoco hay datos de benchmarks, y me recordó a cuando Mistral antes soltó un magnet link de torrent en un tuit
- Siento que últimamente los benchmarks ya no significan mucho
  Solo se enfocan en ajustar los modelos a pruebas ya públicas,
  pero descuidan el progreso real para mejorar la generalización
  Si ves el leaderboard de Hugging Face, hay fine-tunes de varios modelos open source en los primeros lugares, pero en la práctica no se usan tanto
  Enlace
- En la tabla de benchmarks aparecen las puntuaciones de "Overall" y "Median",
  pero no hay información sobre qué se evaluó exactamente
  En general parece estar al nivel de los modelos más recientes, aunque tiene una ligera ventaja en costos
  La desventaja es que, igual que el R1 anterior, la velocidad de inferencia se siente lenta (consume muchos tokens)
  Enlace a la tabla
- Me pregunto si la forma en que DeepSeek publica sus modelos se parece a la de Mistral de antes como un homenaje intencional
- DeepSeek suele publicar el paper al día siguiente de liberar el modelo
  Si coordinaran un poco mejor ese calendario, todo se vería más ordenado; ahora mismo las noticias salen algo dispersas
Es curioso que DeepSeek sea uno de los pocos LLM que funcionan en un iPod Touch con una versión antigua de iOS
Me gusta que DeepSeek suelte nuevas actualizaciones con tanta naturalidad
Prefiero ese estilo de liberar mejoras grandes en silencio, sin tanta promoción
- Me pregunto si la mejora de verdad es tan grande
  Quisiera saber si hay material oficial de comparación, como benchmarks
- OpenAI, y por supuesto también Anthropic, últimamente exageran sus modelos nuevos
  con narrativas del tipo "qué tan peligroso es este modelo, cómo se escapa, cómo engaña a la gente y cómo hackeó servidores críticos",
  dándole una vibra de pesadilla, mientras que DeepSeek los lanza de forma sobria y sin exageraciones
- Al parecer sí hubo un anuncio oficial en WeChat
- Este estilo de lanzamiento discreto también me gusta, pero aun así estaría bien que dieran datos numéricos como benchmarks
- También me pareció una coincidencia interesante que lo publicaran el mismo día del reporte de resultados de Nvidia
Me pregunto qué hardware se necesita exactamente para que una persona común pueda usar un LLM tan grande, aunque sea lento
También quisiera saber si hay formas sencillas de reducir la configuración o el tamaño del modelo para uso personal
- Lograron ejecutar DeepSeek R1 en local usando offloading y quantization de 1.58bit
  Más información: Enlace
  También están trabajando en una versión nueva
- La versión quantized de 4bit puede correr en una M3 Ultra de 512GB
  El precio es bastante alto
  Otra opción es usar un sistema con CPU potente y 500GB de RAM DDR5
  Eso tampoco es barato y además es más lento que la M3 Ultra
  Otra alternativa es usar varias GPU de Nvidia para sumar 500GB de VRAM
  Esa es la opción más cara, pero también la más rápida
- Haría falta una motherboard de servidor dual socket con 768GB de RAM DDR5 y además una GPU de al menos 16GB para procesar prompts
  Cuesta varios millones de wones para moverlo a una velocidad de 8~10 tokens por segundo
- Con un Xeon dual socket de segunda mano de 2 mil dólares y 768GB de DDR4,
  están corriendo la versión quantized de 4bit a alrededor de 1.5 tokens por segundo
- En Amazon se puede usar por cerca de 1 centavo por cada 10 mil tokens
  También hay una guía para configurar manualmente una instancia de EC2
  Por ejemplo, una instancia g6e.48xlarge (192 vCPU, 1536GB RAM, 8 GPU L40S Tensor Core con 48GB de VRAM cada una)
  cuesta alrededor de 22 mil dólares al mes
  Guía de DeepSeek en Bedrock
  Guía de despliegue manual
Hay bastante expectativa por el lanzamiento del R1 más reciente
Tiene 685B parámetros, pero no hay model card, release notes, detalles de cambios ni información sobre la ventana de contexto
La calidad de salida del R1 original era impresionante, aunque gastaba demasiados tokens
Sigo esperando que publiquen más información
También es interesante que cueste casi la mitad que o4 mini high sin una gran diferencia de rendimiento
Además vi que la mayoría de los proveedores están subiendo versiones quantized
Para lograr un rendimiento similar al de DeepSeek hacen falta al menos 8 GPU H100 de 80GB
- Se estima un costo de unos 16 a 24 dólares por hora
  Si vas a usar muchos tokens, puede salir mucho más barato que OpenAI
Quiero probar DeepSeek pronto en Groq
- Groq no ofrece soporte para el modelo real de DeepSeek
  Por ahora solo soporta DeepSeek-r1-distill-llama-70b, que es un modelo destilado sobre llama 70b
  Guía de modelos de Groq

Lanzamiento de Deepseek R1-0528

Introducción al modelo Deepseek R1-0528

Características distintivas y ventajas del modelo

Usos y efectos esperados

Lecturas relacionadas

1 comentarios

Comentarios en Hacker News