- Deepseek R1-0528 se presenta como un LLM de última generación
- Este modelo se ofrece como código abierto, lo que aumenta su accesibilidad y utilidad
- Muestra un rendimiento sólido en diversas tareas de procesamiento y generación de lenguaje natural
- Gracias a una arquitectura más rápida y eficiente, ofrece ventajas para la investigación y el uso práctico
- Está surgiendo como una opción adicional competitiva en el campo de la IA
Introducción al modelo Deepseek R1-0528
- Deepseek R1-0528 es un modelo de lenguaje grande (LLM) de última generación, utilizable en comprensión y generación de lenguaje natural
- Este modelo fue publicado como código abierto a través de Hugging Face, por lo que cualquier investigador o desarrollador puede usarlo libremente
- El modelo R1-0528, desarrollado por DeepSeek-AI, fue entrenado con conjuntos de datos a gran escala y puede aplicarse a diversas tareas de procesamiento y generación de lenguaje natural, como resumen de texto, traducción, respuesta a preguntas y generación de código
- En comparación con otros modelos de código abierto publicados previamente, se caracteriza por una mayor velocidad de inferencia y una estructura de red optimizada
- Gracias a estas fortalezas, está ganando atención como una opción preferida para desarrolladores que buscan resultados rápidos y precisos tanto en investigación como en entornos industriales reales
Características distintivas y ventajas del modelo
- Deepseek R1-0528 se diferencia de otros modelos LLM existentes en términos de escalabilidad, eficiencia y rapidez
- Adopta una estructura modular que permite a los desarrolladores personalizar el modelo fácilmente y adaptarlo a distintos idiomas o dominios especializados
- Gracias a algoritmos mejorados, se incrementa la velocidad de procesamiento en las etapas de entrenamiento e inferencia
- Cualquier usuario puede cargar y utilizar el modelo fácilmente mediante la biblioteca de Hugging Face
Usos y efectos esperados
- Puede utilizarse en diversos escenarios prácticos como investigación en IA, chatbots, generación automática de documentos y asistentes de código
- Al haberse publicado como código abierto, puede facilitar la aplicación a conjuntos de datos reales y la validación del rendimiento del modelo
- El lanzamiento de DeepSeek R1-0528 impulsa un entorno de competencia saludable y el progreso tecnológico dentro de la comunidad global de IA
1 comentarios
Comentarios en Hacker News
Al principio me enteré de que DeepSeek R1 ya se podía usar a través de OpenRouter con 7 proveedores
Enlace
Es la actualización original de DeepSeek R1 del 28 de mayo, con un rendimiento similar a OpenAI o1
Como es open source, también están disponibles los reasoning tokens
Tiene 671B parámetros en total y solo se activan 37B durante la inferencia
Es un modelo completamente open source
Me pregunto si hay algún modelo descargable
No conozco bien OpenRouter y no pude encontrar el modelo en Ollama, así que quiero investigar más
No se ha revelado absolutamente nada sobre con qué datos se entrenó el modelo
Se publicaron pesos descargables, pero en esencia no es open source reproducible
Había un proyecto llamado "Open R1" que sí buscaba publicar directamente hasta los datos de entrenamiento,
y me pregunto cómo va ese esfuerzo ahora
Enlace
No estoy de acuerdo con que DeepSeek R1 sea open source
Que se pueda descargar no significa que sea open source
Enlace
Me decepciona que casi no haya información sobre DeepSeek R1
Tampoco hay datos de benchmarks, y me recordó a cuando Mistral antes soltó un magnet link de torrent en un tuit
Siento que últimamente los benchmarks ya no significan mucho
Solo se enfocan en ajustar los modelos a pruebas ya públicas,
pero descuidan el progreso real para mejorar la generalización
Si ves el leaderboard de Hugging Face, hay fine-tunes de varios modelos open source en los primeros lugares, pero en la práctica no se usan tanto
Enlace
En la tabla de benchmarks aparecen las puntuaciones de "Overall" y "Median",
pero no hay información sobre qué se evaluó exactamente
En general parece estar al nivel de los modelos más recientes, aunque tiene una ligera ventaja en costos
La desventaja es que, igual que el R1 anterior, la velocidad de inferencia se siente lenta (consume muchos tokens)
Enlace a la tabla
Me pregunto si la forma en que DeepSeek publica sus modelos se parece a la de Mistral de antes como un homenaje intencional
DeepSeek suele publicar el paper al día siguiente de liberar el modelo
Si coordinaran un poco mejor ese calendario, todo se vería más ordenado; ahora mismo las noticias salen algo dispersas
Es curioso que DeepSeek sea uno de los pocos LLM que funcionan en un iPod Touch con una versión antigua de iOS
Me gusta que DeepSeek suelte nuevas actualizaciones con tanta naturalidad
Prefiero ese estilo de liberar mejoras grandes en silencio, sin tanta promoción
Me pregunto si la mejora de verdad es tan grande
Quisiera saber si hay material oficial de comparación, como benchmarks
OpenAI, y por supuesto también Anthropic, últimamente exageran sus modelos nuevos
con narrativas del tipo "qué tan peligroso es este modelo, cómo se escapa, cómo engaña a la gente y cómo hackeó servidores críticos",
dándole una vibra de pesadilla, mientras que DeepSeek los lanza de forma sobria y sin exageraciones
Al parecer sí hubo un anuncio oficial en WeChat
Este estilo de lanzamiento discreto también me gusta, pero aun así estaría bien que dieran datos numéricos como benchmarks
También me pareció una coincidencia interesante que lo publicaran el mismo día del reporte de resultados de Nvidia
Me pregunto qué hardware se necesita exactamente para que una persona común pueda usar un LLM tan grande, aunque sea lento
También quisiera saber si hay formas sencillas de reducir la configuración o el tamaño del modelo para uso personal
Lograron ejecutar DeepSeek R1 en local usando offloading y quantization de 1.58bit
Más información: Enlace
También están trabajando en una versión nueva
La versión quantized de 4bit puede correr en una M3 Ultra de 512GB
El precio es bastante alto
Otra opción es usar un sistema con CPU potente y 500GB de RAM DDR5
Eso tampoco es barato y además es más lento que la M3 Ultra
Otra alternativa es usar varias GPU de Nvidia para sumar 500GB de VRAM
Esa es la opción más cara, pero también la más rápida
Haría falta una motherboard de servidor dual socket con 768GB de RAM DDR5 y además una GPU de al menos 16GB para procesar prompts
Cuesta varios millones de wones para moverlo a una velocidad de 8~10 tokens por segundo
Con un Xeon dual socket de segunda mano de 2 mil dólares y 768GB de DDR4,
están corriendo la versión quantized de 4bit a alrededor de 1.5 tokens por segundo
En Amazon se puede usar por cerca de 1 centavo por cada 10 mil tokens
También hay una guía para configurar manualmente una instancia de EC2
Por ejemplo, una instancia
g6e.48xlarge(192 vCPU, 1536GB RAM, 8 GPU L40S Tensor Core con 48GB de VRAM cada una)cuesta alrededor de 22 mil dólares al mes
Guía de DeepSeek en Bedrock
Guía de despliegue manual
Hay bastante expectativa por el lanzamiento del R1 más reciente
Tiene 685B parámetros, pero no hay model card, release notes, detalles de cambios ni información sobre la ventana de contexto
La calidad de salida del R1 original era impresionante, aunque gastaba demasiados tokens
Sigo esperando que publiquen más información
También es interesante que cueste casi la mitad que o4 mini high sin una gran diferencia de rendimiento
Además vi que la mayoría de los proveedores están subiendo versiones quantized
Para lograr un rendimiento similar al de DeepSeek hacen falta al menos 8 GPU H100 de 80GB
Si vas a usar muchos tokens, puede salir mucho más barato que OpenAI
Quiero probar DeepSeek pronto en Groq
Por ahora solo soporta
DeepSeek-r1-distill-llama-70b, que es un modelo destilado sobrellama 70bGuía de modelos de Groq