DeepSeek v4: modelo de lenguaje grande de alta eficiencia con soporte para contexto de 1 millón de tokens
(huggingface.co)- Modelo de lenguaje grande basado en Mixture-of-Experts (MoE) con soporte para 1M de tokens de contexto, presentado en dos versiones: Pro (1.6T parámetros) y Flash (284B parámetros)
- Con una arquitectura de atención híbrida que combina Compressed Sparse Attention (CSA) y Heavily Compressed Attention (HCA), usa solo el 27% de los FLOPs de inferencia y el 10% de la caché KV frente a DeepSeek-V3.2 con 1 millón de tokens
- Tras preentrenarse con más de 32T tokens, aplica un pipeline de posentrenamiento de 2 etapas que entrena expertos por dominio de forma independiente y luego los integra en un solo modelo mediante on-policy distillation
- DeepSeek-V4-Pro-Max logra el mejor rendimiento open source en benchmarks de código como LiveCodeBench 93.5, SWE Verified 80.6 y Codeforces 3206
- Soporta tres modos de inferencia: Non-Think, Think High y Think Max, para elegir según el caso de uso desde tareas cotidianas hasta razonamiento de máxima dificultad
Resumen del modelo y arquitectura
- La serie DeepSeek-V4 está compuesta por dos modelos: DeepSeek-V4-Pro (1.6T parámetros totales, 49B activados) y DeepSeek-V4-Flash (284B parámetros totales, 13B activados)
- Ambos modelos admiten una longitud de contexto de 1 millón de tokens
- Tres mejoras principales de arquitectura y optimización:
- Hybrid Attention Architecture: combina CSA y HCA para mejorar drásticamente la eficiencia en contexto largo; con 1 millón de tokens reduce los FLOPs de inferencia por token al 27% y la caché KV al 10% respecto a DeepSeek-V3.2
- Manifold-Constrained Hyper-Connections (mHC): refuerza las conexiones residuales existentes para asegurar al mismo tiempo estabilidad en la propagación de señales entre capas y mayor capacidad de representación del modelo
- Muon Optimizer: ofrece convergencia más rápida y mayor estabilidad durante el entrenamiento
Entrenamiento y pipeline de posentrenamiento
- Preentrenado con más de 32T tokens diversos y de alta calidad
- El posentrenamiento aplica un paradigma de 2 etapas:
- Etapa 1: entrenamiento independiente de expertos por dominio mediante SFT y RL (usando GRPO)
- Etapa 2: integración de la especialización de distintos dominios en un solo modelo mediante on-policy distillation
Modos de inferencia
- Tanto DeepSeek-V4-Pro como DeepSeek-V4-Flash admiten tres modos de inferencia:
- Non-Think: respuestas rápidas e intuitivas, adecuadas para trabajo diario o decisiones de bajo riesgo
- Think High: análisis lógico deliberado, adecuado para resolver problemas complejos o planificar
- Think Max: lleva la capacidad de razonamiento hasta su límite, pensado para explorar las fronteras de inferencia del modelo
Rendimiento en benchmarks — Modelos Base
- DeepSeek-V4-Pro-Base supera a V3.2-Base y V4-Flash-Base en la mayoría de los benchmarks:
- MMLU: 90.1 (V3.2-Base 87.8, V4-Flash-Base 88.7)
- MMLU-Pro: 73.5 (V3.2-Base 65.5)
- Simple-QA Verified: 55.2 (V3.2-Base 28.3)
- FACTS Parametric: 62.6 (V3.2-Base 27.1)
- HumanEval: 76.8 (V3.2-Base 62.8)
- LongBench-V2: 51.5 (V3.2-Base 40.2)
- V4-Flash-Base demuestra eficiencia al acercarse o incluso superar en algunos benchmarks a V3.2-Base (37B activados) usando solo 13B parámetros activados
Rendimiento en benchmarks — Modelos Instruct (V4-Pro-Max vs modelos frontier)
- Destaca en benchmarks de código:
- LiveCodeBench 93.5 (Gemini-3.1-Pro High 91.7, Opus-4.6 Max 88.8)
- Codeforces 3206 (GPT-5.4 xHigh 3168, Gemini-3.1-Pro High 3052)
- Apex Shortlist 90.2 (Gemini-3.1-Pro High 89.1)
- En conocimiento y razonamiento:
- SimpleQA-Verified 57.9 y Chinese-SimpleQA 84.4, por encima de la mayoría de los modelos, aunque por debajo de Gemini-3.1-Pro High (75.6, 85.9)
- GPQA Diamond 90.1, MMLU-Pro 87.5
- Tareas de agente:
- Se ubica en el nivel más alto con SWE Verified 80.6 y MCPAtlas Public 73.6, entre otros
- En Terminal Bench 2.0 (67.9) y HLE w/ tools (48.2) queda por debajo de algunos modelos closed source
- V4-Flash-Max alcanza un rendimiento de razonamiento cercano a la versión Pro cuando se le asigna un mayor thinking budget, aunque queda ligeramente atrás en tareas puramente de conocimiento y en flujos de trabajo complejos de agente debido a la diferencia de escala de parámetros
Comparación de rendimiento por modo
- V4-Pro Max registra el mejor rendimiento en todos los benchmarks
- Patrón consistente de mejora al pasar de Non-Think → Think High → Think Max:
- Ejemplo: en GPQA Diamond, V4-Pro Non-Think 72.9 → High 89.1 → Max 90.1
- Ejemplo: en LiveCodeBench, V4-Flash Non-Think 55.2 → Max 91.6
- V4-Flash Max logra un rendimiento similar o superior a V4-Pro High en varios benchmarks
Descarga del modelo y precisión
- Se ofrecen cuatro modelos: V4-Flash-Base, V4-Flash, V4-Pro-Base y V4-Pro
- Los modelos Base usan precisión FP8 Mixed, mientras que los modelos Instruct usan precisión FP4 + FP8 Mixed
- Los parámetros expertos de MoE usan FP4 y la mayor parte del resto usa FP8
- Disponibles para descarga en HuggingFace y ModelScope
Plantilla de chat y ejecución local
- No incluye plantilla de chat en formato Jinja; en su lugar, la carpeta
encodingofrece scripts de Python y casos de prueba para codificar y parsear mensajes en formato compatible con OpenAI - Parámetros de muestreo recomendados para despliegue local: temperature 1.0, top_p 1.0
- En modo Think Max se recomienda una ventana de contexto de al menos 384K tokens
Licencia
- Tanto los pesos del modelo como el repositorio usan MIT License
1 comentarios
Opiniones en Hacker News
Un modelo gigante como v4 pro cuesta alrededor de 4 dólares por cada millón de tokens de salida, así que no estoy muy seguro de que realmente sea cierto eso de que “los laboratorios de punta están subsidiando la inferencia a niveles absurdos”
Incluso un modelo de suscripción parece que podría ser bastante rentable, y ni hablar del precio del API
La entrada cuesta $1.74/M y la salida $3.48/M según OpenRouter
Dicen que en el comunicado mencionaron que cuando salga la tarjeta de cómputo Ascend 950 en la segunda mitad de este año, el precio de Pro bajará mucho
Aun así, últimamente esas estimaciones de costos también parecen estar subiendo más de lo esperado
Los servicios por suscripción ya dejan ganancias, y eso de los subsidios al final parece más bien una narrativa para sacar márgenes más altos del API para clientes empresariales
En China la electricidad también es más barata
Es curiosamente reconfortante que hayan salido antes los documentos para desarrolladores que el comunicado rimbombante
Viendo la edición, parece que en el comentario principal ya quitaron la expresión “open source”
Ya apareció en OpenRouter
Pro cuesta $1.74/m de entrada y $3.48/m de salida, y Flash cuesta $0.14/m de entrada y $0.28/m de salida
Aquí me sale Api Error
Todos los demás modelos funcionan bien
https://openrouter.ai/deepseek/deepseek-v4-pro
https://openrouter.ai/deepseek/deepseek-v4-flash
Da gusto que de China salga algo realmente open source
Sé que puede haber intenciones ocultas, pero aun así me cae bien
Las intenciones ocultas de China son una suposición, pero del lado de EE. UU. está todo expuesto sin tapujos
http://try.works/why-chinese-ai-labs-went-open-and-will-remain-open
Subieron el modelo base Pro de 1.6T a Hugging Face
Es la primera vez que veo aquí una notación de modelo en escala T
https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf
El modelo ya se publicó y es bastante impresionante
Tiene rendimiento de nivel frontier, cuesta mucho menos, y me parece mejor que Opus 4.6
Los usuarios de Opus igual van a seguir creyendo que es lo mejor, y los que no lo usan no quieren ese costo, ese lock-in y esas restricciones
Yo, que no lo uso, sigo usando el modelo más barato y rápido que me resuelva el trabajo, y ahora mismo ese es MiniMax M2.5
A veces pruebo modelos nuevos más caros y el resultado es parecido, así que también me pregunto si no habrá una exageración general de toda la industria de IA que hace que parezca que solo se avanza en benchmarks
Esta semana estuve participando en el hackathon de Anthropic Opus 4.7 y usé bastante 4.7; consumía muchos más tokens que 4.6, pero igual me dejó bastante impresionado
También me gustaría saber si lo probaron para programación real con un agent harness
Si programa mejor que Claude Code + Opus 4.6, me cambio de inmediato
Todos los días sale algún lanzamiento diciendo que es mejor que Opus 4.6, pero ni siquiera DeepSeek afirma que supere a Opus incluyendo thinking
Dsv3 no era un modelo inflado para benchmarks; fuera de benchmarks también rendía con bastante solidez, y aunque no llegaba al SoTA, estaba bien
Este modelo parece parecido
Está justo por debajo del máximo rendimiento, pero la diferencia no es grande y el precio es mucho más bajo
El modelo grande lo está sirviendo ds directamente a $1.74 in / $3.48 out / $0.14 cache, así que es muy barato para el valor que ofrece
El modelo pequeño cuesta $0.14 in / $0.28 out / $0.028 cache, así que prácticamente es tan barato que ni vale la pena pensarlo, y puede ser un candidato realista para correrlo en casa
Si el rendimiento acompaña, parece totalmente capaz de competir con la línea haiku o gemini-flash
La mejora promedio es de alrededor de 2%, y sinceramente no sé si eso es enorme o poca cosa
Claude 4.6 fue casi 10 pp mejor en preguntas y respuestas de contexto largo, especialmente en los corpuses de CorpusQA y en conversaciones multironda de MRCR
En cambio, DSv4 estuvo nada menos que 14 pp arriba en IMOAnswerBench y 12 pp arriba en SimpleQA-Verified
Los pesos se pueden descargar aquí
https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro
https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash-Base
https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro-Base
Qué bueno que hasta sacaron un nuevo modelo base
Me interesa mucho este campo y además tengo bastante en juego en él, pero la verdad es que ya me está dando burnout intentar seguirle el ritmo a todo
Siento que ya pasó hace rato el punto en que la IA tiene que resumir el avance de la IA para que uno pueda mantenerse al día
Pasa como con las noticias: cuando de verdad necesites saber algo, alguien te lo va a decir primero
Se puede seguir como si fuera deporte, y si aceptas que el puesto número uno va cambiando, no se hace tan pesado
Sale un modelo nuevo y dicen que mejoró en unos cuantos benchmarks, pero la experiencia subjetiva de usarlo es casi la misma
Después de eso ya no ha habido mucho que realmente sorprenda, y ahora da la impresión de que se estancó en algo que solo le interesa al grupo más entusiasta
Más que el hecho de que High Flyer aparentemente copió descaradamente a Anthropic para hacer esto, lo que más me molesta es que GAB le haya dado tiempo suficiente para meter decenas de easter eggs de nivel xz ahí dentro
Acabo de probarlo por OpenRouter en Pi Coding agent, y muchas veces no logra usar bien las herramientas de lectura y escritura
Me decepcionó bastante, y me pregunto si hay una solución mejor que prompts como “no uses llamadas directas y usa siempre las herramientas proporcionadas”
Probablemente todavía no hicieron suficientes pruebas previas con Pi