DeepSeek v4: modelo de lenguaje grande de alta eficiencia con soporte para contexto de 1 millón de tokens

(huggingface.co)

10 puntos por GN⁺ 2026-04-24 | 1 comentarios | Compartir por WhatsApp

Modelo de lenguaje grande basado en Mixture-of-Experts (MoE) con soporte para 1M de tokens de contexto, presentado en dos versiones: Pro (1.6T parámetros) y Flash (284B parámetros)
Con una arquitectura de atención híbrida que combina Compressed Sparse Attention (CSA) y Heavily Compressed Attention (HCA), usa solo el 27% de los FLOPs de inferencia y el 10% de la caché KV frente a DeepSeek-V3.2 con 1 millón de tokens
Tras preentrenarse con más de 32T tokens, aplica un pipeline de posentrenamiento de 2 etapas que entrena expertos por dominio de forma independiente y luego los integra en un solo modelo mediante on-policy distillation
DeepSeek-V4-Pro-Max logra el mejor rendimiento open source en benchmarks de código como LiveCodeBench 93.5, SWE Verified 80.6 y Codeforces 3206
Soporta tres modos de inferencia: Non-Think, Think High y Think Max, para elegir según el caso de uso desde tareas cotidianas hasta razonamiento de máxima dificultad

Resumen del modelo y arquitectura

La serie DeepSeek-V4 está compuesta por dos modelos: DeepSeek-V4-Pro (1.6T parámetros totales, 49B activados) y DeepSeek-V4-Flash (284B parámetros totales, 13B activados)
Ambos modelos admiten una longitud de contexto de 1 millón de tokens
Tres mejoras principales de arquitectura y optimización:
- Hybrid Attention Architecture: combina CSA y HCA para mejorar drásticamente la eficiencia en contexto largo; con 1 millón de tokens reduce los FLOPs de inferencia por token al 27% y la caché KV al 10% respecto a DeepSeek-V3.2
- Manifold-Constrained Hyper-Connections (mHC): refuerza las conexiones residuales existentes para asegurar al mismo tiempo estabilidad en la propagación de señales entre capas y mayor capacidad de representación del modelo
- Muon Optimizer: ofrece convergencia más rápida y mayor estabilidad durante el entrenamiento

Entrenamiento y pipeline de posentrenamiento

Preentrenado con más de 32T tokens diversos y de alta calidad
El posentrenamiento aplica un paradigma de 2 etapas:
- Etapa 1: entrenamiento independiente de expertos por dominio mediante SFT y RL (usando GRPO)
- Etapa 2: integración de la especialización de distintos dominios en un solo modelo mediante on-policy distillation

Modos de inferencia

Tanto DeepSeek-V4-Pro como DeepSeek-V4-Flash admiten tres modos de inferencia:
- Non-Think: respuestas rápidas e intuitivas, adecuadas para trabajo diario o decisiones de bajo riesgo
- Think High: análisis lógico deliberado, adecuado para resolver problemas complejos o planificar
- Think Max: lleva la capacidad de razonamiento hasta su límite, pensado para explorar las fronteras de inferencia del modelo

Rendimiento en benchmarks — Modelos Base

DeepSeek-V4-Pro-Base supera a V3.2-Base y V4-Flash-Base en la mayoría de los benchmarks:
- MMLU: 90.1 (V3.2-Base 87.8, V4-Flash-Base 88.7)
- MMLU-Pro: 73.5 (V3.2-Base 65.5)
- Simple-QA Verified: 55.2 (V3.2-Base 28.3)
- FACTS Parametric: 62.6 (V3.2-Base 27.1)
- HumanEval: 76.8 (V3.2-Base 62.8)
- LongBench-V2: 51.5 (V3.2-Base 40.2)
V4-Flash-Base demuestra eficiencia al acercarse o incluso superar en algunos benchmarks a V3.2-Base (37B activados) usando solo 13B parámetros activados

Rendimiento en benchmarks — Modelos Instruct (V4-Pro-Max vs modelos frontier)

Destaca en benchmarks de código:
- LiveCodeBench 93.5 (Gemini-3.1-Pro High 91.7, Opus-4.6 Max 88.8)
- Codeforces 3206 (GPT-5.4 xHigh 3168, Gemini-3.1-Pro High 3052)
- Apex Shortlist 90.2 (Gemini-3.1-Pro High 89.1)
En conocimiento y razonamiento:
- SimpleQA-Verified 57.9 y Chinese-SimpleQA 84.4, por encima de la mayoría de los modelos, aunque por debajo de Gemini-3.1-Pro High (75.6, 85.9)
- GPQA Diamond 90.1, MMLU-Pro 87.5
Tareas de agente:
- Se ubica en el nivel más alto con SWE Verified 80.6 y MCPAtlas Public 73.6, entre otros
- En Terminal Bench 2.0 (67.9) y HLE w/ tools (48.2) queda por debajo de algunos modelos closed source
V4-Flash-Max alcanza un rendimiento de razonamiento cercano a la versión Pro cuando se le asigna un mayor thinking budget, aunque queda ligeramente atrás en tareas puramente de conocimiento y en flujos de trabajo complejos de agente debido a la diferencia de escala de parámetros

Comparación de rendimiento por modo

V4-Pro Max registra el mejor rendimiento en todos los benchmarks
Patrón consistente de mejora al pasar de Non-Think → Think High → Think Max:
- Ejemplo: en GPQA Diamond, V4-Pro Non-Think 72.9 → High 89.1 → Max 90.1
- Ejemplo: en LiveCodeBench, V4-Flash Non-Think 55.2 → Max 91.6
V4-Flash Max logra un rendimiento similar o superior a V4-Pro High en varios benchmarks

Descarga del modelo y precisión

Se ofrecen cuatro modelos: V4-Flash-Base, V4-Flash, V4-Pro-Base y V4-Pro
Los modelos Base usan precisión FP8 Mixed, mientras que los modelos Instruct usan precisión FP4 + FP8 Mixed
- Los parámetros expertos de MoE usan FP4 y la mayor parte del resto usa FP8
Disponibles para descarga en HuggingFace y ModelScope

Plantilla de chat y ejecución local

No incluye plantilla de chat en formato Jinja; en su lugar, la carpeta encoding ofrece scripts de Python y casos de prueba para codificar y parsear mensajes en formato compatible con OpenAI
Parámetros de muestreo recomendados para despliegue local: temperature 1.0, top_p 1.0
En modo Think Max se recomienda una ventana de contexto de al menos 384K tokens

Licencia

Tanto los pesos del modelo como el repositorio usan MIT License

1 comentarios

GN⁺ 2026-04-24

Opiniones en Hacker News

Un modelo gigante como v4 pro cuesta alrededor de 4 dólares por cada millón de tokens de salida, así que no estoy muy seguro de que realmente sea cierto eso de que “los laboratorios de punta están subsidiando la inferencia a niveles absurdos”
Incluso un modelo de suscripción parece que podría ser bastante rentable, y ni hablar del precio del API
La entrada cuesta $1.74/M y la salida $3.48/M según OpenRouter
- También hay una explicación de que el precio es alto por la falta de tarjetas de inferencia de DeepSeek
  Dicen que en el comunicado mencionaron que cuando salga la tarjeta de cómputo Ascend 950 en la segunda mitad de este año, el precio de Pro bajará mucho
- Puede que sea rentable en términos de costos operativos, pero quizá todavía no lo sea si se consideran los costos de capital con el cronograma de depreciación actual
  Aun así, últimamente esas estimaciones de costos también parecen estar subiendo más de lo esperado
- Yo lo veo parecido
  Los servicios por suscripción ya dejan ganancias, y eso de los subsidios al final parece más bien una narrativa para sacar márgenes más altos del API para clientes empresariales
- Ese punto es válido, pero todavía no hay proveedores occidentales que igualen ese rango de precios
  En China la electricidad también es más barata
Es curiosamente reconfortante que hayan salido antes los documentos para desarrolladores que el comunicado rimbombante
- Sí, de verdad this is the way
- Si a esto lo van a llamar open source, entonces dónde están los datos de entrenamiento y los scripts de entrenamiento
  Viendo la edición, parece que en el comentario principal ya quitaron la expresión “open source”
Ya apareció en OpenRouter
Pro cuesta $1.74/m de entrada y $3.48/m de salida, y Flash cuesta $0.14/m de entrada y $0.28/m de salida
- Aquí me sale Api Error
  Todos los demás modelos funcionan bien
- https://openrouter.ai/deepseek/deepseek-v4-pro
  
  https://openrouter.ai/deepseek/deepseek-v4-flash
Da gusto que de China salga algo realmente open source
Sé que puede haber intenciones ocultas, pero aun así me cae bien
- Las empresas estadounidenses exigen una verificación de identidad exagerada incluso para pagar por acceso al modelo, guardan y analizan los datos y los usan para entrenamiento, y además dicen abiertamente que pueden entregarlos a las autoridades si se los piden
  Las intenciones ocultas de China son una suposición, pero del lado de EE. UU. está todo expuesto sin tapujos
- Este texto ayuda a entender por qué los laboratorios chinos están publicando modelos
  http://try.works/why-chinese-ai-labs-went-open-and-will-remain-open
- Solo son pesos abiertos
Subieron el modelo base Pro de 1.6T a Hugging Face
Es la primera vez que veo aquí una notación de modelo en escala T
https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf

El modelo ya se publicó y es bastante impresionante
Tiene rendimiento de nivel frontier, cuesta mucho menos, y me parece mejor que Opus 4.6
- Ya ni sé si tiene sentido seguir comparando modelos con Opus
  Los usuarios de Opus igual van a seguir creyendo que es lo mejor, y los que no lo usan no quieren ese costo, ese lock-in y esas restricciones
  Yo, que no lo uso, sigo usando el modelo más barato y rápido que me resuelva el trabajo, y ahora mismo ese es MiniMax M2.5
  A veces pruebo modelos nuevos más caros y el resultado es parecido, así que también me pregunto si no habrá una exageración general de toda la industria de IA que hace que parezca que solo se avanza en benchmarks
- Me da curiosidad cómo se compara con Opus 4.7
  Esta semana estuve participando en el hackathon de Anthropic Opus 4.7 y usé bastante 4.7; consumía muchos más tokens que 4.6, pero igual me dejó bastante impresionado
- Quisiera saber si de verdad es mejor que Opus 4.6, o si simplemente está muy optimizado para benchmarks
  También me gustaría saber si lo probaron para programación real con un agent harness
  Si programa mejor que Claude Code + Opus 4.6, me cambio de inmediato
- Ya empezó otra vez
  Todos los días sale algún lanzamiento diciendo que es mejor que Opus 4.6, pero ni siquiera DeepSeek afirma que supere a Opus incluyendo thinking
  Dsv3 no era un modelo inflado para benchmarks; fuera de benchmarks también rendía con bastante solidez, y aunque no llegaba al SoTA, estaba bien
  Este modelo parece parecido
  Está justo por debajo del máximo rendimiento, pero la diferencia no es grande y el precio es mucho más bajo
  El modelo grande lo está sirviendo ds directamente a $1.74 in / $3.48 out / $0.14 cache, así que es muy barato para el valor que ofrece
  El modelo pequeño cuesta $0.14 in / $0.28 out / $0.028 cache, así que prácticamente es tan barato que ni vale la pena pensarlo, y puede ser un candidato realista para correrlo en casa
  Si el rendimiento acompaña, parece totalmente capaz de competir con la línea haiku o gemini-flash
- Haciendo cuentas por encima con los benchmarks publicados, entre los 20 indicadores donde ambos tienen puntaje hay una diferencia total de 20.1 puntos porcentuales
  La mejora promedio es de alrededor de 2%, y sinceramente no sé si eso es enorme o poca cosa
  Claude 4.6 fue casi 10 pp mejor en preguntas y respuestas de contexto largo, especialmente en los corpuses de CorpusQA y en conversaciones multironda de MRCR
  En cambio, DSv4 estuvo nada menos que 14 pp arriba en IMOAnswerBench y 12 pp arriba en SimpleQA-Verified
Los pesos se pueden descargar aquí
https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro
- https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash-Base
  https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro-Base
  
  Qué bueno que hasta sacaron un nuevo modelo base
Me interesa mucho este campo y además tengo bastante en juego en él, pero la verdad es que ya me está dando burnout intentar seguirle el ritmo a todo
Siento que ya pasó hace rato el punto en que la IA tiene que resumir el avance de la IA para que uno pueda mantenerse al día
- Es mejor no intentar seguir todo
  Pasa como con las noticias: cuando de verdad necesites saber algo, alguien te lo va a decir primero
- Los actores clave casi no cambian
  Se puede seguir como si fuera deporte, y si aceptas que el puesto número uno va cambiando, no se hace tan pesado
- En mi experiencia, desde GPT-4 en adelante todo se siente muy parecido
  Sale un modelo nuevo y dicen que mejoró en unos cuantos benchmarks, pero la experiencia subjetiva de usarlo es casi la misma
  Después de eso ya no ha habido mucho que realmente sorprenda, y ahora da la impresión de que se estancó en algo que solo le interesa al grupo más entusiasta
Más que el hecho de que High Flyer aparentemente copió descaradamente a Anthropic para hacer esto, lo que más me molesta es que GAB le haya dado tiempo suficiente para meter decenas de easter eggs de nivel xz ahí dentro
Acabo de probarlo por OpenRouter en Pi Coding agent, y muchas veces no logra usar bien las herramientas de lectura y escritura
Me decepcionó bastante, y me pregunto si hay una solución mejor que prompts como “no uses llamadas directas y usa siempre las herramientas proporcionadas”
- Recién acaba de salir, así que convendría esperar un poco
  Probablemente todavía no hicieron suficientes pruebas previas con Pi

DeepSeek v4: modelo de lenguaje grande de alta eficiencia con soporte para contexto de 1 millón de tokens

Resumen del modelo y arquitectura

Entrenamiento y pipeline de posentrenamiento

Modos de inferencia

Rendimiento en benchmarks — Modelos Base

Rendimiento en benchmarks — Modelos Instruct (V4-Pro-Max vs modelos frontier)

Comparación de rendimiento por modo

Descarga del modelo y precisión

Plantilla de chat y ejecución local

Licencia

Lecturas relacionadas

1 comentarios

Opiniones en Hacker News