10 puntos por GN⁺ 2026-04-24 | 1 comentarios | Compartir por WhatsApp
  • Modelo de lenguaje grande basado en Mixture-of-Experts (MoE) con soporte para 1M de tokens de contexto, presentado en dos versiones: Pro (1.6T parámetros) y Flash (284B parámetros)
  • Con una arquitectura de atención híbrida que combina Compressed Sparse Attention (CSA) y Heavily Compressed Attention (HCA), usa solo el 27% de los FLOPs de inferencia y el 10% de la caché KV frente a DeepSeek-V3.2 con 1 millón de tokens
  • Tras preentrenarse con más de 32T tokens, aplica un pipeline de posentrenamiento de 2 etapas que entrena expertos por dominio de forma independiente y luego los integra en un solo modelo mediante on-policy distillation
  • DeepSeek-V4-Pro-Max logra el mejor rendimiento open source en benchmarks de código como LiveCodeBench 93.5, SWE Verified 80.6 y Codeforces 3206
  • Soporta tres modos de inferencia: Non-Think, Think High y Think Max, para elegir según el caso de uso desde tareas cotidianas hasta razonamiento de máxima dificultad

Resumen del modelo y arquitectura

  • La serie DeepSeek-V4 está compuesta por dos modelos: DeepSeek-V4-Pro (1.6T parámetros totales, 49B activados) y DeepSeek-V4-Flash (284B parámetros totales, 13B activados)
  • Ambos modelos admiten una longitud de contexto de 1 millón de tokens
  • Tres mejoras principales de arquitectura y optimización:
    • Hybrid Attention Architecture: combina CSA y HCA para mejorar drásticamente la eficiencia en contexto largo; con 1 millón de tokens reduce los FLOPs de inferencia por token al 27% y la caché KV al 10% respecto a DeepSeek-V3.2
    • Manifold-Constrained Hyper-Connections (mHC): refuerza las conexiones residuales existentes para asegurar al mismo tiempo estabilidad en la propagación de señales entre capas y mayor capacidad de representación del modelo
    • Muon Optimizer: ofrece convergencia más rápida y mayor estabilidad durante el entrenamiento

Entrenamiento y pipeline de posentrenamiento

  • Preentrenado con más de 32T tokens diversos y de alta calidad
  • El posentrenamiento aplica un paradigma de 2 etapas:
    • Etapa 1: entrenamiento independiente de expertos por dominio mediante SFT y RL (usando GRPO)
    • Etapa 2: integración de la especialización de distintos dominios en un solo modelo mediante on-policy distillation

Modos de inferencia

  • Tanto DeepSeek-V4-Pro como DeepSeek-V4-Flash admiten tres modos de inferencia:
    • Non-Think: respuestas rápidas e intuitivas, adecuadas para trabajo diario o decisiones de bajo riesgo
    • Think High: análisis lógico deliberado, adecuado para resolver problemas complejos o planificar
    • Think Max: lleva la capacidad de razonamiento hasta su límite, pensado para explorar las fronteras de inferencia del modelo

Rendimiento en benchmarks — Modelos Base

  • DeepSeek-V4-Pro-Base supera a V3.2-Base y V4-Flash-Base en la mayoría de los benchmarks:
    • MMLU: 90.1 (V3.2-Base 87.8, V4-Flash-Base 88.7)
    • MMLU-Pro: 73.5 (V3.2-Base 65.5)
    • Simple-QA Verified: 55.2 (V3.2-Base 28.3)
    • FACTS Parametric: 62.6 (V3.2-Base 27.1)
    • HumanEval: 76.8 (V3.2-Base 62.8)
    • LongBench-V2: 51.5 (V3.2-Base 40.2)
  • V4-Flash-Base demuestra eficiencia al acercarse o incluso superar en algunos benchmarks a V3.2-Base (37B activados) usando solo 13B parámetros activados

Rendimiento en benchmarks — Modelos Instruct (V4-Pro-Max vs modelos frontier)

  • Destaca en benchmarks de código:
    • LiveCodeBench 93.5 (Gemini-3.1-Pro High 91.7, Opus-4.6 Max 88.8)
    • Codeforces 3206 (GPT-5.4 xHigh 3168, Gemini-3.1-Pro High 3052)
    • Apex Shortlist 90.2 (Gemini-3.1-Pro High 89.1)
  • En conocimiento y razonamiento:
    • SimpleQA-Verified 57.9 y Chinese-SimpleQA 84.4, por encima de la mayoría de los modelos, aunque por debajo de Gemini-3.1-Pro High (75.6, 85.9)
    • GPQA Diamond 90.1, MMLU-Pro 87.5
  • Tareas de agente:
    • Se ubica en el nivel más alto con SWE Verified 80.6 y MCPAtlas Public 73.6, entre otros
    • En Terminal Bench 2.0 (67.9) y HLE w/ tools (48.2) queda por debajo de algunos modelos closed source
  • V4-Flash-Max alcanza un rendimiento de razonamiento cercano a la versión Pro cuando se le asigna un mayor thinking budget, aunque queda ligeramente atrás en tareas puramente de conocimiento y en flujos de trabajo complejos de agente debido a la diferencia de escala de parámetros

Comparación de rendimiento por modo

  • V4-Pro Max registra el mejor rendimiento en todos los benchmarks
  • Patrón consistente de mejora al pasar de Non-Think → Think High → Think Max:
    • Ejemplo: en GPQA Diamond, V4-Pro Non-Think 72.9 → High 89.1 → Max 90.1
    • Ejemplo: en LiveCodeBench, V4-Flash Non-Think 55.2 → Max 91.6
  • V4-Flash Max logra un rendimiento similar o superior a V4-Pro High en varios benchmarks

Descarga del modelo y precisión

  • Se ofrecen cuatro modelos: V4-Flash-Base, V4-Flash, V4-Pro-Base y V4-Pro
  • Los modelos Base usan precisión FP8 Mixed, mientras que los modelos Instruct usan precisión FP4 + FP8 Mixed
    • Los parámetros expertos de MoE usan FP4 y la mayor parte del resto usa FP8
  • Disponibles para descarga en HuggingFace y ModelScope

Plantilla de chat y ejecución local

  • No incluye plantilla de chat en formato Jinja; en su lugar, la carpeta encoding ofrece scripts de Python y casos de prueba para codificar y parsear mensajes en formato compatible con OpenAI
  • Parámetros de muestreo recomendados para despliegue local: temperature 1.0, top_p 1.0
  • En modo Think Max se recomienda una ventana de contexto de al menos 384K tokens

Licencia

  • Tanto los pesos del modelo como el repositorio usan MIT License

1 comentarios

 
GN⁺ 2026-04-24
Opiniones en Hacker News
  • Un modelo gigante como v4 pro cuesta alrededor de 4 dólares por cada millón de tokens de salida, así que no estoy muy seguro de que realmente sea cierto eso de que “los laboratorios de punta están subsidiando la inferencia a niveles absurdos”
    Incluso un modelo de suscripción parece que podría ser bastante rentable, y ni hablar del precio del API
    La entrada cuesta $1.74/M y la salida $3.48/M según OpenRouter

    • También hay una explicación de que el precio es alto por la falta de tarjetas de inferencia de DeepSeek
      Dicen que en el comunicado mencionaron que cuando salga la tarjeta de cómputo Ascend 950 en la segunda mitad de este año, el precio de Pro bajará mucho
    • Puede que sea rentable en términos de costos operativos, pero quizá todavía no lo sea si se consideran los costos de capital con el cronograma de depreciación actual
      Aun así, últimamente esas estimaciones de costos también parecen estar subiendo más de lo esperado
    • Yo lo veo parecido
      Los servicios por suscripción ya dejan ganancias, y eso de los subsidios al final parece más bien una narrativa para sacar márgenes más altos del API para clientes empresariales
    • Ese punto es válido, pero todavía no hay proveedores occidentales que igualen ese rango de precios
      En China la electricidad también es más barata
  • Es curiosamente reconfortante que hayan salido antes los documentos para desarrolladores que el comunicado rimbombante

    • Sí, de verdad this is the way
    • Si a esto lo van a llamar open source, entonces dónde están los datos de entrenamiento y los scripts de entrenamiento
      Viendo la edición, parece que en el comentario principal ya quitaron la expresión “open source”
  • Ya apareció en OpenRouter
    Pro cuesta $1.74/m de entrada y $3.48/m de salida, y Flash cuesta $0.14/m de entrada y $0.28/m de salida

  • Da gusto que de China salga algo realmente open source
    Sé que puede haber intenciones ocultas, pero aun así me cae bien

    • Las empresas estadounidenses exigen una verificación de identidad exagerada incluso para pagar por acceso al modelo, guardan y analizan los datos y los usan para entrenamiento, y además dicen abiertamente que pueden entregarlos a las autoridades si se los piden
      Las intenciones ocultas de China son una suposición, pero del lado de EE. UU. está todo expuesto sin tapujos
    • Este texto ayuda a entender por qué los laboratorios chinos están publicando modelos
      http://try.works/why-chinese-ai-labs-went-open-and-will-remain-open
    • Solo son pesos abiertos
  • Subieron el modelo base Pro de 1.6T a Hugging Face
    Es la primera vez que veo aquí una notación de modelo en escala T

  • https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf

    El modelo ya se publicó y es bastante impresionante
    Tiene rendimiento de nivel frontier, cuesta mucho menos, y me parece mejor que Opus 4.6

    • Ya ni sé si tiene sentido seguir comparando modelos con Opus
      Los usuarios de Opus igual van a seguir creyendo que es lo mejor, y los que no lo usan no quieren ese costo, ese lock-in y esas restricciones
      Yo, que no lo uso, sigo usando el modelo más barato y rápido que me resuelva el trabajo, y ahora mismo ese es MiniMax M2.5
      A veces pruebo modelos nuevos más caros y el resultado es parecido, así que también me pregunto si no habrá una exageración general de toda la industria de IA que hace que parezca que solo se avanza en benchmarks
    • Me da curiosidad cómo se compara con Opus 4.7
      Esta semana estuve participando en el hackathon de Anthropic Opus 4.7 y usé bastante 4.7; consumía muchos más tokens que 4.6, pero igual me dejó bastante impresionado
    • Quisiera saber si de verdad es mejor que Opus 4.6, o si simplemente está muy optimizado para benchmarks
      También me gustaría saber si lo probaron para programación real con un agent harness
      Si programa mejor que Claude Code + Opus 4.6, me cambio de inmediato
    • Ya empezó otra vez
      Todos los días sale algún lanzamiento diciendo que es mejor que Opus 4.6, pero ni siquiera DeepSeek afirma que supere a Opus incluyendo thinking
      Dsv3 no era un modelo inflado para benchmarks; fuera de benchmarks también rendía con bastante solidez, y aunque no llegaba al SoTA, estaba bien
      Este modelo parece parecido
      Está justo por debajo del máximo rendimiento, pero la diferencia no es grande y el precio es mucho más bajo
      El modelo grande lo está sirviendo ds directamente a $1.74 in / $3.48 out / $0.14 cache, así que es muy barato para el valor que ofrece
      El modelo pequeño cuesta $0.14 in / $0.28 out / $0.028 cache, así que prácticamente es tan barato que ni vale la pena pensarlo, y puede ser un candidato realista para correrlo en casa
      Si el rendimiento acompaña, parece totalmente capaz de competir con la línea haiku o gemini-flash
    • Haciendo cuentas por encima con los benchmarks publicados, entre los 20 indicadores donde ambos tienen puntaje hay una diferencia total de 20.1 puntos porcentuales
      La mejora promedio es de alrededor de 2%, y sinceramente no sé si eso es enorme o poca cosa
      Claude 4.6 fue casi 10 pp mejor en preguntas y respuestas de contexto largo, especialmente en los corpuses de CorpusQA y en conversaciones multironda de MRCR
      En cambio, DSv4 estuvo nada menos que 14 pp arriba en IMOAnswerBench y 12 pp arriba en SimpleQA-Verified
  • Los pesos se pueden descargar aquí
    https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro

  • Me interesa mucho este campo y además tengo bastante en juego en él, pero la verdad es que ya me está dando burnout intentar seguirle el ritmo a todo
    Siento que ya pasó hace rato el punto en que la IA tiene que resumir el avance de la IA para que uno pueda mantenerse al día

    • Es mejor no intentar seguir todo
      Pasa como con las noticias: cuando de verdad necesites saber algo, alguien te lo va a decir primero
    • Los actores clave casi no cambian
      Se puede seguir como si fuera deporte, y si aceptas que el puesto número uno va cambiando, no se hace tan pesado
    • En mi experiencia, desde GPT-4 en adelante todo se siente muy parecido
      Sale un modelo nuevo y dicen que mejoró en unos cuantos benchmarks, pero la experiencia subjetiva de usarlo es casi la misma
      Después de eso ya no ha habido mucho que realmente sorprenda, y ahora da la impresión de que se estancó en algo que solo le interesa al grupo más entusiasta
  • Más que el hecho de que High Flyer aparentemente copió descaradamente a Anthropic para hacer esto, lo que más me molesta es que GAB le haya dado tiempo suficiente para meter decenas de easter eggs de nivel xz ahí dentro

  • Acabo de probarlo por OpenRouter en Pi Coding agent, y muchas veces no logra usar bien las herramientas de lectura y escritura
    Me decepcionó bastante, y me pregunto si hay una solución mejor que prompts como “no uses llamadas directas y usa siempre las herramientas proporcionadas”

    • Recién acaba de salir, así que convendría esperar un poco
      Probablemente todavía no hicieron suficientes pruebas previas con Pi