DeepSeek V4 – casi al nivel de la frontera y mucho más barato
(simonwillison.net)- DeepSeek presentó los modelos preliminares DeepSeek-V4-Pro y DeepSeek-V4-Flash como los primeros de la serie V4; ambos son modelos Mixture of Experts con soporte para un contexto de 1 millón de tokens y se ofrecen bajo licencia MIT
- DeepSeek-V4-Pro es un modelo con 1.6T parámetros totales y 49B parámetros activos, y parece ser el modelo de pesos abiertos más grande hasta ahora, por encima de Kimi K2.6, GLM-5.1 y DeepSeek V3.2
- La principal diferencia de DeepSeek V4 es el precio: Flash cuesta $0.14 por millón de tokens de entrada y $0.28 de salida; Pro cuesta $1.74 de entrada y $3.48 de salida, por debajo de los modelos pequeños y grandes comparables
- El precio bajo está ligado a la eficiencia en contexto largo: con un contexto de 1 millón de tokens, Pro baja a 27% de los FLOPs por token y 10% del caché KV frente a DeepSeek-V3.2; Flash baja a 10% de FLOPs y 7% de caché KV
- En sus propios benchmarks, DeepSeek-V4-Pro puede competir con modelos frontier, aunque queda un poco por debajo de GPT-5.4 y Gemini-3.1-Pro, y muestra una trayectoria de desarrollo de aproximadamente 3 a 6 meses detrás de los modelos frontier más avanzados
Publicación de los modelos y especificaciones básicas
- Después de V3.2 y V3.2 Speciale en diciembre de 2025, DeepSeek presentó DeepSeek-V4-Pro y DeepSeek-V4-Flash, dos modelos preliminares como los primeros de la serie V4
- Ambos modelos son Mixture of Experts con soporte para 1 millón de tokens de contexto y usan la licencia MIT estándar
- DeepSeek-V4-Pro tiene 1.6T parámetros totales y 49B parámetros activos, mientras que DeepSeek-V4-Flash tiene 284B parámetros totales y 13B parámetros activos
- DeepSeek-V4-Pro es más grande que los 1.1T de Kimi K2.6, los 754B de GLM-5.1 y los 685B de DeepSeek V3.2, por lo que parece ser el nuevo modelo de pesos abiertos más grande
- Según Hugging Face, el tamaño del modelo es de 865GB para Pro y 160GB para Flash; se espera que una versión ligeramente cuantizada de Flash pueda ejecutarse en una MacBook Pro M5 con 128GB
- También es posible que el modelo Pro pueda ejecutarse en la misma máquina si solo se transmiten desde disco los expertos activos necesarios
-
Prueba rápida a través de OpenRouter
- Se invocó el modelo con OpenRouter y llm-openrouter usando el siguiente comando
-
llm install llm-openrouter llm openrouter refresh llm -m openrouter/deepseek/deepseek-v4-pro 'Generate an SVG of a pelican riding a bicycle' - Se publicaron como resultados el SVG del pelícano de DeepSeek-V4-Flash y el SVG del pelícano de DeepSeek-V4-Pro
- También se muestran para comparar los resultados con el mismo prompt de DeepSeek V3.2 de diciembre de 2025, V3.1 de agosto de 2025 y V3-0324 de marzo de 2025
Precio, eficiencia y posición en rendimiento
- El aspecto más llamativo de DeepSeek V4 es el precio; según la página de precios de DeepSeek, Flash cuesta $0.14 por millón de tokens de entrada y $0.28 por millón de tokens de salida
- Pro tiene un precio de $1.74 por millón de tokens de entrada y $3.48 por millón de tokens de salida
- En la tabla comparativa, DeepSeek V4 Flash es más barato que GPT-5.4 Nano con $0.20 de entrada y $1.25 de salida, y que Gemini 3.1 Flash-Lite con $0.25 de entrada y $1.50 de salida, por lo que es el más económico entre los modelos pequeños
- DeepSeek V4 Pro es más barato que Gemini 3.1 Pro con $2 de entrada y $12 de salida, GPT-5.4 con $2.50 de entrada y $15 de salida, Claude Sonnet 4.6 con $3 de entrada y $15 de salida, Claude Opus 4.7 con $5 de entrada y $25 de salida, y GPT-5.5 con $5 de entrada y $30 de salida, por lo que es el más barato entre los grandes modelos frontier
-
La eficiencia respalda el precio bajo
- El paper de DeepSeek señala que esta versión se enfocó fuertemente en la eficiencia de prompts de contexto largo
- Con un contexto de 1 millón de tokens, DeepSeek-V4-Pro queda en 27% de los FLOPs por token y 10% del tamaño del caché KV frente a DeepSeek-V3.2
- En las mismas condiciones, DeepSeek-V4-Flash baja hasta 10% de los FLOPs por token y 7% del tamaño del caché KV frente a DeepSeek-V3.2
-
Cerca de la frontera en benchmarks, pero detrás del nivel más alto
- Los benchmarks auto reportados de DeepSeek muestran resultados donde el modelo Pro puede competir con otros modelos frontier
- Según el paper, DeepSeek-V4-Pro-Max con escalado de tokens de razonamiento supera a GPT-5.2 y Gemini-3.0-Pro en benchmarks estándar de razonamiento
- Aun así, queda un poco por debajo de GPT-5.4 y Gemini-3.1-Pro, y muestra una trayectoria de desarrollo de aproximadamente 3 a 6 meses detrás de los modelos frontier más avanzados
- Se espera la publicación de versiones cuantizadas de Unsloth en huggingface.co/unsloth/models, y sigue siendo de interés qué tan bien podrá ejecutarse el modelo Flash en máquinas locales
2 comentarios
Por ahora, que sea realmente barato está muy bien, pero el problema es que es demasiado lento.... algo que con codex tardaría 5 minutos, este se queda pensando 20 minutos. Por eso, más que para implementar, lo estoy usando para revisión de código, y como hace bastante bien la revisión de código, estoy satisfecho.
Comentarios en Hacker News
Para mí, la mayor diferencia es que DeepSeek simplemente hace lo que le pides. Hace poco probé tanto GPT como Claude para tareas de ingeniería inversa, y ambos se negaron; incluso recibí una advertencia en mi cuenta de OpenAI
Deepseek v4 pro 94%
Deepseek v4 flash - 96%
https://artificialanalysis.ai/evaluations/omniscience?models...
Me molestó muchísimo; parecía un viejo meme de Patrick de SpongeBob. No entiendo por qué quieren convertir los modelos en agentes del orden. Lo ilegal sigue siendo ilegal, y ya existen profesionales que se encargan del crimen. Google no tiene por qué ser el árbitro de la verdad y la justicia. A las agencias de cumplimiento de la ley ya es difícil pedirles cuentas, pero al menos trabajan para nosotros
Compañeros desarrolladores, ¿qué clase de mundo hemos construido? Esto es una locura. Imaginen un martillo diciendo: “No me uses con tornillos, solo con clavos. Si lo vuelves a hacer, me autodestruiré”. Ojalá dejemos de hacer software así
Imaginen que OpenAI compra 20 empresas y, por haber cruzado una línea difusa una sola vez en el pasado, ya no puedes usar Figma o Next. No es solo OpenAI; todo el ecosistema es demasiado difícil de interpretar
Le pregunté a Gemini por una cita de Catch-22 y, aunque no tenía nada violento ni sexual, siguió interrumpiendo la respuesta a mitad del streaming diciendo que no podía hablar de eso. El libro sí contiene ese tipo de contenido, así que da la impresión de que por esa sola razón hasta podrían penalizar toda una cuenta de workspace
Idealmente, el futuro debería ser local, pero viendo el costo real y el consumo eléctrico de los próximos años, no sé qué tan realista será para la mayoría. Si estás en ese ecosistema, quizá los procesadores M* sean la excepción
DeepSeek v4 Pro, en personalidad, se sintió como Claude Opus 4.6, y en costo fue impresionante
Le pedí que se enfocara solo en un endpoint dentro de una base de código TypeScript bastante grande, revisara a fondo por capas la API, DTO, servicios y modelos de base de datos, entendiera por completo los tipos relacionados y evitara que aparecieran tipos temporales
Me resumió de forma muy breve pero esencial los tipos introducidos, cuáles se devolvían y demás; luego le pedí simplificar todo
Seguro ambos prompts recorrieron muchos archivos, pero el costo total en la versión Pro fue de $0.09. Con Claude Opus, incluso antes de la subida de precio y según mi experiencia, esos dos prompts fácilmente habrían costado entre $9 y $13, y el beneficio no habría sido gran cosa
Por cierto, no usé OpenRouter, sino directamente la API de DeepSeek, porque OpenRouter mismo estaba siendo limitado por DeepSeek
Por eso hice un MCP basado en Prolog que parsea el código en forma de grafo con tree-sitter, para que el modelo pueda hacer preguntas como “¿cuáles son todas las funciones conectadas con esta función?”. Si quieres ver qué hace cierto endpoint, puedes recorrer todo el subgrafo de llamadas de forma trivial y predecible
https://github.com/yogthos/chiasmus
Relacionado con eso, hay una demo en vivo ejecutando DeepSeek v4 Flash en una MacBook de 128GB. El video está en italiano y tiene subtítulos en inglés
https://www.youtube.com/watch?v=todMmp6AGCE
Lo conecté a vscode copilot y probé tanto flash como pro. Para pequeñas pruebas de concepto, flash fue suficiente, bastante rápido y realmente barato
Se colgó algunas veces; quizá fue un tema de latencia, pero aun así los resultados fueron buenos. Usé pro para tareas pesadas y planificación, y lo hizo excelente
Pagué unos 10 centavos por una prueba de concepto pequeña y funcionó exactamente como lo pedí. Para mí, es una alternativa real después de cancelar GitHub Copilot a fin de mes
Aunque el costo es menor que el de los modelos de frontera, hay dos factores que hacen que DS4 Pro y K2.6 no sean tan baratos como parecen
DS4 Pro tiene descuento en la API oficial, y eso muchas veces se pasa por alto o se mezcla en la discusión. Simon usó el precio de lista en su comparación, así que aquí no hay problema
El otro problema es que DS4 Pro y K2.6 suelen usar muchos más tokens de razonamiento que los modelos de frontera. En mis pruebas, en algunos casos patológicos gastaban tantos tokens que el costo de la solicitud podía igualar al de los modelos de frontera. Siendo justos, yo uso DS y Kimi a través de proveedores de terceros, así que quizá sea un tema de configuración de ellos
Pero si ves las páginas de modelos de Artificial Analysis, en sus benchmarks de inteligencia DSv4 Pro usó 190M tokens, K2.6 usó 170M tokens, mientras que GPT 5.5 high usó solo 45M
En “Intelligence vs. Cost to Run Artificial Analysis Intelligence Index”, recomiendo ver “Intelligence vs Cost” en la UI. Los modelos open source siguen siendo más baratos, pero no tanto como cabría esperar viendo solo el precio por token
[0] https://artificialanalysis.ai/models/deepseek-v4-pro
[1] https://artificialanalysis.ai/models/kimi-k2-6
[2] https://artificialanalysis.ai/models/gpt-5-5-high
https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main...
Introdujeron HCA y mCH, métodos bastante nuevos para mejorar la eficiencia de contexto largo y la atención. Frente a v3.2, para inferencia solo necesita 27% de los FLOPs y para la caché KV solo 10%. Eso significa que con los mismos recursos de cómputo puedes servir más de 3 veces, y que solo necesitas 30% de la caché KV anterior
Además, este lanzamiento es PREVIEW. DeepSeek es un verdadero laboratorio de investigación abierto: en cada lanzamiento construyen bastantes cosas, pero también las publican y las comparten. Yo lo estoy corriendo en local
Para hablar de qué tan “barato” es: con v3.2, en un contexto de 256k, me quedaba sin memoria GPU y se iba a memoria del sistema, y aun así me parecía bien sacar unas 7 mil tokens por segundo. Ahora puedo meter el contexto completo de 1 millón de tokens 100% dentro de la memoria GPU, correrlo a más del doble de velocidad y encima obtener mejores resultados
Eso sí es realmente barato. Moonshot dejó claro que le faltan GPUs, y por eso pasa eso. Si tuvieran capacidad de GPU como en EE. UU. y apoyaran el modelo como aquí, lo estarían regalando
Cuando intenté esto antes con Opus 4.6, quemé todo el presupuesto de $10 que le había puesto antes siquiera de que regresara el primer prompt
Incluso si fueran precios muy descontados, una solución completa me habría costado una cifra de un solo dígito en dólares, mientras que con Opus habrían sido dos dígitos de dólares para obtener exactamente nada
V4 claramente subió un nivel frente a V3.2 en nuestro benchmark multilingüe
Eso sí, hay dos advertencias. Al usarlo vía OpenRouter para inferencia, vimos muchísimos problemas de velocidad (TPS muy bajo) y a veces inestabilidad. Incluso ahora mismo, si reviso, en todos los proveedores disponibles anda entre 10 y 30 TPS, lo cual no es mucho para un modelo que “piensa” tanto como DeepSeek
La API oficial de DeepSeek no garantiza privacidad de datos ni siquiera a usuarios de pago
Si lo usas a través de Azure AI Foundry, quizá ninguna de las dos cosas sea un problema. De la segunda estoy bastante seguro, aunque todavía no lo he probado
En cualquier caso, me alegra ver más modelos de pesos abiertos que compiten hasta cierto punto con el nivel más alto actual
La API oficial de DeepSeek, cuando la usas en sesiones largas sobre la misma base de código, tiene una tasa de acierto de caché de más de 99%, así que sale muchísimo más barata que los modelos de frontera. Hay un ejemplo de sesión de 200M tokens en claude code
Sorprende que a la gente, especialmente cuando usa directamente la API del desarrollador del modelo, no le importe en absoluto que estos modelos entrenen públicamente con sus datos
Cuando pasa algo como “GitHub ahora mete automáticamente el código de todos al entrenamiento del modelo”, aparecen con toda razón cientos de comentarios furiosos, pero cuando se habla de usar modelos chinos vía OpenRouter, ese punto casi ya no aparece. Se puede explicar diciendo “son personas distintas”, pero la diferencia es tan marcada que cuesta creer que sea solo eso
Esa es una de las grandes ventajas de los pesos abiertos. Ni China ni EE. UU. se quedan con mis datos
Da esperanza que, incluso cuando se acabe el circo de los subsidios y todo pase a ser puramente por uso, esto no termine siendo completamente excluyente para la gente normal que no tiene un presupuesto mensual de $200
Una es que seguimos encontrando formas de meter más inteligencia en modelos más pequeños, así que con el tiempo el mismo hardware ofrece más capacidad de modelo
La otra es que el hardware sigue mejorando y la oferta se va poniendo al día con la demanda, así que con el tiempo también mejora el hardware que puedes comprar por 1 dólar
Ojalá llegue el día en que veamos este modelo actual de “acceder a la IA mediante la API de un proveedor” como hoy vemos la época en que “todo el mundo se conectaba al mainframe de una empresa”
He usado v4 pro estos últimos días y, en cuanto a calidad, en general se ve al nivel de OpenAI 5.4 o Opus 4.6. No he probado 4.7
Para ser claro, no hago trabajo de punta. Lo usé sobre todo para desarrollo frontend, y como no soy muy bueno en eso, solo necesitaba prototipos razonables
Para mis objetivos, es un modelo totalmente aceptable y con un precio razonable. Pero de verdad estoy esperando que salga un modelo abierto lo bastante pequeño como para correrlo localmente. No me gusta depender de la máquina de alguien más y que todos mis datos se vayan por el camino
Aclaro que soy cofundador. La idea es ejecutar el modelo dentro de enclaves seguros, y verificar que el código open source que corre dentro del enclave coincida con la atestación de tiempo de ejecución. Usa NVIDIA confidential computing
La documentación explica el proceso de verificación: https://docs.tinfoil.sh/verification/verification-in-tinfoil