DeepSeek V4: casi al nivel frontier y con precios muy por debajo
(simonwillison.net)- DeepSeek presentó dos modelos de vista previa como los primeros de la serie V4: DeepSeek-V4-Pro y DeepSeek-V4-Flash. Ambos son modelos Mixture of Experts con soporte para un contexto de 1 millón de tokens y se ofrecen bajo licencia MIT.
- DeepSeek-V4-Pro es un modelo con 1.6T parámetros totales y 49B parámetros activos, y parece ser el nuevo modelo abierto con pesos más grande, por encima de Kimi K2.6, GLM-5.1 y DeepSeek V3.2.
- El principal diferenciador de DeepSeek V4 es el precio: Flash cuesta $0.14 por millón de tokens de entrada y $0.28 de salida, mientras que Pro cuesta $1.74 de entrada y $3.48 de salida, por debajo de los modelos pequeños y grandes comparables.
- El bajo precio está ligado a la eficiencia en contexto largo: con un contexto de 1 millón de tokens, Pro reduce los FLOPs por token individual al 27% y la caché KV al 10% frente a DeepSeek-V3.2; Flash baja a 10% de FLOPs y 7% de caché KV.
- En sus propios benchmarks, DeepSeek-V4-Pro puede competir con modelos frontier, pero queda ligeramente por detrás de GPT-5.4 y Gemini-3.1-Pro, mostrando una trayectoria de desarrollo de alrededor de 3 a 6 meses por detrás de los modelos frontier más avanzados.
Lanzamiento de los modelos y especificaciones básicas
- Después de V3.2 y V3.2 Speciale en diciembre de 2025, DeepSeek presentó DeepSeek-V4-Pro y DeepSeek-V4-Flash, dos modelos de vista previa como los primeros de la serie V4.
- Ambos modelos son Mixture of Experts con soporte para un contexto de 1 millón de tokens y usan la licencia MIT estándar.
- DeepSeek-V4-Pro tiene 1.6T parámetros totales y 49B parámetros activos, mientras que DeepSeek-V4-Flash tiene 284B parámetros totales y 13B parámetros activos.
- DeepSeek-V4-Pro supera los 1.1T de Kimi K2.6, los 754B de GLM-5.1 y los 685B de DeepSeek V3.2, por lo que parece ser el nuevo modelo abierto con pesos más grande.
- Según Hugging Face, el tamaño del modelo es de 865GB para Pro y 160GB para Flash; se espera que una versión Flash ligeramente cuantizada pueda ejecutarse en una MacBook Pro M5 con 128GB.
- El modelo Pro también podría ejecutarse en la misma máquina si fuera posible hacer streaming desde disco solo de los expertos activos necesarios.
-
Prueba rápida mediante OpenRouter
- Usando OpenRouter y llm-openrouter, se invocó el modelo con el siguiente comando:
-
llm install llm-openrouter llm openrouter refresh llm -m openrouter/deepseek/deepseek-v4-pro 'Generate an SVG of a pelican riding a bicycle' - Como resultado de la generación, se publicaron el SVG del pelícano de DeepSeek-V4-Flash y el SVG del pelícano de DeepSeek-V4-Pro.
- Como punto de comparación, también se muestran los resultados con el mismo prompt de DeepSeek V3.2 de diciembre de 2025, V3.1 de agosto de 2025 y V3-0324 de marzo de 2025.
Precio, eficiencia y posicionamiento en rendimiento
- El elemento más llamativo de DeepSeek V4 es el precio. Según la página de precios de DeepSeek, Flash cuesta $0.14 por millón de tokens de entrada y $0.28 por millón de tokens de salida.
- Pro tiene un precio de $1.74 por millón de tokens de entrada y $3.48 por millón de tokens de salida.
- En la tabla comparativa, DeepSeek V4 Flash queda por debajo de los $0.20 de entrada y $1.25 de salida de GPT-5.4 Nano, así como de los $0.25 de entrada y $1.50 de salida de Gemini 3.1 Flash-Lite, convirtiéndose en el más barato entre los modelos pequeños.
- DeepSeek V4 Pro también queda por debajo de Gemini 3.1 Pro ($2 de entrada y $12 de salida), GPT-5.4 ($2.50 de entrada y $15 de salida), Claude Sonnet 4.6 ($3 de entrada y $15 de salida), Claude Opus 4.7 ($5 de entrada y $25 de salida) y GPT-5.5 ($5 de entrada y $30 de salida), por lo que es el más barato entre los grandes modelos frontier.
-
La optimización respalda el bajo precio
- El paper de DeepSeek señala que este lanzamiento pone un fuerte énfasis en la eficiencia de prompts de contexto largo.
- En un contexto de 1 millón de tokens, DeepSeek-V4-Pro reduce frente a DeepSeek-V3.2 los FLOPs por token individual a 27% y el tamaño de la caché KV a 10%.
- En las mismas condiciones, DeepSeek-V4-Flash reduce frente a DeepSeek-V3.2 los FLOPs por token individual a 10% y el tamaño de la caché KV a 7%.
-
En benchmarks se acerca al nivel frontier, pero sigue detrás de la élite
- Los benchmarks reportados por la propia DeepSeek muestran que el modelo Pro puede competir con otros modelos frontier.
- Según el paper, DeepSeek-V4-Pro-Max con escalado de tokens de razonamiento supera a GPT-5.2 y Gemini-3.0-Pro en benchmarks estándar de razonamiento.
- Aun así, queda ligeramente por detrás de GPT-5.4 y Gemini-3.1-Pro, y muestra una trayectoria de desarrollo de alrededor de 3 a 6 meses por detrás de los modelos frontier más avanzados.
- Se espera la publicación de versiones cuantizadas de Unsloth en huggingface.co/unsloth/models, y sigue abierta la pregunta de qué tan bien correrá el modelo Flash en una máquina local.
Aún no hay comentarios.