DeepSeek V4: casi al nivel frontier y con precios muy por debajo

(simonwillison.net)

1 puntos por GN⁺ 1 시간 전 | Aún no hay comentarios. | Compartir por WhatsApp

DeepSeek presentó dos modelos de vista previa como los primeros de la serie V4: DeepSeek-V4-Pro y DeepSeek-V4-Flash. Ambos son modelos Mixture of Experts con soporte para un contexto de 1 millón de tokens y se ofrecen bajo licencia MIT.
DeepSeek-V4-Pro es un modelo con 1.6T parámetros totales y 49B parámetros activos, y parece ser el nuevo modelo abierto con pesos más grande, por encima de Kimi K2.6, GLM-5.1 y DeepSeek V3.2.
El principal diferenciador de DeepSeek V4 es el precio: Flash cuesta $0.14 por millón de tokens de entrada y $0.28 de salida, mientras que Pro cuesta $1.74 de entrada y $3.48 de salida, por debajo de los modelos pequeños y grandes comparables.
El bajo precio está ligado a la eficiencia en contexto largo: con un contexto de 1 millón de tokens, Pro reduce los FLOPs por token individual al 27% y la caché KV al 10% frente a DeepSeek-V3.2; Flash baja a 10% de FLOPs y 7% de caché KV.
En sus propios benchmarks, DeepSeek-V4-Pro puede competir con modelos frontier, pero queda ligeramente por detrás de GPT-5.4 y Gemini-3.1-Pro, mostrando una trayectoria de desarrollo de alrededor de 3 a 6 meses por detrás de los modelos frontier más avanzados.

Lanzamiento de los modelos y especificaciones básicas

Después de V3.2 y V3.2 Speciale en diciembre de 2025, DeepSeek presentó DeepSeek-V4-Pro y DeepSeek-V4-Flash, dos modelos de vista previa como los primeros de la serie V4.
Ambos modelos son Mixture of Experts con soporte para un contexto de 1 millón de tokens y usan la licencia MIT estándar.
DeepSeek-V4-Pro tiene 1.6T parámetros totales y 49B parámetros activos, mientras que DeepSeek-V4-Flash tiene 284B parámetros totales y 13B parámetros activos.
DeepSeek-V4-Pro supera los 1.1T de Kimi K2.6, los 754B de GLM-5.1 y los 685B de DeepSeek V3.2, por lo que parece ser el nuevo modelo abierto con pesos más grande.
Según Hugging Face, el tamaño del modelo es de 865GB para Pro y 160GB para Flash; se espera que una versión Flash ligeramente cuantizada pueda ejecutarse en una MacBook Pro M5 con 128GB.
El modelo Pro también podría ejecutarse en la misma máquina si fuera posible hacer streaming desde disco solo de los expertos activos necesarios.
Prueba rápida mediante OpenRouter
- Usando OpenRouter y llm-openrouter, se invocó el modelo con el siguiente comando:
- ```
llm install llm-openrouter
llm openrouter refresh
llm -m openrouter/deepseek/deepseek-v4-pro 'Generate an SVG of a pelican riding a bicycle'
```
- Como resultado de la generación, se publicaron el SVG del pelícano de DeepSeek-V4-Flash y el SVG del pelícano de DeepSeek-V4-Pro.
- Como punto de comparación, también se muestran los resultados con el mismo prompt de DeepSeek V3.2 de diciembre de 2025, V3.1 de agosto de 2025 y V3-0324 de marzo de 2025.

Precio, eficiencia y posicionamiento en rendimiento

El elemento más llamativo de DeepSeek V4 es el precio. Según la página de precios de DeepSeek, Flash cuesta $0.14 por millón de tokens de entrada y $0.28 por millón de tokens de salida.
Pro tiene un precio de $1.74 por millón de tokens de entrada y $3.48 por millón de tokens de salida.
En la tabla comparativa, DeepSeek V4 Flash queda por debajo de los $0.20 de entrada y $1.25 de salida de GPT-5.4 Nano, así como de los $0.25 de entrada y $1.50 de salida de Gemini 3.1 Flash-Lite, convirtiéndose en el más barato entre los modelos pequeños.
DeepSeek V4 Pro también queda por debajo de Gemini 3.1 Pro ($2 de entrada y $12 de salida), GPT-5.4 ($2.50 de entrada y $15 de salida), Claude Sonnet 4.6 ($3 de entrada y $15 de salida), Claude Opus 4.7 ($5 de entrada y $25 de salida) y GPT-5.5 ($5 de entrada y $30 de salida), por lo que es el más barato entre los grandes modelos frontier.
La optimización respalda el bajo precio
- El paper de DeepSeek señala que este lanzamiento pone un fuerte énfasis en la eficiencia de prompts de contexto largo.
- En un contexto de 1 millón de tokens, DeepSeek-V4-Pro reduce frente a DeepSeek-V3.2 los FLOPs por token individual a 27% y el tamaño de la caché KV a 10%.
- En las mismas condiciones, DeepSeek-V4-Flash reduce frente a DeepSeek-V3.2 los FLOPs por token individual a 10% y el tamaño de la caché KV a 7%.
En benchmarks se acerca al nivel frontier, pero sigue detrás de la élite
- Los benchmarks reportados por la propia DeepSeek muestran que el modelo Pro puede competir con otros modelos frontier.
- Según el paper, DeepSeek-V4-Pro-Max con escalado de tokens de razonamiento supera a GPT-5.2 y Gemini-3.0-Pro en benchmarks estándar de razonamiento.
- Aun así, queda ligeramente por detrás de GPT-5.4 y Gemini-3.1-Pro, y muestra una trayectoria de desarrollo de alrededor de 3 a 6 meses por detrás de los modelos frontier más avanzados.
- Se espera la publicación de versiones cuantizadas de Unsloth en huggingface.co/unsloth/models, y sigue abierta la pregunta de qué tan bien correrá el modelo Flash en una máquina local.

DeepSeek V4: casi al nivel frontier y con precios muy por debajo

Lanzamiento de los modelos y especificaciones básicas

Prueba rápida mediante OpenRouter

Precio, eficiencia y posicionamiento en rendimiento

La optimización respalda el bajo precio

En benchmarks se acerca al nivel frontier, pero sigue detrás de la élite

Lecturas relacionadas

Aún no hay comentarios.