DeepSeek hace permanente el descuento de precio de V4 Pro
(api-docs.deepseek.com)- El precio de la API de DeepSeek-V4-Pro se mantiene oficialmente en 1/4 del precio anterior incluso después de que termine la promoción de descuento del 75%
- La facturación se basa en el precio por 1 millón de tokens, y se descuenta directamente del saldo según el uso de tokens de entrada y de salida
- Los modelos compatibles son DeepSeek-V4-Flash y DeepSeek-V4-Pro; ambos admiten modo sin razonamiento y modo de razonamiento, y el valor predeterminado es el modo de razonamiento
- En ambos modelos, la longitud de contexto es de 1M, la salida máxima es de 384K, y el límite de concurrencia difiere: 2500 para Flash y 500 para Pro
- El precio por acierto de caché de entrada de todos los modelos se redujo a 1/10 del precio de lanzamiento, y el ajuste se aplica a partir del 26 de abril de 2026 a las 12:15 UTC
Criterios de facturación
- La unidad de precio es la tarifa por 1 millón de tokens, y un token es la unidad mínima de texto que reconoce el modelo; puede ser una palabra, número o signo de puntuación
- La base de cobro es el total de tokens de entrada y de salida del modelo
- El costo se calcula como
cantidad de tokens × precioy se descuenta directamente del saldo recargado o del saldo otorgado - Si existen tanto saldo recargado como saldo otorgado, se usa primero el saldo otorgado
- Los precios del producto pueden cambiar, y DeepSeek se reserva el derecho de ajustar los precios
- Se recomienda recargar de acuerdo con el uso real y revisar periódicamente los precios más recientes en esta página
Modelos y precios
-
Modelos compatibles
- Se ofrecen DeepSeek-V4-Flash y DeepSeek-V4-Pro
- Ambos modelos admiten modo sin razonamiento y modo de razonamiento, y el valor predeterminado es el modo de razonamiento
- Los nombres de modelo
deepseek-chatydeepseek-reasonerse eliminarán gradualmente en el futuro - Por compatibilidad,
deepseek-chatcorresponde al modo sin razonamiento dedeepseek-v4-flash, ydeepseek-reasonercorresponde al modo de razonamiento dedeepseek-v4-flash
-
Endpoint y funciones
- La Base URL con formato Anthropic es https://api.deepseek.com/anthropic
- La forma de cambiar al modo de razonamiento puede consultarse en Thinking Mode
- También se proporcionan documentos de funciones relacionadas como Json Output, Tool Calls, Chat Prefix Completion(Beta), FIM Completion(Beta)
-
Contexto y límite de salida
- La longitud de contexto es de 1M
- La salida máxima es de 384K
Precio por 1 millón de tokens
| Elemento | DeepSeek-V4-Flash | DeepSeek-V4-Pro |
|---|---|---|
| Tokens de entrada, acierto de caché | $0.0028 | $0.003625 |
| Tokens de entrada, fallo de caché | $0.14 | $0.435 |
| Tokens de salida | $0.28 | $0.87 |
| Límite de concurrencia | 2500 | 500 |
-
Ajuste del descuento de DeepSeek-V4-Pro
- El precio de DeepSeek-V4-Pro se muestra con el descuento del 75%
- El precio de los tokens de entrada con acierto de caché baja de $0.0145 a $0.003625
- El precio de los tokens de entrada con fallo de caché baja de $1.74 a $0.435
- El precio de los tokens de salida baja de $3.48 a $0.87
- Incluso después de que la promoción de descuento del 75% termine el 31 de mayo de 2026 a las 15:59 UTC, el precio de la API de DeepSeek-V4-Pro se ajustará oficialmente a 1/4 del precio anterior
-
Rebaja del precio por acierto de caché
- El precio por acierto de caché de entrada de todos los modelos se redujo a 1/10 del precio de lanzamiento
- Este ajuste de precio se aplica a partir del 26 de abril de 2026 a las 12:15 UTC
-
Límite de concurrencia
- El límite de concurrencia de DeepSeek-V4-Flash es 2500
- El límite de concurrencia de DeepSeek-V4-Pro es 500
- Los detalles del límite de concurrencia pueden consultarse en Rate Limit & Isolation
1 comentarios
Comentarios en Hacker News
Si sacan su propio agente de código, quizá empiece a usar los modelos de DeepSeek como opción principal
Parece que siguen haciendo las cosas en la “dirección correcta”, como liberar los modelos como open source, publicar investigación y mantener precios bajos
Se puede usar V4 Pro en Claude Code 1
Lo probé yo mismo y me impresionó
También encaja muy bien con OpenCode
Mi equipo seguido se topa con el límite de 5 horas de otros servicios por suscripción, así que tener DeepSeek como respaldo está bastante bien
Le metimos 50 dólares y se siente como si nunca se fueran a acabar
Todavía no reemplaza por completo a los modelos de punta, pero como respaldo definitivamente es excelente
No veo por qué DeepSeek tendría que ofrecer también un agente de código
Simplemente conectas el modelo a cualquier agente de código ya existente y listo
En lo personal prefiero Pi, pero cada quien puede usar el que mejor le funcione
A inicios de esta semana empecé a probar modelos chinos en mi base de código
Hasta ahora he visto más clasificación de issues, corrección automática de bugs y análisis de logs que coding conversacional; comparé DeepSeek, Kimi, GLM, Qwen y MiMO contra GPT-5.5 high, y todos corrieron en el arnés de Pi sin instalación
Por ahora, Kimi y MiMO se ven como los más prometedores
No los he probado de forma lo bastante rigurosa, pero mi primera impresión es que, para las tareas cotidianas normales del trabajo, estos modelos quizá no estén tan atrás como la gente cree
Eso sí, parecen más del tipo “trabajar duro en vez de trabajar con inteligencia”: llegan a resultados parecidos más lentamente y usando más tokens, pero cuestan muchísimo menos
Preferiría que los agentes de código fueran en cierto grado independientes del proveedor del modelo
Los proveedores cambian la calidad, funciones y precios con demasiada frecuencia como para querer cambiar también de agente cada vez
Ojalá las cosas se vuelvan un poco más lentas y estables
No digo que tenga que pasar ya mismo, pero estaría bien que llegáramos a ese punto
Si todavía no has usado DeepSeek V4, te estás perdiendo de mucho
Es increíblemente bueno para el precio que tiene
La cadena de pensamiento de DeepSeek es realmente interesante de leer
OpenCode no la muestra, pero si la lees directamente puede sorprenderte lo subestimado que está este modelo
Yo uso muy poco los modelos, pero aun así le pago directamente a DeepSeek de forma regular como muestra de agradecimiento por liberar el modelo como open source y de apoyo a lo que considero un bien social en general
Es bueno y barato, pero si sacas el tema de política, pueden activarse reglas de censura o algo así
Estaba viendo el proceso de razonamiento y de pronto lo borró todo y sugirió cambiar de tema sin dar ninguna explicación
Una vez incluso soltó un mensaje genérico sobre cómo los medios noticiosos sirven al pueblo
Me sorprendió porque ninguna de las dos eran solicitudes sensibles, ilegales o subversivas
Pero sí eran aunque fuera un poco políticas, y eso bastó
La censura occidental suele ser más sutil, así que se sintió escalofriante y curiosamente refrescante al mismo tiempo
Sí, el modelo es realmente bueno
En el trabajo uso Claude y en lo personal uso DeepSeek, y es el único modelo que no intenta activamente llevarme a la quiebra
Me gusta V4 Pro para ciertas tareas, pero para programación V4 Flash me pareció bastante impresionante
Es conciso, va al grano, comete relativamente pocos errores y es bastante rápido
En el CLI de opencode sí se ven las trazas de razonamiento
Podría ser un tema de configuración
En opencode puedes activar y desactivar la visualización del razonamiento
Este precio es sospechosamente barato
Si el mismo modelo está alojado por otros proveedores, sale mucho más caro 0
Entonces o DeepSeek puede alojarlo muchísimo más barato que los demás, o su modelo de negocio es distinto; yo apostaría por lo segundo
Sobre todo porque en su política de privacidad 1 dice que pueden usar datos personales, incluido el “User Input”, para “mejorar y desarrollar el servicio, y para entrenamiento y mejora tecnológica”
Tal vez sea una pregunta tonta, pero al ver OpenRouter me pregunto si de verdad no hay nadie ofreciendo DeepSeek fuera de Estados Unidos, Singapur y China
Parece un producto demasiado obviamente bueno como para que no lo ofrezcan proveedores europeos u otros occidentales
Estoy seguro de que sería un salto mucho mayor que Mistral
Quiero probar estos modelos, pero quiero evitar proveedores que entrenen con mis datos o los almacenen más allá de los requisitos legales estándar
Hay varios factores en juego
En cuanto a la eficiencia del stack de inferencia, muchos proveedores toman sglang / vllm / trtllm ya hechos y esperan lo mejor, pero el equipo de DeepSeek es conocido por llevar al límite la optimización
sglang y vllm son software excelentes, pero si miras la atención dispersa de DeepSeek (DSA), se introdujo hace 1.5 años (https://arxiv.org/abs/2512.02556) y se ha usado en DeepSeek 3.2, GLM 5 y DeepSeek V4
Apenas ahora los principales motores de inferencia están empezando a optimizarla lentamente: (https://github.com/sgl-project/sglang/issues/19380 https://github.com/sgl-project/sglang/pull/22851 y demás)
Claro, DS V4 además agregó optimizaciones de arquitectura del modelo sobre DSA, y tomará más tiempo para que los motores de inferencia open source lo aprovechen por completo
En temas de privacidad, también hay una apuesta a que la gente pagará extra por inferencia alojada fuera de China
Esto aplica especialmente a DeepSeek, porque transparentemente dice que usa los datos de la API para mejorar el modelo
Además de eso, hay factores como escala (muy importante en MoE), confiabilidad y una especie de dependencia empresarial suave del cliente
También es muy posible que haya colusión implícita
Si ves los precios de GLM 5 y GLM 5.1, el costo de ejecución de ambos es el mismo, pero 5.1 es mucho mejor modelo y como Z.AI también subió el precio, los proveedores le pusieron un precio más alto a 5.1
Claramente lo están vendiendo con pérdida
Pero igual, ¿por qué no?
Ganar cuota de mercado mientras pierdes dinero no es una patente exclusiva de Estados Unidos
Quizá no conozcas lo suficiente al fundador de DeepSeek, Liang Wenfeng
También es el fundador de High-Flyer Quant
Me intriga más lo del caché
Dice: “En todos los modelos, el precio por acierto de caché de entrada se redujo a 1/10 del precio de lanzamiento, y este ajuste de precio entra en vigor a partir de 2026/4/26 12:15 UTC”
No hay fecha de finalización
Ahora mismo DeepSeek V4 Flash tiene un precio de 2% del precio de entrada, y con este precio de V4 Pro es 0.8%, algo extremadamente bajo frente a la competencia y que incluso afecta la economía unitaria, así que pensé que sería temporal
En el caso de V4 Pro, el costo real considerando caché es de aproximadamente $0.04 por millón de tokens de entrada (según las métricas de OpenRouter: https://openrouter.ai/deepseek/deepseek-v4-pro)
Muchísimo más barato incluso que modelos pequeños de la competencia
El caché KV de DeepSeek V4 es muy eficiente gracias a su arquitectura de atención dispersa fuertemente comprimida
DeepSeek V3.2, que solo usa DSA, es un modelo más pequeño, pero usa 10 veces más memoria que DS V4 Pro en una ventana de contexto de 1 millón
Además, la API de DeepSeek tiene una tasa de aciertos de caché muy buena
Para una misma carga de trabajo, los principales proveedores occidentales de inferencia que ofrecen modelos de pesos abiertos tienen una tasa de aciertos de caché KV de alrededor de 50%, mientras que la API de DS ronda el 80%
El punto grande de DeepSeek V4 es que el tamaño del caché KV se redujo muchísimo
Flash en sí no es un modelo ultracompetitivo, y su precio también está en un rango parecido al de otros modelos del mercado
Sus competidores más directos probablemente serían algo así:
GPT 5.4 mini
Cache Read
$0.075
/M tokens
Gemini 3 flash:
Cache Read
$0.05
/M tokens
O sea, no hay nada especialmente mágico ni revolucionario ahí
Sonnet:
Cache Read
$0.30
Gemini 3.5 flash:
Cache Read
$0.15
Es una relación precio-rendimiento brutal
Llevo un tiempo usando GLM 5.1 con GLM Coding Plan Max y también probé DeepSeek V4 Pro unas 3 semanas; para tareas complejas de programación me parece mejor que GLM 5.1
Usé 65 millones de tokens y con este precio me salió en 1.5 dólares, realmente baratísimo
Tremendo
Con esto, DeepSeek V4 Pro se vuelve extremadamente barato frente a otros modelos incluso dentro de la misma categoría
Si ves el precio por millón de tokens de salida, queda así:
DeepSeek V4 Pro: $0.87
Qwen 3.7 Max: $7.50
Grok 4.3: $2.50
GLM 1.5: $3.08
Opus 4.7: $25.00
GPT-5.5: $30.00
En flujos de trabajo con agentes, este costo puede ser el dominante, y el costo de lectura de caché de DeepSeek es ridículamente bajo en comparación
Son $0.003626 por millón de tokens, y el siguiente más barato de la lista sigue por encima de $0.2 por millón
Estamos hablando de casi 100 veces de diferencia
Esto demuestra que es posible hacer la inferencia de forma eficiente si no más te dan permiso de quemar dinero sin restricciones
Si dos meses después de suscribirte vuelven Opus peor que GPT-3 para ahorrar costos, da igual qué tan bueno haya sido Opus
Incluso considerando el descuento de V4 Pro, V4 Flash sigue teniendo el mejor rendimiento por dólar, y en tareas de tipo agente o con mucho uso de herramientas su rendimiento general también es mejor
V4 Pro es más inteligente en razonamiento de una sola pasada, pero la diferencia de velocidad es grande
Sumando rendimiento, costo y velocidad, V4 Flash es por mucho el mejor modelo flash para nosotros en este momento
Los datos están en https://gertlabs.com/rankings
Su arquitectura MLA reduce el caché KV entre unas 5 y 13 veces frente a la atención estándar
Así que no es solo una guerra de precios para ganar cuota de mercado; de verdad su costo de ejecución de inferencia es más bajo
Hace posible contexto largo, inferencia por lotes y almacenamiento en disco del caché KV en plataformas de consumo normales
Es muy posible que este descuento haya sido un experimento de mercado posterior al lanzamiento para medir qué tan eficientemente funciona el caché en la nueva generación de modelos
Me preocupa más una filtración accidental de datos con modelos alojados en China que con modelos alojados en Estados Unidos
Por ejemplo, cuando un agente lee archivos env o algo así
¿Está mal sospechar que el gobierno chino tiene más probabilidades de escanear todas las conversaciones y guardar información útil que el gobierno o las empresas de Estados Unidos?
Me dio hasta pena escribir este comentario porque puede sonar sesgado o xenófobo
Ojalá alguien me convenza de que estoy equivocado
¿Alguien sabe qué tipo de empresa está detrás del hosting de DeepSeek o si tiene historial de respetar la privacidad de los datos?
No es una preocupación irracional
Por eso la mayoría de las empresas estadounidenses prefieren AWS Bedrock o laboratorios de IA, y normalmente piden contratos sin retención de datos
Pero hay riesgo de filtración sin importar dónde esté alojado; lo que cambia, en mi opinión, es la estructura de incentivos
Por ejemplo, los laboratorios también escanean todas las conversaciones y entrenan con datos no protegidos por contratos empresariales ZDR
Las autoridades pueden solicitar acceso a todos los datos de usuarios con una orden válida o en situaciones de emergencia 1
Si quieres usar DeepSeek V4 de forma privada, puedes probar Tinfoil (tinfoil.sh)
Aloja todos los modelos en enclaves de hardware seguro verificable para que la inferencia sea privada de extremo a extremo
Aviso: soy uno de los cofundadores
1 https://cdn.openai.com/trust-and-transparency/openai-law-enf...
Solo úsalo mediante algo como Azure
Alojan el modelo completo y lo ofrecen desde Estados Unidos
Debe haber más proveedores así
Nosotros lo usamos de esa forma y nos va muy bien
No me sorprendería si lo hicieran
Tampoco me sorprendería demasiado si modelos con sede en Estados Unidos hicieran eso para otros gobiernos
No tengo grandes expectativas sobre la confidencialidad de los datos
Microsoft marca todas las casillas empresariales, pero Azure igual sufre incidentes de seguridad de vez en cuando
Yo diría que la posibilidad no es cero
Pekín podría decidir en cualquier momento que DeepSeek se volvió demasiado poderoso o un producto de exportación clave, e intervenir
Ni siquiera hay garantía de que ya no lo haya hecho
Hay muchos reportes sobre actores extranjeros, no limitados a China, que se han infiltrado masivamente en redes críticas de múltiples industrias en Estados Unidos y están esperando el momento oportuno para explotarlas
Los modelos de frontera son otro vector de ataque, y si lo piensas, podrían explotarse con mucha más facilidad
En realidad, esta posibilidad existe con cualquier modelo alojado en la nube
Ya sea porque la empresa que hizo el modelo lo quiso así o porque un actor malicioso explotó una vulnerabilidad
Yo no soy una persona lo bastante importante como para que alguien de China venga específicamente a por mí
Y DeepSeek necesita mantener suficiente confianza para que la gente siga usando la plataforma
Si se comportara como un keylogger que roba las wallets cripto de todos, esa confianza se derrumbaría
Si yo trabajara en algo que el gobierno chino considerara estratégicamente importante, claro que me preocuparía, pero no es mi caso
Más bien me preocupa más que los ricos tecnológicos de este país me perfilen masivamente con LLMs y construyan aquí algo mucho más distópico que el puntaje de crédito social real o imaginario de China
Es muy posible que las personas que intentan convencerte de que tú, individuo en Estados Unidos, deberías preocuparte por el gobierno chino sean precisamente de quienes realmente tendrías que preocuparte
Si alguien está pensando conectarlo a copilot, hace tiempo hice un script proxy para manejar la conexión y quizá les sirva: https://gist.github.com/g023/c2bb7b540ffe64cee76023f18f6f936...