DeepSeek hace permanente el descuento de precio de V4 Pro

(api-docs.deepseek.com)

3 puntos por GN⁺ 2026-05-23 | 3 comentarios | Compartir por WhatsApp

El precio de la API de DeepSeek-V4-Pro se mantiene oficialmente en 1/4 del precio anterior incluso después de que termine la promoción de descuento del 75%
La facturación se basa en el precio por 1 millón de tokens, y se descuenta directamente del saldo según el uso de tokens de entrada y de salida
Los modelos compatibles son DeepSeek-V4-Flash y DeepSeek-V4-Pro; ambos admiten modo sin razonamiento y modo de razonamiento, y el valor predeterminado es el modo de razonamiento
En ambos modelos, la longitud de contexto es de 1M, la salida máxima es de 384K, y el límite de concurrencia difiere: 2500 para Flash y 500 para Pro
El precio por acierto de caché de entrada de todos los modelos se redujo a 1/10 del precio de lanzamiento, y el ajuste se aplica a partir del 26 de abril de 2026 a las 12:15 UTC

Criterios de facturación

La unidad de precio es la tarifa por 1 millón de tokens, y un token es la unidad mínima de texto que reconoce el modelo; puede ser una palabra, número o signo de puntuación
La base de cobro es el total de tokens de entrada y de salida del modelo
El costo se calcula como cantidad de tokens × precio y se descuenta directamente del saldo recargado o del saldo otorgado
Si existen tanto saldo recargado como saldo otorgado, se usa primero el saldo otorgado
Los precios del producto pueden cambiar, y DeepSeek se reserva el derecho de ajustar los precios
Se recomienda recargar de acuerdo con el uso real y revisar periódicamente los precios más recientes en esta página

Modelos y precios

Modelos compatibles
- Se ofrecen DeepSeek-V4-Flash y DeepSeek-V4-Pro
- Ambos modelos admiten modo sin razonamiento y modo de razonamiento, y el valor predeterminado es el modo de razonamiento
- Los nombres de modelo deepseek-chat y deepseek-reasoner se eliminarán gradualmente en el futuro
- Por compatibilidad, deepseek-chat corresponde al modo sin razonamiento de deepseek-v4-flash, y deepseek-reasoner corresponde al modo de razonamiento de deepseek-v4-flash
Endpoint y funciones
- La Base URL con formato Anthropic es https://api.deepseek.com/anthropic
- La forma de cambiar al modo de razonamiento puede consultarse en Thinking Mode
- También se proporcionan documentos de funciones relacionadas como Json Output, Tool Calls, Chat Prefix Completion（Beta）, FIM Completion（Beta）
Contexto y límite de salida
- La longitud de contexto es de 1M
- La salida máxima es de 384K

Precio por 1 millón de tokens

Elemento	DeepSeek-V4-Flash	DeepSeek-V4-Pro
Tokens de entrada, acierto de caché	$0.0028	$0.003625
Tokens de entrada, fallo de caché	$0.14	$0.435
Tokens de salida	$0.28	$0.87
Límite de concurrencia	2500	500

Ajuste del descuento de DeepSeek-V4-Pro
- El precio de DeepSeek-V4-Pro se muestra con el descuento del 75%
- El precio de los tokens de entrada con acierto de caché baja de $0.0145 a $0.003625
- El precio de los tokens de entrada con fallo de caché baja de $1.74 a $0.435
- El precio de los tokens de salida baja de $3.48 a $0.87
- Incluso después de que la promoción de descuento del 75% termine el 31 de mayo de 2026 a las 15:59 UTC, el precio de la API de DeepSeek-V4-Pro se ajustará oficialmente a 1/4 del precio anterior
Rebaja del precio por acierto de caché
- El precio por acierto de caché de entrada de todos los modelos se redujo a 1/10 del precio de lanzamiento
- Este ajuste de precio se aplica a partir del 26 de abril de 2026 a las 12:15 UTC
Límite de concurrencia
- El límite de concurrencia de DeepSeek-V4-Flash es 2500
- El límite de concurrencia de DeepSeek-V4-Pro es 500
- Los detalles del límite de concurrencia pueden consultarse en Rate Limit & Isolation

3 comentarios

j2sus91 2026-05-26

Si revisan los términos, dicen que no se especifica explícitamente que el uso de la API no se utilice para entrenamiento.
Creo que estaría bien tener en cuenta esa parte al usarlo~

myoun 2026-05-25

Oh, qué bien

GN⁺ 2026-05-23

Comentarios en Hacker News

Si sacan su propio agente de código, quizá empiece a usar los modelos de DeepSeek como opción principal
Parece que siguen haciendo las cosas en la “dirección correcta”, como liberar los modelos como open source, publicar investigación y mantener precios bajos
- Se puede usar V4 Pro en Claude Code 1
  Lo probé yo mismo y me impresionó
- También encaja muy bien con OpenCode
  Mi equipo seguido se topa con el límite de 5 horas de otros servicios por suscripción, así que tener DeepSeek como respaldo está bastante bien
  Le metimos 50 dólares y se siente como si nunca se fueran a acabar
  
  Todavía no reemplaza por completo a los modelos de punta, pero como respaldo definitivamente es excelente
- No veo por qué DeepSeek tendría que ofrecer también un agente de código
  Simplemente conectas el modelo a cualquier agente de código ya existente y listo
  En lo personal prefiero Pi, pero cada quien puede usar el que mejor le funcione
- A inicios de esta semana empecé a probar modelos chinos en mi base de código
  Hasta ahora he visto más clasificación de issues, corrección automática de bugs y análisis de logs que coding conversacional; comparé DeepSeek, Kimi, GLM, Qwen y MiMO contra GPT-5.5 high, y todos corrieron en el arnés de Pi sin instalación
  
  Por ahora, Kimi y MiMO se ven como los más prometedores
  No los he probado de forma lo bastante rigurosa, pero mi primera impresión es que, para las tareas cotidianas normales del trabajo, estos modelos quizá no estén tan atrás como la gente cree
  
  Eso sí, parecen más del tipo “trabajar duro en vez de trabajar con inteligencia”: llegan a resultados parecidos más lentamente y usando más tokens, pero cuestan muchísimo menos
- Preferiría que los agentes de código fueran en cierto grado independientes del proveedor del modelo
  Los proveedores cambian la calidad, funciones y precios con demasiada frecuencia como para querer cambiar también de agente cada vez
  
  Ojalá las cosas se vuelvan un poco más lentas y estables
  No digo que tenga que pasar ya mismo, pero estaría bien que llegáramos a ese punto
Si todavía no has usado DeepSeek V4, te estás perdiendo de mucho
Es increíblemente bueno para el precio que tiene

La cadena de pensamiento de DeepSeek es realmente interesante de leer
OpenCode no la muestra, pero si la lees directamente puede sorprenderte lo subestimado que está este modelo

Yo uso muy poco los modelos, pero aun así le pago directamente a DeepSeek de forma regular como muestra de agradecimiento por liberar el modelo como open source y de apoyo a lo que considero un bien social en general
- Es bueno y barato, pero si sacas el tema de política, pueden activarse reglas de censura o algo así
  Estaba viendo el proceso de razonamiento y de pronto lo borró todo y sugirió cambiar de tema sin dar ninguna explicación
  Una vez incluso soltó un mensaje genérico sobre cómo los medios noticiosos sirven al pueblo
  
  Me sorprendió porque ninguna de las dos eran solicitudes sensibles, ilegales o subversivas
  Pero sí eran aunque fuera un poco políticas, y eso bastó
  La censura occidental suele ser más sutil, así que se sintió escalofriante y curiosamente refrescante al mismo tiempo
- Sí, el modelo es realmente bueno
  En el trabajo uso Claude y en lo personal uso DeepSeek, y es el único modelo que no intenta activamente llevarme a la quiebra
- Me gusta V4 Pro para ciertas tareas, pero para programación V4 Flash me pareció bastante impresionante
  Es conciso, va al grano, comete relativamente pocos errores y es bastante rápido
- En el CLI de opencode sí se ven las trazas de razonamiento
  Podría ser un tema de configuración
- En opencode puedes activar y desactivar la visualización del razonamiento
Este precio es sospechosamente barato
Si el mismo modelo está alojado por otros proveedores, sale mucho más caro 0
Entonces o DeepSeek puede alojarlo muchísimo más barato que los demás, o su modelo de negocio es distinto; yo apostaría por lo segundo
Sobre todo porque en su política de privacidad 1 dice que pueden usar datos personales, incluido el “User Input”, para “mejorar y desarrollar el servicio, y para entrenamiento y mejora tecnológica”
- Tal vez sea una pregunta tonta, pero al ver OpenRouter me pregunto si de verdad no hay nadie ofreciendo DeepSeek fuera de Estados Unidos, Singapur y China
  Parece un producto demasiado obviamente bueno como para que no lo ofrezcan proveedores europeos u otros occidentales
  Estoy seguro de que sería un salto mucho mayor que Mistral
  
  Quiero probar estos modelos, pero quiero evitar proveedores que entrenen con mis datos o los almacenen más allá de los requisitos legales estándar
- Hay varios factores en juego
  En cuanto a la eficiencia del stack de inferencia, muchos proveedores toman sglang / vllm / trtllm ya hechos y esperan lo mejor, pero el equipo de DeepSeek es conocido por llevar al límite la optimización
  
  sglang y vllm son software excelentes, pero si miras la atención dispersa de DeepSeek (DSA), se introdujo hace 1.5 años (https://arxiv.org/abs/2512.02556) y se ha usado en DeepSeek 3.2, GLM 5 y DeepSeek V4
  Apenas ahora los principales motores de inferencia están empezando a optimizarla lentamente: (https://github.com/sgl-project/sglang/issues/19380 https://github.com/sgl-project/sglang/pull/22851 y demás)
  Claro, DS V4 además agregó optimizaciones de arquitectura del modelo sobre DSA, y tomará más tiempo para que los motores de inferencia open source lo aprovechen por completo
  
  En temas de privacidad, también hay una apuesta a que la gente pagará extra por inferencia alojada fuera de China
  Esto aplica especialmente a DeepSeek, porque transparentemente dice que usa los datos de la API para mejorar el modelo
  
  Además de eso, hay factores como escala (muy importante en MoE), confiabilidad y una especie de dependencia empresarial suave del cliente
  
  También es muy posible que haya colusión implícita
  Si ves los precios de GLM 5 y GLM 5.1, el costo de ejecución de ambos es el mismo, pero 5.1 es mucho mejor modelo y como Z.AI también subió el precio, los proveedores le pusieron un precio más alto a 5.1
- Claramente lo están vendiendo con pérdida
  Pero igual, ¿por qué no?
  Ganar cuota de mercado mientras pierdes dinero no es una patente exclusiva de Estados Unidos
- Quizá no conozcas lo suficiente al fundador de DeepSeek, Liang Wenfeng
  También es el fundador de High-Flyer Quant
Me intriga más lo del caché
Dice: “En todos los modelos, el precio por acierto de caché de entrada se redujo a 1/10 del precio de lanzamiento, y este ajuste de precio entra en vigor a partir de 2026/4/26 12:15 UTC”

No hay fecha de finalización
Ahora mismo DeepSeek V4 Flash tiene un precio de 2% del precio de entrada, y con este precio de V4 Pro es 0.8%, algo extremadamente bajo frente a la competencia y que incluso afecta la economía unitaria, así que pensé que sería temporal

En el caso de V4 Pro, el costo real considerando caché es de aproximadamente $0.04 por millón de tokens de entrada (según las métricas de OpenRouter: https://openrouter.ai/deepseek/deepseek-v4-pro)
Muchísimo más barato incluso que modelos pequeños de la competencia
- El caché KV de DeepSeek V4 es muy eficiente gracias a su arquitectura de atención dispersa fuertemente comprimida
  DeepSeek V3.2, que solo usa DSA, es un modelo más pequeño, pero usa 10 veces más memoria que DS V4 Pro en una ventana de contexto de 1 millón
  
  Además, la API de DeepSeek tiene una tasa de aciertos de caché muy buena
  Para una misma carga de trabajo, los principales proveedores occidentales de inferencia que ofrecen modelos de pesos abiertos tienen una tasa de aciertos de caché KV de alrededor de 50%, mientras que la API de DS ronda el 80%
- El punto grande de DeepSeek V4 es que el tamaño del caché KV se redujo muchísimo
- Flash en sí no es un modelo ultracompetitivo, y su precio también está en un rango parecido al de otros modelos del mercado
  Sus competidores más directos probablemente serían algo así:
  
  GPT 5.4 mini
  
  Cache Read
  $0.075
  /M tokens
  
  Gemini 3 flash:
  
  Cache Read
  $0.05
  /M tokens
  
  O sea, no hay nada especialmente mágico ni revolucionario ahí
- Sonnet:
  Cache Read
  $0.30
  
  Gemini 3.5 flash:
  Cache Read
  $0.15
Es una relación precio-rendimiento brutal
Llevo un tiempo usando GLM 5.1 con GLM Coding Plan Max y también probé DeepSeek V4 Pro unas 3 semanas; para tareas complejas de programación me parece mejor que GLM 5.1
Usé 65 millones de tokens y con este precio me salió en 1.5 dólares, realmente baratísimo
- Parece que DeepSeek usa muchísimos más tokens que otros modelos
Tremendo
Con esto, DeepSeek V4 Pro se vuelve extremadamente barato frente a otros modelos incluso dentro de la misma categoría
Si ves el precio por millón de tokens de salida, queda así:

DeepSeek V4 Pro: $0.87

Qwen 3.7 Max: $7.50

Grok 4.3: $2.50

GLM 1.5: $3.08

Opus 4.7: $25.00

GPT-5.5: $30.00
- Si además consideras el costo de lectura de caché, en la práctica sale todavía más barato
  En flujos de trabajo con agentes, este costo puede ser el dominante, y el costo de lectura de caché de DeepSeek es ridículamente bajo en comparación
  Son $0.003626 por millón de tokens, y el siguiente más barato de la lista sigue por encima de $0.2 por millón
  Estamos hablando de casi 100 veces de diferencia
- La próxima vez que alguien diga “no te quejes por los límites de uso, tu suscripción ya le está haciendo perder dinero a la empresa”, le voy a pasar este comentario
  Esto demuestra que es posible hacer la inferencia de forma eficiente si no más te dan permiso de quemar dinero sin restricciones
- Y tampoco empeoran el modelo después de que te suscribes
  Si dos meses después de suscribirte vuelven Opus peor que GPT-3 para ahorrar costos, da igual qué tan bueno haya sido Opus
- Es GLM 5.1
Incluso considerando el descuento de V4 Pro, V4 Flash sigue teniendo el mejor rendimiento por dólar, y en tareas de tipo agente o con mucho uso de herramientas su rendimiento general también es mejor
V4 Pro es más inteligente en razonamiento de una sola pasada, pero la diferencia de velocidad es grande
Sumando rendimiento, costo y velocidad, V4 Flash es por mucho el mejor modelo flash para nosotros en este momento

Los datos están en https://gertlabs.com/rankings
- Para mi caso de uso, principalmente resúmenes muy grandes y extracción de ideas, fue bastante peor comparado con Pro
Su arquitectura MLA reduce el caché KV entre unas 5 y 13 veces frente a la atención estándar
Así que no es solo una guerra de precios para ganar cuota de mercado; de verdad su costo de ejecución de inferencia es más bajo
- También es un game changer para inferencia local
  Hace posible contexto largo, inferencia por lotes y almacenamiento en disco del caché KV en plataformas de consumo normales
- Sí
  Es muy posible que este descuento haya sido un experimento de mercado posterior al lanzamiento para medir qué tan eficientemente funciona el caché en la nueva generación de modelos
Me preocupa más una filtración accidental de datos con modelos alojados en China que con modelos alojados en Estados Unidos
Por ejemplo, cuando un agente lee archivos env o algo así
¿Está mal sospechar que el gobierno chino tiene más probabilidades de escanear todas las conversaciones y guardar información útil que el gobierno o las empresas de Estados Unidos?

Me dio hasta pena escribir este comentario porque puede sonar sesgado o xenófobo
Ojalá alguien me convenza de que estoy equivocado
¿Alguien sabe qué tipo de empresa está detrás del hosting de DeepSeek o si tiene historial de respetar la privacidad de los datos?
- No es una preocupación irracional
  Por eso la mayoría de las empresas estadounidenses prefieren AWS Bedrock o laboratorios de IA, y normalmente piden contratos sin retención de datos
  Pero hay riesgo de filtración sin importar dónde esté alojado; lo que cambia, en mi opinión, es la estructura de incentivos
  
  Por ejemplo, los laboratorios también escanean todas las conversaciones y entrenan con datos no protegidos por contratos empresariales ZDR
  Las autoridades pueden solicitar acceso a todos los datos de usuarios con una orden válida o en situaciones de emergencia 1
  
  Si quieres usar DeepSeek V4 de forma privada, puedes probar Tinfoil (tinfoil.sh)
  Aloja todos los modelos en enclaves de hardware seguro verificable para que la inferencia sea privada de extremo a extremo
  Aviso: soy uno de los cofundadores
  
  1 https://cdn.openai.com/trust-and-transparency/openai-law-enf...
- Solo úsalo mediante algo como Azure
  Alojan el modelo completo y lo ofrecen desde Estados Unidos
  Debe haber más proveedores así
  
  Nosotros lo usamos de esa forma y nos va muy bien
- No me sorprendería si lo hicieran
  Tampoco me sorprendería demasiado si modelos con sede en Estados Unidos hicieran eso para otros gobiernos
  No tengo grandes expectativas sobre la confidencialidad de los datos
  Microsoft marca todas las casillas empresariales, pero Azure igual sufre incidentes de seguridad de vez en cuando
- Yo diría que la posibilidad no es cero
  Pekín podría decidir en cualquier momento que DeepSeek se volvió demasiado poderoso o un producto de exportación clave, e intervenir
  Ni siquiera hay garantía de que ya no lo haya hecho
  
  Hay muchos reportes sobre actores extranjeros, no limitados a China, que se han infiltrado masivamente en redes críticas de múltiples industrias en Estados Unidos y están esperando el momento oportuno para explotarlas
  Los modelos de frontera son otro vector de ataque, y si lo piensas, podrían explotarse con mucha más facilidad
  
  En realidad, esta posibilidad existe con cualquier modelo alojado en la nube
  Ya sea porque la empresa que hizo el modelo lo quiso así o porque un actor malicioso explotó una vulnerabilidad
- Yo no soy una persona lo bastante importante como para que alguien de China venga específicamente a por mí
  Y DeepSeek necesita mantener suficiente confianza para que la gente siga usando la plataforma
  Si se comportara como un keylogger que roba las wallets cripto de todos, esa confianza se derrumbaría
  
  Si yo trabajara en algo que el gobierno chino considerara estratégicamente importante, claro que me preocuparía, pero no es mi caso
  
  Más bien me preocupa más que los ricos tecnológicos de este país me perfilen masivamente con LLMs y construyan aquí algo mucho más distópico que el puntaje de crédito social real o imaginario de China
  Es muy posible que las personas que intentan convencerte de que tú, individuo en Estados Unidos, deberías preocuparte por el gobierno chino sean precisamente de quienes realmente tendrías que preocuparte
Si alguien está pensando conectarlo a copilot, hace tiempo hice un script proxy para manejar la conexión y quizá les sirva: https://gist.github.com/g023/c2bb7b540ffe64cee76023f18f6f936...

DeepSeek hace permanente el descuento de precio de V4 Pro

Criterios de facturación

Modelos y precios

Modelos compatibles

Endpoint y funciones

Contexto y límite de salida

Precio por 1 millón de tokens

Ajuste del descuento de DeepSeek-V4-Pro

Rebaja del precio por acierto de caché

Límite de concurrencia

Lecturas relacionadas

3 comentarios

Comentarios en Hacker News