1 puntos por GN⁺ 4 시간 전 | 1 comentarios | Compartir por WhatsApp
  • El precio de la API de DeepSeek-V4-Pro se mantiene oficialmente en 1/4 del precio anterior incluso después de que termine la promoción de descuento del 75%
  • La facturación se basa en el precio por 1 millón de tokens, y se descuenta directamente del saldo según el uso de tokens de entrada y de salida
  • Los modelos compatibles son DeepSeek-V4-Flash y DeepSeek-V4-Pro; ambos admiten modo sin razonamiento y modo de razonamiento, y el valor predeterminado es el modo de razonamiento
  • En ambos modelos, la longitud de contexto es de 1M, la salida máxima es de 384K, y el límite de concurrencia difiere: 2500 para Flash y 500 para Pro
  • El precio por acierto de caché de entrada de todos los modelos se redujo a 1/10 del precio de lanzamiento, y el ajuste se aplica a partir del 26 de abril de 2026 a las 12:15 UTC

Criterios de facturación

  • La unidad de precio es la tarifa por 1 millón de tokens, y un token es la unidad mínima de texto que reconoce el modelo; puede ser una palabra, número o signo de puntuación
  • La base de cobro es el total de tokens de entrada y de salida del modelo
  • El costo se calcula como cantidad de tokens × precio y se descuenta directamente del saldo recargado o del saldo otorgado
  • Si existen tanto saldo recargado como saldo otorgado, se usa primero el saldo otorgado
  • Los precios del producto pueden cambiar, y DeepSeek se reserva el derecho de ajustar los precios
  • Se recomienda recargar de acuerdo con el uso real y revisar periódicamente los precios más recientes en esta página

Modelos y precios

  • Modelos compatibles

    • Se ofrecen DeepSeek-V4-Flash y DeepSeek-V4-Pro
    • Ambos modelos admiten modo sin razonamiento y modo de razonamiento, y el valor predeterminado es el modo de razonamiento
    • Los nombres de modelo deepseek-chat y deepseek-reasoner se eliminarán gradualmente en el futuro
    • Por compatibilidad, deepseek-chat corresponde al modo sin razonamiento de deepseek-v4-flash, y deepseek-reasoner corresponde al modo de razonamiento de deepseek-v4-flash
  • Endpoint y funciones

  • Contexto y límite de salida

    • La longitud de contexto es de 1M
    • La salida máxima es de 384K

Precio por 1 millón de tokens

Elemento DeepSeek-V4-Flash DeepSeek-V4-Pro
Tokens de entrada, acierto de caché $0.0028 $0.003625
Tokens de entrada, fallo de caché $0.14 $0.435
Tokens de salida $0.28 $0.87
Límite de concurrencia 2500 500
  • Ajuste del descuento de DeepSeek-V4-Pro

    • El precio de DeepSeek-V4-Pro se muestra con el descuento del 75%
    • El precio de los tokens de entrada con acierto de caché baja de $0.0145 a $0.003625
    • El precio de los tokens de entrada con fallo de caché baja de $1.74 a $0.435
    • El precio de los tokens de salida baja de $3.48 a $0.87
    • Incluso después de que la promoción de descuento del 75% termine el 31 de mayo de 2026 a las 15:59 UTC, el precio de la API de DeepSeek-V4-Pro se ajustará oficialmente a 1/4 del precio anterior
  • Rebaja del precio por acierto de caché

    • El precio por acierto de caché de entrada de todos los modelos se redujo a 1/10 del precio de lanzamiento
    • Este ajuste de precio se aplica a partir del 26 de abril de 2026 a las 12:15 UTC
  • Límite de concurrencia

    • El límite de concurrencia de DeepSeek-V4-Flash es 2500
    • El límite de concurrencia de DeepSeek-V4-Pro es 500
    • Los detalles del límite de concurrencia pueden consultarse en Rate Limit & Isolation

1 comentarios

 
GN⁺ 4 시간 전
Comentarios en Hacker News
  • Si sacan su propio agente de código, quizá empiece a usar los modelos de DeepSeek como opción principal
    Parece que siguen haciendo las cosas en la “dirección correcta”, como liberar los modelos como open source, publicar investigación y mantener precios bajos

    • Se puede usar V4 Pro en Claude Code 1
      Lo probé yo mismo y me impresionó

    • También encaja muy bien con OpenCode
      Mi equipo seguido se topa con el límite de 5 horas de otros servicios por suscripción, así que tener DeepSeek como respaldo está bastante bien
      Le metimos 50 dólares y se siente como si nunca se fueran a acabar

      Todavía no reemplaza por completo a los modelos de punta, pero como respaldo definitivamente es excelente

    • No veo por qué DeepSeek tendría que ofrecer también un agente de código
      Simplemente conectas el modelo a cualquier agente de código ya existente y listo
      En lo personal prefiero Pi, pero cada quien puede usar el que mejor le funcione

    • A inicios de esta semana empecé a probar modelos chinos en mi base de código
      Hasta ahora he visto más clasificación de issues, corrección automática de bugs y análisis de logs que coding conversacional; comparé DeepSeek, Kimi, GLM, Qwen y MiMO contra GPT-5.5 high, y todos corrieron en el arnés de Pi sin instalación

      Por ahora, Kimi y MiMO se ven como los más prometedores
      No los he probado de forma lo bastante rigurosa, pero mi primera impresión es que, para las tareas cotidianas normales del trabajo, estos modelos quizá no estén tan atrás como la gente cree

      Eso sí, parecen más del tipo “trabajar duro en vez de trabajar con inteligencia”: llegan a resultados parecidos más lentamente y usando más tokens, pero cuestan muchísimo menos

    • Preferiría que los agentes de código fueran en cierto grado independientes del proveedor del modelo
      Los proveedores cambian la calidad, funciones y precios con demasiada frecuencia como para querer cambiar también de agente cada vez

      Ojalá las cosas se vuelvan un poco más lentas y estables
      No digo que tenga que pasar ya mismo, pero estaría bien que llegáramos a ese punto

  • Si todavía no has usado DeepSeek V4, te estás perdiendo de mucho
    Es increíblemente bueno para el precio que tiene

    La cadena de pensamiento de DeepSeek es realmente interesante de leer
    OpenCode no la muestra, pero si la lees directamente puede sorprenderte lo subestimado que está este modelo

    Yo uso muy poco los modelos, pero aun así le pago directamente a DeepSeek de forma regular como muestra de agradecimiento por liberar el modelo como open source y de apoyo a lo que considero un bien social en general

    • Es bueno y barato, pero si sacas el tema de política, pueden activarse reglas de censura o algo así
      Estaba viendo el proceso de razonamiento y de pronto lo borró todo y sugirió cambiar de tema sin dar ninguna explicación
      Una vez incluso soltó un mensaje genérico sobre cómo los medios noticiosos sirven al pueblo

      Me sorprendió porque ninguna de las dos eran solicitudes sensibles, ilegales o subversivas
      Pero sí eran aunque fuera un poco políticas, y eso bastó
      La censura occidental suele ser más sutil, así que se sintió escalofriante y curiosamente refrescante al mismo tiempo

    • Sí, el modelo es realmente bueno
      En el trabajo uso Claude y en lo personal uso DeepSeek, y es el único modelo que no intenta activamente llevarme a la quiebra

    • Me gusta V4 Pro para ciertas tareas, pero para programación V4 Flash me pareció bastante impresionante
      Es conciso, va al grano, comete relativamente pocos errores y es bastante rápido

    • En el CLI de opencode sí se ven las trazas de razonamiento
      Podría ser un tema de configuración

    • En opencode puedes activar y desactivar la visualización del razonamiento

  • Este precio es sospechosamente barato
    Si el mismo modelo está alojado por otros proveedores, sale mucho más caro 0
    Entonces o DeepSeek puede alojarlo muchísimo más barato que los demás, o su modelo de negocio es distinto; yo apostaría por lo segundo
    Sobre todo porque en su política de privacidad 1 dice que pueden usar datos personales, incluido el “User Input”, para “mejorar y desarrollar el servicio, y para entrenamiento y mejora tecnológica”

    • Tal vez sea una pregunta tonta, pero al ver OpenRouter me pregunto si de verdad no hay nadie ofreciendo DeepSeek fuera de Estados Unidos, Singapur y China
      Parece un producto demasiado obviamente bueno como para que no lo ofrezcan proveedores europeos u otros occidentales
      Estoy seguro de que sería un salto mucho mayor que Mistral

      Quiero probar estos modelos, pero quiero evitar proveedores que entrenen con mis datos o los almacenen más allá de los requisitos legales estándar

    • Hay varios factores en juego
      En cuanto a la eficiencia del stack de inferencia, muchos proveedores toman sglang / vllm / trtllm ya hechos y esperan lo mejor, pero el equipo de DeepSeek es conocido por llevar al límite la optimización

      sglang y vllm son software excelentes, pero si miras la atención dispersa de DeepSeek (DSA), se introdujo hace 1.5 años (https://arxiv.org/abs/2512.02556) y se ha usado en DeepSeek 3.2, GLM 5 y DeepSeek V4
      Apenas ahora los principales motores de inferencia están empezando a optimizarla lentamente: (https://github.com/sgl-project/sglang/issues/19380 https://github.com/sgl-project/sglang/pull/22851 y demás)
      Claro, DS V4 además agregó optimizaciones de arquitectura del modelo sobre DSA, y tomará más tiempo para que los motores de inferencia open source lo aprovechen por completo

      En temas de privacidad, también hay una apuesta a que la gente pagará extra por inferencia alojada fuera de China
      Esto aplica especialmente a DeepSeek, porque transparentemente dice que usa los datos de la API para mejorar el modelo

      Además de eso, hay factores como escala (muy importante en MoE), confiabilidad y una especie de dependencia empresarial suave del cliente

      También es muy posible que haya colusión implícita
      Si ves los precios de GLM 5 y GLM 5.1, el costo de ejecución de ambos es el mismo, pero 5.1 es mucho mejor modelo y como Z.AI también subió el precio, los proveedores le pusieron un precio más alto a 5.1

    • Claramente lo están vendiendo con pérdida
      Pero igual, ¿por qué no?
      Ganar cuota de mercado mientras pierdes dinero no es una patente exclusiva de Estados Unidos

    • Quizá no conozcas lo suficiente al fundador de DeepSeek, Liang Wenfeng
      También es el fundador de High-Flyer Quant

  • Me intriga más lo del caché
    Dice: “En todos los modelos, el precio por acierto de caché de entrada se redujo a 1/10 del precio de lanzamiento, y este ajuste de precio entra en vigor a partir de 2026/4/26 12:15 UTC”

    No hay fecha de finalización
    Ahora mismo DeepSeek V4 Flash tiene un precio de 2% del precio de entrada, y con este precio de V4 Pro es 0.8%, algo extremadamente bajo frente a la competencia y que incluso afecta la economía unitaria, así que pensé que sería temporal

    En el caso de V4 Pro, el costo real considerando caché es de aproximadamente $0.04 por millón de tokens de entrada (según las métricas de OpenRouter: https://openrouter.ai/deepseek/deepseek-v4-pro)
    Muchísimo más barato incluso que modelos pequeños de la competencia

    • El caché KV de DeepSeek V4 es muy eficiente gracias a su arquitectura de atención dispersa fuertemente comprimida
      DeepSeek V3.2, que solo usa DSA, es un modelo más pequeño, pero usa 10 veces más memoria que DS V4 Pro en una ventana de contexto de 1 millón

      Además, la API de DeepSeek tiene una tasa de aciertos de caché muy buena
      Para una misma carga de trabajo, los principales proveedores occidentales de inferencia que ofrecen modelos de pesos abiertos tienen una tasa de aciertos de caché KV de alrededor de 50%, mientras que la API de DS ronda el 80%

    • El punto grande de DeepSeek V4 es que el tamaño del caché KV se redujo muchísimo

    • Flash en sí no es un modelo ultracompetitivo, y su precio también está en un rango parecido al de otros modelos del mercado
      Sus competidores más directos probablemente serían algo así:

      GPT 5.4 mini

      Cache Read
      $0.075
      /M tokens

      Gemini 3 flash:

      Cache Read
      $0.05
      /M tokens

      O sea, no hay nada especialmente mágico ni revolucionario ahí

    • Sonnet:
      Cache Read
      $0.30

      Gemini 3.5 flash:
      Cache Read
      $0.15

  • Es una relación precio-rendimiento brutal
    Llevo un tiempo usando GLM 5.1 con GLM Coding Plan Max y también probé DeepSeek V4 Pro unas 3 semanas; para tareas complejas de programación me parece mejor que GLM 5.1
    Usé 65 millones de tokens y con este precio me salió en 1.5 dólares, realmente baratísimo

    • Parece que DeepSeek usa muchísimos más tokens que otros modelos
  • Tremendo
    Con esto, DeepSeek V4 Pro se vuelve extremadamente barato frente a otros modelos incluso dentro de la misma categoría
    Si ves el precio por millón de tokens de salida, queda así:

    DeepSeek V4 Pro: $0.87

    Qwen 3.7 Max: $7.50

    Grok 4.3: $2.50

    GLM 1.5: $3.08

    Opus 4.7: $25.00

    GPT-5.5: $30.00

    • Si además consideras el costo de lectura de caché, en la práctica sale todavía más barato
      En flujos de trabajo con agentes, este costo puede ser el dominante, y el costo de lectura de caché de DeepSeek es ridículamente bajo en comparación
      Son $0.003626 por millón de tokens, y el siguiente más barato de la lista sigue por encima de $0.2 por millón
      Estamos hablando de casi 100 veces de diferencia
    • La próxima vez que alguien diga “no te quejes por los límites de uso, tu suscripción ya le está haciendo perder dinero a la empresa”, le voy a pasar este comentario
      Esto demuestra que es posible hacer la inferencia de forma eficiente si no más te dan permiso de quemar dinero sin restricciones
    • Y tampoco empeoran el modelo después de que te suscribes
      Si dos meses después de suscribirte vuelven Opus peor que GPT-3 para ahorrar costos, da igual qué tan bueno haya sido Opus
    • Es GLM 5.1
  • Incluso considerando el descuento de V4 Pro, V4 Flash sigue teniendo el mejor rendimiento por dólar, y en tareas de tipo agente o con mucho uso de herramientas su rendimiento general también es mejor
    V4 Pro es más inteligente en razonamiento de una sola pasada, pero la diferencia de velocidad es grande
    Sumando rendimiento, costo y velocidad, V4 Flash es por mucho el mejor modelo flash para nosotros en este momento

    Los datos están en https://gertlabs.com/rankings

    • Para mi caso de uso, principalmente resúmenes muy grandes y extracción de ideas, fue bastante peor comparado con Pro
  • Su arquitectura MLA reduce el caché KV entre unas 5 y 13 veces frente a la atención estándar
    Así que no es solo una guerra de precios para ganar cuota de mercado; de verdad su costo de ejecución de inferencia es más bajo

    • También es un game changer para inferencia local
      Hace posible contexto largo, inferencia por lotes y almacenamiento en disco del caché KV en plataformas de consumo normales

    • Es muy posible que este descuento haya sido un experimento de mercado posterior al lanzamiento para medir qué tan eficientemente funciona el caché en la nueva generación de modelos
  • Me preocupa más una filtración accidental de datos con modelos alojados en China que con modelos alojados en Estados Unidos
    Por ejemplo, cuando un agente lee archivos env o algo así
    ¿Está mal sospechar que el gobierno chino tiene más probabilidades de escanear todas las conversaciones y guardar información útil que el gobierno o las empresas de Estados Unidos?

    Me dio hasta pena escribir este comentario porque puede sonar sesgado o xenófobo
    Ojalá alguien me convenza de que estoy equivocado
    ¿Alguien sabe qué tipo de empresa está detrás del hosting de DeepSeek o si tiene historial de respetar la privacidad de los datos?

    • No es una preocupación irracional
      Por eso la mayoría de las empresas estadounidenses prefieren AWS Bedrock o laboratorios de IA, y normalmente piden contratos sin retención de datos
      Pero hay riesgo de filtración sin importar dónde esté alojado; lo que cambia, en mi opinión, es la estructura de incentivos

      Por ejemplo, los laboratorios también escanean todas las conversaciones y entrenan con datos no protegidos por contratos empresariales ZDR
      Las autoridades pueden solicitar acceso a todos los datos de usuarios con una orden válida o en situaciones de emergencia 1

      Si quieres usar DeepSeek V4 de forma privada, puedes probar Tinfoil (tinfoil.sh)
      Aloja todos los modelos en enclaves de hardware seguro verificable para que la inferencia sea privada de extremo a extremo
      Aviso: soy uno de los cofundadores

      1 https://cdn.openai.com/trust-and-transparency/openai-law-enf...

    • Solo úsalo mediante algo como Azure
      Alojan el modelo completo y lo ofrecen desde Estados Unidos
      Debe haber más proveedores así

      Nosotros lo usamos de esa forma y nos va muy bien

    • No me sorprendería si lo hicieran
      Tampoco me sorprendería demasiado si modelos con sede en Estados Unidos hicieran eso para otros gobiernos
      No tengo grandes expectativas sobre la confidencialidad de los datos
      Microsoft marca todas las casillas empresariales, pero Azure igual sufre incidentes de seguridad de vez en cuando

    • Yo diría que la posibilidad no es cero
      Pekín podría decidir en cualquier momento que DeepSeek se volvió demasiado poderoso o un producto de exportación clave, e intervenir
      Ni siquiera hay garantía de que ya no lo haya hecho

      Hay muchos reportes sobre actores extranjeros, no limitados a China, que se han infiltrado masivamente en redes críticas de múltiples industrias en Estados Unidos y están esperando el momento oportuno para explotarlas
      Los modelos de frontera son otro vector de ataque, y si lo piensas, podrían explotarse con mucha más facilidad

      En realidad, esta posibilidad existe con cualquier modelo alojado en la nube
      Ya sea porque la empresa que hizo el modelo lo quiso así o porque un actor malicioso explotó una vulnerabilidad

    • Yo no soy una persona lo bastante importante como para que alguien de China venga específicamente a por mí
      Y DeepSeek necesita mantener suficiente confianza para que la gente siga usando la plataforma
      Si se comportara como un keylogger que roba las wallets cripto de todos, esa confianza se derrumbaría

      Si yo trabajara en algo que el gobierno chino considerara estratégicamente importante, claro que me preocuparía, pero no es mi caso

      Más bien me preocupa más que los ricos tecnológicos de este país me perfilen masivamente con LLMs y construyan aquí algo mucho más distópico que el puntaje de crédito social real o imaginario de China
      Es muy posible que las personas que intentan convencerte de que tú, individuo en Estados Unidos, deberías preocuparte por el gobierno chino sean precisamente de quienes realmente tendrías que preocuparte

  • Si alguien está pensando conectarlo a copilot, hace tiempo hice un script proxy para manejar la conexión y quizá les sirva: https://gist.github.com/g023/c2bb7b540ffe64cee76023f18f6f936...