7 puntos por GN⁺ 2026-05-03 | 2 comentarios | Compartir por WhatsApp
  • DeepSeek presentó los modelos preliminares DeepSeek-V4-Pro y DeepSeek-V4-Flash como los primeros de la serie V4; ambos son modelos Mixture of Experts con soporte para un contexto de 1 millón de tokens y se ofrecen bajo licencia MIT
  • DeepSeek-V4-Pro es un modelo con 1.6T parámetros totales y 49B parámetros activos, y parece ser el modelo de pesos abiertos más grande hasta ahora, por encima de Kimi K2.6, GLM-5.1 y DeepSeek V3.2
  • La principal diferencia de DeepSeek V4 es el precio: Flash cuesta $0.14 por millón de tokens de entrada y $0.28 de salida; Pro cuesta $1.74 de entrada y $3.48 de salida, por debajo de los modelos pequeños y grandes comparables
  • El precio bajo está ligado a la eficiencia en contexto largo: con un contexto de 1 millón de tokens, Pro baja a 27% de los FLOPs por token y 10% del caché KV frente a DeepSeek-V3.2; Flash baja a 10% de FLOPs y 7% de caché KV
  • En sus propios benchmarks, DeepSeek-V4-Pro puede competir con modelos frontier, aunque queda un poco por debajo de GPT-5.4 y Gemini-3.1-Pro, y muestra una trayectoria de desarrollo de aproximadamente 3 a 6 meses detrás de los modelos frontier más avanzados

Publicación de los modelos y especificaciones básicas

  • Después de V3.2 y V3.2 Speciale en diciembre de 2025, DeepSeek presentó DeepSeek-V4-Pro y DeepSeek-V4-Flash, dos modelos preliminares como los primeros de la serie V4
  • Ambos modelos son Mixture of Experts con soporte para 1 millón de tokens de contexto y usan la licencia MIT estándar
  • DeepSeek-V4-Pro tiene 1.6T parámetros totales y 49B parámetros activos, mientras que DeepSeek-V4-Flash tiene 284B parámetros totales y 13B parámetros activos
  • DeepSeek-V4-Pro es más grande que los 1.1T de Kimi K2.6, los 754B de GLM-5.1 y los 685B de DeepSeek V3.2, por lo que parece ser el nuevo modelo de pesos abiertos más grande
  • Según Hugging Face, el tamaño del modelo es de 865GB para Pro y 160GB para Flash; se espera que una versión ligeramente cuantizada de Flash pueda ejecutarse en una MacBook Pro M5 con 128GB
  • También es posible que el modelo Pro pueda ejecutarse en la misma máquina si solo se transmiten desde disco los expertos activos necesarios
  • Prueba rápida a través de OpenRouter

Precio, eficiencia y posición en rendimiento

  • El aspecto más llamativo de DeepSeek V4 es el precio; según la página de precios de DeepSeek, Flash cuesta $0.14 por millón de tokens de entrada y $0.28 por millón de tokens de salida
  • Pro tiene un precio de $1.74 por millón de tokens de entrada y $3.48 por millón de tokens de salida
  • En la tabla comparativa, DeepSeek V4 Flash es más barato que GPT-5.4 Nano con $0.20 de entrada y $1.25 de salida, y que Gemini 3.1 Flash-Lite con $0.25 de entrada y $1.50 de salida, por lo que es el más económico entre los modelos pequeños
  • DeepSeek V4 Pro es más barato que Gemini 3.1 Pro con $2 de entrada y $12 de salida, GPT-5.4 con $2.50 de entrada y $15 de salida, Claude Sonnet 4.6 con $3 de entrada y $15 de salida, Claude Opus 4.7 con $5 de entrada y $25 de salida, y GPT-5.5 con $5 de entrada y $30 de salida, por lo que es el más barato entre los grandes modelos frontier
  • La eficiencia respalda el precio bajo

    • El paper de DeepSeek señala que esta versión se enfocó fuertemente en la eficiencia de prompts de contexto largo
    • Con un contexto de 1 millón de tokens, DeepSeek-V4-Pro queda en 27% de los FLOPs por token y 10% del tamaño del caché KV frente a DeepSeek-V3.2
    • En las mismas condiciones, DeepSeek-V4-Flash baja hasta 10% de los FLOPs por token y 7% del tamaño del caché KV frente a DeepSeek-V3.2
  • Cerca de la frontera en benchmarks, pero detrás del nivel más alto

    • Los benchmarks auto reportados de DeepSeek muestran resultados donde el modelo Pro puede competir con otros modelos frontier
    • Según el paper, DeepSeek-V4-Pro-Max con escalado de tokens de razonamiento supera a GPT-5.2 y Gemini-3.0-Pro en benchmarks estándar de razonamiento
    • Aun así, queda un poco por debajo de GPT-5.4 y Gemini-3.1-Pro, y muestra una trayectoria de desarrollo de aproximadamente 3 a 6 meses detrás de los modelos frontier más avanzados
    • Se espera la publicación de versiones cuantizadas de Unsloth en huggingface.co/unsloth/models, y sigue siendo de interés qué tan bien podrá ejecutarse el modelo Flash en máquinas locales

2 comentarios

 
emptybynature 2026-05-09

Por ahora, que sea realmente barato está muy bien, pero el problema es que es demasiado lento.... algo que con codex tardaría 5 minutos, este se queda pensando 20 minutos. Por eso, más que para implementar, lo estoy usando para revisión de código, y como hace bastante bien la revisión de código, estoy satisfecho.

 
GN⁺ 2026-05-03
Comentarios en Hacker News
  • Para mí, la mayor diferencia es que DeepSeek simplemente hace lo que le pides. Hace poco probé tanto GPT como Claude para tareas de ingeniería inversa, y ambos se negaron; incluso recibí una advertencia en mi cuenta de OpenAI

    • Lamentablemente, su nivel de alucinación es absurdamente alto, así que saca a relucir lo peor de los modelos de lenguaje grandes
      Deepseek v4 pro 94%
      Deepseek v4 flash - 96%
      https://artificialanalysis.ai/evaluations/omniscience?models...
    • En mi experiencia, fue excelente usar IDA Pro y GLM 5.1 juntos, DeepSeek v4 pro quedó en un cercano segundo lugar y Kimi simplemente se negó. Con Claude, solo puedes hacer ingeniería inversa si lo empujas al modo héroe/salvador y luego lo vas desviando poco a poco hacia red teaming, pero cae muy fácilmente
    • En la empresa tenemos una cuenta enterprise de Cursor, así que puedo probar todos los modelos mainstream. Naturalmente, mientras investigaba un problema en nuestro código con fuente usando Composer 2, le pedí que activara un flag de depuración para saltarse la verificación de licencia, y tampoco quiso hacerlo
      Me molestó muchísimo; parecía un viejo meme de Patrick de SpongeBob. No entiendo por qué quieren convertir los modelos en agentes del orden. Lo ilegal sigue siendo ilegal, y ya existen profesionales que se encargan del crimen. Google no tiene por qué ser el árbitro de la verdad y la justicia. A las agencias de cumplimiento de la ley ya es difícil pedirles cuentas, pero al menos trabajan para nosotros
    • La parte de “incluso recibí una advertencia en mi cuenta de OpenAI” es totalmente extraña y distópica, porque el software está amenazando al usuario recordándole las consecuencias
      Compañeros desarrolladores, ¿qué clase de mundo hemos construido? Esto es una locura. Imaginen un martillo diciendo: “No me uses con tornillos, solo con clavos. Si lo vuelves a hacer, me autodestruiré”. Ojalá dejemos de hacer software así
    • Lo de “incluso recibí una advertencia en mi cuenta de OpenAI” a menudo da bastante miedo. Para una persona común sin seguidores, no hay un proceso real de apelación y existe la posibilidad de quedar excluida de herramientas básicas
      Imaginen que OpenAI compra 20 empresas y, por haber cruzado una línea difusa una sola vez en el pasado, ya no puedes usar Figma o Next. No es solo OpenAI; todo el ecosistema es demasiado difícil de interpretar
      Le pregunté a Gemini por una cita de Catch-22 y, aunque no tenía nada violento ni sexual, siguió interrumpiendo la respuesta a mitad del streaming diciendo que no podía hablar de eso. El libro sí contiene ese tipo de contenido, así que da la impresión de que por esa sola razón hasta podrían penalizar toda una cuenta de workspace
      Idealmente, el futuro debería ser local, pero viendo el costo real y el consumo eléctrico de los próximos años, no sé qué tan realista será para la mayoría. Si estás en ese ecosistema, quizá los procesadores M* sean la excepción
  • DeepSeek v4 Pro, en personalidad, se sintió como Claude Opus 4.6, y en costo fue impresionante
    Le pedí que se enfocara solo en un endpoint dentro de una base de código TypeScript bastante grande, revisara a fondo por capas la API, DTO, servicios y modelos de base de datos, entendiera por completo los tipos relacionados y evitara que aparecieran tipos temporales
    Me resumió de forma muy breve pero esencial los tipos introducidos, cuáles se devolvían y demás; luego le pedí simplificar todo
    Seguro ambos prompts recorrieron muchos archivos, pero el costo total en la versión Pro fue de $0.09. Con Claude Opus, incluso antes de la subida de precio y según mi experiencia, esos dos prompts fácilmente habrían costado entre $9 y $13, y el beneficio no habría sido gran cosa
    Por cierto, no usé OpenRouter, sino directamente la API de DeepSeek, porque OpenRouter mismo estaba siendo limitado por DeepSeek

    • Estoy teniendo la misma experiencia. Tareas como “revisa este módulo completo y ajústalo con precisión a mi guía de estilo preferida” me daba pena hacerlas con modelos de frontera si me costaban varios dólares. Me gusta poder lanzarle DeepSeek Flash tareas tontas, innecesarias o muy especulativas sin preocuparme por el costo
    • Gran parte de la ineficiencia viene de que el modelo sigue picoteando al azar en todas partes y haciendo grep una y otra vez, y creo que eso es problema del harness
      Por eso hice un MCP basado en Prolog que parsea el código en forma de grafo con tree-sitter, para que el modelo pueda hacer preguntas como “¿cuáles son todas las funciones conectadas con esta función?”. Si quieres ver qué hace cierto endpoint, puedes recorrer todo el subgrafo de llamadas de forma trivial y predecible
      https://github.com/yogthos/chiasmus
    • Cuando dices que “habría quemado entre $9 y $13 sin mucha ganancia”, ¿quieres decir que no es gran ganancia comparado con los 9 centavos de DeepSeek v4 Pro, o que ninguno de los dos aportó mucho?
    • Incluso considerando que ahora están cobrando con 75% de descuento, sigue siendo muchísimo más barato
    • Me da curiosidad cómo lo usaste. ¿Usaste OpenRouter o directamente la API del proveedor?
  • Relacionado con eso, hay una demo en vivo ejecutando DeepSeek v4 Flash en una MacBook de 128GB. El video está en italiano y tiene subtítulos en inglés
    https://www.youtube.com/watch?v=todMmp6AGCE

  • Lo conecté a vscode copilot y probé tanto flash como pro. Para pequeñas pruebas de concepto, flash fue suficiente, bastante rápido y realmente barato
    Se colgó algunas veces; quizá fue un tema de latencia, pero aun así los resultados fueron buenos. Usé pro para tareas pesadas y planificación, y lo hizo excelente
    Pagué unos 10 centavos por una prueba de concepto pequeña y funcionó exactamente como lo pedí. Para mí, es una alternativa real después de cancelar GitHub Copilot a fin de mes

  • Aunque el costo es menor que el de los modelos de frontera, hay dos factores que hacen que DS4 Pro y K2.6 no sean tan baratos como parecen
    DS4 Pro tiene descuento en la API oficial, y eso muchas veces se pasa por alto o se mezcla en la discusión. Simon usó el precio de lista en su comparación, así que aquí no hay problema
    El otro problema es que DS4 Pro y K2.6 suelen usar muchos más tokens de razonamiento que los modelos de frontera. En mis pruebas, en algunos casos patológicos gastaban tantos tokens que el costo de la solicitud podía igualar al de los modelos de frontera. Siendo justos, yo uso DS y Kimi a través de proveedores de terceros, así que quizá sea un tema de configuración de ellos
    Pero si ves las páginas de modelos de Artificial Analysis, en sus benchmarks de inteligencia DSv4 Pro usó 190M tokens, K2.6 usó 170M tokens, mientras que GPT 5.5 high usó solo 45M
    En “Intelligence vs. Cost to Run Artificial Analysis Intelligence Index”, recomiendo ver “Intelligence vs Cost” en la UI. Los modelos open source siguen siendo más baratos, pero no tanto como cabría esperar viendo solo el precio por token
    [0] https://artificialanalysis.ai/models/deepseek-v4-pro
    [1] https://artificialanalysis.ai/models/kimi-k2-6
    [2] https://artificialanalysis.ai/models/gpt-5-5-high

    • Eso está muy equivocado; DS4 es realmente barato. Primero recomendaría leer el paper de lanzamiento
      https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main...
      Introdujeron HCA y mCH, métodos bastante nuevos para mejorar la eficiencia de contexto largo y la atención. Frente a v3.2, para inferencia solo necesita 27% de los FLOPs y para la caché KV solo 10%. Eso significa que con los mismos recursos de cómputo puedes servir más de 3 veces, y que solo necesitas 30% de la caché KV anterior
      Además, este lanzamiento es PREVIEW. DeepSeek es un verdadero laboratorio de investigación abierto: en cada lanzamiento construyen bastantes cosas, pero también las publican y las comparten. Yo lo estoy corriendo en local
      Para hablar de qué tan “barato” es: con v3.2, en un contexto de 256k, me quedaba sin memoria GPU y se iba a memoria del sistema, y aun así me parecía bien sacar unas 7 mil tokens por segundo. Ahora puedo meter el contexto completo de 1 millón de tokens 100% dentro de la memoria GPU, correrlo a más del doble de velocidad y encima obtener mejores resultados
      Eso sí es realmente barato. Moonshot dejó claro que le faltan GPUs, y por eso pasa eso. Si tuvieran capacidad de GPU como en EE. UU. y apoyaran el modelo como aquí, lo estarían regalando
    • Puede pasar, pero no fue mi experiencia. Hice durante todo el día refactorizaciones bastante grandes, muchas idas y vueltas, cambios de miles de líneas de código, revisión, investigación y trabajo paralelo de varios subagentes, y el costo total fue de $0.95
      Cuando intenté esto antes con Opus 4.6, quemé todo el presupuesto de $10 que le había puesto antes siquiera de que regresara el primer prompt
      Incluso si fueran precios muy descontados, una solución completa me habría costado una cifra de un solo dígito en dólares, mientras que con Opus habrían sido dos dígitos de dólares para obtener exactamente nada
    • Según Artificial Analysis, Grok 4.3 es más rápido, más inteligente, más barato y usa menos tokens que DS4. Entonces, ¿por qué nadie habla de Grok?
      1. https://artificialanalysis.ai/models/grok-4-3
  • V4 claramente subió un nivel frente a V3.2 en nuestro benchmark multilingüe
    Eso sí, hay dos advertencias. Al usarlo vía OpenRouter para inferencia, vimos muchísimos problemas de velocidad (TPS muy bajo) y a veces inestabilidad. Incluso ahora mismo, si reviso, en todos los proveedores disponibles anda entre 10 y 30 TPS, lo cual no es mucho para un modelo que “piensa” tanto como DeepSeek
    La API oficial de DeepSeek no garantiza privacidad de datos ni siquiera a usuarios de pago
    Si lo usas a través de Azure AI Foundry, quizá ninguna de las dos cosas sea un problema. De la segunda estoy bastante seguro, aunque todavía no lo he probado
    En cualquier caso, me alegra ver más modelos de pesos abiertos que compiten hasta cierto punto con el nivel más alto actual

  • La API oficial de DeepSeek, cuando la usas en sesiones largas sobre la misma base de código, tiene una tasa de acierto de caché de más de 99%, así que sale muchísimo más barata que los modelos de frontera. Hay un ejemplo de sesión de 200M tokens en claude code

    • Tal vez sea una pregunta tonta, pero para asegurar el prefijo correcto que haga match con la caché en una sesión nueva, ¿hay que leer los archivos en el mismo orden?
  • Sorprende que a la gente, especialmente cuando usa directamente la API del desarrollador del modelo, no le importe en absoluto que estos modelos entrenen públicamente con sus datos
    Cuando pasa algo como “GitHub ahora mete automáticamente el código de todos al entrenamiento del modelo”, aparecen con toda razón cientos de comentarios furiosos, pero cuando se habla de usar modelos chinos vía OpenRouter, ese punto casi ya no aparece. Se puede explicar diciendo “son personas distintas”, pero la diferencia es tan marcada que cuesta creer que sea solo eso

    • Lo bueno de los modelos de pesos abiertos es que puedes usar libremente proveedores alternativos que no le envían tus datos al creador original del modelo. Por ejemplo, en OpenRouter veo 6 proveedores alternativos para DeepSeek V4 Pro
    • En lo personal, me parece bien ayudarlos mientras publiquen el modelo y no lo cierren. Y tampoco confío en configuraciones del proveedor que prometen no usarlo para entrenamiento
    • La mayoría de los modelos de pesos abiertos se pueden usar con proveedores que ofrecen sin retención de datos y sin entrenamiento. Como ejemplo, mira OpenRouter y OpenCode Go/Zen
      Esa es una de las grandes ventajas de los pesos abiertos. Ni China ni EE. UU. se quedan con mis datos
    • Porque lo están regalando y además ofrecen una API a muy buen precio. No es difícil de entender. Me hace pensar en Robin Hood robando nuestros impuestos de datos para devolvérnoslos
    • Que entrenen con mi código open source no me molesta. Mi código es bastante malo, pero ese no es el punto; además, el servicio es gratis. Pero si pagué costo enterprise y aun así lo usan para entrenamiento, sí me enojaría muchísimo. Creo que la mayoría de los programadores piensa igual
  • Da esperanza que, incluso cuando se acabe el circo de los subsidios y todo pase a ser puramente por uso, esto no termine siendo completamente excluyente para la gente normal que no tiene un presupuesto mensual de $200

    • Tengo dos razones para ser optimista y pensar que no habrá una traición masiva donde de pronto se dispare la relación precio/rendimiento frente a hoy
      Una es que seguimos encontrando formas de meter más inteligencia en modelos más pequeños, así que con el tiempo el mismo hardware ofrece más capacidad de modelo
      La otra es que el hardware sigue mejorando y la oferta se va poniendo al día con la demanda, así que con el tiempo también mejora el hardware que puedes comprar por 1 dólar
      Ojalá llegue el día en que veamos este modelo actual de “acceder a la IA mediante la API de un proveedor” como hoy vemos la época en que “todo el mundo se conectaba al mainframe de una empresa”
    • No me sorprendería que, cuando se asiente el polvo, el uso conversacional personal termine siendo imposible por menos de $200. Incluso cuando intento modelar los costos de servir estas cosas, no me cuadran con los reportes públicos. Y eso aplica incluso a los escenarios más pesimistas
  • He usado v4 pro estos últimos días y, en cuanto a calidad, en general se ve al nivel de OpenAI 5.4 o Opus 4.6. No he probado 4.7
    Para ser claro, no hago trabajo de punta. Lo usé sobre todo para desarrollo frontend, y como no soy muy bueno en eso, solo necesitaba prototipos razonables
    Para mis objetivos, es un modelo totalmente aceptable y con un precio razonable. Pero de verdad estoy esperando que salga un modelo abierto lo bastante pequeño como para correrlo localmente. No me gusta depender de la máquina de alguien más y que todos mis datos se vayan por el camino

    • Si usas Tinfoil para inferencia, puedes usar modelos en la nube con una privacidad parecida a la de una ejecución local: https://tinfoil.sh/inference
      Aclaro que soy cofundador. La idea es ejecutar el modelo dentro de enclaves seguros, y verificar que el código open source que corre dentro del enclave coincida con la atestación de tiempo de ejecución. Usa NVIDIA confidential computing
      La documentación explica el proceso de verificación: https://docs.tinfoil.sh/verification/verification-in-tinfoil
    • Gracias por compartir tu experiencia; yo también estoy pensando en probarlo. ¿Qué proveedor estás usando para la inferencia? ¿Opencode o la API de DeepSeek?