DeepSeek v4
(huggingface.co)- Funciona en un formato compatible con OpenAI/Anthropic, así que basta con cambiar
base_urlen la configuración del SDK para acceder a la API de DeepSeek de la misma manera - Como opciones de modelo predeterminadas aparecen
deepseek-v4-flashydeepseek-v4-pro, ydeepseek-chatydeepseek-reasonerestán programados para quedar obsoletos el 2026/07/24 - Para mantener la compatibilidad,
deepseek-chatcorresponde al modo non-thinking dedeepseek-v4-flash, ydeepseek-reasoneral modo thinking - La Chat API se llama desde el endpoint
https://api.deepseek.com/chat/completionscon el encabezadoAuthorization: Bearer ${DEEPSEEK_API_KEY}y un cuerpo JSON; el ejemplo usadeepseek-v4-pro,thinking,reasoning_effort="high"ystream=false - Tanto Python como Node.js incluyen ejemplos de uso con el SDK de OpenAI; la respuesta se lee desde
choices[0].message.contenty, si se cambiastreamatrue, se puede recibir una respuesta en streaming
Empezar a llamar a la API
- La API de DeepSeek usa un formato compatible con OpenAI/Anthropic, por lo que con solo cambiar la configuración se puede acceder usando el SDK de OpenAI o Anthropic y software compatible con esas APIs
- En OpenAI,
base_urleshttps://api.deepseek.com - En Anthropic,
base_urleshttps://api.deepseek.com/anthropic api_keydebe emitirse por separado
- En OpenAI,
- Como modelos disponibles se muestran
deepseek-v4-flash,deepseek-v4-pro,deepseek-chatydeepseek-reasonerdeepseek-chatydeepseek-reasonerestán programados para quedar obsoletos el 2026/07/24- Para mantener la compatibilidad,
deepseek-chatcorresponde al modo non-thinking dedeepseek-v4-flash deepseek-reasonercorresponde al modo thinking dedeepseek-v4-flash
Llamar a la Chat API
- Una vez emitida la clave de API, se puede acceder a los modelos de DeepSeek con un ejemplo en formato de API de OpenAI
- El ejemplo es una llamada non-stream; si se cambia
streamatrue, se puede recibir una respuesta en streaming - El ejemplo en formato de API de Anthropic puede verse en Anthropic API
- El ejemplo es una llamada non-stream; si se cambia
- El ejemplo con
curlenvía la solicitud ahttps://api.deepseek.com/chat/completionsy usa el encabezadoAuthorization: Bearer ${DEEPSEEK_API_KEY}junto con un cuerpo JSON- El modelo se especifica como
deepseek-v4-pro - En
messagesse incluyen el mensaje system"You are a helpful assistant."y el mensaje user"Hello!" thinkingse configura como{"type": "enabled"}reasoning_effortse configura como"high"streamse configura comofalse
- El modelo se especifica como
- El ejemplo en Python se realiza después de instalar primero el SDK de OpenAI
- El comando de instalación es
pip3 install openai - En el cliente
OpenAIse usanapi_key=os.environ.get('DEEPSEEK_API_KEY')ybase_url="https://api.deepseek.com" - En la llamada
client.chat.completions.create, el modelo se establece comodeepseek-v4-pro,stream=Falseyreasoning_effort="high" - También se pasa
extra_body={"thinking": {"type": "enabled"}} - La respuesta se imprime con
response.choices[0].message.content
- El comando de instalación es
- El ejemplo en Node.js también se realiza después de instalar primero el SDK de OpenAI
- El comando de instalación es
npm install openai - La instancia de
OpenAIusabaseURL: 'https://api.deepseek.com'yapiKey: process.env.DEEPSEEK_API_KEY - En la llamada
openai.chat.completions.createse configuranmessages,model: "deepseek-v4-pro",thinking: {"type": "enabled"},reasoning_effort: "high"ystream: false - El resultado se imprime con
completion.choices[0].message.content
- El comando de instalación es
1 comentarios
Opiniones en Hacker News
Un modelo gigante como v4 pro cuesta alrededor de 4 dólares por cada millón de tokens de salida, así que no estoy muy seguro de que realmente sea cierto eso de que “los laboratorios de punta están subsidiando la inferencia a niveles absurdos”
Incluso un modelo de suscripción parece que podría ser bastante rentable, y ni hablar del precio del API
La entrada cuesta $1.74/M y la salida $3.48/M según OpenRouter
Dicen que en el comunicado mencionaron que cuando salga la tarjeta de cómputo Ascend 950 en la segunda mitad de este año, el precio de Pro bajará mucho
Aun así, últimamente esas estimaciones de costos también parecen estar subiendo más de lo esperado
Los servicios por suscripción ya dejan ganancias, y eso de los subsidios al final parece más bien una narrativa para sacar márgenes más altos del API para clientes empresariales
En China la electricidad también es más barata
Es curiosamente reconfortante que hayan salido antes los documentos para desarrolladores que el comunicado rimbombante
Viendo la edición, parece que en el comentario principal ya quitaron la expresión “open source”
Ya apareció en OpenRouter
Pro cuesta $1.74/m de entrada y $3.48/m de salida, y Flash cuesta $0.14/m de entrada y $0.28/m de salida
Aquí me sale Api Error
Todos los demás modelos funcionan bien
https://openrouter.ai/deepseek/deepseek-v4-pro
https://openrouter.ai/deepseek/deepseek-v4-flash
Da gusto que de China salga algo realmente open source
Sé que puede haber intenciones ocultas, pero aun así me cae bien
Las intenciones ocultas de China son una suposición, pero del lado de EE. UU. está todo expuesto sin tapujos
http://try.works/why-chinese-ai-labs-went-open-and-will-remain-open
Subieron el modelo base Pro de 1.6T a Hugging Face
Es la primera vez que veo aquí una notación de modelo en escala T
https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf
El modelo ya se publicó y es bastante impresionante
Tiene rendimiento de nivel frontier, cuesta mucho menos, y me parece mejor que Opus 4.6
Los usuarios de Opus igual van a seguir creyendo que es lo mejor, y los que no lo usan no quieren ese costo, ese lock-in y esas restricciones
Yo, que no lo uso, sigo usando el modelo más barato y rápido que me resuelva el trabajo, y ahora mismo ese es MiniMax M2.5
A veces pruebo modelos nuevos más caros y el resultado es parecido, así que también me pregunto si no habrá una exageración general de toda la industria de IA que hace que parezca que solo se avanza en benchmarks
Esta semana estuve participando en el hackathon de Anthropic Opus 4.7 y usé bastante 4.7; consumía muchos más tokens que 4.6, pero igual me dejó bastante impresionado
También me gustaría saber si lo probaron para programación real con un agent harness
Si programa mejor que Claude Code + Opus 4.6, me cambio de inmediato
Todos los días sale algún lanzamiento diciendo que es mejor que Opus 4.6, pero ni siquiera DeepSeek afirma que supere a Opus incluyendo thinking
Dsv3 no era un modelo inflado para benchmarks; fuera de benchmarks también rendía con bastante solidez, y aunque no llegaba al SoTA, estaba bien
Este modelo parece parecido
Está justo por debajo del máximo rendimiento, pero la diferencia no es grande y el precio es mucho más bajo
El modelo grande lo está sirviendo ds directamente a $1.74 in / $3.48 out / $0.14 cache, así que es muy barato para el valor que ofrece
El modelo pequeño cuesta $0.14 in / $0.28 out / $0.028 cache, así que prácticamente es tan barato que ni vale la pena pensarlo, y puede ser un candidato realista para correrlo en casa
Si el rendimiento acompaña, parece totalmente capaz de competir con la línea haiku o gemini-flash
La mejora promedio es de alrededor de 2%, y sinceramente no sé si eso es enorme o poca cosa
Claude 4.6 fue casi 10 pp mejor en preguntas y respuestas de contexto largo, especialmente en los corpuses de CorpusQA y en conversaciones multironda de MRCR
En cambio, DSv4 estuvo nada menos que 14 pp arriba en IMOAnswerBench y 12 pp arriba en SimpleQA-Verified
Los pesos se pueden descargar aquí
https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro
https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash-Base
https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro-Base
Qué bueno que hasta sacaron un nuevo modelo base
Me interesa mucho este campo y además tengo bastante en juego en él, pero la verdad es que ya me está dando burnout intentar seguirle el ritmo a todo
Siento que ya pasó hace rato el punto en que la IA tiene que resumir el avance de la IA para que uno pueda mantenerse al día
Pasa como con las noticias: cuando de verdad necesites saber algo, alguien te lo va a decir primero
Se puede seguir como si fuera deporte, y si aceptas que el puesto número uno va cambiando, no se hace tan pesado
Sale un modelo nuevo y dicen que mejoró en unos cuantos benchmarks, pero la experiencia subjetiva de usarlo es casi la misma
Después de eso ya no ha habido mucho que realmente sorprenda, y ahora da la impresión de que se estancó en algo que solo le interesa al grupo más entusiasta
Más que el hecho de que High Flyer aparentemente copió descaradamente a Anthropic para hacer esto, lo que más me molesta es que GAB le haya dado tiempo suficiente para meter decenas de easter eggs de nivel xz ahí dentro
Acabo de probarlo por OpenRouter en Pi Coding agent, y muchas veces no logra usar bien las herramientas de lectura y escritura
Me decepcionó bastante, y me pregunto si hay una solución mejor que prompts como “no uses llamadas directas y usa siempre las herramientas proporcionadas”
Probablemente todavía no hicieron suficientes pruebas previas con Pi