10 puntos por GN⁺ 6 일 전 | 1 comentarios | Compartir por WhatsApp
  • Funciona en un formato compatible con OpenAI/Anthropic, así que basta con cambiar base_url en la configuración del SDK para acceder a la API de DeepSeek de la misma manera
  • Como opciones de modelo predeterminadas aparecen deepseek-v4-flash y deepseek-v4-pro, y deepseek-chat y deepseek-reasoner están programados para quedar obsoletos el 2026/07/24
  • Para mantener la compatibilidad, deepseek-chat corresponde al modo non-thinking de deepseek-v4-flash, y deepseek-reasoner al modo thinking
  • La Chat API se llama desde el endpoint https://api.deepseek.com/chat/completions con el encabezado Authorization: Bearer ${DEEPSEEK_API_KEY} y un cuerpo JSON; el ejemplo usa deepseek-v4-pro, thinking, reasoning_effort="high" y stream=false
  • Tanto Python como Node.js incluyen ejemplos de uso con el SDK de OpenAI; la respuesta se lee desde choices[0].message.content y, si se cambia stream a true, se puede recibir una respuesta en streaming

Empezar a llamar a la API

  • La API de DeepSeek usa un formato compatible con OpenAI/Anthropic, por lo que con solo cambiar la configuración se puede acceder usando el SDK de OpenAI o Anthropic y software compatible con esas APIs
  • Como modelos disponibles se muestran deepseek-v4-flash, deepseek-v4-pro, deepseek-chat y deepseek-reasoner
    • deepseek-chat y deepseek-reasoner están programados para quedar obsoletos el 2026/07/24
    • Para mantener la compatibilidad, deepseek-chat corresponde al modo non-thinking de deepseek-v4-flash
    • deepseek-reasoner corresponde al modo thinking de deepseek-v4-flash

Llamar a la Chat API

  • Una vez emitida la clave de API, se puede acceder a los modelos de DeepSeek con un ejemplo en formato de API de OpenAI
    • El ejemplo es una llamada non-stream; si se cambia stream a true, se puede recibir una respuesta en streaming
    • El ejemplo en formato de API de Anthropic puede verse en Anthropic API
  • El ejemplo con curl envía la solicitud a https://api.deepseek.com/chat/completions y usa el encabezado Authorization: Bearer ${DEEPSEEK_API_KEY} junto con un cuerpo JSON
    • El modelo se especifica como deepseek-v4-pro
    • En messages se incluyen el mensaje system "You are a helpful assistant." y el mensaje user "Hello!"
    • thinking se configura como {"type": "enabled"}
    • reasoning_effort se configura como "high"
    • stream se configura como false
  • El ejemplo en Python se realiza después de instalar primero el SDK de OpenAI
    • El comando de instalación es pip3 install openai
    • En el cliente OpenAI se usan api_key=os.environ.get('DEEPSEEK_API_KEY') y base_url="https://api.deepseek.com";
    • En la llamada client.chat.completions.create, el modelo se establece como deepseek-v4-pro, stream=False y reasoning_effort="high"
    • También se pasa extra_body={"thinking": {"type": "enabled"}}
    • La respuesta se imprime con response.choices[0].message.content
  • El ejemplo en Node.js también se realiza después de instalar primero el SDK de OpenAI
    • El comando de instalación es npm install openai
    • La instancia de OpenAI usa baseURL: 'https://api.deepseek.com' y apiKey: process.env.DEEPSEEK_API_KEY
    • En la llamada openai.chat.completions.create se configuran messages, model: "deepseek-v4-pro", thinking: {"type": "enabled"}, reasoning_effort: "high" y stream: false
    • El resultado se imprime con completion.choices[0].message.content

1 comentarios

 
GN⁺ 6 일 전
Opiniones en Hacker News
  • Un modelo gigante como v4 pro cuesta alrededor de 4 dólares por cada millón de tokens de salida, así que no estoy muy seguro de que realmente sea cierto eso de que “los laboratorios de punta están subsidiando la inferencia a niveles absurdos”
    Incluso un modelo de suscripción parece que podría ser bastante rentable, y ni hablar del precio del API
    La entrada cuesta $1.74/M y la salida $3.48/M según OpenRouter

    • También hay una explicación de que el precio es alto por la falta de tarjetas de inferencia de DeepSeek
      Dicen que en el comunicado mencionaron que cuando salga la tarjeta de cómputo Ascend 950 en la segunda mitad de este año, el precio de Pro bajará mucho
    • Puede que sea rentable en términos de costos operativos, pero quizá todavía no lo sea si se consideran los costos de capital con el cronograma de depreciación actual
      Aun así, últimamente esas estimaciones de costos también parecen estar subiendo más de lo esperado
    • Yo lo veo parecido
      Los servicios por suscripción ya dejan ganancias, y eso de los subsidios al final parece más bien una narrativa para sacar márgenes más altos del API para clientes empresariales
    • Ese punto es válido, pero todavía no hay proveedores occidentales que igualen ese rango de precios
      En China la electricidad también es más barata
  • Es curiosamente reconfortante que hayan salido antes los documentos para desarrolladores que el comunicado rimbombante

    • Sí, de verdad this is the way
    • Si a esto lo van a llamar open source, entonces dónde están los datos de entrenamiento y los scripts de entrenamiento
      Viendo la edición, parece que en el comentario principal ya quitaron la expresión “open source”
  • Ya apareció en OpenRouter
    Pro cuesta $1.74/m de entrada y $3.48/m de salida, y Flash cuesta $0.14/m de entrada y $0.28/m de salida

  • Da gusto que de China salga algo realmente open source
    Sé que puede haber intenciones ocultas, pero aun así me cae bien

    • Las empresas estadounidenses exigen una verificación de identidad exagerada incluso para pagar por acceso al modelo, guardan y analizan los datos y los usan para entrenamiento, y además dicen abiertamente que pueden entregarlos a las autoridades si se los piden
      Las intenciones ocultas de China son una suposición, pero del lado de EE. UU. está todo expuesto sin tapujos
    • Este texto ayuda a entender por qué los laboratorios chinos están publicando modelos
      http://try.works/why-chinese-ai-labs-went-open-and-will-remain-open
    • Solo son pesos abiertos
  • Subieron el modelo base Pro de 1.6T a Hugging Face
    Es la primera vez que veo aquí una notación de modelo en escala T

  • https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf

    El modelo ya se publicó y es bastante impresionante
    Tiene rendimiento de nivel frontier, cuesta mucho menos, y me parece mejor que Opus 4.6

    • Ya ni sé si tiene sentido seguir comparando modelos con Opus
      Los usuarios de Opus igual van a seguir creyendo que es lo mejor, y los que no lo usan no quieren ese costo, ese lock-in y esas restricciones
      Yo, que no lo uso, sigo usando el modelo más barato y rápido que me resuelva el trabajo, y ahora mismo ese es MiniMax M2.5
      A veces pruebo modelos nuevos más caros y el resultado es parecido, así que también me pregunto si no habrá una exageración general de toda la industria de IA que hace que parezca que solo se avanza en benchmarks
    • Me da curiosidad cómo se compara con Opus 4.7
      Esta semana estuve participando en el hackathon de Anthropic Opus 4.7 y usé bastante 4.7; consumía muchos más tokens que 4.6, pero igual me dejó bastante impresionado
    • Quisiera saber si de verdad es mejor que Opus 4.6, o si simplemente está muy optimizado para benchmarks
      También me gustaría saber si lo probaron para programación real con un agent harness
      Si programa mejor que Claude Code + Opus 4.6, me cambio de inmediato
    • Ya empezó otra vez
      Todos los días sale algún lanzamiento diciendo que es mejor que Opus 4.6, pero ni siquiera DeepSeek afirma que supere a Opus incluyendo thinking
      Dsv3 no era un modelo inflado para benchmarks; fuera de benchmarks también rendía con bastante solidez, y aunque no llegaba al SoTA, estaba bien
      Este modelo parece parecido
      Está justo por debajo del máximo rendimiento, pero la diferencia no es grande y el precio es mucho más bajo
      El modelo grande lo está sirviendo ds directamente a $1.74 in / $3.48 out / $0.14 cache, así que es muy barato para el valor que ofrece
      El modelo pequeño cuesta $0.14 in / $0.28 out / $0.028 cache, así que prácticamente es tan barato que ni vale la pena pensarlo, y puede ser un candidato realista para correrlo en casa
      Si el rendimiento acompaña, parece totalmente capaz de competir con la línea haiku o gemini-flash
    • Haciendo cuentas por encima con los benchmarks publicados, entre los 20 indicadores donde ambos tienen puntaje hay una diferencia total de 20.1 puntos porcentuales
      La mejora promedio es de alrededor de 2%, y sinceramente no sé si eso es enorme o poca cosa
      Claude 4.6 fue casi 10 pp mejor en preguntas y respuestas de contexto largo, especialmente en los corpuses de CorpusQA y en conversaciones multironda de MRCR
      En cambio, DSv4 estuvo nada menos que 14 pp arriba en IMOAnswerBench y 12 pp arriba en SimpleQA-Verified
  • Los pesos se pueden descargar aquí
    https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro

  • Me interesa mucho este campo y además tengo bastante en juego en él, pero la verdad es que ya me está dando burnout intentar seguirle el ritmo a todo
    Siento que ya pasó hace rato el punto en que la IA tiene que resumir el avance de la IA para que uno pueda mantenerse al día

    • Es mejor no intentar seguir todo
      Pasa como con las noticias: cuando de verdad necesites saber algo, alguien te lo va a decir primero
    • Los actores clave casi no cambian
      Se puede seguir como si fuera deporte, y si aceptas que el puesto número uno va cambiando, no se hace tan pesado
    • En mi experiencia, desde GPT-4 en adelante todo se siente muy parecido
      Sale un modelo nuevo y dicen que mejoró en unos cuantos benchmarks, pero la experiencia subjetiva de usarlo es casi la misma
      Después de eso ya no ha habido mucho que realmente sorprenda, y ahora da la impresión de que se estancó en algo que solo le interesa al grupo más entusiasta
  • Más que el hecho de que High Flyer aparentemente copió descaradamente a Anthropic para hacer esto, lo que más me molesta es que GAB le haya dado tiempo suficiente para meter decenas de easter eggs de nivel xz ahí dentro

  • Acabo de probarlo por OpenRouter en Pi Coding agent, y muchas veces no logra usar bien las herramientas de lectura y escritura
    Me decepcionó bastante, y me pregunto si hay una solución mejor que prompts como “no uses llamadas directas y usa siempre las herramientas proporcionadas”

    • Recién acaba de salir, así que convendría esperar un poco
      Probablemente todavía no hicieron suficientes pruebas previas con Pi