2 puntos por GN⁺ 2025-08-22 | 1 comentarios | Compartir por WhatsApp
  • DeepSeek-V3.1 es el primer paso hacia la próxima era de los agentes
  • Incorpora una función de razonamiento híbrido que permite usar de forma selectiva dos modos en un solo modelo: Think (basado en razonamiento) y Non-Think (sin razonamiento)
  • En el modo DeepSeek-V3.1-Think, es posible llegar a la respuesta correcta en menos tiempo que el modelo anterior DeepSeek-R1-0528, lo que mejora significativamente la eficiencia
  • Mediante post-training, se mejoró de forma notable la capacidad del modelo para desempeñar roles en uso de herramientas, operación de sistemas externos y tareas de agente de múltiples pasos
  • Los usuarios pueden cambiar libremente entre los modos Think/Non-Think en el servicio de chatbot de DeepSeek mediante el botón “DeepThink”
  • Actualización de la API
    • Logró mejores resultados en las evaluaciones de SWE (Software Engineering) y Terminal-Bench
    • Se reforzaron significativamente la capacidad de razonamiento de múltiples pasos y resolución de problemas en búsquedas complejas o tareas de varios pasos
    • La eficiencia de razonamiento general aumentó de forma considerable
  • Cambio de precios (aplica a partir del 25/9)
    • API de entrada: $0.07 por 1M tokens (cache hit) / $0.56 (cache miss)
    • API de salida: $1.68 por 1M tokens

1 comentarios

 
GN⁺ 2025-08-22
Opiniones en Hacker News
  • Ya hicieron una versión GGUF para correrlo en local; con un esquema dinámico de 2 bits (2bit MoE, el resto en 6-8bit) se necesitan unos 250 GB combinando RAM y VRAM para lograr buen rendimiento. También se puede hacer offloading al SSD, pero es lento. Para detalles como cómo ejecutarlo y los parámetros óptimos, conviene revisar la documentación oficial
    • Aun así, me parece raro que unsloth, siendo una librería de Python, intente ejecutar apt-get con sudo. En mi nixos eso falla, así que es difícil de usar.
    • Me gustaría ver benchmarks de cuánto cae el rendimiento frente al modelo original con esta compresión dinámica de 2 bits.
  • Comparto como referencia el leaderboard de terminal-bench: está bastante por detrás de GPT-5, Claude 4 y GLM-4.5, pero frente a otros modelos open-weight el rendimiento es relativamente decente. Igual, los benchmarks no lo dicen todo, así que habrá que ver los resultados reales con el tiempo.
    • Creo que ese benchmark mezcla agent tools y modelos, así que le falta consistencia a los resultados. Para que tenga sentido habría que fijar solo el agent tool y comparar únicamente los modelos. Este tipo de benchmark suele ser poco confiable, y me parece mejor usar el modelo directamente y probarlo con tu propio problema.
    • En mi experiencia, la calidad de los resultados fue bastante buena.
    • Empresas como Anthropic y OpenAI también tienden a desarrollar agentes personalizados para ciertos benchmarks.
    • Ojo: DeepSeek R1 ya es un modelo viejo que fue reemplazado; ya vi la actualización.
    • Si el precio no se dispara demasiado, hasta un modelo SOTA puede seguir siendo atractivo.
  • Se extraña que haya desaparecido el descuento de temporada baja; en ese entonces se podían generar muchísimos tokens y casi no costaba nada. Aun así, no hay tanta queja porque sigue teniendo una relación precio-rendimiento muy buena.
  • Según los resultados de artificialanalysis.ai, tiene más o menos una inteligencia similar a gpt-oss-120B, pero es unas 10 veces más lento y 3 veces más caro.
    • La fuente mostrada ahora mismo solo enseña un proveedor específico. Sería más preciso comparar gpt-oss-120B y deepseek-chat-v3.1 con el mismo proveedor. También hay que considerar que gpt-oss-120B ya tiene más proveedores montados y optimizados, lo que le da ventaja.
  • DeepSeek V3.1 es un modelo híbrido de razonamiento y tiene fortalezas en tool calling (Task Tool Calling), pero con frecuencia usa de forma aleatoria formatos de herramientas antiguos en vez del formato JSON estándar. Probablemente el dataset de entrenamiento de V3 incluía bastante material de ese tipo.
    • Me pregunto si ya probaste el function calling strict (beta); aquí está la guía relacionada.
    • Me da curiosidad a qué formato te refieres. Tenía entendido que JSON es adecuado para forzar salida estructurada en los LLM, así que no entiendo por qué se saldría de JSON a propósito.
  • Parece quedar por detrás de Qwen3 235B 2507 Reasoning (mi modelo favorito) y de gpt-oss-120B; dejo el benchmark y la referencia de precio.
    • Creo que la familia Qwen3 2507 es lo mejor en local en este momento. Con una GPU y unos 32 GB de RAM, el modelo A3B va muy bien para tareas de pair programming.
  • De todos los modelos que usé en los últimos 6 meses, DeepSeek V3.1 es el que más alucinaciones (hallucinations) me ha dado.
    • Me pregunto qué context length usaste.
    • También pregunto si esta vez pudo haber tomado datos malos.
  • Está más o menos a mitad de camino entre V3 y Qwen3 Coder, según este enlace comparativo
    • Están preguntando si el modelo gpt-5 Mini se ofrece gratis.
  • Entre los modelos open-weight parece competitivo, pero frente a GPT-5 o Claude todavía hay una brecha grande.
  • Todavía no he visto pruebas de que supere a GLM-4.5 en tareas de agentic coding.
    • Están repreguntando si eso es todo o si hay alguna otra evidencia que no hayan visto.