2 puntos por GN⁺ 2025-09-30 | 1 comentarios | Compartir por WhatsApp
  • V3.1-Terminus sirve como base de este modelo experimental, que incorpora DeepSeek Sparse Attention (mecanismo de atención dispersa) para mejorar la eficiencia en el manejo de contextos largos
  • Sparse Attention admite operaciones dispersas de granularidad fina, lo que mejora de forma importante la eficiencia de entrenamiento e inferencia mientras mantiene una calidad de salida en un nivel similar al anterior
  • En benchmarks clave mostró un rendimiento similar o parcialmente mejor que V3.1-Terminus, con resultados especialmente confirmados en resolución de problemas de programación y matemáticas, y uso de herramientas de tipo agente
  • Para investigación y uso práctico, también se publicaron kernels relacionados como TileLang, DeepGEMM y FlashMLA, incluyendo tanto versiones de diseño fáciles de leer como kernels CUDA de alto rendimiento
  • Puede ejecutarse de inmediato en distintos entornos como HuggingFace, SGLang y vLLM, por lo que apunta a servir como base para la investigación y aplicación práctica de la próxima generación de arquitecturas transformer eficientes

Introducción

  • DeepSeek-V3.2-Exp es un modelo de etapa previa a una arquitectura de próxima generación desarrollado a partir de V3.1-Terminus
  • Su característica central es la aplicación de DeepSeek Sparse Attention (DSA), que permite inferencia y entrenamiento eficientes en contextos largos
  • El objetivo es optimizar la eficiencia computacional y el procesamiento de secuencias de texto ampliadas

Principales logros

  • DSA materializa por primera vez una atención dispersa sofisticada, aumentando la eficiencia sin perder calidad en la salida del modelo
  • La configuración de entrenamiento se mantuvo igual que en V3.1-Terminus para asegurar la confiabilidad de la comparación de rendimiento
  • Resultados en benchmarks públicos:
    • Reasoning: MMLU-Pro(85.0 vs 85.0), AIME 2025(88.4 vs 89.3), Codeforces(2046 vs 2121)
    • Agentic Tool Use: BrowseComp(38.5 vs 40.1), SimpleQA(96.8 vs 97.1)
    • En conjunto, se confirmó un desempeño equivalente o con ligeras mejoras

Kernels de código abierto

  • TileLang: ofrece ejemplos de kernels legibles para fines de investigación
  • DeepGEMM: publica kernels CUDA de alto rendimiento y kernels de logits del indexador
  • FlashMLA: proporciona kernels de sparse attention

Cómo ejecutarlo

  • HuggingFace: después de convertir el modelo, se puede ejecutar un chat interactivo con torchrun
  • SGLang: ofrece imágenes Docker (para H200, MI350 y NPUs)
  • vLLM: soporte Day-0 y documentación oficial de recetas

Licencia

  • Publicado bajo la licencia MIT

1 comentarios

 
GN⁺ 2025-09-30
Comentarios en Hacker News
  • Me llama la atención que un efecto de segundo orden del que la gente no habla mucho es el precio; es impresionante que, junto con la rápida expansión de los modelos, también bajen los precios, y eso es tan importante como la adopción de la IA y la inteligencia de los modelos. Entiendo que, en el fondo, no existe ninguna ley que impida que los precios sigan bajando. Ahora mismo, de forma parecida a la ley de Moore (o al ciclo de desarrollo de chips de IA/Nvidia), cada nueva generación de hardware se vuelve mucho más rápida y barata. Entonces, en un año quizá podamos usar ChatGPT-5 por la mitad de precio (claro, los modelos de alto rendimiento siguen siendo más caros, pero hablo en términos de costo por token).

    • Eso subestima bastante la magnitud de la caída de precios. Por ejemplo, según una investigación de Andreessen Horowitz, durante los dos años posteriores a la aparición de GPT-3.5 el costo de inferencia cayó 10 veces por año referencia. Así que, incluso en un escenario de desaceleración del crecimiento, veo posible una caída de 1,000x en los próximos 5 años. La baja actual de precios no está ligada directamente a la ley de Moore, sino a varias innovaciones como la optimización de modelos, la cadena de suministro de memoria de alto ancho de banda y la inversión en infraestructura eléctrica.
  • Me alegra ver que los modelos open source chinos siguen mejorando y abaratándose. Ya era un modelo barato, y ahora además bajaron el precio del API en 50%: Input $0.28/M, (con caché hit $0.028/M), Output $0.42/M.

    • Si de verdad bajó el precio, me da curiosidad saber cuál era el precio anterior. Incluso tenía la impresión de que hace poco lo habían subido.

    • Está bien que baje el precio, pero me pregunto cuánto tiempo se mantendrá en este nivel, porque antes era muy barato, luego subió bastante una vez, y ahora volvió a bajar.

  • Enlace a la introducción del modelo Deepseek v3.2-exp

    • Curiosamente, ese modelo aparece marcado como que “aprende con datos” ("This provider may use your prompts and outputs to train new models. This provider is disabled, but may re-activate if its data policy changes"). Por lo general, casi ningún modelo de pago usa los datos de entrada para entrenamiento, así que me pregunto si Openrouter lo marcó mal o si Deepseek realmente entrena con datos de usuarios.

    • Me pregunto si Open Router de verdad es open source. El repositorio “principal” está archivado y solo se ven proyectos pequeños. Parece que lo único realmente open source son los bindings del cliente API, así que me pregunto si el servicio central de routing no está cerrado.

  • No sé si lo entendí bien, pero la característica de este modelo sería que, mientras se entrena para imitar toda la distribución de atención, filtra solo los k tokens superiores importantes (aquí k=2048), de modo que aunque crezca la ventana de contexto, la complejidad computacional del cálculo [query, key] no aumenta linealmente y se mantiene constante (aunque, viendo la gráfica real, sigue quedando un proceso donde el indexador recorre aproximadamente una vez todo el contexto, así que sigue siendo O(L)).

  • El gran problema de estos modelos “baratos” es que, si el proveedor no soporta caché, en un entorno de uso real (sobre todo en workflows de agentes) el costo total puede terminar siendo más alto. El costo de tokens de entrada/salida no significa mucho; el costo de caché hit (reutilización) es el que representa la mayor parte de los tokens totales. En ese caso, usar simplemente GPT-5 podría salir más barato o costar parecido y darte un modelo más potente.

    • DeepSeek sí soporta caché, y cuando hay caché hit el costo es una décima parte del caché miss. En concreto: caché hit $0.028/M, caché miss $0.28/M, salida $0.42/M referencia

    • Yo entendía que este modelo sí soportaba caching; la página de precios también especifica que los tokens de entrada con caché hit cuestan $0.028.

    • Dijiste que era un problema serio, pero con una condición previa (IF). La API de DeepSeek oficialmente sí soporta caching. No inventemos problemas donde no los hay guía de caché

  • Sorprende que los benchmarks se hayan mantenido casi iguales mientras el costo se redujo de forma drástica.

  • Algo interesante es que el avance de los modelos sigue siendo tan rápido que el hardware dedicado a modelos específicos no ha recibido tanta atención, y que las principales ventajas de escalado siguen viniendo de plataformas de propósito general.

    • Aun así, también habría que mencionar chips optimizados a nivel de arquitectura como Google TPU, Groq y Cerebras. No son completamente dedicados, pero sí son casos de optimización sobre estructuras más generales.
  • Deep Sparse Attention parece poder ayudar de forma real con razonamiento estructurado y de largo contexto, como en código.

  • Me parece realmente impresionante. Tengo curiosidad por cómo se comporta con datos del mundo real, donde importan diferencias sutiles, y también me intriga mucho si lo han probado en escenarios mayores que una ventana de contexto de 128K.

  • Está genial poder ver casos donde sparse attention se aplica en entornos reales.