- V3.1-Terminus sirve como base de este modelo experimental, que incorpora DeepSeek Sparse Attention (mecanismo de atención dispersa) para mejorar la eficiencia en el manejo de contextos largos
- Sparse Attention admite operaciones dispersas de granularidad fina, lo que mejora de forma importante la eficiencia de entrenamiento e inferencia mientras mantiene una calidad de salida en un nivel similar al anterior
- En benchmarks clave mostró un rendimiento similar o parcialmente mejor que V3.1-Terminus, con resultados especialmente confirmados en resolución de problemas de programación y matemáticas, y uso de herramientas de tipo agente
- Para investigación y uso práctico, también se publicaron kernels relacionados como TileLang, DeepGEMM y FlashMLA, incluyendo tanto versiones de diseño fáciles de leer como kernels CUDA de alto rendimiento
- Puede ejecutarse de inmediato en distintos entornos como HuggingFace, SGLang y vLLM, por lo que apunta a servir como base para la investigación y aplicación práctica de la próxima generación de arquitecturas transformer eficientes
Introducción
- DeepSeek-V3.2-Exp es un modelo de etapa previa a una arquitectura de próxima generación desarrollado a partir de V3.1-Terminus
- Su característica central es la aplicación de DeepSeek Sparse Attention (DSA), que permite inferencia y entrenamiento eficientes en contextos largos
- El objetivo es optimizar la eficiencia computacional y el procesamiento de secuencias de texto ampliadas
Principales logros
- DSA materializa por primera vez una atención dispersa sofisticada, aumentando la eficiencia sin perder calidad en la salida del modelo
- La configuración de entrenamiento se mantuvo igual que en V3.1-Terminus para asegurar la confiabilidad de la comparación de rendimiento
- Resultados en benchmarks públicos:
- Reasoning: MMLU-Pro(85.0 vs 85.0), AIME 2025(88.4 vs 89.3), Codeforces(2046 vs 2121)
- Agentic Tool Use: BrowseComp(38.5 vs 40.1), SimpleQA(96.8 vs 97.1)
- En conjunto, se confirmó un desempeño equivalente o con ligeras mejoras
Kernels de código abierto
- TileLang: ofrece ejemplos de kernels legibles para fines de investigación
- DeepGEMM: publica kernels CUDA de alto rendimiento y kernels de logits del indexador
- FlashMLA: proporciona kernels de sparse attention
Cómo ejecutarlo
- HuggingFace: después de convertir el modelo, se puede ejecutar un chat interactivo con
torchrun
- SGLang: ofrece imágenes Docker (para H200, MI350 y NPUs)
- vLLM: soporte Day-0 y documentación oficial de recetas
Licencia
- Publicado bajo la licencia MIT
1 comentarios
Comentarios en Hacker News
Me llama la atención que un efecto de segundo orden del que la gente no habla mucho es el precio; es impresionante que, junto con la rápida expansión de los modelos, también bajen los precios, y eso es tan importante como la adopción de la IA y la inteligencia de los modelos. Entiendo que, en el fondo, no existe ninguna ley que impida que los precios sigan bajando. Ahora mismo, de forma parecida a la ley de Moore (o al ciclo de desarrollo de chips de IA/Nvidia), cada nueva generación de hardware se vuelve mucho más rápida y barata. Entonces, en un año quizá podamos usar ChatGPT-5 por la mitad de precio (claro, los modelos de alto rendimiento siguen siendo más caros, pero hablo en términos de costo por token).
Me alegra ver que los modelos open source chinos siguen mejorando y abaratándose. Ya era un modelo barato, y ahora además bajaron el precio del API en 50%: Input $0.28/M, (con caché hit $0.028/M), Output $0.42/M.
Si de verdad bajó el precio, me da curiosidad saber cuál era el precio anterior. Incluso tenía la impresión de que hace poco lo habían subido.
Está bien que baje el precio, pero me pregunto cuánto tiempo se mantendrá en este nivel, porque antes era muy barato, luego subió bastante una vez, y ahora volvió a bajar.
Enlace a la introducción del modelo Deepseek v3.2-exp
Curiosamente, ese modelo aparece marcado como que “aprende con datos” ("This provider may use your prompts and outputs to train new models. This provider is disabled, but may re-activate if its data policy changes"). Por lo general, casi ningún modelo de pago usa los datos de entrada para entrenamiento, así que me pregunto si Openrouter lo marcó mal o si Deepseek realmente entrena con datos de usuarios.
Me pregunto si Open Router de verdad es open source. El repositorio “principal” está archivado y solo se ven proyectos pequeños. Parece que lo único realmente open source son los bindings del cliente API, así que me pregunto si el servicio central de routing no está cerrado.
No sé si lo entendí bien, pero la característica de este modelo sería que, mientras se entrena para imitar toda la distribución de atención, filtra solo los k tokens superiores importantes (aquí k=2048), de modo que aunque crezca la ventana de contexto, la complejidad computacional del cálculo [query, key] no aumenta linealmente y se mantiene constante (aunque, viendo la gráfica real, sigue quedando un proceso donde el indexador recorre aproximadamente una vez todo el contexto, así que sigue siendo O(L)).
El gran problema de estos modelos “baratos” es que, si el proveedor no soporta caché, en un entorno de uso real (sobre todo en workflows de agentes) el costo total puede terminar siendo más alto. El costo de tokens de entrada/salida no significa mucho; el costo de caché hit (reutilización) es el que representa la mayor parte de los tokens totales. En ese caso, usar simplemente GPT-5 podría salir más barato o costar parecido y darte un modelo más potente.
DeepSeek sí soporta caché, y cuando hay caché hit el costo es una décima parte del caché miss. En concreto: caché hit $0.028/M, caché miss $0.28/M, salida $0.42/M referencia
Yo entendía que este modelo sí soportaba caching; la página de precios también especifica que los tokens de entrada con caché hit cuestan $0.028.
Dijiste que era un problema serio, pero con una condición previa (IF). La API de DeepSeek oficialmente sí soporta caching. No inventemos problemas donde no los hay guía de caché
Sorprende que los benchmarks se hayan mantenido casi iguales mientras el costo se redujo de forma drástica.
Algo interesante es que el avance de los modelos sigue siendo tan rápido que el hardware dedicado a modelos específicos no ha recibido tanta atención, y que las principales ventajas de escalado siguen viniendo de plataformas de propósito general.
Deep Sparse Attention parece poder ayudar de forma real con razonamiento estructurado y de largo contexto, como en código.
Me parece realmente impresionante. Tengo curiosidad por cómo se comporta con datos del mundo real, donde importan diferencias sutiles, y también me intriga mucho si lo han probado en escenarios mayores que una ventana de contexto de 128K.
Está genial poder ver casos donde sparse attention se aplica en entornos reales.