- DeepSeek-V3.2 es un modelo de lenguaje grande de código abierto que combina alta eficiencia computacional y rendimiento de razonamiento y de agentes
- Con la nueva arquitectura DeepSeek Sparse Attention (DSA) mantiene el rendimiento en contextos largos y reduce significativamente la complejidad de cálculo
- Mediante un marco de aprendizaje por refuerzo (RL) escalable alcanza un rendimiento nivel GPT-5, y la versión de alto rendimiento logra una capacidad de inferencia equivalente a Gemini-3.0-Pro
- La canalización masiva de composición de tareas de agentes genera 1,800 entornos y 85,000 prompts, mejorando la generalización y la ejecución de instrucciones en entornos de interacción complejos
- Los modelos abiertos reducen la brecha con los modelos cerrados y se posicionan como una alternativa costo-eficiente
Visión general de DeepSeek-V3.2
- DeepSeek-V3.2 es un modelo diseñado para superar las limitaciones de inferencia y rendimiento de agentes en LLM de código abierto
- Consta de tres tecnologías clave: DeepSeek Sparse Attention (DSA), marco de aprendizaje por refuerzo escalable y canalización de síntesis de tareas de agentes a gran escala
- La versión de alto rendimiento DeepSeek-V3.2-Speciale supera a GPT-5 y posee capacidad de inferencia al nivel de Gemini-3.0-Pro
- En 2025 logró resultados a nivel de medalla de oro en la Olimpiada Internacional de Matemáticas (IMO) y la Olimpiada Internacional de Informática (IOI)
- Mejora simultáneamente la eficiencia y el rendimiento de los modelos abiertos, reduciendo la brecha de rendimiento con modelos cerrados
Límites de los modelos abiertos y dirección de mejora
- Se identifican tres limitaciones que explican por qué los LLM de código abierto quedan por detrás de los modelos cerrados
- La ineficiencia de la estructura de atención básica provoca una gran carga de cómputo al procesar secuencias largas
- La insuficiencia de recursos de cómputo en la etapa de post-entrenamiento degrada el rendimiento en tareas difíciles
- La falta de generalización y capacidad de ejecución de instrucciones en agentes limita su uso en aplicaciones reales
- Para resolverlo, DeepSeek-V3.2 incorpora estructura de atención eficiente, aprendizaje RL escalable y una canalización integrada de razonamiento con uso de herramientas
DeepSeek Sparse Attention (DSA)
- DSA se compone de un lightning indexer y un mecanismo de selección de tokens fino
- El lightning indexer funciona con precisión FP8 y determina los principales k pares de clave-valor que cada token de consulta debe seleccionar
- Esto reduce la complejidad de O(L²) a O(Lk), permitiendo procesamiento eficiente incluso en contextos largos
- Implementado sobre MLA, mantiene compatibilidad con DeepSeek-V3.1-Terminus
- Realiza un proceso de entrenamiento continuo en dos etapas
- Inicializa el indexer en la fase Dense Warm-up
- En la fase Sparse Training, adapta todo el modelo al patrón DSA y entrena con 943.7B tokens
Evaluación de rendimiento y eficiencia
- DeepSeek-V3.2-Exp mantiene resultados equivalentes a DeepSeek-V3.1-Terminus mientras mejora significativamente la eficiencia en procesamiento de contexto largo sin pérdida de rendimiento
- Registra mejores puntajes de inferencia en benchmarks independientes como AA-LCR3 y Fiction.liveBench en comparación con la versión anterior
- En un clúster de GPU H800, el costo por token se reduce de forma considerable, logrando una mayor velocidad de extremo a extremo
Post-entrenamiento y estructura de aprendizaje por refuerzo
- Combina destilación de especialistas (Specialist Distillation) y RL mixto (Mixed RL)
- Entrena por RL a 6 modelos expertos en dominios especializados: matemáticas, programación, razonamiento lógico, agente general, agente de código y agente de búsqueda
- Distila los datos de cada modelo experto para generar el checkpoint final
- Usa el algoritmo Group Relative Policy Optimization (GRPO) para integrar entrenamiento de inferencia, agentes y alineación
- Combina modelo de recompensas, penalización por longitud y recompensa de coherencia lingüística
- DeepSeek-V3.2-Speciale aplica además datos y una metodología de recompensa de DeepSeekMath-V2 para reforzar la capacidad de demostración matemática
Técnicas de estabilización de aprendizaje por refuerzo (Scaling GRPO)
- Logra convergencia estable con la estimación KL sin sesgo (Unbiased KL Estimate)
- Corrige el problema de gradiente inestable del estimador K3 anterior
- Con Off-Policy Sequence Masking enmascara muestras negativas con alta desalineación de política, mejorando la estabilidad del entrenamiento
- Keep Routing mantiene la consistencia de enrutado en el modelo Mixture-of-Experts
- Keep Sampling Mask evita la desalineación del espacio de acciones entre políticas durante el muestreo top-p y top-k
Razonamiento con uso de herramientas (Thinking in Tool-Use)
- Introduce Thinking Context Management para evitar re-racionalizaciones innecesarias en llamadas a herramientas
- Borra el razonamiento previo solo cuando llega un nuevo mensaje del usuario
- Conserva el historial de llamadas a herramientas para gestionar el contexto de forma eficiente
- En la fase Cold-Start combina datos de razonamiento y de agentes
- Los datos de razonamiento usan la etiqueta <think></think> para marcar la ruta de inferencia
- Se establece una base de entrenamiento integrada con prompts del sistema que incluyen llamadas a herramientas
- Genera a escala 1,800 entornos y 85,000 prompts mediante síntesis de tareas de agentes a gran escala
- Realiza entrenamiento RL en entorno real con API de búsqueda web, herramientas de ejecución de código y Jupyter Notebook
- Search Agent automatiza la generación de preguntas, validación y evaluación de recompensas mediante una canalización de múltiples agentes
- Aplica un modelo de recompensa híbrido que optimiza tanto la fiabilidad factual como la utilidad práctica
Conclusión
- DeepSeek-V3.2 rompe las barreras de los modelos abiertos al combinar una estructura de atención eficiente con aprendizaje por refuerzo escalable
- Reduce notablemente la brecha con modelos cerrados en rendimiento integrado de inferencia y agentes, consolidándose como una alternativa costo-eficiente
- Se lo considera un ejemplo de la ruta para lograr un desarrollo sostenible de alto rendimiento en LLM de código abierto
1 comentarios
Opiniones en Hacker News
Impresiona que sigan mejorando la eficiencia de costos y que compartan públicamente su proceso de avance
Ojalá este tipo de esfuerzo ayude a frenar los monopolios de IA
Si los modelos abiertos pueden competir con los comerciales, surge la duda de cómo empresas como Google, Anthropic y OpenAI van a ganar dinero con la IA
En el pasado, el open source fracasó porque quedaba por detrás de lo cerrado en calidad y profundidad funcional, pero ahora parece que el rendimiento entró en una meseta
Al final, da la impresión de que a largo plazo ganará quien tenga la infraestructura energética más barata
Por ejemplo, igual que Amazon ofrece el API de MongoDB como servicio, al final el negocio está en cobrar por el uso de infraestructura
La mayoría de las empresas no tiene capacidad para hospedar por su cuenta modelos SOTA. Se entiende fácil viendo que ni siquiera operan sus propios servidores de correo
Google creó el Transformer, y OpenAI logró el éxito de ChatGPT con RLHF, pero ahora otra vez el resumen con IA de Google está ocupando la parte superior de la búsqueda
Documento relacionado: Google “We have no moat, and neither does OpenAI”
Dicen que este modelo no solo mejoró en benchmarks, sino también mucho en eficiencia de inferencia
Enlace relacionado: Comparación de rendimiento de Thomas Ip
El chat template de DeepSeek-V3.2 cambió bastante.
Al principio pensé que habían creado un formato nuevo, pero viendo la sintaxis en realidad parece prácticamente igual al formato Harmony
Si era así, habría sido más fácil de entender si desde el inicio hubieran dicho claramente que era compatible con Harmony
Me pregunto por qué casi no hay modelos en el rango de 32~512 GB y por qué el Mac Studio M4 tiene un máximo de 128 GB de RAM
Está genial que modelos así se publiquen como open source. Pero queda la duda de si incluso con un rig de $20,000 con cuatro RTX 5090 se puede correr lo bastante rápido
Eso más bien refuerza la afirmación del comentario original de que para consumo es lento
En la tabla 3 del paper, DS-Speciale queda en 1.º o 2.º lugar en casi todas las pruebas, pero genera más de 50% más tokens
También se puede escalar el rendimiento de razonamiento con recursos de cómputo generando varias respuestas en paralelo y eligiendo la final
Después de usarlo unas horas, me parece un modelo muy sólido y competitivo. Se siente mejor que GLM4.6 y también mejor que Kimi K2. Tengo ganas de ver v4
Me parece interesante que sea un gran modelo frontier publicado con licencia MIT
No termino de entender cómo evalúa la industria de IA en EE. UU. porque los modelos chinos son mucho más baratos y rinden casi igual
Además, como los benchmarks están saturados, la brecha se ve pequeña, pero en la parte alta una diferencia de 1% sí puede significar bastante en la práctica
Incluso en el leaderboard de Metabench que hice, los modelos chinos son buenos, pero todavía existe una brecha frente a los primeros lugares
Aun así, como el costo de inferencia es bajo, los modelos chinos son fuertes en relación costo-rendimiento
Las empresas de EE. UU. en realidad venden no solo el modelo, sino también infraestructura global de baja latencia. Eso ayuda a explicar sus valoraciones elevadas
Como referencia, Cerebras ofrece un GLM 4.6 muy rápido
Tal vez por debajo está la suposición de que DeepSeek será prohibido y que el open source quedará bloqueado dentro de EE. UU.
En adelante, es posible que los modelos frontier se diferencien en edge cases más específicos