Lanzamiento de DeepSeek-V3.2: ampliando los límites de los LLM de gran escala de código abierto

(huggingface.co)

6 puntos por GN⁺ 2025-12-02 | 1 comentarios | Compartir por WhatsApp

DeepSeek-V3.2 es un modelo de lenguaje grande de código abierto que combina alta eficiencia computacional y rendimiento de razonamiento y de agentes
Con la nueva arquitectura DeepSeek Sparse Attention (DSA) mantiene el rendimiento en contextos largos y reduce significativamente la complejidad de cálculo
Mediante un marco de aprendizaje por refuerzo (RL) escalable alcanza un rendimiento nivel GPT-5, y la versión de alto rendimiento logra una capacidad de inferencia equivalente a Gemini-3.0-Pro
La canalización masiva de composición de tareas de agentes genera 1,800 entornos y 85,000 prompts, mejorando la generalización y la ejecución de instrucciones en entornos de interacción complejos
Los modelos abiertos reducen la brecha con los modelos cerrados y se posicionan como una alternativa costo-eficiente

Visión general de DeepSeek-V3.2

DeepSeek-V3.2 es un modelo diseñado para superar las limitaciones de inferencia y rendimiento de agentes en LLM de código abierto
- Consta de tres tecnologías clave: DeepSeek Sparse Attention (DSA), marco de aprendizaje por refuerzo escalable y canalización de síntesis de tareas de agentes a gran escala
La versión de alto rendimiento DeepSeek-V3.2-Speciale supera a GPT-5 y posee capacidad de inferencia al nivel de Gemini-3.0-Pro
- En 2025 logró resultados a nivel de medalla de oro en la Olimpiada Internacional de Matemáticas (IMO) y la Olimpiada Internacional de Informática (IOI)
Mejora simultáneamente la eficiencia y el rendimiento de los modelos abiertos, reduciendo la brecha de rendimiento con modelos cerrados

Límites de los modelos abiertos y dirección de mejora

Se identifican tres limitaciones que explican por qué los LLM de código abierto quedan por detrás de los modelos cerrados
- La ineficiencia de la estructura de atención básica provoca una gran carga de cómputo al procesar secuencias largas
- La insuficiencia de recursos de cómputo en la etapa de post-entrenamiento degrada el rendimiento en tareas difíciles
- La falta de generalización y capacidad de ejecución de instrucciones en agentes limita su uso en aplicaciones reales
Para resolverlo, DeepSeek-V3.2 incorpora estructura de atención eficiente, aprendizaje RL escalable y una canalización integrada de razonamiento con uso de herramientas

DeepSeek Sparse Attention (DSA)

DSA se compone de un lightning indexer y un mecanismo de selección de tokens fino
- El lightning indexer funciona con precisión FP8 y determina los principales k pares de clave-valor que cada token de consulta debe seleccionar
- Esto reduce la complejidad de O(L²) a O(Lk), permitiendo procesamiento eficiente incluso en contextos largos
Implementado sobre MLA, mantiene compatibilidad con DeepSeek-V3.1-Terminus
Realiza un proceso de entrenamiento continuo en dos etapas
- Inicializa el indexer en la fase Dense Warm-up
- En la fase Sparse Training, adapta todo el modelo al patrón DSA y entrena con 943.7B tokens

Evaluación de rendimiento y eficiencia

DeepSeek-V3.2-Exp mantiene resultados equivalentes a DeepSeek-V3.1-Terminus mientras mejora significativamente la eficiencia en procesamiento de contexto largo sin pérdida de rendimiento
Registra mejores puntajes de inferencia en benchmarks independientes como AA-LCR3 y Fiction.liveBench en comparación con la versión anterior
En un clúster de GPU H800, el costo por token se reduce de forma considerable, logrando una mayor velocidad de extremo a extremo

Post-entrenamiento y estructura de aprendizaje por refuerzo

Combina destilación de especialistas (Specialist Distillation) y RL mixto (Mixed RL)
- Entrena por RL a 6 modelos expertos en dominios especializados: matemáticas, programación, razonamiento lógico, agente general, agente de código y agente de búsqueda
- Distila los datos de cada modelo experto para generar el checkpoint final
Usa el algoritmo Group Relative Policy Optimization (GRPO) para integrar entrenamiento de inferencia, agentes y alineación
- Combina modelo de recompensas, penalización por longitud y recompensa de coherencia lingüística
DeepSeek-V3.2-Speciale aplica además datos y una metodología de recompensa de DeepSeekMath-V2 para reforzar la capacidad de demostración matemática

Técnicas de estabilización de aprendizaje por refuerzo (Scaling GRPO)

Logra convergencia estable con la estimación KL sin sesgo (Unbiased KL Estimate)
- Corrige el problema de gradiente inestable del estimador K3 anterior
Con Off-Policy Sequence Masking enmascara muestras negativas con alta desalineación de política, mejorando la estabilidad del entrenamiento
Keep Routing mantiene la consistencia de enrutado en el modelo Mixture-of-Experts
Keep Sampling Mask evita la desalineación del espacio de acciones entre políticas durante el muestreo top-p y top-k

Razonamiento con uso de herramientas (Thinking in Tool-Use)

Introduce Thinking Context Management para evitar re-racionalizaciones innecesarias en llamadas a herramientas
- Borra el razonamiento previo solo cuando llega un nuevo mensaje del usuario
- Conserva el historial de llamadas a herramientas para gestionar el contexto de forma eficiente
En la fase Cold-Start combina datos de razonamiento y de agentes
- Los datos de razonamiento usan la etiqueta <think></think> para marcar la ruta de inferencia
- Se establece una base de entrenamiento integrada con prompts del sistema que incluyen llamadas a herramientas
Genera a escala 1,800 entornos y 85,000 prompts mediante síntesis de tareas de agentes a gran escala
- Realiza entrenamiento RL en entorno real con API de búsqueda web, herramientas de ejecución de código y Jupyter Notebook
- Search Agent automatiza la generación de preguntas, validación y evaluación de recompensas mediante una canalización de múltiples agentes
- Aplica un modelo de recompensa híbrido que optimiza tanto la fiabilidad factual como la utilidad práctica

Conclusión

DeepSeek-V3.2 rompe las barreras de los modelos abiertos al combinar una estructura de atención eficiente con aprendizaje por refuerzo escalable
Reduce notablemente la brecha con modelos cerrados en rendimiento integrado de inferencia y agentes, consolidándose como una alternativa costo-eficiente
Se lo considera un ejemplo de la ruta para lograr un desarrollo sostenible de alto rendimiento en LLM de código abierto

1 comentarios

GN⁺ 2025-12-02

Opiniones en Hacker News

Impresiona que sigan mejorando la eficiencia de costos y que compartan públicamente su proceso de avance
Ojalá este tipo de esfuerzo ayude a frenar los monopolios de IA
- Pero en realidad no se sabe quién está “ganando” en eficiencia de costos, porque no conocemos la estructura de pérdidas y ganancias de cada empresa
- Estoy de acuerdo, pero no creo que sus intenciones sean tan simples
- Hasta que funcione completamente en una sola GPU, nadie será el verdadero ganador en eficiencia de costos
- Parece que van a seguir publicando estas cosas hasta que construyan un modelo muy superior al de la competencia. Pero si siguen abriendo todo incluso después de tomar la delantera, ahí sí me impresionaría de verdad
- Aun así, me parece ingenuo ver a una empresa respaldada por el Partido Comunista Chino como si actuara con intenciones puras. Claramente debe haber otros objetivos detrás
Si los modelos abiertos pueden competir con los comerciales, surge la duda de cómo empresas como Google, Anthropic y OpenAI van a ganar dinero con la IA
En el pasado, el open source fracasó porque quedaba por detrás de lo cerrado en calidad y profundidad funcional, pero ahora parece que el rendimiento entró en una meseta
Al final, da la impresión de que a largo plazo ganará quien tenga la infraestructura energética más barata
- Según un documento interno de Google, en la IA/LLM no hay moat. Pero incluso sin ser dueño directo del modelo, todavía se puede ganar mucho dinero si se ofrece como SaaS o MaaS
  Por ejemplo, igual que Amazon ofrece el API de MongoDB como servicio, al final el negocio está en cobrar por el uso de infraestructura
  La mayoría de las empresas no tiene capacidad para hospedar por su cuenta modelos SOTA. Se entiende fácil viendo que ni siquiera operan sus propios servidores de correo
  Google creó el Transformer, y OpenAI logró el éxito de ChatGPT con RLHF, pero ahora otra vez el resumen con IA de Google está ocupando la parte superior de la búsqueda
  Documento relacionado: Google “We have no moat, and neither does OpenAI”
- Las empresas confían en OpenAI o Anthropic. También importa tener a quién echarle la culpa cuando algo sale mal
- Si se pudiera asegurar energía barata en el espacio, Musk podría sacar una gran ventaja en la carrera de la IA. Está obsesionado con construir una fábrica de satélites de IA en la Luna
- Al final, la competencia se decide por una combinación de UX, lock-in y confianza. Cuanto más accede una IA a datos personales, más tiende la gente a preferir marcas conocidas
- El modelo puro por sí solo no genera ganancias. El valor clave está en integrar el modelo en una plataforma ya monetizada
Dicen que este modelo no solo mejoró en benchmarks, sino también mucho en eficiencia de inferencia
Enlace relacionado: Comparación de rendimiento de Thomas Ip
- Me da curiosidad saber por qué es tan eficiente
El chat template de DeepSeek-V3.2 cambió bastante.
Al principio pensé que habían creado un formato nuevo, pero viendo la sintaxis en realidad parece prácticamente igual al formato Harmony
Si era así, habría sido más fácil de entender si desde el inicio hubieran dicho claramente que era compatible con Harmony
Me pregunto por qué casi no hay modelos en el rango de 32~512 GB y por qué el Mac Studio M4 tiene un máximo de 128 GB de RAM
- En broma, me recuerda eso de que “128 GB son suficientes”. Espero más RAM en el M5 Max
Está genial que modelos así se publiquen como open source. Pero queda la duda de si incluso con un rig de $20,000 con cuatro RTX 5090 se puede correr lo bastante rápido
- Dicen que en un Mac Studio M3 Ultra de 512 GB sale a unas 20 tokens por segundo. Video demo
- Para modelos grandes, lo realista es correrlos en la nube con cobro por hora o por token. También se puede comprar un rack con H100 y operarlo directamente, pero usar la nube es mucho más eficiente
- Los rigs personales ya no salen tan rentables. Si cuentas GPU, electricidad y enfriamiento, creo que conviene más comprar una RTX Pro 6000
- En OpenRouter, los dos proveedores que ofrecen DeepSeek-V3.2 (incluyendo DeepSeek) lo están corriendo a unas 28 tps. Enlace de OpenRouter
  Eso más bien refuerza la afirmación del comentario original de que para consumo es lento
- Yo también uso un rig con 6 RTX 3090, y los modelos de 685B parámetros son demasiado lentos. Para usarlo cómodamente, hay que quedarse en modelos de 144B o menos. GLM 4.5 Air me gustó especialmente
En la tabla 3 del paper, DS-Speciale queda en 1.º o 2.º lugar en casi todas las pruebas, pero genera más de 50% más tokens
- Algunos problemas de razonamiento lógico requieren cadenas de pensamiento más largas. DeepSeek, al tener costos bajos, pudo maximizar justo esa parte
  También se puede escalar el rendimiento de razonamiento con recursos de cómputo generando varias respuestas en paralelo y eligiendo la final
Después de usarlo unas horas, me parece un modelo muy sólido y competitivo. Se siente mejor que GLM4.6 y también mejor que Kimi K2. Tengo ganas de ver v4
Me parece interesante que sea un gran modelo frontier publicado con licencia MIT
No termino de entender cómo evalúa la industria de IA en EE. UU. porque los modelos chinos son mucho más baratos y rinden casi igual
- Los modelos chinos son sobre todo centrados en texto, mientras que los de EE. UU. y Europa cargan con el costo de manejar imágenes, voz y video también
  Además, como los benchmarks están saturados, la brecha se ve pequeña, pero en la parte alta una diferencia de 1% sí puede significar bastante en la práctica
  Incluso en el leaderboard de Metabench que hice, los modelos chinos son buenos, pero todavía existe una brecha frente a los primeros lugares
  Aun así, como el costo de inferencia es bajo, los modelos chinos son fuertes en relación costo-rendimiento
- En despliegue real, la clave es la velocidad de la infraestructura. En OpenRouter, los modelos chinos no son tan rápidos como Claude, GPT o Gemini
  Las empresas de EE. UU. en realidad venden no solo el modelo, sino también infraestructura global de baja latencia. Eso ayuda a explicar sus valoraciones elevadas
  Como referencia, Cerebras ofrece un GLM 4.6 muy rápido
- Los proveedores third-party no admiten caché. Si se habilitara caché, el costo de los modelos de EE. UU. bajaría hasta quedar alrededor de la mitad y serían mucho más competitivos
- La valuación de las empresas estadounidenses se basa más en el potencial futuro que en los resultados actuales. Es una inversión hecha con poco entendimiento de la investigación china
  Tal vez por debajo está la suposición de que DeepSeek será prohibido y que el open source quedará bloqueado dentro de EE. UU.
- Aun así, si EE. UU. no hubiera disparado primero la competencia por FOMO (miedo a quedarse fuera), la estrategia de China probablemente no estaría funcionando así ahora
  En adelante, es posible que los modelos frontier se diferencien en edge cases más específicos

Lanzamiento de DeepSeek-V3.2: ampliando los límites de los LLM de gran escala de código abierto

Visión general de DeepSeek-V3.2

Límites de los modelos abiertos y dirección de mejora

DeepSeek Sparse Attention (DSA)

Evaluación de rendimiento y eficiencia

Post-entrenamiento y estructura de aprendizaje por refuerzo

Técnicas de estabilización de aprendizaje por refuerzo (Scaling GRPO)

Razonamiento con uso de herramientas (Thinking in Tool-Use)

Conclusión

Lecturas relacionadas

1 comentarios

Opiniones en Hacker News