DeepSeek-V4 mostró una innovación arquitectónica y un nuevo punto de referencia para los frontier labs. En la cuarta semana de abril de 2026, en medio de una seguidilla de anuncios importantes como GPT-5.5 y Google Cloud Next, el hecho más destacable fue la publicación de DeepSeek-V4. Este modelo, que aparece unos 16 meses después de R1, creció desde los 600B de V3 hasta una escala de 1.6T, con un ligero aumento también en los parámetros activados. Sobre todo, se aplicaron al mismo tiempo tres cambios algorítmicos —Sparse Attention, mHC (Manifold-Constrained Hyper-Connections) y el optimizador Muon—, y el resultado quedó documentado densamente en un paper de unas 40 páginas. Kim Seong-hyeon y Noh Jeong-seok valoraron este informe no como una simple exhibición de rendimiento, sino como el registro de un año de prueba y error doloroso.
Cambios clave en la arquitectura
- Adopción plena de Sparse Attention: En lugar del método anterior, que consultaba todos los tokens previos, ahora selecciona y consulta solo algunos tokens relevantes. La estructura combina tres elementos: sliding window attention, full attention sobre tokens comprimidos a 1/100, y Compressed Sparse Attention, que comprime a 1/4 y luego usa Lightning Indexer para seleccionar el top-k.
- Aplicación de mHC: Es una estructura que estabiliza sobre un manifold las Hyper-Connections, las cuales amplían y relajan el canal de las conexiones residuales, uno de los núcleos del deep learning.
- Adopción del optimizador Muon: Un optimizador que, después de Adam, los modelos chinos usan de facto casi como estándar, y que mejora tanto la velocidad de entrenamiento como la eficiencia de los datos.
- Eliminación de MLA: Se abandonó MLA, casi un símbolo de DeepSeek, y se cambió por un Multi-Query Attention más simple.
Ventajas y puntos destacados
- Caída drástica del costo del long context: A pesar de ser un modelo entre 2.5 y 3 veces más grande que V3, el cómputo de operaciones por token se redujo a alrededor del 27%, y la memoria de KV cache a cerca del 10%.
- Entrenamiento de long context desde la fase de pretraining: El primer 1T de tokens se entrenó en 4K~16K, y después más de 30T tokens se entrenaron en 64K o más. Esto va en una dirección distinta a la práctica habitual de ampliar el contexto en el posprocesamiento.
- Profundidad en la optimización de infraestructura: Incluye una integración muy cuidada de mejoras como el overlap entre comunicación y cómputo de MoE sobre Comet de ByteDance, megakernels llevados hasta el punto de activar power throttling, contribuciones a TileLang, una optimización importante del kernel de batch invariance y compresión MXFP4 (4 bits) para pesos de expertos.
- Liderazgo algorítmico: Dado que las big tech de EE. UU. no están revelando sus arquitecturas, surgió la valoración de que, al menos en pretraining, este nivel puede considerarse equivalente o incluso algo por delante en algunos aspectos.
Desventajas y limitaciones
- Inestabilidad en el entrenamiento: A diferencia de la tendencia reciente de desarrolladores de LLM que afirman que el entrenamiento es muy estable, DeepSeek-V4 muestra con franqueza que sufrió problemas de inestabilidad en varios puntos. Recurrió incluso a mecanismos complejos como ajustes en el gating de MoE, clamping y Anticipatory Routing, que enruta usando pesos de pasos anteriores.
- Dificultad de reproducción: La conclusión compartida por otros equipos en China fue que entrenar Sparse Attention prácticamente desde cero es muy difícil. Aunque DeepSeek lo haya logrado, es probable que otros equipos no puedan seguirle el paso con facilidad.
- Limitaciones en el post-training: Frente al salto logrado en pretraining, se considera que el post-training todavía parece tener margen de mejora. Es un área con mucho espacio para reforzarse en las fases 4.1 y 4.2.
- Silencio sobre los datos: Solo menciona que se prepararon 32T tokens, pero casi no dice nada sobre la composición concreta de los datos, como por ejemplo si se usaron datos sintéticos.
Diferenciadores
- Publicación transparente: A diferencia de otros frontier labs que ocultan su arquitectura, aquí se expone con relativa honestidad tanto la estructura como el proceso de prueba y error.
- Diseño integrado desde la fase de pretraining: Destaca haber incorporado long context, Sparse Attention y cuantización FP4 en el pretraining, en lugar de tratarlos como ajustes posteriores.
- Diversificación de hardware: Señala que usa en paralelo chips de NVIDIA y de Huawei, lo que sugiere que las alternativas chinas en semiconductores están tomando forma.
Significado visto desde la industria
- Cambio en el mapa de los frontier labs chinos: Han aparecido al frente al mismo tiempo cerca de cinco equipos —DeepSeek, Kimi, Z.ai (GLM), Tencent Hunyuan 3 y Xiaomi MiMo—, y hay opiniones de que, en pretraining, ya existen áreas donde están a la par de EE. UU. o incluso algo por delante.
- El post-training como próximo campo de batalla: Parece inminente el momento en que una cantidad de cómputo comparable a la del pretraining se invierta en post-training, y la brecha en ese frente podría convertirse en el punto decisivo de la siguiente generación.
- Normalización de las actualizaciones de modelos: Con GPT-5.5, Claude Mythos, Spud y DeepSeek-V4 reemplazando sus modelos base en fechas similares, se percibe una tendencia en la que las actualizaciones de modelos empiezan a volverse tan rutinarias e insensibilizantes como las del navegador Chrome.
Más que por las métricas de rendimiento de un solo modelo, este DeepSeek-V4 se acerca a un documento que muestra cómo un equipo enfrentó de frente problemas difíciles durante un año. El intento de llevar Sparse Attention desde la fase de pretraining, el trabajo de infraestructura que redujo el costo de long context a proporciones de un solo dígito en una escala de 1.6T, y los mecanismos no convencionales introducidos mientras lidiaban con la inestabilidad del entrenamiento tienen muchas posibilidades de convertirse en una nueva base para los modelos frontier surgidos en China. Al mismo tiempo, las tareas pendientes en post-training y datos siguen siendo claras, por lo que hasta qué punto 4.1 y 4.2 logren cerrar esa brecha será probablemente uno de los puntos clave a observar en el próximo trimestre.
4 comentarios
La gente dice cosas como que no se puede confiar en ello porque es hecho en China, pero yo de verdad agradezco que DeepSeek investigue y publique de forma abierta, y sobre todo que incluso haga públicos sus procesos de prueba y error.
El señor Noh Seong-hun → es el señor Kim Seong-hyeon.
Ya lo corregí.
Gracias. Habría que corregirlo.