Resumen de lectura del paper de DeepSeek-V4 - Noh Jeong-seok

(youtube.com)

9 puntos por ragingwind 1 일 전 | 4 comentarios | Compartir por WhatsApp

La innovación arquitectónica que mostró DeepSeek-V4 y las nuevas coordenadas de los laboratorios frontier. En la cuarta semana de abril de 2026, en medio de una seguidilla de anuncios importantes como GPT-5.5 y Google Cloud Next, el acontecimiento más llamativo fue la publicación de DeepSeek-V4. Este modelo, que apareció aproximadamente 1 año y 4 meses después de R1, creció desde los 600B de V3 hasta una escala de 1.6T, y también aumentó ligeramente sus parámetros activados. Sobre todo, se aplicaron al mismo tiempo tres cambios algorítmicos: Sparse Attention, mHC (Manifold-Constrained Hyper-Connections) y el optimizador Muon, y el resultado quedó densamente documentado en un paper de unas 40 páginas. Noh Seong-hoon y Noh Jeong-seok evaluaron este informe no como una simple exhibición de rendimiento, sino como el registro de un año de prueba y error doloroso.

Cambios clave en la arquitectura

Adopción plena de Sparse Attention: en lugar del enfoque anterior que consultaba todos los tokens previos, se cambió a uno que selecciona y consulta solo algunos tokens significativos. Es una estructura que combina tres elementos: sliding window attention, full attention sobre tokens comprimidos a 1/100, y Compressed Sparse Attention, que comprime a 1/4 y luego selecciona top-k con Lightning Indexer.
Aplicación de mHC: una estructura que estabiliza sobre un manifold las Hyper-Connections, las cuales amplían y relajan las restricciones del camino de las conexiones residuales, núcleo del deep learning.
Adopción del optimizador Muon: un optimizador que, después de Adam, los modelos chinos usan de facto como estándar, y que mejora tanto la velocidad de entrenamiento como la eficiencia de datos.
Eliminación de MLA: se abandonó MLA, que era casi un símbolo de DeepSeek, y se cambió a un Multi-Query Attention más simple.

Ventajas y puntos distintivos

Fuerte reducción del costo de long context: aunque es un modelo 2.5 a 3 veces más grande que V3, el cómputo de operaciones por token se redujo a cerca del 27% y la memoria de KV cache a cerca del 10%.
Entrenamiento de long context desde la fase de preentrenamiento: el primer 1T de tokens se entrenó con 4K~16K, y luego más de 30T de tokens se entrenaron con 64K o más. Va en una dirección distinta a la práctica habitual de ampliar el contexto en el posprocesamiento.
Profundidad en la optimización de infraestructura: incluye una mejora de Comet de ByteDance para superponer comunicación y cómputo en MoE, megakernels llevados hasta el punto de activar power throttling, contribuciones a TileLang, optimizaciones importantes del kernel de batch invariance y compresión MXFP4 (4 bits) para pesos de expertos.
Liderazgo algorítmico: ante una situación en la que las big tech de EE. UU. no publican sus arquitecturas, surgió la evaluación de que, al menos en preentrenamiento, está a un nivel equivalente o incluso algo por delante en algunos aspectos.

Desventajas y limitaciones

Inestabilidad de entrenamiento: a diferencia de la tendencia reciente donde desarrolladores de LLM dicen que el entrenamiento es muy estable, DeepSeek-V4 muestra con franqueza que sufrió problemas de inestabilidad en varios puntos. Recurrió incluso a mecanismos complejos como ajustes del gating de MoE, clamping y Anticipatory Routing, que enruta usando pesos de un punto pasado en el tiempo.
Dificultad de reproducibilidad: la conclusión común de otros equipos en China fue que entrenar Sparse Attention prácticamente desde cero es muy difícil. Que DeepSeek lo haya logrado no significa que otros equipos puedan seguirlo con facilidad.
Limitaciones en el post-training: frente al salto en preentrenamiento, se considera que el post-training todavía tiene margen de mejora. Es un área con mucho espacio para reforzarse en las etapas 4.1 y 4.2.
Silencio sobre los datos: solo se menciona que se prepararon 32T tokens, pero casi no se dice nada sobre la composición concreta de los datos, incluido si se usaron datos sintéticos.

Diferenciadores

Divulgación transparente: a diferencia de otros laboratorios frontier que ocultan su arquitectura, aquí se exponen con relativa honestidad tanto la estructura como el proceso de prueba y error.
Diseño integrado desde la fase de preentrenamiento: destaca que long context, Sparse Attention y cuantización FP4 fueron incorporados en el preentrenamiento, no añadidos después.
Diversificación de hardware: se indica que usan en paralelo chips de NVIDIA y de Huawei, lo que sugiere que dentro de China se están consolidando alternativas en semiconductores.

Significado desde la perspectiva de la industria

Cambio en el mapa de los laboratorios frontier chinos: se habla de casi cinco equipos apareciendo al frente al mismo tiempo, entre ellos DeepSeek, Kimi, Z.ai(GLM), Tencent Hunyuan 3 y Xiaomi MiMo, y de áreas donde China ya estaría a la par o incluso algo por delante de EE. UU. en preentrenamiento.
El post-training como próximo campo de batalla: parece cercano el momento en que se invierta en post-training un cómputo comparable al del preentrenamiento, y la brecha en ese terreno podría definir la competencia de la siguiente generación.
Normalización de las actualizaciones de modelos: con GPT-5.5, Claude Mythos, Spud y DeepSeek-V4 renovando sus modelos base en fechas similares, se percibe una tendencia donde las actualizaciones de modelos se vuelven tan rutinarias y poco sorprendentes como las del navegador Chrome.

Más que por los indicadores de rendimiento de un solo modelo, este DeepSeek-V4 se parece a un documento que deja ver cómo un equipo enfrentó de frente, durante un año, problemas extremadamente difíciles. El intento de llevar Sparse Attention desde la fase de preentrenamiento, el trabajo de infraestructura para reducir el costo de long context a proporciones de un solo dígito en una escala de 1.6T, y los mecanismos no convencionales introducidos mientras lidiaban con la inestabilidad del entrenamiento podrían convertirse en una nueva base para los modelos frontier procedentes de China. Al mismo tiempo, las tareas pendientes en post-training y datos siguen siendo claras, así que hasta qué punto 4.1 y 4.2 podrán cerrar esa brecha parece perfilarse como uno de los puntos clave a observar en el próximo trimestre.

4 comentarios

winkagn 1 시간 전

La gente dice cosas como que no se puede confiar en ello porque es hecho en China, pero yo de verdad agradezco que DeepSeek investigue y publique de forma abierta, y sobre todo que incluso haga públicos sus procesos de prueba y error.

junghwanlee 23 시간 전

El señor Noh Seong-hun → es el señor Kim Seong-hyeon.

xguru 22 시간 전

Ya lo corregí.

ragingwind 22 시간 전

Gracias. Habría que corregirlo.

Resumen de lectura del paper de DeepSeek-V4 - Noh Jeong-seok

Lecturas relacionadas

4 comentarios