5 puntos por nextvine 2 일 전 | 4 comentarios | Compartir por WhatsApp

Qué es Mixture of Experts (MoE): por qué DeepSeek funciona barato pese a tener 1.6 billones de parámetros

Se explica con la arquitectura MoE por qué DeepSeek V4, con 1.6 billones de parámetros, puede ofrecerse a una décima parte del precio de GPT-5.5.

MoE está compuesto por varios submodelos expertos (Expert) y un router (red de gating) que decide qué expertos usar. La clave es que, en cada token, solo se activa de forma selectiva una parte de todos los parámetros. En los modelos densos tradicionales (Dense Model), sin importar cuál sea la entrada, todos los parámetros participan en el cálculo; en cambio, en MoE el router elige solo unos pocos expertos, los más adecuados, para procesarla.

Tomando como referencia DeepSeek V4-Pro, de los 1.6 billones de parámetros totales, solo se activan 49 mil millones por token (aprox. 3%). Es decir, incorpora el conocimiento de una escala de 1.6 billones, pero el costo real de inferencia se parece al de un modelo de alrededor de 49 mil millones. En general, MoE mejora entre 3 y 5 veces la relación costo-rendimiento frente a un modelo denso del mismo tamaño.

También tiene desventajas. Aunque el cálculo se hace de forma dispersa, los parámetros de todos los expertos deben mantenerse cargados en memoria, por lo que la demanda de VRAM es alta, y durante el entrenamiento hay que gestionar por separado el problema de desequilibrio cuando la carga se concentra en ciertos expertos.

A partir de 2026, la mayoría de los principales modelos frontier, como GPT-4, Gemini 1.5, Mixtral y la serie DeepSeek, se basan en MoE. Esto refleja que, conforme la competencia entre modelos de IA pasó de centrarse solo en el tamaño a enfocarse en la relación costo-rendimiento, MoE terminó consolidándose como una arquitectura estándar de facto.

4 comentarios

 
slowandsnow 2 일 전

¿En 2026, GPT-4 y Gemini 1.5? Es claramente un artículo de AI slop.

 
nextvine 2 일 전

En el caso de los modelos más recientes, como no revelan en detalle su implementación interna, parece que en la etapa de investigación aparecieron modelos anteriores, y es muy probable que todos los modelos surgidos después de GPT-5 hayan heredado la arquitectura MoE. Esto se debe a que los modelos paralelos de código abierto usan una estructura MoE. En el caso reciente de los modelos cerrados, como no publican la arquitectura, no es una conclusión oficial confirmada.

 
aqqnucs 2 일 전

¿Eso significa que entre los principales modelos frontier que usan MoE, GPT-5.5 no usa MoE?

 
picopress 2 일 전

49B también es bastante