- Pangu Pro MoE introduce una arquitectura Mixture of Grouped Experts (MoGE) optimizada para entornos Huawei Ascend NPU, resolviendo de forma efectiva el problema del desbalance de carga entre expertos en entornos distribuidos
- Este modelo está diseñado con 72 mil millones de parámetros en total, y activa solo 16 mil millones de parámetros por token, lo que incrementa notablemente la eficiencia computacional y la escalabilidad
- La arquitectura MoGE aplica reglas de distribución y selección uniformes para cada grupo de expertos distinto, logrando un balance de carga perfecto en todos los dispositivos y mejorando la velocidad de inferencia y entrenamiento
- Según los resultados de evaluación de rendimiento, Pangu Pro MoE supera a modelos open source importantes como GLM-Z1-32B y Qwen3-32B, y muestra eficiencia de inferencia de primer nivel y gran rendimiento por costo en las plataformas Ascend 300I Duo/800I A2
- A través de preentrenamiento, ajuste fino y aprendizaje por refuerzo, aseguró fuerte capacidad de razonamiento y generalización en diversos dominios basada en datasets de alta calidad
Resumen general
- Recientemente, en los modelos de lenguaje grandes (LLM), se ha vuelto tendencia adoptar el enfoque Mixture of Experts (MoE) para aumentar los parámetros del modelo y la capacidad de entrenamiento sin elevar el costo computacional
- La estructura MoE reduce el cómputo activando solo algunos expertos para cada token de entrada, pero en la práctica existe un fenómeno de desbalance de carga entre expertos, donde solo algunos expertos son seleccionados repetidamente
- Este problema reduce la eficiencia general del sistema cuando el modelo se distribuye en múltiples dispositivos
- Las técnicas heurísticas existentes para balance de carga solo ofrecen mejoras parciales y no representan una solución fundamental completa
Introducción a la arquitectura Mixture of Grouped Experts (MoGE)
- MoGE implementa una estrategia de ruteo balanceado por grupos que divide a los expertos en grupos del mismo tamaño y obliga a activar únicamente una cantidad definida de expertos de cada grupo para cada token
- Con ello, el trabajo se distribuye uniformemente entre todos los dispositivos, y se logra balance de carga perfecto por diseño, con Imbalance Score (IS) igual a 0
- Para cada token, primero se calculan los puntajes iniciales de todos los expertos con un ruteador global Softmax; luego, se seleccionan solo los expertos Top-K′ de cada grupo, mientras que los puntajes de los no seleccionados pasan a 0
- Esta estructura maximiza especialmente la velocidad de inferencia y entrenamiento, así como la utilización de recursos, en modelos grandes distribuidos (decenas a cientos de miles de millones de parámetros)
Modelo Pangu Pro MoE y optimización para la plataforma Ascend
- Huawei desarrolló Pangu Pro MoE optimizado para las plataformas NPU Ascend 300I Duo y 800I A2 (71.9 mil millones de parámetros totales, 16.5 mil millones activados por token)
- Con base en extensas simulaciones del sistema, ajustó distintos parámetros de hardware, incluyendo la estructura del modelo y la configuración de paralelismo de hardware (paralelismo de tensor/experto/pipeline/pipeline virtual), para maximizar el rendimiento
- Los kernels de operación personalizados (
MulAttention, SwiftGMM, etc.) fueron optimizados para las características de Ascend, reduciendo el acceso a memoria, la comunicación y el overhead de cómputo, eliminando cuellos de botella por operador y mejorando el aprovechamiento del ancho de banda
- Según los resultados de simulación para optimización de tamaño de batch y rendimiento, mostró el mejor throughput, la menor latencia y la eficiencia de comunicación óptima dentro de las restricciones dadas
Preentrenamiento y diseño de datos de entrenamiento
Composición de datos
- Se construyó un dataset masivo de alta calidad de 1.3 cuatrillones (13 billones) de tokens basado en un tokenizador propio, recolectado de múltiples fuentes como web, libros, código, STEM, industria, razonamiento y datos sintéticos
- El tokenizador usa una estrategia que prioriza el balance entre dominios, garantizando representatividad incluso para dominios especializados
Etapas y estrategia de entrenamiento
- El preentrenamiento (Pre-training) se llevó a cabo en tres etapas (general, razonamiento y annealing), ajustando en cada una los objetivos de entrenamiento y el currículo de datos
- Etapa general: adquisición de conocimiento general y capacidades lingüísticas en diversos campos
- Etapa de razonamiento: maximización de la proporción de datos de razonamiento complejo como STEM, coding y problemas lógicos complejos
- Etapa de annealing: ajuste adicional con datos de alta dificultad y datos con estilo instruction
- En cada etapa se ajustaron de forma progresiva la longitud de secuencia, la dificultad de los datos, el tamaño de batch y la tasa de aprendizaje, para asegurar capacidad de generalización y especialización del modelo
Evaluación de datos
- Se operó un sistema de evaluación multidominio basado en modelos usando la propia serie de modelos Pangu, asignando a cada dato puntajes clave como limpieza, fluidez, valor educativo y riqueza, e incorporándolos en la estrategia de muestreo y selección de datos
- Se aplicó un etiquetado detallado en 188 categorías para gestionar la distribución y las características de los datos
Entorno de preentrenamiento y optimización
- Pangu Pro MoE fue entrenado y evaluado en Huawei Ascend 800T A2; este chip logra alto rendimiento de IA y eficiencia de costos con FP16 256TFlops, INT8 512TOPS y un ultrabajo consumo de 310W
- Se apoyó en entrenamiento de una sola época, optimizador AdamW, scheduler de learning rate coseno de 3 etapas y configuración de batch grande, lo que permite una generalización robusta y especialización según la tarea objetivo
Post-training (ajuste fino posterior y aprendizaje por refuerzo)
Supervised Fine-tuning (SFT)
- Los datos de SFT se dividieron en dos conjuntos: razonamiento y no razonamiento, elevando la proporción de razonamiento a 3:1 para enfocarse en tareas complejas como matemáticas, código y razonamiento lógico
- Mediante una estrategia de optimización progresiva en 2 etapas (de instrucciones simples en diversos rangos a razonamiento complejo), el modelo desarrolló de forma balanceada tanto su capacidad de razonamiento paso a paso como su capacidad general de procesamiento del lenguaje
- Durante el proceso de SFT, se añadió una estrategia de fusión de checkpoints, integrando de forma efectiva modelos de distintos puntos intermedios para reforzar robustez y generalización
Aprendizaje por refuerzo (RL)
- La etapa de RL basada en recompensas aplicó en conjunto el algoritmo Group Relative Policy Optimization (GRPO) y la técnica Zero-Advantage-Mask, que ignora muestras sin señal de recompensa, para apoyar la exploración de políticas y el aprendizaje efectivo
- Se introdujo un sistema de recompensas multicapa con exactitud, preferencia y recompensas auxiliares; las tareas de matemáticas y coding se evaluaron con un sistema automatizado, mientras que las tareas de dominio abierto se evaluaron con un juez separado basado en LLM (Preference Model)
- Con mezcla curricular de datos, se ajustó dinámicamente la distribución de complejidad de los datos, proporcionando estímulos continuos al crecimiento del modelo
Optimización de sistema e infraestructura
Sistema de entrenamiento con Ascend NPU
- Se aplicaron activamente tecnologías avanzadas como la estrategia de paralelismo jerárquico e híbrido (Hierarchical & Hybrid Parallelism), comunicación EP All-to-All, Adaptive Pipeline Overlap y fusión de operadores
- Se logró una mejora de 35% en la eficiencia de cómputo del modelo (MFU) y, con paralelismo de pipeline y pipeline virtual, se distribuyeron perfectamente las cargas de cómputo y comunicación en cada etapa, reforzando tanto la escalabilidad como el throughput
- Con kernels personalizados, máximo aprovechamiento del ancho de banda HBM y eliminación de comunicación y overhead de memoria innecesarios, se llevó el rendimiento al máximo en todas las etapas de entrenamiento e inferencia del modelo
- El sistema de inferencia también mostró los mejores resultados de throughput y latencia para cada estructura de hardware, gracias a configuraciones flexibles de paralelismo por módulo (estrategia H2P) y optimización de operadores a medida para módulos como Attention y Expert
Rendimiento y benchmarks
- Pangu Pro MoE muestra un rendimiento de inferencia de 1148~1528 token/s(por tarjeta)* en entornos Ascend, demostrando resultados abrumadores frente a parámetros equivalentes (Open dense 32B, 72B)
- También logró eficiencia sobresaliente en costo-rendimiento sobre la base de Ascend 300I Duo
- En diversos benchmarks externos (toma de decisiones, lógica, coding, comprensión documental, etc.), supera a grandes modelos públicos como GLM-Z1-32B, Qwen3-32B y Gemma3-27B
- Demuestra experimentalmente ser un LLM de nivel líder en la categoría de menos de 100B parámetros
Conclusión e implicaciones
- Pangu Pro MoE resuelve de raíz el problema del desbalance de carga mediante un diseño de balanceo por grupos de expertos en entrenamiento e inferencia distribuidos de modelos a gran escala
- Gracias a la optimización dedicada para la plataforma Ascend y a esfuerzos integrales como la maximización de la calidad de los datos, es un modelo de lenguaje grande de próxima generación que logra un equilibrio avanzado entre costo, velocidad y rendimiento de generalización
- Se espera que esta estructura y metodología sirvan como una referencia importante para el futuro ecosistema de LLM distribuidos a gran escala y para diversas aplicaciones industriales
1 comentarios
Comentarios en Hacker News
Lo que hace realmente emocionante este anuncio de arquitectura es la posibilidad de que desarrolladores pequeños puedan competir con los grandes usando solo GPUs baratas. Al final, esto sugiere que el desarrollo abierto de IA mediante crowdsourcing sí es técnicamente viable. De hecho, China ya está investigando esta área y apunta a un nivel que pueda competir con modelos monolíticos. Al principio era escéptico sobre las sanciones de EE. UU., pero si esto llega a hacerse realidad de forma lógica y completa, sería un logro impresionante
La licencia prohíbe el uso y la instalación dentro de la UE, y me pregunto si es posible redactar una licencia con una cláusula del estilo de: "esta restricción existe solo como protección, pero no se hará cumplir en la práctica". Tal vez a esto se le podría llamar una "cláusula aislante" (
isolating clause), aunque no está claro si un juez la aceptaría como una vía legal válida. Parece similar a cuando Meta publicó los pesos de llama. Creo que la esencia de la ley europea de IA es regular usos concretos de la IA, y probablemente no abarque simplemente distribuir pesos y arquitectura. Prohibir la distribución en la práctica les daría a los europeos más opciones y más competencia, así que me pregunto si de verdad estaría legalmente prohibido. Por otro lado, también creo que hay que tener cuidado en seguridad: instalar open weights puede introducir backdoors, es decir, vulnerabilidades que permiten manipular el sistema con prompts específicos. Recuerdo haber visto en un paper un caso donde una combinación de símbolos como '0?,#2!' podía dejar a un LLM en un estado donde alguien podía leer información oculta mediante prompt injection. También me pregunto si este tipo de ataque se puede bloquear o debilitar con fine-tuning o LoRA, o si existen bibliotecas de Python útiles para defenderse. La pregunta es si descargarlo, instalarlo y modificarlo con fine-tuning o LoRA daría algún tipo de protecciónLos pesos se pueden descargar desde gitcode
Si los LLM actuales están chocando con un límite de escalado (
scaling wall) y la eficiencia será lo decisivo a partir de ahora, me pregunto si surgirá un mercado de modelos pequeños enfocados en casos de uso específicos. En la práctica, uso Gemini para extraer datos estructurados de imágenes y el modelo flash funciona muy bien. Me pregunto cuánto esfuerzo haría falta para crear modelos ligeros que cubran solo un uso concreto en dispositivos pequeños como un NUC o un AMD APU. O también sería interesante imaginar dispositivos como mini sticks de GPU externos para casos de uso específicos. Quizá comercialmente no sería un mercado enorme, pero sería bastante genialCreo que las sanciones no son más que una solución temporal. En el mejor de los casos sirven para ganar tiempo y fortalecer capacidades internas, pero en cambio EE. UU. está agotando sus propias capacidades al recortar fondos de investigación y frenar la llegada de estudiantes e investigadores extranjeros, mientras China entra en una trayectoria de crecimiento
Esta noticia ya tiene varios días. Sobre la noticia de que Tencent open sourceó su modelo híbrido de IA, se puede ver TechInAsia y también se comparte el enlace de GitHub
Sic transit gloria nvidii (así pasa la gloria de Nvidia)
ies una terminación de declinación enoTengo un amigo chino. Hace seis años se unió como ingeniero fundador a una startup china de hardware. Luego llegaron las sanciones. Cuando nos vimos hace poco, me dijo que las sanciones fueron lo mejor que le pasó en la vida. Las empresas locales chinas dejaron de comprar productos de origen occidental y su empresa creció muchísimo. Ahora las sanciones ya se ven como algo "normal", así que el resultado es un enfoque total en autosuficiencia y crecimiento
Me pregunto qué significa esto después de las sanciones. ¿Huawei, que recibió un golpe fuerte en smartphones, ahora consigue una oportunidad de responder con su propia GPU? ¿Cómo se compara el rendimiento de esta GPU con las GPUs occidentales más recientes? ¿Significa esto que Huawei ya tiene capacidad para comercializar esta GPU?
Para que exista competencia frente a TSMC y Nvidia, el mundo necesita que Huawei y China se conviertan en rivales también en términos de node size