2 puntos por GN⁺ 2025-07-03 | 1 comentarios | Compartir por WhatsApp
  • Pangu Pro MoE introduce una arquitectura Mixture of Grouped Experts (MoGE) optimizada para entornos Huawei Ascend NPU, resolviendo de forma efectiva el problema del desbalance de carga entre expertos en entornos distribuidos
  • Este modelo está diseñado con 72 mil millones de parámetros en total, y activa solo 16 mil millones de parámetros por token, lo que incrementa notablemente la eficiencia computacional y la escalabilidad
  • La arquitectura MoGE aplica reglas de distribución y selección uniformes para cada grupo de expertos distinto, logrando un balance de carga perfecto en todos los dispositivos y mejorando la velocidad de inferencia y entrenamiento
  • Según los resultados de evaluación de rendimiento, Pangu Pro MoE supera a modelos open source importantes como GLM-Z1-32B y Qwen3-32B, y muestra eficiencia de inferencia de primer nivel y gran rendimiento por costo en las plataformas Ascend 300I Duo/800I A2
  • A través de preentrenamiento, ajuste fino y aprendizaje por refuerzo, aseguró fuerte capacidad de razonamiento y generalización en diversos dominios basada en datasets de alta calidad

Resumen general

  • Recientemente, en los modelos de lenguaje grandes (LLM), se ha vuelto tendencia adoptar el enfoque Mixture of Experts (MoE) para aumentar los parámetros del modelo y la capacidad de entrenamiento sin elevar el costo computacional
  • La estructura MoE reduce el cómputo activando solo algunos expertos para cada token de entrada, pero en la práctica existe un fenómeno de desbalance de carga entre expertos, donde solo algunos expertos son seleccionados repetidamente
  • Este problema reduce la eficiencia general del sistema cuando el modelo se distribuye en múltiples dispositivos
  • Las técnicas heurísticas existentes para balance de carga solo ofrecen mejoras parciales y no representan una solución fundamental completa

Introducción a la arquitectura Mixture of Grouped Experts (MoGE)

  • MoGE implementa una estrategia de ruteo balanceado por grupos que divide a los expertos en grupos del mismo tamaño y obliga a activar únicamente una cantidad definida de expertos de cada grupo para cada token
  • Con ello, el trabajo se distribuye uniformemente entre todos los dispositivos, y se logra balance de carga perfecto por diseño, con Imbalance Score (IS) igual a 0
  • Para cada token, primero se calculan los puntajes iniciales de todos los expertos con un ruteador global Softmax; luego, se seleccionan solo los expertos Top-K′ de cada grupo, mientras que los puntajes de los no seleccionados pasan a 0
  • Esta estructura maximiza especialmente la velocidad de inferencia y entrenamiento, así como la utilización de recursos, en modelos grandes distribuidos (decenas a cientos de miles de millones de parámetros)

Modelo Pangu Pro MoE y optimización para la plataforma Ascend

  • Huawei desarrolló Pangu Pro MoE optimizado para las plataformas NPU Ascend 300I Duo y 800I A2 (71.9 mil millones de parámetros totales, 16.5 mil millones activados por token)
  • Con base en extensas simulaciones del sistema, ajustó distintos parámetros de hardware, incluyendo la estructura del modelo y la configuración de paralelismo de hardware (paralelismo de tensor/experto/pipeline/pipeline virtual), para maximizar el rendimiento
  • Los kernels de operación personalizados (MulAttention, SwiftGMM, etc.) fueron optimizados para las características de Ascend, reduciendo el acceso a memoria, la comunicación y el overhead de cómputo, eliminando cuellos de botella por operador y mejorando el aprovechamiento del ancho de banda
  • Según los resultados de simulación para optimización de tamaño de batch y rendimiento, mostró el mejor throughput, la menor latencia y la eficiencia de comunicación óptima dentro de las restricciones dadas

Preentrenamiento y diseño de datos de entrenamiento

Composición de datos

  • Se construyó un dataset masivo de alta calidad de 1.3 cuatrillones (13 billones) de tokens basado en un tokenizador propio, recolectado de múltiples fuentes como web, libros, código, STEM, industria, razonamiento y datos sintéticos
  • El tokenizador usa una estrategia que prioriza el balance entre dominios, garantizando representatividad incluso para dominios especializados

Etapas y estrategia de entrenamiento

  • El preentrenamiento (Pre-training) se llevó a cabo en tres etapas (general, razonamiento y annealing), ajustando en cada una los objetivos de entrenamiento y el currículo de datos
    • Etapa general: adquisición de conocimiento general y capacidades lingüísticas en diversos campos
    • Etapa de razonamiento: maximización de la proporción de datos de razonamiento complejo como STEM, coding y problemas lógicos complejos
    • Etapa de annealing: ajuste adicional con datos de alta dificultad y datos con estilo instruction
  • En cada etapa se ajustaron de forma progresiva la longitud de secuencia, la dificultad de los datos, el tamaño de batch y la tasa de aprendizaje, para asegurar capacidad de generalización y especialización del modelo

Evaluación de datos

  • Se operó un sistema de evaluación multidominio basado en modelos usando la propia serie de modelos Pangu, asignando a cada dato puntajes clave como limpieza, fluidez, valor educativo y riqueza, e incorporándolos en la estrategia de muestreo y selección de datos
  • Se aplicó un etiquetado detallado en 188 categorías para gestionar la distribución y las características de los datos

Entorno de preentrenamiento y optimización

  • Pangu Pro MoE fue entrenado y evaluado en Huawei Ascend 800T A2; este chip logra alto rendimiento de IA y eficiencia de costos con FP16 256TFlops, INT8 512TOPS y un ultrabajo consumo de 310W
  • Se apoyó en entrenamiento de una sola época, optimizador AdamW, scheduler de learning rate coseno de 3 etapas y configuración de batch grande, lo que permite una generalización robusta y especialización según la tarea objetivo

Post-training (ajuste fino posterior y aprendizaje por refuerzo)

Supervised Fine-tuning (SFT)

  • Los datos de SFT se dividieron en dos conjuntos: razonamiento y no razonamiento, elevando la proporción de razonamiento a 3:1 para enfocarse en tareas complejas como matemáticas, código y razonamiento lógico
  • Mediante una estrategia de optimización progresiva en 2 etapas (de instrucciones simples en diversos rangos a razonamiento complejo), el modelo desarrolló de forma balanceada tanto su capacidad de razonamiento paso a paso como su capacidad general de procesamiento del lenguaje
  • Durante el proceso de SFT, se añadió una estrategia de fusión de checkpoints, integrando de forma efectiva modelos de distintos puntos intermedios para reforzar robustez y generalización

Aprendizaje por refuerzo (RL)

  • La etapa de RL basada en recompensas aplicó en conjunto el algoritmo Group Relative Policy Optimization (GRPO) y la técnica Zero-Advantage-Mask, que ignora muestras sin señal de recompensa, para apoyar la exploración de políticas y el aprendizaje efectivo
  • Se introdujo un sistema de recompensas multicapa con exactitud, preferencia y recompensas auxiliares; las tareas de matemáticas y coding se evaluaron con un sistema automatizado, mientras que las tareas de dominio abierto se evaluaron con un juez separado basado en LLM (Preference Model)
  • Con mezcla curricular de datos, se ajustó dinámicamente la distribución de complejidad de los datos, proporcionando estímulos continuos al crecimiento del modelo

Optimización de sistema e infraestructura

Sistema de entrenamiento con Ascend NPU

  • Se aplicaron activamente tecnologías avanzadas como la estrategia de paralelismo jerárquico e híbrido (Hierarchical & Hybrid Parallelism), comunicación EP All-to-All, Adaptive Pipeline Overlap y fusión de operadores
  • Se logró una mejora de 35% en la eficiencia de cómputo del modelo (MFU) y, con paralelismo de pipeline y pipeline virtual, se distribuyeron perfectamente las cargas de cómputo y comunicación en cada etapa, reforzando tanto la escalabilidad como el throughput
  • Con kernels personalizados, máximo aprovechamiento del ancho de banda HBM y eliminación de comunicación y overhead de memoria innecesarios, se llevó el rendimiento al máximo en todas las etapas de entrenamiento e inferencia del modelo
  • El sistema de inferencia también mostró los mejores resultados de throughput y latencia para cada estructura de hardware, gracias a configuraciones flexibles de paralelismo por módulo (estrategia H2P) y optimización de operadores a medida para módulos como Attention y Expert

Rendimiento y benchmarks

  • Pangu Pro MoE muestra un rendimiento de inferencia de 1148~1528 token/s(por tarjeta)* en entornos Ascend, demostrando resultados abrumadores frente a parámetros equivalentes (Open dense 32B, 72B)
  • También logró eficiencia sobresaliente en costo-rendimiento sobre la base de Ascend 300I Duo
  • En diversos benchmarks externos (toma de decisiones, lógica, coding, comprensión documental, etc.), supera a grandes modelos públicos como GLM-Z1-32B, Qwen3-32B y Gemma3-27B
  • Demuestra experimentalmente ser un LLM de nivel líder en la categoría de menos de 100B parámetros

Conclusión e implicaciones

  • Pangu Pro MoE resuelve de raíz el problema del desbalance de carga mediante un diseño de balanceo por grupos de expertos en entrenamiento e inferencia distribuidos de modelos a gran escala
  • Gracias a la optimización dedicada para la plataforma Ascend y a esfuerzos integrales como la maximización de la calidad de los datos, es un modelo de lenguaje grande de próxima generación que logra un equilibrio avanzado entre costo, velocidad y rendimiento de generalización
  • Se espera que esta estructura y metodología sirvan como una referencia importante para el futuro ecosistema de LLM distribuidos a gran escala y para diversas aplicaciones industriales

1 comentarios

 
GN⁺ 2025-07-03
Comentarios en Hacker News
  • Lo que hace realmente emocionante este anuncio de arquitectura es la posibilidad de que desarrolladores pequeños puedan competir con los grandes usando solo GPUs baratas. Al final, esto sugiere que el desarrollo abierto de IA mediante crowdsourcing sí es técnicamente viable. De hecho, China ya está investigando esta área y apunta a un nivel que pueda competir con modelos monolíticos. Al principio era escéptico sobre las sanciones de EE. UU., pero si esto llega a hacerse realidad de forma lógica y completa, sería un logro impresionante

    • Creo que las sanciones, sin decirlo en tono sarcástico, de verdad pueden empujar al mundo en una mejor dirección en varios aspectos. Diversificación del cómputo, descentralización de la manufactura y otros efectos positivos
    • Deepseek-R1 ya está más o menos al nivel de GPT 4.1. Se ofrece como open-weight y open source, e incluso el código de inferencia está publicado como open source
    • Yo también estoy interesado en una red abierta peer-to-peer de entrenamiento con GPU al estilo de SETI@Home
    • Sobre la pregunta de si una IA abierta basada en crowdsourcing es técnicamente posible, ya existe un ejemplo: comparto el enlace a Intellect-2 de PrimeIntellect.ai
    • Me parece un avance interesante. Pero si esto es algo bueno o no depende de si la tecnología de IA representa una amenaza existencial para la supervivencia humana. Puede sonar exagerado, pero mucha gente realmente reflexiona muy seriamente sobre esto
  • La licencia prohíbe el uso y la instalación dentro de la UE, y me pregunto si es posible redactar una licencia con una cláusula del estilo de: "esta restricción existe solo como protección, pero no se hará cumplir en la práctica". Tal vez a esto se le podría llamar una "cláusula aislante" (isolating clause), aunque no está claro si un juez la aceptaría como una vía legal válida. Parece similar a cuando Meta publicó los pesos de llama. Creo que la esencia de la ley europea de IA es regular usos concretos de la IA, y probablemente no abarque simplemente distribuir pesos y arquitectura. Prohibir la distribución en la práctica les daría a los europeos más opciones y más competencia, así que me pregunto si de verdad estaría legalmente prohibido. Por otro lado, también creo que hay que tener cuidado en seguridad: instalar open weights puede introducir backdoors, es decir, vulnerabilidades que permiten manipular el sistema con prompts específicos. Recuerdo haber visto en un paper un caso donde una combinación de símbolos como '0?,#2!' podía dejar a un LLM en un estado donde alguien podía leer información oculta mediante prompt injection. También me pregunto si este tipo de ataque se puede bloquear o debilitar con fine-tuning o LoRA, o si existen bibliotecas de Python útiles para defenderse. La pregunta es si descargarlo, instalarlo y modificarlo con fine-tuning o LoRA daría algún tipo de protección

    • Huawei no tiene derecho a controlar el comportamiento de ciudadanos de la UE y, en realidad, ni siquiera hacía falta incluir esa restricción. Como ciudadano de la UE, creo que la mejor protección es conocer la ley por cuenta propia y evitar modelos peligrosos
    • En temas de seguridad, no hay que confiar en ningún código generado por un LLM; siempre debe revisarse
    • Como ejemplo de una condición parecida a una "cláusula aislante", se menciona la licencia del códec de la Alliance for Open Media. El códec es libre de regalías, pero la licencia revoca el derecho de uso si se inicia una demanda relacionada con el uso del formato
  • Los pesos se pueden descargar desde gitcode

    • Pero, según la licencia, el acceso, descarga, instalación, ejecución, distribución, integración, modificación y cualquier otro uso dentro de la UE están explícitamente bloqueados. El enlace de la licencia está aquí
    • Está bien que se use el término más preciso "open-weight" en vez de "open source". Pero me pregunto si open-weight realmente es tan interesante. ¿Permite saber cuáles son los sesgos del modelo, o su ausencia? ¿Se puede usar para entrenar modelos competidores? Quiero entender la diferencia entre open source y open-weight, sus ventajas y desventajas, y también si en la era de los LLM tiene sentido decir que "los pesos son el código fuente"
  • Si los LLM actuales están chocando con un límite de escalado (scaling wall) y la eficiencia será lo decisivo a partir de ahora, me pregunto si surgirá un mercado de modelos pequeños enfocados en casos de uso específicos. En la práctica, uso Gemini para extraer datos estructurados de imágenes y el modelo flash funciona muy bien. Me pregunto cuánto esfuerzo haría falta para crear modelos ligeros que cubran solo un uso concreto en dispositivos pequeños como un NUC o un AMD APU. O también sería interesante imaginar dispositivos como mini sticks de GPU externos para casos de uso específicos. Quizá comercialmente no sería un mercado enorme, pero sería bastante genial

    • El tema de los "modelos pequeños enfocados en casos de uso específicos" ya es una discusión importante en HN: "Small language models are the future of agentic AI"
    • Mientras buscaba un modelo para extracción de entidades nombradas, encontré dslim/bert-base-NER. Tiene 108 millones de parámetros
    • Esta dirección ya existe bajo el nombre de "destilación de modelos": un LLM grande genera las etiquetas y un modelo pequeño especializado hace inferencia 1000 veces más barata
    • Esto recuerda a la época en que se conectaban ASICs por USB para minar bitcoin
  • Creo que las sanciones no son más que una solución temporal. En el mejor de los casos sirven para ganar tiempo y fortalecer capacidades internas, pero en cambio EE. UU. está agotando sus propias capacidades al recortar fondos de investigación y frenar la llegada de estudiantes e investigadores extranjeros, mientras China entra en una trayectoria de crecimiento

  • Esta noticia ya tiene varios días. Sobre la noticia de que Tencent open sourceó su modelo híbrido de IA, se puede ver TechInAsia y también se comparte el enlace de GitHub

  • Sic transit gloria nvidii (así pasa la gloria de Nvidia)

    • Dato lingüístico: 'invidia' significa "envidia" en latín
    • Este es el momento en que brillan cinco años de estudiar latín
    • Una corrección menor: el genitivo singular correcto sería nvidiae. La i es una terminación de declinación en o
    • La forma correcta sería Sic transit gloria nvidiae
    • Mi comentario favorito de lo que he leído hoy, bravo
  • Tengo un amigo chino. Hace seis años se unió como ingeniero fundador a una startup china de hardware. Luego llegaron las sanciones. Cuando nos vimos hace poco, me dijo que las sanciones fueron lo mejor que le pasó en la vida. Las empresas locales chinas dejaron de comprar productos de origen occidental y su empresa creció muchísimo. Ahora las sanciones ya se ven como algo "normal", así que el resultado es un enfoque total en autosuficiencia y crecimiento

    • Hay diferencias según la industria. Antes de las sanciones, pequeñas empresas de software EDA apenas sobrevivían frente a gigantes como Synopsys por la enorme brecha tecnológica; ahora, por la demanda de reducción de riesgo, están captando una gran cantidad de clientes nuevos. A eso lo llaman "hormesis"
  • Me pregunto qué significa esto después de las sanciones. ¿Huawei, que recibió un golpe fuerte en smartphones, ahora consigue una oportunidad de responder con su propia GPU? ¿Cómo se compara el rendimiento de esta GPU con las GPUs occidentales más recientes? ¿Significa esto que Huawei ya tiene capacidad para comercializar esta GPU?

    • Huawei es una empresa muchísimo más grande de lo que muchos creen. No solo en estaciones base 5G, también es enorme en teléfonos, autos eléctricos y otros sectores
    • Sobre la expresión "oportunidad de responder": las ventas de smartphones de Huawei ya superaron a Apple dentro de China. Enlace con datos detallados de cuota de mercado
    • A nivel de hardware, Huawei sí puede fabricar teléfonos suficientemente competitivos. El problema es que, sin Google Play Store, es difícil justificar la compra
    • Recomiendo este video de YouTube que explica la situación general de Huawei
  • Para que exista competencia frente a TSMC y Nvidia, el mundo necesita que Huawei y China se conviertan en rivales también en términos de node size

    • Ignorando los temas geopolíticos, sería un escenario muy bueno. Pero la tecnología de IA es un arma de doble filo, y la competencia en el ámbito de consumo probablemente termine convirtiéndose en una carrera armamentista. Considerando la capacidad manufacturera de China, sus costos laborales y demás, es probable que China termine ganando. Aun así, para que eso ocurra primero haría falta duplicar la producción de ASML, y eso no parece realista en el futuro cercano
    • Si EE. UU. levantara los controles de exportación de chips, da la impresión de que el propio gobierno chino probablemente impondría restricciones a las importaciones. El beneficio de desarrollar un competidor real frente a Nvidia/TSMC/Apple/Google sería muchísimo mayor