- El sistema de Aegaeon de pooling desarrollado por Alibaba Cloud aumenta en 9 veces la eficiencia de uso de GPUs y redujo en un 82 % el número de GPUs Nvidia necesarias para un mismo servicio de LLM
- Este sistema no fija las GPUs por modelo y, en su lugar, virtualiza a nivel de token y programa dinámicamente un pool compartido, permitiendo que varios modelos utilicen simultáneamente una sola GPU
- En pruebas de servicio real con LLM diversos, incluidos modelos de 72B de parámetros, la cantidad de GPUs se redujo de 1,192 a 213
- Incluso en un entorno de suministro limitado de GPUs H20, mantuvo estabilidad de rendimiento y registró una mejora de goodput de 1.5 a 9 veces frente a ServerlessLLM·MuxServe
- El trabajo se dio a conocer en la presentación de SOSP 2025 en Seúl y se espera que genere gran interés entre los proveedores de nube globales que enfrentan escasez de recursos de GPU
Sistema de pooling Aegaeon y su contexto
- A través del sistema de pooling Aegaeon, Alibaba Cloud anunció que en una beta de varios meses en su marketplace Model Studio logró reducir el uso de GPU Nvidia en un 82 %
- Ese resultado se presentó en forma de un paper revisado por pares en el ACM Symposium on Operating Systems (SOSP) celebrado en Seúl en 2025
- La tecnología busca permitir que los proveedores de nube aprovechen al máximo sus recursos existentes en entornos donde la oferta de GPUs nuevas como la Nvidia H20 es limitada en China
Aegaeon: scheduler de inferencia dedicado a maximizar la eficiencia de uso de GPU
- Aegaeon no es un sistema para mejorar la eficiencia de entrenamiento de modelos; es un scheduler para maximizar los recursos de GPU en la fase de inferencia
- El esquema anterior asignaba 1 GPU fija por cada modelo, mientras que Aegaeon está diseñado para dividirla a nivel de token y permitir uso simultáneo de varios modelos
- Aumenta el goodput (rendimiento efectivo) de GPU hasta 9 veces y logra un ritmo de procesamiento estable incluso con patrones de solicitudes de LLM irregulares
Resultados de pruebas y reducción de uso
- La validación de rendimiento se realizó en una beta de varios meses con investigadores de infraestructura de Peking University y Alibaba (incluido el CTO Jingrun Zhou)
- Durante el periodo de prueba, se redujo de 1,192 a 213 GPUs manteniendo un nivel equivalente de carga de inferencia de LLM
- También mostró alta eficiencia en entornos de servicio simultáneo de múltiples LLM, incluidos modelos de hasta 72B de parámetros
- La prueba se ejecutó sobre GPUs H20 que pueden comprarse legalmente en China tras los controles de exportación de EE. UU.
- Según South China Morning Post, las H20 se usan actualmente en China como aceleradores alternativos clave
Composición técnica: dos estrategias clave
- 1. Multi-model packing: coloca varios modelos en una misma GPU al mismo tiempo para minimizar recursos ociosos entre solicitudes
- 2. Token-level autoscaling: ajusta el cómputo en tiempo real según la cantidad de tokens de salida que se están generando, y no por la solicitud completa
- Esto elimina reservas de GPU innecesarias y maximiza la eficiencia de costo por throughput
- En benchmark, se logró una mejora de rendimiento de 1.5 a 9 veces frente a ServerlessLLM·MuxServe
Integración de red y stack
- El paper no detalla la estructura de red (basada en eRDMA) utilizada, pero
- Alibaba es conocida por contar con una red eRDMA (Elastic RDMA) y un stack de GPU de alta integración
- Por ello, estos resultados podrían depender de un entorno de infraestructura interna altamente optimizado e integrado
Implicaciones
- En el mercado chino, donde la provisión de GPUs está limitada, se valora como una salida estratégica para extraer máxima eficiencia de los chips existentes
- Este enfoque podría convertirse en un benchmark de mejora de eficiencia de inferencia para hiperescaleadores como AWS, Google Cloud y Microsoft Azure
- Más allá de las limitaciones del hardware de GPU, la tecnología de scheduling y virtualización de software se perfila como un nuevo eje de competitividad de infraestructura de IA
5 comentarios
¿Desde dónde se escucha el ruido de que las acciones de NVIDIA están cayendo..?
Normalmente, en ese caso, con un ahorro del 80% no se trata de comprar solo una quinta parte de GPUs, sino de orientarse a procesar cinco veces más datos.
¿Será realmente así? ¿No habrá una trampa?
Artículo Aegaeon: Effective GPU Pooling and Scheduling for Multi-LLM Inference
Opinión de Hacker News