5 puntos por GN⁺ 2025-10-21 | 5 comentarios | Compartir por WhatsApp
  • El sistema de Aegaeon de pooling desarrollado por Alibaba Cloud aumenta en 9 veces la eficiencia de uso de GPUs y redujo en un 82 % el número de GPUs Nvidia necesarias para un mismo servicio de LLM
  • Este sistema no fija las GPUs por modelo y, en su lugar, virtualiza a nivel de token y programa dinámicamente un pool compartido, permitiendo que varios modelos utilicen simultáneamente una sola GPU
  • En pruebas de servicio real con LLM diversos, incluidos modelos de 72B de parámetros, la cantidad de GPUs se redujo de 1,192 a 213
  • Incluso en un entorno de suministro limitado de GPUs H20, mantuvo estabilidad de rendimiento y registró una mejora de goodput de 1.5 a 9 veces frente a ServerlessLLM·MuxServe
  • El trabajo se dio a conocer en la presentación de SOSP 2025 en Seúl y se espera que genere gran interés entre los proveedores de nube globales que enfrentan escasez de recursos de GPU

Sistema de pooling Aegaeon y su contexto

  • A través del sistema de pooling Aegaeon, Alibaba Cloud anunció que en una beta de varios meses en su marketplace Model Studio logró reducir el uso de GPU Nvidia en un 82 %
  • Ese resultado se presentó en forma de un paper revisado por pares en el ACM Symposium on Operating Systems (SOSP) celebrado en Seúl en 2025
  • La tecnología busca permitir que los proveedores de nube aprovechen al máximo sus recursos existentes en entornos donde la oferta de GPUs nuevas como la Nvidia H20 es limitada en China

Aegaeon: scheduler de inferencia dedicado a maximizar la eficiencia de uso de GPU

  • Aegaeon no es un sistema para mejorar la eficiencia de entrenamiento de modelos; es un scheduler para maximizar los recursos de GPU en la fase de inferencia
    • El esquema anterior asignaba 1 GPU fija por cada modelo, mientras que Aegaeon está diseñado para dividirla a nivel de token y permitir uso simultáneo de varios modelos
    • Aumenta el goodput (rendimiento efectivo) de GPU hasta 9 veces y logra un ritmo de procesamiento estable incluso con patrones de solicitudes de LLM irregulares

Resultados de pruebas y reducción de uso

  • La validación de rendimiento se realizó en una beta de varios meses con investigadores de infraestructura de Peking University y Alibaba (incluido el CTO Jingrun Zhou)
    • Durante el periodo de prueba, se redujo de 1,192 a 213 GPUs manteniendo un nivel equivalente de carga de inferencia de LLM
    • También mostró alta eficiencia en entornos de servicio simultáneo de múltiples LLM, incluidos modelos de hasta 72B de parámetros
  • La prueba se ejecutó sobre GPUs H20 que pueden comprarse legalmente en China tras los controles de exportación de EE. UU.
    • Según South China Morning Post, las H20 se usan actualmente en China como aceleradores alternativos clave

Composición técnica: dos estrategias clave

  • 1. Multi-model packing: coloca varios modelos en una misma GPU al mismo tiempo para minimizar recursos ociosos entre solicitudes
  • 2. Token-level autoscaling: ajusta el cómputo en tiempo real según la cantidad de tokens de salida que se están generando, y no por la solicitud completa
    • Esto elimina reservas de GPU innecesarias y maximiza la eficiencia de costo por throughput
  • En benchmark, se logró una mejora de rendimiento de 1.5 a 9 veces frente a ServerlessLLM·MuxServe

Integración de red y stack

  • El paper no detalla la estructura de red (basada en eRDMA) utilizada, pero
    • Alibaba es conocida por contar con una red eRDMA (Elastic RDMA) y un stack de GPU de alta integración
    • Por ello, estos resultados podrían depender de un entorno de infraestructura interna altamente optimizado e integrado

Implicaciones

  • En el mercado chino, donde la provisión de GPUs está limitada, se valora como una salida estratégica para extraer máxima eficiencia de los chips existentes
  • Este enfoque podría convertirse en un benchmark de mejora de eficiencia de inferencia para hiperescaleadores como AWS, Google Cloud y Microsoft Azure
  • Más allá de las limitaciones del hardware de GPU, la tecnología de scheduling y virtualización de software se perfila como un nuevo eje de competitividad de infraestructura de IA

5 comentarios

 
jjpark78 2025-10-21

¿Desde dónde se escucha el ruido de que las acciones de NVIDIA están cayendo..?

 
jeongsoop 2025-10-21

Normalmente, en ese caso, con un ahorro del 80% no se trata de comprar solo una quinta parte de GPUs, sino de orientarse a procesar cinco veces más datos.

 
shakespeares 2025-10-21

¿Será realmente así? ¿No habrá una trampa?

 
GN⁺ 2025-10-21
Opinión de Hacker News
  • Alibaba Cloud afirmó que redujo el uso de GPUs Nvidia para servicios de modelos poco populares en hasta un 82%. Según la investigación, en el marketplace de Alibaba Cloud el 17,7% de las GPUs se estaban asignando para solo el 1,35% de las solicitudes totales, y donde antes se necesitaban 1192 GPUs, ahora se procesan esas mismas solicitudes con solo 213 GPUs
    • No termino de entender bien cómo funciona exactamente; me pregunto si, mientras no se usan, los modelos quedan simplemente cargados sobre la GPU esperando. Yo pensaba que este tipo de trabajo normalmente se asignaría de forma dinámica. Claro que reduce las veces que se carga un modelo, lo cual tiene ventajas, pero creo que si modelo+GPU quedan ociosos por más de unos minutos los recursos podrían liberarse. En mi caso, como no trabajo en IA, estoy acostumbrado a pedir nodos con SLURM cada vez que los necesito
    • En la Figura 1(a) del paper, 17,7% es la proporción respecto al total de 30 mil GPUs (es decir, 5310 GPUs manejan el 1,35% de las solicitudes), y esta caída se midió en un entorno beta pequeño y exclusivo con solo 47 modelos. Si se hace una cuenta simple por el número de modelos para los 733 modelos "cold" en total, se necesitarían 3321 GPUs, lo que representaría un ahorro de 37,5% frente al escenario anterior; sobre un clúster de 30 mil GPUs equivaldría a un 6,6% de ahorro
    • En el pasado, los ingenieros de software y hardware se enfrentaban de frente al problema e ideaban algoritmos y soluciones de forma creativa; con las regulaciones semiconductoras de EE. UU., los ingenieros chinos también se están moviendo hacia una dirección de resolver problemas e innovar por cuenta propia, como antes ocurría en Silicon Valley
  • La idea central es que hay pocas inferencias muy cargadas para modelos como Alibaba Qwen y DeepSeek, y la mayoría de los demás se usa de forma esporádica, por lo que el 17,7% de los recursos GPU se usa para el 1,35% de todas las solicitudes, lo que es ineficiente
    • Es probable que esos otros modelos sean bastante más pequeños
  • El enlace más útil es el de Tom's Hardware, y la publicación está aquí
    • Cambié ese URL (que originalmente era un artículo de SCMP) por ese enlace, y también actualizaré el link del paper en la parte superior del texto
  • El intento de EE. UU. de frenar el avance tecnológico de China logró impedir que siga el mismo camino, pero irónicamente podría empujar a China a innovar de otra forma. Si una empresa china open sourcea esa innovación, al final todos podríamos terminar con mayor eficiencia y progreso, y a largo plazo quizá terminen agradeciéndose incluso los “gatekeeping civilizacionales” de EE. UU.
    • Históricamente, aunque se bloquee una tecnología, China la alcanza en pocos años o crea algo mejor. Desde la visión occidental hay soberbia, y en realidad muchas mejoras de productos de compañías occidentales tuvieron gran aporte de científicos o fabricación china; sin ello, no habría sido lo mismo. Si miras las listas de investigadores en IA, también hay bastantes de origen chino
    • La postura antiinmigración en EE. UU. podría convertirse en el mayor obstáculo para su innovación. Ya se está yendo el talento que genera innovación, y sin la ventaja de atraer talento global, EE. UU. puede quedar en desventaja por su escala demográfica. El mundo está buscando nuevos líderes; China aún no los tiene, pero podría hacerlo en unos años. Su debilidad está en la falta de ambición externa y la tendencia a concentrarse demasiado en lo regional (Taiwán y Mar del Sur de China)
    • Ahora EE. UU. ya no puede frenar el desarrollo de China; dentro de China, al prohibirse la importación de chips, su medida quedó sin efecto. Artículo relacionado (prohibición en 2025 de la importación de chips de IA de Nvidia hacia China): artículo de CNBC
    • Esto me recuerda a la situación de Japón después de la Segunda Guerra Mundial, que fabricó motores muy eficientes y autos livianos con pocos recursos. Esa diferencia fue grande porque en EE. UU. y parte de Europa no tenían esas restricciones, y al final los autos estadounidenses perdieron competitividad
    • Se habla del "efecto búmeran", pero yo creo que ya es tarde: en 2024 los laboratorios occidentales dominaban, pero en 2025 China ya está sacando uno tras otro modelos state-of-the-art como deepseek, qwen, kimi, glm, ernie, y ahora hay más laboratorios chinos lanzando modelos recientes que laboratorios occidentales
  • Me da curiosidad por los blogs de ingeniería e investigación de empresas chinas. Antes revisaba mucho blogs de empresas occidentales, pero ahora da ganas de tomar casos de estudio como benchmark de lo que no es FAANG
    • En los blogs oficiales de las empresas chinas también suben a menudo artículos de este tipo de optimización, pero muchas veces están mezclados con contenidos de marketing; además, seguramente hay mucho en foros locales, pero para usuarios de habla inglesa es difícil acceder. Ejemplo: cómo Alibaba Cloud optimiza un clúster masivo de Kubernetes
  • Me parece que están probando con modelos muy chicos, y me pregunto si realmente es escalable a modelos grandes
    • Al fin y al cabo, son todos LLM, así que no son tan chicos: hoy en un entorno operativo hay 28 modelos de 1,8–7B (TP=1) y 19 modelos de 32–72B (TP=4) en un clúster de 213 GPUs H20
  • Este sistema de GPU virtual parece ser un scheduler adicional (administrador de trabajos), y me pregunto qué tanto jitter/latencia se genera por el movimiento de datos
  • Me pregunto si este enfoque se puede aplicar a otras cargas de trabajo
  • En resumen, se percibe como parar conductas innecesarias (uso ineficiente de recursos)
  • Una institución con recursos abundantes puede migrar modelos preentrenados a hardware nuevo para recortar el “impuesto NVDA” (el costo por el monopolio de Nvidia), pero el entrenamiento y la investigación de modelos en sí mismos siguen siendo difíciles fuera de un ecosistema NVDA maduro