El futuro de la IA de AMD es ‘Helios’ a escala de rack

(morethanmoore.substack.com)

1 puntos por GN⁺ 2025-06-16 | 1 comentarios | Compartir por WhatsApp

La GPU AMD Instinct MI355X ofrece el doble de rendimiento de cómputo para IA, más memoria HBM y una mejora del 40% en eficiencia de tokens/$ frente a NVIDIA
El software ROCm 7 pone énfasis en mejoras de rendimiento y soporte Day-0 al mismo tiempo, con foco en expandir el ecosistema de IA
La solución integrada a escala de rack ofrece una infraestructura de IA llave en mano que combina CPU + GPU + red de AMD
Hoja de ruta: en 2026 se anticipa la presentación de la arquitectura de próxima generación y el rack Helios, con 4 veces más rendimiento, HBM4 y escalabilidad
Eficiencia energética: apunta a una mejora de 20 veces en eficiencia a escala de rack para 2030, impulsando innovación conjunta en hardware y software

Resumen general

El movimiento de AMD impulsado por el crecimiento de la IA a escala de rack

Con el aumento explosivo de la demanda de hardware de IA, las principales empresas de semiconductores del sector están enfocadas en ganar cuota de mercado y acelerar su crecimiento
AMD entró rápidamente al mercado de GPUs para servidores de IA con Instinct MI300X y, con base en su reciente experiencia lanzando una primera arquitectura totalmente centrada en funciones clave y rendimiento, logró registrar ingresos exitosos de alto margen
Con ese impulso, anunció una estrategia para seguir ampliando su presencia con hardware de servidores de IA de próxima generación

Innovaciones detalladas del acelerador Instinct MI350

Gran salto en el rendimiento de cómputo para IA

La serie Instinct MI350 está basada en la nueva arquitectura CDNA4 y eleva a más del doble por reloj el rendimiento de operaciones matriciales (operaciones tensoriales) frente a MI300X
También incorpora de lleno soporte para procesamiento en coma flotante de baja precisión como FP6 y FP4, reduciendo la carga de inferencia y aumentando de forma drástica el volumen total de cómputo
En el caso de FP6, fue diseñada para procesar al doble de velocidad que la Blackwell de NVIDIA, buscando una ventaja en rendimiento
La configuración de memoria también se actualizó de forma importante con 288 GB de memoria HBM3E (8 stacks) y 8 TB/sec de ancho de banda
Está implementada como un chip masivo de 185 mil millones de transistores basado en el proceso TSMC N3P, con una estructura eficiente de apilado de dies

Diversos SKU y tendencia hacia mayor rendimiento y consumo energético

Se divide en la MI355X exclusiva para refrigeración líquida (2.4GHz, 5PFLOPS) y la MI350X con refrigeración por aire (2.2GHz, 4.6PFLOPS)
El consumo energético aumentó frente a la MI300X: el modelo con aire llega a 1000W y el de refrigeración líquida a 1400W
Con 128 MI355X instaladas en un rack, solo las GPU podrían consumir alrededor de 180kW
También se destaca la competitividad en precio, con una ventaja estimada de más del 40% en tokens/$ frente a NVIDIA (30% más barato)
El suministro a socios comenzará a partir del tercer trimestre de 2024, aunque la velocidad real de entrega puede variar

Estrategia de software ROCm 7

Soporte Day-0 y maximización del rendimiento

ROCm 7 impulsa mejoras integrales para compatibilidad con CDNA4 y aceleradores de la serie MI350, además de rendimiento y administración empresarial
El objetivo es ofrecer soporte Day-0 para frameworks clave como Pytorch
En el tercer trimestre de 2024 también comenzará el soporte para Pytorch nativo en Windows, ONNX Runtime y GPUs RDNA 4/3
Solo con optimizaciones de software, el rendimiento de la generación MI300X mejora hasta 3.8 veces en ROCm 7 frente a ROCm 6
A través de ROCm Enterprise AI, ofrece herramientas enfocadas en empresas para operar clústeres de IA a gran escala y hacer fine-tuning de modelos

Ecosistema de red completo: Pollara 400 AI NIC

Tras la adquisición de Pensando, AMD lanzó su primera tarjeta de red, la Pollara 400 AI NIC (Ethernet de 400G, proceso TSMC N4)
Gracias a su escalabilidad y a las funciones de NIC programable P4, permite construir racks de supercomputación basados en AMD
Es la primera AI NIC compatible con Ultra Ethernet Consortium, sentando la base para redes escalables de próxima generación

Hoja de ruta futura a escala de rack basada en MI400

MI400 (2026): apunta a duplicar el rendimiento de IA en FP8 y adoptar una arquitectura de nueva generación (CDNA Next) con 432 GB de HBM4 y 19.6 TB/sec de ancho de banda
Con Ultra Accelerator Link, amplía el escalado de 8 GPU a 1024 GPU para soportar procesamiento paralelo a gran escala
Sistema de rack Helios: combina MI400, EPYC Venice (6ª generación) y Vulcano (NIC de 800G), destacando ventajas en memoria y red frente a la próxima plataforma rival (NVIDIA Vera Rubin)
Mediante una hoja de ruta abierta, presenta planes de innovación anual en arquitecturas clave de CPU, GPU y sistemas de rack
Su meta es lograr 20 veces más eficiencia energética a escala de rack y 100 veces más eficiencia total para 2030, concentrándose en la optimización de hardware y software

Conclusión

AMD busca asegurar un liderazgo diferenciado en el mercado de infraestructura de IA con las series Instinct MI350 a Helios, CDNA 4 a Next y soluciones llave en mano a escala de rack
En el corto plazo, se espera que la nueva MI350, la arquitectura CDNA4 y el software ROCm 7 sean los pilares principales
Está desplegando una estrategia para reforzar rendimiento, costo, escalabilidad y eficiencia en la competencia del mercado de servidores de IA frente a NVIDIA

1 comentarios

GN⁺ 2025-06-16

Comentarios en Hacker News

La experiencia con ROCm realmente varía muchísimo según el caso, y sinceramente el soporte para tarjetas gráficas de consumo también parece difícil de confiar; me hubiera gustado que fuera una alternativa, pero desde que me cambié a CUDA he reducido mucho los problemas engorrosos y la pérdida de tiempo, en especial por lo mucho que tarda en ejecutarse el benchmark de MiOpen en HIP
Siento que esta misma historia se viene repitiendo desde que CUDA empezó a despegar para cómputo científico alrededor de 2010; no entiendo cómo AMD no ha logrado replicar esa fórmula de éxito incluso después de 15 años, y ahora que NVIDIA ya domina por completo el ecosistema de software, la realidad es que parece demasiado tarde
Ojalá alguien que conozca bien el software que ofrece AMD explicara el panorama general; me da curiosidad saber cuál SDK realmente permite hacer inferencia o entrenamiento de redes neuronales, hay demasiadas opciones y aunque intenté investigarlo por un tiempo, da la impresión de que la dirección está demasiado dispersa, así que es difícil entender hacia dónde va todo
Da la impresión de que Jensen sí tiene un know-how muy sólido en el stack de CUDA y en el mundo de las workstations; AMD no solo tiene que escalar el hardware, sino superar ese stack en sí mismo, y la realidad es que la mayoría del mercado no quiere pasar mucho tiempo estudiando un stack complejo para una plataforma con menos del 10% de participación
La realidad es que casi nadie llama directamente a la API de CUDA, así que el punto clave donde AMD debería enfocarse es en conectar bien el backend de ROCm con XLA y PyTorch; solo con eso ya podría abrirse paso en una parte importante del mercado, y además creo que AMD debería hacer lo mismo que Nvidia hace más de 10 años y literalmente regalar GPUs a universidades para cultivar el ecosistema de investigadores; hoy, por la escasez de recursos de cómputo para IA, la mayoría de las universidades usan hardware de hace 2 o 3 generaciones, y si AMD ofreciera GPUs estables a la mitad del precio, los estudiantes de doctorado entrarían de forma natural al ecosistema de AMD, y esa experiencia podría trasladarse luego a la industria
Cuando la gente habla de CUDA suele pensar solo en C, pero en realidad desde CUDA 3.0 C++ es la base, e incluso incluye soporte para Fortran; NVIDIA también apoya activamente que distintos lenguajes puedan aprovechar el entorno PTX, y para 2025 planea introducir un Python CUDA JIT DSL; incluso sin usar la versión más reciente, el SDK de CUDA funciona en laptops de entrada, así que se puede aprender poco a poco aunque el hardware sea modesto
He escuchado muchas malas historias sobre el soporte de software en hardware de entrada, y eso me hace ver que una entrada de bajo umbral es muy importante; por otro lado, si se enfatiza el hardware para centros de datos, se puede compactar el portafolio y al mismo tiempo lograr una accesibilidad más amplia a través de proveedores cloud; me gustaría que existiera algo como una workstation MI350-A para principiantes, aunque en la práctica parece difícil que ocurra
Viéndolo a estas alturas, creo que AMD tiene problemas internos serios que explican por qué su stack de software sigue flojo; ya han tenido tiempo suficiente para escuchar a los clientes y ampliar equipos para resolver varios problemas, pero el avance real ha sido escaso; incluso con incentivos de compensación importantes, se siente que cambia poco; coincido en que Lisa Su es una gran ejecutiva, pero me pregunto si, al venir del lado del hardware, no será menos proactiva con la innovación en software
Hay quien opina que el soporte de ROCm todavía no es un tema tan importante para el usuario promedio de IA; gracias a la API de Vulkan incluida desde hace unos 10 años en los drivers estándar de AMD, ya funcionan aplicaciones LLM de un clic como llama.cpp o LM Studio; es más lento, pero sí es un entorno utilizable en la práctica
Sobre la futura competencia entre NVIDIA y AMD, alguien lo resumió con humor: "cuando ese futuro lejano se haga realidad, nosotros te contactamos primero"
Breve duda: "¿Bob Page está liderando esto?"
Comentario de que la frase del juego "Atropos log, abandoning Helios" provoca una reacción emocional, y que se le viene a la mente cada vez que sale una noticia relacionada
Esperanza de que AMD saque un chip de entrenamiento que supere al H100
El año pasado tuve algunos problemas entrenando con MI300X, y aun cuando lograba hacerlo funcionar, era entre 20% y 30% más lento que un H100; recientemente, probando entrenamiento DPO con OpenRLHF (basado en transformers/DeepSpeed) usando las versiones más nuevas de ROCm y PyTorch, en tareas cortas de unas 12 horas la tendencia ha sido a un rendimiento por hora de GPU casi similar al H200; antes hice pruebas en nodos de 8 GPUs, y ahora estoy experimentando con una sola GPU MI300X, así que no es una comparación totalmente justa, y entrenamiento multi-GPU o multinodo sigue siendo una incógnita, así que tómese como una sola muestra
Si se considera que el H100 ya salió hace 3 años, la brecha se siente todavía mayor; así se percibe la velocidad de la innovación
Entiendo que se refiere a un chip relativamente más lento; en realidad, la línea MI300 ya supera al H100 y el MI400 podría salir pronto
Lo realmente importante, al final, es cuánto de lo principal de "Software++: ROCm 7 Released" puedo usar yo en una laptop de consumo común, como sí ocurre con CUDA
Sinceramente me costó leer ese artículo, y pienso que al autor del artículo hasta le podrían regalar un mi355 por el empeño; no hay absolutamente ninguna razón para que AMD reciba tanta confianza como espera el artículo, y fue especialmente decepcionante que la línea RDNA4 pasara meses sin soporte en ROCm; AMD tuvo la actitud irresponsable de decir que el soporte podía llegar para el día 120 según el calendario, y además en los benchmarks no queda claro de dónde sale realmente el rendimiento; tengo fuertes sospechas de que claramente están mostrando resultados comparando rendimiento FP4 contra FP8 o 16 y luego citándolo de forma engañosa
Sigue siendo impactante y desconcertante que ROCm no haya recibido una inversión seria para el consumidor y que el soporte llegue tarde, pero hace poco AMD anunció oficialmente que también dará soporte day 1 en tarjetas cliente; claro, lo importante es que de verdad cumplan la promesa, y parece que AMD por fin entendió lo importante que es respaldar bien ROCm a lo largo de todo el stack; hasta resulta extraño pensar que es una empresa que fabrica tanto Ryzen como Radeon; este año Radeon me parece que va bastante bien, así que fue una lástima que el soporte oficial de ROCm para RDNA4 tardara tanto; aun así, en productos de consumo la primera impresión con la 9070 XT y FSR4 no fue mala, y a diferencia de antes, cuando AMD parecía querer esquivar la oportunidad, ahora sí se ven movimientos, así que soy muy cautelosamente optimista; espero que estas promesas duren, enlace relacionado
La realidad es que AMD no parece muy interesada en el soporte de cómputo para GPUs de consumo, y sí ofrece un stack de software y soporte bastante buenos en GPUs para centros de datos
Respecto a la cita del comentario original, "parece que este artículo le da demasiada confianza a AMD", alguien vuelve a preguntar si quizá se refiere a Ryan Smith, conocido por AnandTech, enlace
Afirmación de que AMD ahora es una empresa de marketing, con el matiz de que en el fondo compite en el mercado más por marketing que por capacidad técnica

El futuro de la IA de AMD es ‘Helios’ a escala de rack

Resumen general

El movimiento de AMD impulsado por el crecimiento de la IA a escala de rack

Innovaciones detalladas del acelerador Instinct MI350

Gran salto en el rendimiento de cómputo para IA

Diversos SKU y tendencia hacia mayor rendimiento y consumo energético

Estrategia de software ROCm 7

Soporte Day-0 y maximización del rendimiento

Ecosistema de red completo: Pollara 400 AI NIC

Hoja de ruta futura a escala de rack basada en MI400

Conclusión

Lecturas relacionadas

1 comentarios

Comentarios en Hacker News