- NVIDIA creció rápidamente gracias al boom de la IA y a su monopolio de las GPU, pero su posición a largo plazo está siendo amenazada por el desarrollo de chips propios y las estrategias de integración vertical de los gigantes de la nube
- La demanda de GPU por parte de startups y proveedores de nube independientes está disminuyendo, y ya se hace visible el deterioro de la rentabilidad de los modelos de negocio con alta dependencia de NVIDIA
- Google, Amazon, Microsoft y Meta están reduciendo rápidamente su dependencia de NVIDIA mediante chips personalizados de alto rendimiento y sistemas integrados verticalmente
- La infraestructura distribuida y la optimización basada en la interconexión de clústeres se están convirtiendo en elementos clave del entrenamiento de IA, y este es un cambio estructural al que NVIDIA difícilmente puede responder
- NVIDIA está intentando mejorar hardware y software, pero existe la posibilidad de una pérdida de competitividad frente a las profundas estrategias de integración vertical de los hyperscalers
Del dominio de NVIDIA a la crisis: la sacudida del mercado de cómputo para IA
- NVIDIA creció rápidamente gracias al boom de la IA, su monopolio de GPU y el suministro de servidores DGX, logrando un resultado récord de un aumento de 2 billones de dólares en capitalización bursátil en 13 meses
- Sin embargo, la generación H100 fue el punto máximo de rentabilidad, y la serie B200 lanzada después vino acompañada de menor rentabilidad y mayores costos de fabricación
- A largo plazo, los hyperscalers están consolidando la demanda y asegurando competitividad con desarrollo de chips personalizados, lo que está sacudiendo la estructura monopólica de NVIDIA
Reconfiguración de la demanda de IA y contracción del mercado de startups
- Más de la mitad de la demanda de centros de datos de NVIDIA proviene de hyperscalers como Google, Microsoft, Amazon y Meta
- El resto de la demanda provenía de startups, VC y empresas de nube medianas y pequeñas, pero la sobrecompra de GPU ha dejado un ROI bajo, y el negocio de alquiler de GPU opera con pérdidas
- Modelos personalizados de menor escala como BloombergGPT están teniendo dificultades en el mercado, mientras que los modelos cerrados basados en grandes API se están estandarizando
- Nubes independientes como Coreweave y Lambda, pese al apoyo de NVIDIA, enfrentan una crisis por falta de viabilidad económica, caída de rentabilidad y desaceleración de la demanda
- El precio de alquiler de GPU se ha desplomado hasta $1.99 por hora, y el ROE está por debajo de 10%, en un nivel insostenible
La estrategia de desarrollo de chips personalizados de los hyperscalers
- El Google TPU ya llegó a su sexta generación y ha reemplazado por completo a NVIDIA en modelos como Gemini-Ultra, DeepMind y YouTube
- Trainium e Inferentia de Amazon, en colaboración con Anthropic, están reemplazando la inferencia y el entrenamiento de modelos grandes y ofrecen el Neuron SDK, que funciona sin CUDA
- El acelerador Maia de Microsoft y la CPU Cobalt se están usando para cargas internas de IA, y con un SDK basado en Triton aumentan la posibilidad de sustituir CUDA
- Meta opera funciones de IA de Instagram y WhatsApp con sus chips MTIA, y parte del entrenamiento de Llama 3.1 también se realiza sobre chips propios
- Esta tendencia encaja mejor con una estructura de mercado de IA centrada en la inferencia, y existe la posibilidad de que, en adelante, la inferencia basada en GPU sea desplazada por chips personalizados e incluso por soluciones basadas en CPU
Transición hacia una arquitectura centrada en sistemas y los límites de NVIDIA
- Los hyperscalers se enfocan más en la optimización del sistema completo que en el rendimiento de un solo chip
- Google conecta masivamente TPU pequeños y usa su propia red óptica (Apollo) y una topología de red toroidal para minimizar energía y latencia
- Microsoft ha construido una red de fibra óptica y transceptores ColorZ para habilitar entrenamiento entre múltiples centros de datos, logrando una infraestructura de alto rendimiento y menor costo frente a NVIDIA
- Como resultado, está emergiendo como tendencia dominante una arquitectura distribuida que entrena conectando por red múltiples centros de datos de menor escala
- Para superar las limitaciones de energía y expansión de infraestructura, están intentando conectar centros de datos a escala nacional (por ejemplo, la reactivación de Three Mile Island por parte de Microsoft y la adquisición de una planta nuclear por parte de AWS)
La respuesta de hardware y software de NVIDIA y sus dificultades estructurales
- NVIDIA está intentando responder con servidores GB200, Spectrum-X, DCGM y RAS
- El diseño de red basado en Infiniband es vulnerable en clústeres a gran escala y carece de un diseño suficiente de tolerancia a fallos
- Pathways de Google y Singularity de Microsoft destacan por sus sistemas propios tolerantes a fallos y por la detección de errores de memoria GPU
- BaseCommand de NVIDIA, basado en Kubernetes, queda por detrás en escalabilidad e integración frente a Borg, MegaScaler y otros de los hyperscalers
- Como rezagado en sistemas de enfriamiento, también está por detrás de Google en eficiencia energética, vida útil y eficiencia del espacio (por ejemplo, PUE de Google 1.1 vs NVIDIA 1.4 o más)
Conclusión
- NVIDIA todavía mantiene un fuerte rendimiento de GPU, pero enfrenta limitaciones estructurales frente a los hyperscalers en optimización de sistemas, integración de infraestructura y eficiencia de costos
- Los hyperscalers ya han completado la integración vertical desde los chips hasta la infraestructura y el software, asegurando la posibilidad de reemplazo total
- Si NVIDIA no abandona su estrategia centrada en GPU del pasado y no impulsa una innovación del sistema completo, corre el riesgo de no poder sostener un liderazgo durable en el futuro mercado de cómputo para IA
3 comentarios
Google Tensor, Tesla Dojo y AMD son la razón por la que esta persona no compró acciones de Nvidia..
También me da curiosidad cuáles son las desventajas de los «chips personalizados de los hiperescaladores».
Porque da la impresión de que los describen como si fueran superiores en todos los aspectos.
Opiniones en Hacker News
Hay quien opina que este es otro artículo basado en la suposición de que, mientras Nvidia no hace nada, sus competidores de repente van a triunfar y a ponerla en riesgo
Aunque las acciones de Marvell han caído más de 50% este año, la demanda por las GPU de Nvidia sigue siendo fuerte
Hay quien cree que los servicios protegerán a Nvidia
Hay quien opina que se está subestimando la posición estratégica de Nvidia
Hay quien opina que AMD tiene un acuerdo secreto con Nvidia y está creando esta situación a propósito
Nvidia está pasando de un monopolio funcional a una situación en la que tiene que competir
Hay quien opina que la generación H100 representa el mayor poder de fijación de precios y que seguirá generando ganancias porque hay pocas alternativas
Hay quien opina que el control de calidad de los drivers de GPU de Nvidia está empeorando