El futuro del cómputo: la corona de Nvidia está tambaleándose

(mohitdagarwal.substack.com)

2 puntos por GN⁺ 2025-04-24 | 3 comentarios | Compartir por WhatsApp

NVIDIA creció rápidamente gracias al boom de la IA y a su monopolio de las GPU, pero su posición a largo plazo está siendo amenazada por el desarrollo de chips propios y las estrategias de integración vertical de los gigantes de la nube
La demanda de GPU por parte de startups y proveedores de nube independientes está disminuyendo, y ya se hace visible el deterioro de la rentabilidad de los modelos de negocio con alta dependencia de NVIDIA
Google, Amazon, Microsoft y Meta están reduciendo rápidamente su dependencia de NVIDIA mediante chips personalizados de alto rendimiento y sistemas integrados verticalmente
La infraestructura distribuida y la optimización basada en la interconexión de clústeres se están convirtiendo en elementos clave del entrenamiento de IA, y este es un cambio estructural al que NVIDIA difícilmente puede responder
NVIDIA está intentando mejorar hardware y software, pero existe la posibilidad de una pérdida de competitividad frente a las profundas estrategias de integración vertical de los hyperscalers

Del dominio de NVIDIA a la crisis: la sacudida del mercado de cómputo para IA

NVIDIA creció rápidamente gracias al boom de la IA, su monopolio de GPU y el suministro de servidores DGX, logrando un resultado récord de un aumento de 2 billones de dólares en capitalización bursátil en 13 meses
Sin embargo, la generación H100 fue el punto máximo de rentabilidad, y la serie B200 lanzada después vino acompañada de menor rentabilidad y mayores costos de fabricación
A largo plazo, los hyperscalers están consolidando la demanda y asegurando competitividad con desarrollo de chips personalizados, lo que está sacudiendo la estructura monopólica de NVIDIA

Reconfiguración de la demanda de IA y contracción del mercado de startups

Más de la mitad de la demanda de centros de datos de NVIDIA proviene de hyperscalers como Google, Microsoft, Amazon y Meta
El resto de la demanda provenía de startups, VC y empresas de nube medianas y pequeñas, pero la sobrecompra de GPU ha dejado un ROI bajo, y el negocio de alquiler de GPU opera con pérdidas
Modelos personalizados de menor escala como BloombergGPT están teniendo dificultades en el mercado, mientras que los modelos cerrados basados en grandes API se están estandarizando
Nubes independientes como Coreweave y Lambda, pese al apoyo de NVIDIA, enfrentan una crisis por falta de viabilidad económica, caída de rentabilidad y desaceleración de la demanda
El precio de alquiler de GPU se ha desplomado hasta $1.99 por hora, y el ROE está por debajo de 10%, en un nivel insostenible

La estrategia de desarrollo de chips personalizados de los hyperscalers

El Google TPU ya llegó a su sexta generación y ha reemplazado por completo a NVIDIA en modelos como Gemini-Ultra, DeepMind y YouTube
Trainium e Inferentia de Amazon, en colaboración con Anthropic, están reemplazando la inferencia y el entrenamiento de modelos grandes y ofrecen el Neuron SDK, que funciona sin CUDA
El acelerador Maia de Microsoft y la CPU Cobalt se están usando para cargas internas de IA, y con un SDK basado en Triton aumentan la posibilidad de sustituir CUDA
Meta opera funciones de IA de Instagram y WhatsApp con sus chips MTIA, y parte del entrenamiento de Llama 3.1 también se realiza sobre chips propios
Esta tendencia encaja mejor con una estructura de mercado de IA centrada en la inferencia, y existe la posibilidad de que, en adelante, la inferencia basada en GPU sea desplazada por chips personalizados e incluso por soluciones basadas en CPU

Transición hacia una arquitectura centrada en sistemas y los límites de NVIDIA

Los hyperscalers se enfocan más en la optimización del sistema completo que en el rendimiento de un solo chip
Google conecta masivamente TPU pequeños y usa su propia red óptica (Apollo) y una topología de red toroidal para minimizar energía y latencia
Microsoft ha construido una red de fibra óptica y transceptores ColorZ para habilitar entrenamiento entre múltiples centros de datos, logrando una infraestructura de alto rendimiento y menor costo frente a NVIDIA
Como resultado, está emergiendo como tendencia dominante una arquitectura distribuida que entrena conectando por red múltiples centros de datos de menor escala
Para superar las limitaciones de energía y expansión de infraestructura, están intentando conectar centros de datos a escala nacional (por ejemplo, la reactivación de Three Mile Island por parte de Microsoft y la adquisición de una planta nuclear por parte de AWS)

La respuesta de hardware y software de NVIDIA y sus dificultades estructurales

NVIDIA está intentando responder con servidores GB200, Spectrum-X, DCGM y RAS
El diseño de red basado en Infiniband es vulnerable en clústeres a gran escala y carece de un diseño suficiente de tolerancia a fallos
Pathways de Google y Singularity de Microsoft destacan por sus sistemas propios tolerantes a fallos y por la detección de errores de memoria GPU
BaseCommand de NVIDIA, basado en Kubernetes, queda por detrás en escalabilidad e integración frente a Borg, MegaScaler y otros de los hyperscalers
Como rezagado en sistemas de enfriamiento, también está por detrás de Google en eficiencia energética, vida útil y eficiencia del espacio (por ejemplo, PUE de Google 1.1 vs NVIDIA 1.4 o más)

Conclusión

NVIDIA todavía mantiene un fuerte rendimiento de GPU, pero enfrenta limitaciones estructurales frente a los hyperscalers en optimización de sistemas, integración de infraestructura y eficiencia de costos
Los hyperscalers ya han completado la integración vertical desde los chips hasta la infraestructura y el software, asegurando la posibilidad de reemplazo total
Si NVIDIA no abandona su estrategia centrada en GPU del pasado y no impulsa una innovación del sistema completo, corre el riesgo de no poder sostener un liderazgo durable en el futuro mercado de cómputo para IA

3 comentarios

kandk 2025-04-24

Google Tensor, Tesla Dojo y AMD son la razón por la que esta persona no compró acciones de Nvidia..

kimjoin2 2025-04-24

También me da curiosidad cuáles son las desventajas de los «chips personalizados de los hiperescaladores».
Porque da la impresión de que los describen como si fueran superiores en todos los aspectos.

GN⁺ 2025-04-24

Opiniones en Hacker News

Hay quien opina que este es otro artículo basado en la suposición de que, mientras Nvidia no hace nada, sus competidores de repente van a triunfar y a ponerla en riesgo
- Los pesimistas sobre Nvidia quizá algún día tengan razón, pero hasta ahora se han equivocado muchas veces
Aunque las acciones de Marvell han caído más de 50% este año, la demanda por las GPU de Nvidia sigue siendo fuerte
- Se enfatiza que las capacidades que ofrece la nube no pueden ser reemplazadas por las GPU
- Se está de acuerdo con la visión de Jensen de que Nvidia se convertirá en una empresa de 10 billones de dólares
- Se menciona la posibilidad de que Nvidia lance teléfonos con IA, servicios competidores de LLM, PC con IA, autos autónomos, robots, etc.
- Se considera que está ocurriendo una situación similar a cuando Warren Buffet lamentó no haber invertido en Google y Apple
Hay quien cree que los servicios protegerán a Nvidia
- Posee el ecosistema con CUDA, Infiniband, NGC, NVLink, etc., y necesita expandirse mediante aplicaciones adicionales como AI Foundry
- Puede generar ingresos cuando el mercado se desacelere mediante diseños personalizados y consultoría para proyectos de GPU
Hay quien opina que se está subestimando la posición estratégica de Nvidia
- Nvidia no necesita ganar para siempre en el juego del hardware, ya que está construyendo toda la pila de IA
- Es la única empresa que ofrece de forma integral hardware, redes, software, modelos y herramientas para desarrolladores
- Nvidia está construyendo una plataforma integrada, y eso se convertirá en el estándar de la industria
Hay quien opina que AMD tiene un acuerdo secreto con Nvidia y está creando esta situación a propósito
- Nvidia comparte una posición exclusiva con Apple en TSMC
Nvidia está pasando de un monopolio funcional a una situación en la que tiene que competir
- No es ideal, pero tampoco es un golpe fatal
Hay quien opina que la generación H100 representa el mayor poder de fijación de precios y que seguirá generando ganancias porque hay pocas alternativas
- Hay dudas sobre su resistencia a largo plazo
- Los hyperscalers están consolidando la demanda de IA y avanzan en el desarrollo de chips competitivos
- También hay otras empresas que están construyendo grandes granjas de GPU
Hay quien opina que el control de calidad de los drivers de GPU de Nvidia está empeorando
- Sin embargo, es difícil decir que el control de calidad está cayendo cuando sus productos llevan años agotándose