Jensen Huang de Nvidia presenta el nuevo chip de IA Blackwell: “Se necesita un GPU más grande”
(cnbc.com)- En medio de una explosión en la demanda de GPU de Nvidia tras el boom de la IA, la nueva generación Blackwell busca reforzar aún más su posición como proveedor para el entrenamiento y despliegue de modelos de gran tamaño
- El primer chip Blackwell, GB200, comenzará a enviarse a finales de este año, y eleva el rendimiento de IA de 4 petaflops a 20 petaflops frente a la generación Hopper, a la que pertenece el H100
- El GB200 combina dos GPU B200 Blackwell con una CPU Grace basada en Arm, y Amazon, Google, Microsoft y Oracle venderán acceso en la nube
- El nuevo software NIM facilita el despliegue de inferencia de IA incluso en GPU Nvidia ya existentes, y la licencia empresarial de Nvidia cuesta 4,500 dólares al año por GPU
- Más allá de vender chips, Nvidia está reforzando una estrategia de plataforma de software para hacer que los clientes permanezcan en su ecosistema en lugar de migrar a chips rivales
Presentación de Blackwell y la posición de Nvidia como proveedor de IA
- Nvidia anunció una nueva generación de chips de IA y software para ejecutar modelos de IA en su conferencia de desarrolladores en San Jose el 18 de marzo de 2024
- En el momento del anuncio, empresas y proveedores de software seguían compitiendo por conseguir chips de la generación actual Hopper H100 y otros similares
- Jensen Huang dijo: “Hopper es excelente, pero se necesita un GPU más grande”
- Después de que ChatGPT de OpenAI desatara el boom de la IA a finales de 2022, la acción de Nvidia se multiplicó por cinco y sus ingresos totales crecieron más de tres veces
- Empresas como Microsoft y Meta gastan miles de millones de dólares en la compra de GPU avanzados para servidores de Nvidia
- La acción de Nvidia cayó más de 1% en las operaciones posteriores al cierre del lunes
-
Configuración y rendimiento del GB200
- La nueva generación de procesadores gráficos para IA se llama Blackwell, y el primer chip Blackwell es el GB200
- Nvidia actualiza su arquitectura de GPU aproximadamente cada dos años para ofrecer mejoras de rendimiento significativas
- La arquitectura Hopper, anunciada en 2022, se utilizó en chips como el H100, y muchos de los modelos de IA presentados durante el último año fueron entrenados sobre Hopper
- El rendimiento de IA del GB200 basado en Blackwell alcanza 20 petaflops, por encima de los 4 petaflops del H100
- El aumento en capacidad de cómputo puede usarse para que las empresas de IA entrenen modelos más grandes y complejos
- El chip incluye un transformer engine para ejecutar IA basada en transformers, una de las tecnologías centrales detrás de ChatGPT
- Los GPU Blackwell serán fabricados por TSMC y combinan dos dies fabricados por separado en un solo chip
-
Servidores y oferta en la nube
- El GB200 combina dos GPU B200 Blackwell y una CPU Grace basada en Arm
- Nvidia también ofrecerá el servidor completo GB200 NVLink 2, que integra 72 GPU Blackwell junto con otros componentes de Nvidia
- Amazon, Google, Microsoft y Oracle venderán acceso al GB200 como servicio en la nube
- Amazon Web Services planea construir un clúster de servidores con 20,000 chips GB200
- Este sistema podrá desplegar un modelo de 27 billones de parámetros, muy por encima de GPT-4, del que se ha informado que tendría 1.7 billones de parámetros
- Nvidia no reveló el precio del GB200 ni de los sistemas que lo utilizan
- Según estimaciones de analistas, el H100 basado en Hopper cuesta entre 25,000 y 40,000 dólares por chip, y un sistema completo puede llegar a 200,000 dólares
- Nvidia también planea vender el procesador gráfico B200 en forma de sistema completo que ocupa racks enteros de servidor
NIM y la estrategia de plataforma de Nvidia
- Nvidia añadió un nuevo producto llamado NIM (Nvidia Inference Microservice) a su suscripción de software empresarial Nvidia enterprise
- NIM facilita la ejecución de inferencia, el proceso de correr software de IA, sobre GPU Nvidia ya existentes
- La inferencia requiere menos capacidad de cómputo que el entrenamiento inicial de nuevos modelos de IA
- El objetivo es permitir que las empresas sigan aprovechando los cientos de millones de GPU Nvidia que ya poseen
- Las principales empresas objetivo de NIM son aquellas que quieren ejecutar sus propios modelos de IA, en lugar de comprar resultados de IA como servicio a compañías como OpenAI
- Vincular a los clientes que compran servidores basados en Nvidia con la suscripción Nvidia enterprise es parte central de la estrategia
- El costo de la licencia es de 4,500 dólares al año por GPU
-
Despliegue de modelos y forma de uso para desarrolladores
- Nvidia planea colaborar con empresas de IA como Microsoft y Hugging Face para ajustar los modelos de IA de modo que funcionen en toda la gama de chips Nvidia compatibles
- Los desarrolladores podrán usar NIM para ejecutar modelos de forma eficiente en sus propios servidores o en servidores Nvidia en la nube, sin procesos largos de configuración
- Manuvir Das dijo que esto equivale a cambiar una sola línea del código existente, reemplazando la parte que llamaba a OpenAI por un NIM obtenido de Nvidia
- Nvidia señaló que este software ayuda a ejecutar IA no solo en servidores en la nube, sino también en laptops con GPU
-
De empresa de chips a plataforma de software
- NIM es un producto que añade más razones para que los clientes permanezcan con chips Nvidia en lugar de cambiarse a alternativas rivales
- Nvidia está dejando de ser solo un proveedor mercenario de chips para acercarse más a un proveedor de plataforma sobre la cual otras empresas pueden construir software
- Huang dijo: “Blackwell no es el nombre de un chip, sino de una plataforma”
- Das dijo que antes el producto comercializable era el GPU y el software solo ayudaba a aprovecharlo, pero ahora Nvidia ya tiene un negocio comercial de software
2 comentarios
Es un resumen del contenido del video de CNET hecho con corely.ai (https://www.youtube.com/watch?v=bMIRhOXAjYk)
Opiniones en Hacker News
Por lo visto en el keynote y el contenido de la conferencia, Nvidia está subiendo en la pila, como suelen hacer los buenos fabricantes de hardware
Obviamente seguirán haciendo hardware cada vez más grande, pero lo clave es que están creando NIM, algo así como un Docker para LLM. Están construyendo un sistema de contenedores que se puede descargar o comprar para desplegarlo fácilmente sobre hardware de Nvidia, así que será interesante ver qué impacto tiene eso en las startups de IA
La amenaza mayor aparece cuando la función central del negocio entra en el software masivo. Igual que hoy el iPhone ya elimina fondos y por eso desaparece la demanda de servicios pagos para quitar fondos, si un producto de IA puede integrarse fácilmente como una sola función dentro de una app de trabajo existente, ese negocio está viviendo prestado tiempo
¿Algo como startups de AI-as-a-Service que ofrecen “infraestructura”?
La idea de que “Nvidia está pasando de ser un proveedor mercenario de chips a algo más cercano a un proveedor de plataforma donde otras empresas pueden construir software, como Microsoft o Apple” se entiende desde una perspectiva de crecimiento
Convertirse en una plataforma de servicios para IA sería más rentable para Nvidia, pero ya es difícil equilibrarlo con sus alianzas con AWS y Microsoft. Parece probable que vengan adquisiciones o soluciones a medida para competir, y por suerte para Nvidia, gran parte de la IA todavía depende de CUDA, así que será interesante ver cómo se desarrolla
No parece tener suficiente palanca como para forzar a los clientes hacia un lado, y seguramente sería más fácil limitarse a vender GPU, pero da la impresión de que saben que los clientes sofisticados pueden cambiarse a otros chips, mientras que la plataforma sirve para amarrar a los clientes pequeños
Si Nvidia quisiera, podría abrir el estándar de forma voluntaria para evitar ese tipo de demandas, y personalmente creo que sería la decisión más inteligente, pero históricamente casi todas las empresas han preferido ir a juicio en vez de abrirse voluntariamente
Incluso si AWS logra tener su propia solución integrada de hardware + software para redes neuronales, salir de la plataforma CUDA podría tomar años, quizá incluso décadas
Microsoft tiene alianzas con OpenAI y también con Mistral. No hay garantía de que la comodidad actual se mantenga en el futuro, y Nvidia lo sabe muy bien
¿Qué es FP4, un punto flotante de 4 bits? Si es así, ese gráfico comparativo [0] que habla de 30 veces frente a Hopper era un poco engañoso
[0] https://youtu.be/Y2F8yisiS6E?t=4698
Algunos lo están relacionando con este paper [1] sobre LLM de 4 bits, y uno de los autores también trabaja en Nvidia
1: https://arxiv.org/pdf/2310.16836.pdf
Si existiera hardware ampliamente superior para FP4, lo usarías y podrías obtener mejoras de velocidad minimizando la pérdida de precisión. Hay algo de creatividad de marketing ahí, pero no está completamente mal como métrica que pretende medir uso real
También se habló en una publicación anterior: https://news.ycombinator.com/item?id=37930663
En la práctica, se parece más a poner dos Hopper uno al lado del otro sobre un nodo de proceso apenas mejorado, así que no es nada sorprendente, y si no aprovechas esas funciones nuevas ni la memoria ampliada, algo como 2.5 veces suena bastante más realista
Hace unos años adquirieron Bright Cluster Manager; ¿quién será el próximo objetivo de compra? Parece que quieren ofrecer a sus clientes la pila completa
Estamos en una era en la que se producen en masa petaflops de dos dígitos
“La capacidad de cómputo necesaria para replicar la actividad relevante del cerebro humano ha sido estimada por varios autores entre 10^12 y 10^28 FLOPS.” Un petaflop es 10^15. Una locura de época
Qué lástima lo de Masayoshi Son de Softbank. En 2019 tenía una participación en Nvidia de 3.1 mil millones de dólares; hoy habría valido 19 veces más, unos 60 mil millones de dólares
Era extremadamente optimista con la IA y la robótica, pero se adelantó demasiado a su tiempo
¿Aquí “empresa de plataforma” significa multi-chip?
Parece lógico, ya que meter tantos transistores en un solo die se está volviendo poco realista.
Van en dirección de amarrar aplicaciones avanzadas que corran sobre un chasis propietario, una interconexión de clúster propietaria y middleware propietario. Me hace pensar en la adquisición de Mellanox.
En hardware incluye GPU, NVLINK como fabric GPU-GPU, CPU, NIC, InfiniBand como fabric de red y switches. Encima de eso, también están impulsando y contribuyendo a varias capas de stack de software como CUDA, Riva, Megatron y Omniverse, para que la gente construya sobre ellas.
Imagínate que AWS vendiera hasta todas las computadoras del mundo. La estructura terminaría siendo que solo se pueden alquilar ahí.
Me pregunto cuándo la industria va a empezar a abordar el problema de escalabilidad de los LLM. Desde la perspectiva de Nvidia, por supuesto que les conviene seguir sacando GPU más grandes y mejores, pero ¿cuál es el beneficio común?
Ya está demostrado que, con suficientes recursos, se pueden hacer buenos modelos de lenguaje. Ahora el reto es meter esos modelos en soluciones que no exijan una cantidad de recursos inimaginable para casos de uso promedio.
Esto no es un problema exclusivo de la IA, sino de todo el software que usamos. Solo hay dos grupos que intentan optimizar y ajustarse a sistemas más pequeños: los programadores apasionados y la gente a la que le pagan por hacer ese trabajo. Por ejemplo, equipos de software de fabricantes de teléfonos.
La acción no se movió en el after-hours. Mucha gente esperaba que se disparara con un anuncio grande.
Pero esa acción está ridículamente sobrevalorada.
Por ahora Microsoft y OpenAI usarán este chip, pero a largo plazo van a ver esto, intentar fabricar chips propios, reducir su dependencia de Nvidia y prepararse para cambiarse cuando terminen los contratos.
Afirman que redujeron el consumo eléctrico 25 veces, ¿pero cómo podría ser cierto eso? ¿Alguien sabe de dónde salió esa cifra?
Aun así, creo que podría haber un error tipográfico. Probablemente también estén metiendo en la comparación refrigeración líquida contra refrigeración por aire.
[1] https://nvdam.widen.net/s/xqt56dflgh/nvidia-blackwell-archit...
Tal vez lo dicen porque, con una mejora de rendimiento de 5x y el hecho de que ahora se pueden usar 27 billones de parámetros en vez de 1.7 billones, se puede terminar la misma carga de trabajo en 1/25 del tiempo, y por eso hablan de menor consumo eléctrico. Como dices, también soy escéptico de que eso signifique que el consumo máximo de potencia en sí sea 25 veces menor.