2 puntos por GN⁺ 2024-03-19 | 2 comentarios | Compartir por WhatsApp
  • En medio de una explosión en la demanda de GPU de Nvidia tras el boom de la IA, la nueva generación Blackwell busca reforzar aún más su posición como proveedor para el entrenamiento y despliegue de modelos de gran tamaño
  • El primer chip Blackwell, GB200, comenzará a enviarse a finales de este año, y eleva el rendimiento de IA de 4 petaflops a 20 petaflops frente a la generación Hopper, a la que pertenece el H100
  • El GB200 combina dos GPU B200 Blackwell con una CPU Grace basada en Arm, y Amazon, Google, Microsoft y Oracle venderán acceso en la nube
  • El nuevo software NIM facilita el despliegue de inferencia de IA incluso en GPU Nvidia ya existentes, y la licencia empresarial de Nvidia cuesta 4,500 dólares al año por GPU
  • Más allá de vender chips, Nvidia está reforzando una estrategia de plataforma de software para hacer que los clientes permanezcan en su ecosistema en lugar de migrar a chips rivales

Presentación de Blackwell y la posición de Nvidia como proveedor de IA

  • Nvidia anunció una nueva generación de chips de IA y software para ejecutar modelos de IA en su conferencia de desarrolladores en San Jose el 18 de marzo de 2024
  • En el momento del anuncio, empresas y proveedores de software seguían compitiendo por conseguir chips de la generación actual Hopper H100 y otros similares
  • Jensen Huang dijo: “Hopper es excelente, pero se necesita un GPU más grande”
  • Después de que ChatGPT de OpenAI desatara el boom de la IA a finales de 2022, la acción de Nvidia se multiplicó por cinco y sus ingresos totales crecieron más de tres veces
    • Empresas como Microsoft y Meta gastan miles de millones de dólares en la compra de GPU avanzados para servidores de Nvidia
    • La acción de Nvidia cayó más de 1% en las operaciones posteriores al cierre del lunes
  • Configuración y rendimiento del GB200

    • La nueva generación de procesadores gráficos para IA se llama Blackwell, y el primer chip Blackwell es el GB200
    • Nvidia actualiza su arquitectura de GPU aproximadamente cada dos años para ofrecer mejoras de rendimiento significativas
    • La arquitectura Hopper, anunciada en 2022, se utilizó en chips como el H100, y muchos de los modelos de IA presentados durante el último año fueron entrenados sobre Hopper
    • El rendimiento de IA del GB200 basado en Blackwell alcanza 20 petaflops, por encima de los 4 petaflops del H100
    • El aumento en capacidad de cómputo puede usarse para que las empresas de IA entrenen modelos más grandes y complejos
    • El chip incluye un transformer engine para ejecutar IA basada en transformers, una de las tecnologías centrales detrás de ChatGPT
    • Los GPU Blackwell serán fabricados por TSMC y combinan dos dies fabricados por separado en un solo chip
  • Servidores y oferta en la nube

    • El GB200 combina dos GPU B200 Blackwell y una CPU Grace basada en Arm
    • Nvidia también ofrecerá el servidor completo GB200 NVLink 2, que integra 72 GPU Blackwell junto con otros componentes de Nvidia
    • Amazon, Google, Microsoft y Oracle venderán acceso al GB200 como servicio en la nube
    • Amazon Web Services planea construir un clúster de servidores con 20,000 chips GB200
    • Este sistema podrá desplegar un modelo de 27 billones de parámetros, muy por encima de GPT-4, del que se ha informado que tendría 1.7 billones de parámetros
    • Nvidia no reveló el precio del GB200 ni de los sistemas que lo utilizan
    • Según estimaciones de analistas, el H100 basado en Hopper cuesta entre 25,000 y 40,000 dólares por chip, y un sistema completo puede llegar a 200,000 dólares
    • Nvidia también planea vender el procesador gráfico B200 en forma de sistema completo que ocupa racks enteros de servidor

NIM y la estrategia de plataforma de Nvidia

  • Nvidia añadió un nuevo producto llamado NIM (Nvidia Inference Microservice) a su suscripción de software empresarial Nvidia enterprise
  • NIM facilita la ejecución de inferencia, el proceso de correr software de IA, sobre GPU Nvidia ya existentes
    • La inferencia requiere menos capacidad de cómputo que el entrenamiento inicial de nuevos modelos de IA
    • El objetivo es permitir que las empresas sigan aprovechando los cientos de millones de GPU Nvidia que ya poseen
  • Las principales empresas objetivo de NIM son aquellas que quieren ejecutar sus propios modelos de IA, en lugar de comprar resultados de IA como servicio a compañías como OpenAI
  • Vincular a los clientes que compran servidores basados en Nvidia con la suscripción Nvidia enterprise es parte central de la estrategia
    • El costo de la licencia es de 4,500 dólares al año por GPU
  • Despliegue de modelos y forma de uso para desarrolladores

    • Nvidia planea colaborar con empresas de IA como Microsoft y Hugging Face para ajustar los modelos de IA de modo que funcionen en toda la gama de chips Nvidia compatibles
    • Los desarrolladores podrán usar NIM para ejecutar modelos de forma eficiente en sus propios servidores o en servidores Nvidia en la nube, sin procesos largos de configuración
    • Manuvir Das dijo que esto equivale a cambiar una sola línea del código existente, reemplazando la parte que llamaba a OpenAI por un NIM obtenido de Nvidia
    • Nvidia señaló que este software ayuda a ejecutar IA no solo en servidores en la nube, sino también en laptops con GPU
  • De empresa de chips a plataforma de software

    • NIM es un producto que añade más razones para que los clientes permanezcan con chips Nvidia en lugar de cambiarse a alternativas rivales
    • Nvidia está dejando de ser solo un proveedor mercenario de chips para acercarse más a un proveedor de plataforma sobre la cual otras empresas pueden construir software
    • Huang dijo: “Blackwell no es el nombre de un chip, sino de una plataforma”
    • Das dijo que antes el producto comercializable era el GPU y el software solo ayudaba a aprovecharlo, pero ahora Nvidia ya tiene un negocio comercial de software

2 comentarios

 
corelyai 2024-03-20
  • Conferencia de desarrolladores de Nvidia: presentación del chip Blackwell y tecnologías futuras
  • Nvidia presentó Blackwell, una plataforma innovadora con 28 mil millones de transistores adyacentes en dos dies para crear un único chip gigante que transfiere 10 terabytes de datos por segundo, con compatibilidad de forma y funciones con Hopper.
  • El switch de enlace MVY de Blackwell, con 50 mil millones de transistores, permite comunicación de máxima velocidad entre GPU, lo que hace posible construir sistemas de IA de exaflop en un solo rack.
  • Nvidia anunció alianzas con AWS, Google, Oracle y Microsoft para acelerar diversos servicios de IA e integrar la tecnología de Nvidia en esas plataformas.
  • Nvidia presentó una fundición de IA que colabora con empresas como SAP, ServiceNow, Cohesity, Snowflake y Dell para crear soluciones de IA generativa y fábricas de IA.
  • Al transmitir Omniverse Cloud a Vision Pro para facilitar una integración fluida y flujos de trabajo entre distintas herramientas de diseño, Nvidia también presenta Project GR00T, Isaac Lab y OSMO para robots impulsados por IA.
  • El robot bdx de Disney, impulsado por Jetson, hizo una aparición especial para mostrar capacidades de aprendizaje en Isaac Sim.

Es un resumen del contenido del video de CNET hecho con corely.ai (https://www.youtube.com/watch?v=bMIRhOXAjYk)

 
GN⁺ 2024-03-19
Opiniones en Hacker News
  • Por lo visto en el keynote y el contenido de la conferencia, Nvidia está subiendo en la pila, como suelen hacer los buenos fabricantes de hardware
    Obviamente seguirán haciendo hardware cada vez más grande, pero lo clave es que están creando NIM, algo así como un Docker para LLM. Están construyendo un sistema de contenedores que se puede descargar o comprar para desplegarlo fácilmente sobre hardware de Nvidia, así que será interesante ver qué impacto tiene eso en las startups de IA

    • No parece que vaya a afectar mucho a la mayoría de la IA orientada al consumidor. Eso es porque la UI y la conveniencia ya son grandes puntos de venta
      La amenaza mayor aparece cuando la función central del negocio entra en el software masivo. Igual que hoy el iPhone ya elimina fondos y por eso desaparece la demanda de servicios pagos para quitar fondos, si un producto de IA puede integrarse fácilmente como una sola función dentro de una app de trabajo existente, ese negocio está viviendo prestado tiempo
    • También hay una alternativa de código abierto: https://github.com/geniusrise
    • No sigo todas las tendencias del mundo de la IA, así que me da curiosidad qué tipo de startup de IA se tiene en mente aquí
      ¿Algo como startups de AI-as-a-Service que ofrecen “infraestructura”?
  • La idea de que “Nvidia está pasando de ser un proveedor mercenario de chips a algo más cercano a un proveedor de plataforma donde otras empresas pueden construir software, como Microsoft o Apple” se entiende desde una perspectiva de crecimiento
    Convertirse en una plataforma de servicios para IA sería más rentable para Nvidia, pero ya es difícil equilibrarlo con sus alianzas con AWS y Microsoft. Parece probable que vengan adquisiciones o soluciones a medida para competir, y por suerte para Nvidia, gran parte de la IA todavía depende de CUDA, así que será interesante ver cómo se desarrolla

    • Nvidia parece estar preparándose para un mundo donde la mitad de sus clientes, los hiperescaladores, usan solo GPU y CUDA, mientras que la larga cola de clientes restante usa plataformas superiores más rentables
      No parece tener suficiente palanca como para forzar a los clientes hacia un lado, y seguramente sería más fácil limitarse a vender GPU, pero da la impresión de que saben que los clientes sofisticados pueden cambiarse a otros chips, mientras que la plataforma sirve para amarrar a los clientes pequeños
    • Al final creo que habrá una demanda antimonopolio y que le exigirán abrir el estándar CUDA, tras lo cual AMD se volverá un competidor real
      Si Nvidia quisiera, podría abrir el estándar de forma voluntaria para evitar ese tipo de demandas, y personalmente creo que sería la decisión más inteligente, pero históricamente casi todas las empresas han preferido ir a juicio en vez de abrirse voluntariamente
    • AWS está empujando fuerte ARM, pero la gente sigue comprando computación x86/x64 a gran escala
      Incluso si AWS logra tener su propia solución integrada de hardware + software para redes neuronales, salir de la plataforma CUDA podría tomar años, quizá incluso décadas
    • Si las GPU de AMD/Intel tuvieran un rendimiento comparable al de Nvidia y además se usaran ampliamente, Microsoft y AWS también habrían hecho alianzas con ellas
      Microsoft tiene alianzas con OpenAI y también con Mistral. No hay garantía de que la comodidad actual se mantenga en el futuro, y Nvidia lo sabe muy bien
  • ¿Qué es FP4, un punto flotante de 4 bits? Si es así, ese gráfico comparativo [0] que habla de 30 veces frente a Hopper era un poco engañoso
    [0] https://youtu.be/Y2F8yisiS6E?t=4698

    • FP4 es punto flotante de 4 bits y tiene el doble de velocidad que el punto flotante de 8 bits. También existe FP6, que no calcula más rápido que FP8, pero puede aprovechar mejor el ancho de banda de memoria y la caché del formato de 6 bits
      Algunos lo están relacionando con este paper [1] sobre LLM de 4 bits, y uno de los autores también trabaja en Nvidia
      1: https://arxiv.org/pdf/2310.16836.pdf
    • Es engañoso solo en parte. Eso es porque en los LLM, FP4 no vale solo la mitad que FP8
      Si existiera hardware ampliamente superior para FP4, lo usarías y podrías obtener mejoras de velocidad minimizando la pérdida de precisión. Hay algo de creatividad de marketing ahí, pero no está completamente mal como métrica que pretende medir uso real
    • https://arxiv.org/pdf/2310.10537.pdf
      También se habló en una publicación anterior: https://news.ycombinator.com/item?id=37930663
    • Me cuesta ver cómo 4 bits pueden ser suficientes. ¿Los cálculos intermedios se hacen con mayor ancho y luego se vuelven a bajar a FP4?
    • Sí. Se habló de un motor de transformadores con reconocimiento de precisión, y eso puede facilitar el uso de FP4, pero no significa que sea 30 veces más rápido en las mismas condiciones
      En la práctica, se parece más a poner dos Hopper uno al lado del otro sobre un nodo de proceso apenas mejorado, así que no es nada sorprendente, y si no aprovechas esas funciones nuevas ni la memoria ampliada, algo como 2.5 veces suena bastante más realista
  • Hace unos años adquirieron Bright Cluster Manager; ¿quién será el próximo objetivo de compra? Parece que quieren ofrecer a sus clientes la pila completa

    • Canonical parece un objetivo maduro. En los últimos años Canonical ha intentado expandir Ubuntu y otras herramientas dentro del mundo empresarial, pero sin demasiado éxito, y una buena parte del kit de desarrollo de Nvidia está construido alrededor de Ubuntu
    • Run:AI https://news.ycombinator.com/item?id=39738342
    • También podrían adquirir Anthropic o Mistral para construir AGI/ASI
  • Estamos en una era en la que se producen en masa petaflops de dos dígitos
    “La capacidad de cómputo necesaria para replicar la actividad relevante del cerebro humano ha sido estimada por varios autores entre 10^12 y 10^28 FLOPS.” Un petaflop es 10^15. Una locura de época

    • Me alegraría si esto sirviera para diseñar una central de fusión viable. Si la mayor parte termina usándose para segmentación publicitaria, sería una gran decepción
  • Qué lástima lo de Masayoshi Son de Softbank. En 2019 tenía una participación en Nvidia de 3.1 mil millones de dólares; hoy habría valido 19 veces más, unos 60 mil millones de dólares
    Era extremadamente optimista con la IA y la robótica, pero se adelantó demasiado a su tiempo

    • Corrección menor: Masayoshi Son
  • ¿Aquí “empresa de plataforma” significa multi-chip?
    Parece lógico, ya que meter tantos transistores en un solo die se está volviendo poco realista.

    • No tengo muy claro el panorama completo de la línea de productos, pero viendo las cifras físicas y la configuración de las que presumía Jensen, parece que en esencia quieren jugar al mainframe.
      Van en dirección de amarrar aplicaciones avanzadas que corran sobre un chasis propietario, una interconexión de clúster propietaria y middleware propietario. Me hace pensar en la adquisición de Mellanox.
    • Se refiere a todos los chips clave que necesita un gran centro de datos y a buena parte de la capa de software que va encima.
      En hardware incluye GPU, NVLINK como fabric GPU-GPU, CPU, NIC, InfiniBand como fabric de red y switches. Encima de eso, también están impulsando y contribuyendo a varias capas de stack de software como CUDA, Riva, Megatron y Omniverse, para que la gente construya sobre ellas.
    • No, esto significa búsqueda de rentas.
      Imagínate que AWS vendiera hasta todas las computadoras del mundo. La estructura terminaría siendo que solo se pueden alquilar ahí.
  • Me pregunto cuándo la industria va a empezar a abordar el problema de escalabilidad de los LLM. Desde la perspectiva de Nvidia, por supuesto que les conviene seguir sacando GPU más grandes y mejores, pero ¿cuál es el beneficio común?
    Ya está demostrado que, con suficientes recursos, se pueden hacer buenos modelos de lenguaje. Ahora el reto es meter esos modelos en soluciones que no exijan una cantidad de recursos inimaginable para casos de uso promedio.

    • El desarrollo de software derrochador es fácil y mantiene el impulso del desarrollo. Mientras el crecimiento sea el rey, lo rápido y desordenado siempre le gana a un sistema pequeño bien optimizado.
      Esto no es un problema exclusivo de la IA, sino de todo el software que usamos. Solo hay dos grupos que intentan optimizar y ajustarse a sistemas más pequeños: los programadores apasionados y la gente a la que le pagan por hacer ese trabajo. Por ejemplo, equipos de software de fabricantes de teléfonos.
  • La acción no se movió en el after-hours. Mucha gente esperaba que se disparara con un anuncio grande.

    • El precio de la acción no es un buen indicador de corto plazo ni del desarrollo de Nvidia ni del de ninguna empresa. Nvidia está haciendo las cosas muy bien.
      Pero esa acción está ridículamente sobrevalorada.
    • Con una capitalización de mercado de 2 billones de dólares, ya está todo descontado.
    • Si alguien quisiera una subida así de fuerte, probablemente estaría esperando la guía de resultados. Ahora mismo está extremadamente sobrecomprada y le está costando moverse por encima de los 1,000 dólares por acción.
      Por ahora Microsoft y OpenAI usarán este chip, pero a largo plazo van a ver esto, intentar fabricar chips propios, reducir su dependencia de Nvidia y prepararse para cambiarse cuando terminen los contratos.
    • Nvidia no es una acción misteriosa. Si hay valor oculto en esa acción, lo más probable es que ya esté mayormente reflejado.
    • Además, perdió fuerza incluso durante la sesión. Puede que estuviera tan sobrecalentada que ya fuera difícil empujarla más arriba con cualquier noticia.
  • Afirman que redujeron el consumo eléctrico 25 veces, ¿pero cómo podría ser cierto eso? ¿Alguien sabe de dónde salió esa cifra?

    • Es una cifra que sale de [1]. Básicamente comparan un rack H100 con un rack B8.
      Aun así, creo que podría haber un error tipográfico. Probablemente también estén metiendo en la comparación refrigeración líquida contra refrigeración por aire.
      [1] https://nvdam.widen.net/s/xqt56dflgh/nvidia-blackwell-archit...
    • ¿Lo leíste en el artículo enlazado? Yo no lo pude encontrar.
      Tal vez lo dicen porque, con una mejora de rendimiento de 5x y el hecho de que ahora se pueden usar 27 billones de parámetros en vez de 1.7 billones, se puede terminar la misma carga de trabajo en 1/25 del tiempo, y por eso hablan de menor consumo eléctrico. Como dices, también soy escéptico de que eso signifique que el consumo máximo de potencia en sí sea 25 veces menor.