Chip Gaudi 2 de Intel supera al H100 de Nvidia en benchmarks de Diffusion Transformer

xguru · 2024-03-12T10:46:01+09:00

La serie "Behind the Compute" es una serie de publicaciones del blog que documenta la trayectoria empresarial de Stability AI y ofrece ideas para que otros puedan aprovechar el poder de la IA generativa En esta entrega, profundizan en los benchmarks de rendimiento y las ventajas de distintas soluciones de cómputo Análisis de rendimiento Realizaron un análisis de rendimiento entrenando dos modelos, uno de ellos Stable Diffusion 3, muy esperado Midieron la velocidad de entrenamiento comparando el acelerador Intel Gaudi 2 con los A100 y H100 de Nvidia Estas son las opciones que más suelen elegir startups y desarrolladores para entrenar modelos de lenguaje a gran escala Modelo 1: Stable Diffusion 3 Stable Diffusion 3 es su modelo de texto a imagen más capaz y pronto entrará en una fase de vista previa inicial La versión pública de Stable Diffusion 3 estará disponible en tamaños de entre 800M y 8B parámetros El análisis con la versión de 2B parámetros mostró resultados mejores de lo esperado Midieron el throughput de entrenamiento del modelo con arquitectura 2B Multimodal Diffusion Transformer (MMDiT), que usa d=24, precisión mixta BFloat16 y atención optimizada (xFormers para A100 y FusedSDPA para Intel Gaudi) A esta versión del modelo la llaman MMDiT-ps2-d24 Al revisar los resultados del benchmark de entrenamiento con 2 nodos y un total de 16 aceleradores (Gaudi/GPU), el sistema Gaudi 2 procesó 927 imágenes de entrenamiento por segundo manteniendo un tamaño de lote de 16 por acelerador: 1.5 veces más rápido que el H100-80GB Aprovechando los 96GB de memoria de alto ancho de banda (HBM2E) de Gaudi 2, aumentaron el tamaño de lote a 32 por acelerador y mejoraron aún más la velocidad de entrenamiento hasta 1,254 imágenes por segundo También midieron un rendimiento muy competitivo al escalar el entrenamiento distribuido a 32 nodos de Gaudi 2, con un total de 256 aceleradores En esta configuración, el clúster de Gaudi 2 procesó más de 3 veces más imágenes por segundo que la GPU A100-80GB. Esto resulta impresionante incluso considerando que el A100 tiene una pila de software muy optimizada En pruebas de inferencia para el modelo Stable Diffusion 3 de 8B parámetros, el chip Gaudi 2 ofreció una velocidad de inferencia similar a la del chip Nvidia A100 usando PyTorch base Sin embargo, con optimización TensorRT, el chip A100 generó imágenes un 40% más rápido que Gaudi 2 Esperan que, con optimizaciones adicionales, Gaudi 2 pronto supere al A100 en este modelo En pruebas anteriores usando PyTorch base, Gaudi 2 generó imágenes de 1024x1024 en solo 3.2 segundos a lo largo de 30 pasos, mientras que el A100 tardó 3.6 segundos con PyTorch y 2.7 segundos con TensorRT Gracias a su mayor memoria, interconexión más rápida y otras consideraciones de diseño, Gaudi 2 es competitivo para ejecutar la arquitectura Diffusion Transformer que impulsa a la próxima generación de modelos de medios Modelo 2: Stable Beluga 2.5 70B Stable Beluga 2.5 70B es una versión ajustada de LLaMA 2 70B, basada en Stable Beluga 2, el primer modelo abierto que superó a ChatGPT 3.5 en ciertos benchmarks Realizaron este benchmark de entrenamiento en 256 aceleradores Gaudi 2 y midieron un throughput total promedio de 116,777 tokens/segundo ejecutando el código PyTorch tal cual, sin optimizaciones adicionales Esto usa tipo de datos FP16, tamaño de lote global 1024, 2 pasos de acumulación de gradiente y tamaño de micro lote 2 Cuando realizaron pruebas de inferencia para el modelo de lenguaje 70B en Gaudi 2, generó 673 tokens/segundo por acelerador usando un tamaño de token de entrada de 128 y un tamaño de token de salida de 2048 En comparación con TensorRT-LLM, Gaudi 2 es 28% más rápido que los 525 tokens/segundo del A100 Esperan mejoras adicionales de velocidad con FP8 Demanda de soluciones de cómputo Empresas como la nuestra enfrentan una demanda creciente de soluciones de cómputo cada vez más potentes y eficientes Nuestros hallazgos resaltan la necesidad de alternativas como Gaudi 2. No solo ofrece un rendimiento superior al de otros chips de 7nm, sino que también responde a necesidades clave del mercado, como mejor relación precio-rendimiento, menor costo y tiempos de entrega reducidos La posibilidad de elegir entre distintas opciones de cómputo amplía la participación y la innovación, y hace que la tecnología avanzada de IA sea más accesible para todos

(stability.ai)

6 puntos por xguru 2024-03-12 | 1 comentarios | Compartir por WhatsApp

La serie "Behind the Compute" es una serie de publicaciones del blog que documenta la trayectoria empresarial de Stability AI y ofrece ideas para que otros puedan aprovechar el poder de la IA generativa
En esta entrega, profundizan en los benchmarks de rendimiento y las ventajas de distintas soluciones de cómputo

Análisis de rendimiento

Realizaron un análisis de rendimiento entrenando dos modelos, uno de ellos Stable Diffusion 3, muy esperado
Midieron la velocidad de entrenamiento comparando el acelerador Intel Gaudi 2 con los A100 y H100 de Nvidia
Estas son las opciones que más suelen elegir startups y desarrolladores para entrenar modelos de lenguaje a gran escala

Modelo 1: Stable Diffusion 3

Stable Diffusion 3 es su modelo de texto a imagen más capaz y pronto entrará en una fase de vista previa inicial
La versión pública de Stable Diffusion 3 estará disponible en tamaños de entre 800M y 8B parámetros
El análisis con la versión de 2B parámetros mostró resultados mejores de lo esperado
Midieron el throughput de entrenamiento del modelo con arquitectura 2B Multimodal Diffusion Transformer (MMDiT), que usa d=24, precisión mixta BFloat16 y atención optimizada (xFormers para A100 y FusedSDPA para Intel Gaudi)
A esta versión del modelo la llaman MMDiT-ps2-d24
Al revisar los resultados del benchmark de entrenamiento con 2 nodos y un total de 16 aceleradores (Gaudi/GPU), el sistema Gaudi 2 procesó 927 imágenes de entrenamiento por segundo manteniendo un tamaño de lote de 16 por acelerador: 1.5 veces más rápido que el H100-80GB
Aprovechando los 96GB de memoria de alto ancho de banda (HBM2E) de Gaudi 2, aumentaron el tamaño de lote a 32 por acelerador y mejoraron aún más la velocidad de entrenamiento hasta 1,254 imágenes por segundo
También midieron un rendimiento muy competitivo al escalar el entrenamiento distribuido a 32 nodos de Gaudi 2, con un total de 256 aceleradores
En esta configuración, el clúster de Gaudi 2 procesó más de 3 veces más imágenes por segundo que la GPU A100-80GB. Esto resulta impresionante incluso considerando que el A100 tiene una pila de software muy optimizada
En pruebas de inferencia para el modelo Stable Diffusion 3 de 8B parámetros, el chip Gaudi 2 ofreció una velocidad de inferencia similar a la del chip Nvidia A100 usando PyTorch base
Sin embargo, con optimización TensorRT, el chip A100 generó imágenes un 40% más rápido que Gaudi 2
Esperan que, con optimizaciones adicionales, Gaudi 2 pronto supere al A100 en este modelo
En pruebas anteriores usando PyTorch base, Gaudi 2 generó imágenes de 1024x1024 en solo 3.2 segundos a lo largo de 30 pasos, mientras que el A100 tardó 3.6 segundos con PyTorch y 2.7 segundos con TensorRT
Gracias a su mayor memoria, interconexión más rápida y otras consideraciones de diseño, Gaudi 2 es competitivo para ejecutar la arquitectura Diffusion Transformer que impulsa a la próxima generación de modelos de medios

Modelo 2: Stable Beluga 2.5 70B

Stable Beluga 2.5 70B es una versión ajustada de LLaMA 2 70B, basada en Stable Beluga 2, el primer modelo abierto que superó a ChatGPT 3.5 en ciertos benchmarks
Realizaron este benchmark de entrenamiento en 256 aceleradores Gaudi 2 y midieron un throughput total promedio de 116,777 tokens/segundo ejecutando el código PyTorch tal cual, sin optimizaciones adicionales
Esto usa tipo de datos FP16, tamaño de lote global 1024, 2 pasos de acumulación de gradiente y tamaño de micro lote 2
Cuando realizaron pruebas de inferencia para el modelo de lenguaje 70B en Gaudi 2, generó 673 tokens/segundo por acelerador usando un tamaño de token de entrada de 128 y un tamaño de token de salida de 2048
En comparación con TensorRT-LLM, Gaudi 2 es 28% más rápido que los 525 tokens/segundo del A100
Esperan mejoras adicionales de velocidad con FP8

Demanda de soluciones de cómputo

Empresas como la nuestra enfrentan una demanda creciente de soluciones de cómputo cada vez más potentes y eficientes
Nuestros hallazgos resaltan la necesidad de alternativas como Gaudi 2. No solo ofrece un rendimiento superior al de otros chips de 7nm, sino que también responde a necesidades clave del mercado, como mejor relación precio-rendimiento, menor costo y tiempos de entrega reducidos
La posibilidad de elegir entre distintas opciones de cómputo amplía la participación y la innovación, y hace que la tecnología avanzada de IA sea más accesible para todos

1 comentarios

xguru 2024-03-12

Opiniones de Hacker News

Es interesante que las TPU superen con facilidad a las A100. En dreamlook.ai, que ofrece fine-tuning de Stable Diffusion usando TPU, la gente se sorprende por la velocidad de entrega y el costo. Pero no hay un gran secreto: simplemente usan hardware más rápido y más barato por unidad de trabajo.
Es bueno fomentar la competencia en el entrenamiento de modelos con nuevo hardware, pero la disponibilidad de estas máquinas es muy limitada. Los principales proveedores de nube no permiten alquilar VM con Gaudi2 por hora, y el propio sitio de Intel te dirige a comprar un servidor de 8x GPU de más de 40k USD. Por ahora, Nvidia todavía lleva ventaja en stack de software y disponibilidad, aunque eso podría empezar a cambiar para finales de este año.
NVIDIA obtiene casi un 92% de margen de ganancia con la H100. Sorprende que más empresas de chips no se hayan metido en el campo de los "aceleradores de ML".
Sería realmente útil e interesante ver un análisis de por qué puede ser 3 veces más rápido aunque las métricas de hardware no hayan mejorado 3 veces. De lo contrario, esto no pasa de ser simple publicidad.
La H100 salió hace casi un año, así que está bien si Intel ya está lista para competir con el modelo del año pasado. Hay que recordar que CUDA es una parte muy importante, y que tanto el hardware como el software tardan 10 años en madurar juntos.
La H100 ya se ha estado enviando en volumen desde hace casi un año. ¿Gaudi2 también está disponible a una escala parecida? Nunca hay que descartar a NVIDIA hasta que no deje una ventaja clara frente a piezas competidoras en marcos de tiempo similares.
Nadie, incluidos empleados de Intel AXG, ha podido dar una respuesta satisfactoria sobre por qué existen tanto Gaudi como Ponte Vecchio. ¿No aumentaría Intel sus probabilidades de éxito si se concentrara en una sola línea de productos?
Me pregunto cómo trabajan hoy en día los científicos de IA. ¿De verdad se ponen a hackear Cudakernels, o conectan modelos con toolkits de alto nivel como pytorch? Si es lo segundo, y si pytorch ofreciera backends optimizados para distinto hardware, ¿CUDA sería realmente una barrera tan grande?