- La serie "Behind the Compute" es una serie de publicaciones del blog que documenta la trayectoria empresarial de Stability AI y ofrece ideas para que otros puedan aprovechar el poder de la IA generativa
- En esta entrega, profundizan en los benchmarks de rendimiento y las ventajas de distintas soluciones de cómputo
Análisis de rendimiento
- Realizaron un análisis de rendimiento entrenando dos modelos, uno de ellos Stable Diffusion 3, muy esperado
- Midieron la velocidad de entrenamiento comparando el acelerador Intel Gaudi 2 con los A100 y H100 de Nvidia
- Estas son las opciones que más suelen elegir startups y desarrolladores para entrenar modelos de lenguaje a gran escala
Modelo 1: Stable Diffusion 3
- Stable Diffusion 3 es su modelo de texto a imagen más capaz y pronto entrará en una fase de vista previa inicial
- La versión pública de Stable Diffusion 3 estará disponible en tamaños de entre 800M y 8B parámetros
- El análisis con la versión de 2B parámetros mostró resultados mejores de lo esperado
- Midieron el throughput de entrenamiento del modelo con arquitectura 2B Multimodal Diffusion Transformer (MMDiT), que usa d=24, precisión mixta BFloat16 y atención optimizada (xFormers para A100 y FusedSDPA para Intel Gaudi)
- A esta versión del modelo la llaman MMDiT-ps2-d24
- Al revisar los resultados del benchmark de entrenamiento con 2 nodos y un total de 16 aceleradores (Gaudi/GPU), el sistema Gaudi 2 procesó 927 imágenes de entrenamiento por segundo manteniendo un tamaño de lote de 16 por acelerador: 1.5 veces más rápido que el H100-80GB
- Aprovechando los 96GB de memoria de alto ancho de banda (HBM2E) de Gaudi 2, aumentaron el tamaño de lote a 32 por acelerador y mejoraron aún más la velocidad de entrenamiento hasta 1,254 imágenes por segundo
- También midieron un rendimiento muy competitivo al escalar el entrenamiento distribuido a 32 nodos de Gaudi 2, con un total de 256 aceleradores
- En esta configuración, el clúster de Gaudi 2 procesó más de 3 veces más imágenes por segundo que la GPU A100-80GB. Esto resulta impresionante incluso considerando que el A100 tiene una pila de software muy optimizada
- En pruebas de inferencia para el modelo Stable Diffusion 3 de 8B parámetros, el chip Gaudi 2 ofreció una velocidad de inferencia similar a la del chip Nvidia A100 usando PyTorch base
- Sin embargo, con optimización TensorRT, el chip A100 generó imágenes un 40% más rápido que Gaudi 2
- Esperan que, con optimizaciones adicionales, Gaudi 2 pronto supere al A100 en este modelo
- En pruebas anteriores usando PyTorch base, Gaudi 2 generó imágenes de 1024x1024 en solo 3.2 segundos a lo largo de 30 pasos, mientras que el A100 tardó 3.6 segundos con PyTorch y 2.7 segundos con TensorRT
- Gracias a su mayor memoria, interconexión más rápida y otras consideraciones de diseño, Gaudi 2 es competitivo para ejecutar la arquitectura Diffusion Transformer que impulsa a la próxima generación de modelos de medios
Modelo 2: Stable Beluga 2.5 70B
- Stable Beluga 2.5 70B es una versión ajustada de LLaMA 2 70B, basada en Stable Beluga 2, el primer modelo abierto que superó a ChatGPT 3.5 en ciertos benchmarks
- Realizaron este benchmark de entrenamiento en 256 aceleradores Gaudi 2 y midieron un throughput total promedio de 116,777 tokens/segundo ejecutando el código PyTorch tal cual, sin optimizaciones adicionales
- Esto usa tipo de datos FP16, tamaño de lote global 1024, 2 pasos de acumulación de gradiente y tamaño de micro lote 2
- Cuando realizaron pruebas de inferencia para el modelo de lenguaje 70B en Gaudi 2, generó 673 tokens/segundo por acelerador usando un tamaño de token de entrada de 128 y un tamaño de token de salida de 2048
- En comparación con TensorRT-LLM, Gaudi 2 es 28% más rápido que los 525 tokens/segundo del A100
- Esperan mejoras adicionales de velocidad con FP8
Demanda de soluciones de cómputo
- Empresas como la nuestra enfrentan una demanda creciente de soluciones de cómputo cada vez más potentes y eficientes
- Nuestros hallazgos resaltan la necesidad de alternativas como Gaudi 2. No solo ofrece un rendimiento superior al de otros chips de 7nm, sino que también responde a necesidades clave del mercado, como mejor relación precio-rendimiento, menor costo y tiempos de entrega reducidos
- La posibilidad de elegir entre distintas opciones de cómputo amplía la participación y la innovación, y hace que la tecnología avanzada de IA sea más accesible para todos
1 comentarios
Opiniones de Hacker News
Cudakernels, o conectan modelos con toolkits de alto nivel como pytorch? Si es lo segundo, y si pytorch ofreciera backends optimizados para distinto hardware, ¿CUDA sería realmente una barrera tan grande?