6 puntos por xguru 2024-03-12 | 1 comentarios | Compartir por WhatsApp
  • La serie "Behind the Compute" es una serie de publicaciones del blog que documenta la trayectoria empresarial de Stability AI y ofrece ideas para que otros puedan aprovechar el poder de la IA generativa
  • En esta entrega, profundizan en los benchmarks de rendimiento y las ventajas de distintas soluciones de cómputo

Análisis de rendimiento

  • Realizaron un análisis de rendimiento entrenando dos modelos, uno de ellos Stable Diffusion 3, muy esperado
  • Midieron la velocidad de entrenamiento comparando el acelerador Intel Gaudi 2 con los A100 y H100 de Nvidia
  • Estas son las opciones que más suelen elegir startups y desarrolladores para entrenar modelos de lenguaje a gran escala

Modelo 1: Stable Diffusion 3

  • Stable Diffusion 3 es su modelo de texto a imagen más capaz y pronto entrará en una fase de vista previa inicial
  • La versión pública de Stable Diffusion 3 estará disponible en tamaños de entre 800M y 8B parámetros
  • El análisis con la versión de 2B parámetros mostró resultados mejores de lo esperado
  • Midieron el throughput de entrenamiento del modelo con arquitectura 2B Multimodal Diffusion Transformer (MMDiT), que usa d=24, precisión mixta BFloat16 y atención optimizada (xFormers para A100 y FusedSDPA para Intel Gaudi)
  • A esta versión del modelo la llaman MMDiT-ps2-d24
  • Al revisar los resultados del benchmark de entrenamiento con 2 nodos y un total de 16 aceleradores (Gaudi/GPU), el sistema Gaudi 2 procesó 927 imágenes de entrenamiento por segundo manteniendo un tamaño de lote de 16 por acelerador: 1.5 veces más rápido que el H100-80GB
  • Aprovechando los 96GB de memoria de alto ancho de banda (HBM2E) de Gaudi 2, aumentaron el tamaño de lote a 32 por acelerador y mejoraron aún más la velocidad de entrenamiento hasta 1,254 imágenes por segundo
  • También midieron un rendimiento muy competitivo al escalar el entrenamiento distribuido a 32 nodos de Gaudi 2, con un total de 256 aceleradores
  • En esta configuración, el clúster de Gaudi 2 procesó más de 3 veces más imágenes por segundo que la GPU A100-80GB. Esto resulta impresionante incluso considerando que el A100 tiene una pila de software muy optimizada
  • En pruebas de inferencia para el modelo Stable Diffusion 3 de 8B parámetros, el chip Gaudi 2 ofreció una velocidad de inferencia similar a la del chip Nvidia A100 usando PyTorch base
  • Sin embargo, con optimización TensorRT, el chip A100 generó imágenes un 40% más rápido que Gaudi 2
  • Esperan que, con optimizaciones adicionales, Gaudi 2 pronto supere al A100 en este modelo
  • En pruebas anteriores usando PyTorch base, Gaudi 2 generó imágenes de 1024x1024 en solo 3.2 segundos a lo largo de 30 pasos, mientras que el A100 tardó 3.6 segundos con PyTorch y 2.7 segundos con TensorRT
  • Gracias a su mayor memoria, interconexión más rápida y otras consideraciones de diseño, Gaudi 2 es competitivo para ejecutar la arquitectura Diffusion Transformer que impulsa a la próxima generación de modelos de medios

Modelo 2: Stable Beluga 2.5 70B

  • Stable Beluga 2.5 70B es una versión ajustada de LLaMA 2 70B, basada en Stable Beluga 2, el primer modelo abierto que superó a ChatGPT 3.5 en ciertos benchmarks
  • Realizaron este benchmark de entrenamiento en 256 aceleradores Gaudi 2 y midieron un throughput total promedio de 116,777 tokens/segundo ejecutando el código PyTorch tal cual, sin optimizaciones adicionales
  • Esto usa tipo de datos FP16, tamaño de lote global 1024, 2 pasos de acumulación de gradiente y tamaño de micro lote 2
  • Cuando realizaron pruebas de inferencia para el modelo de lenguaje 70B en Gaudi 2, generó 673 tokens/segundo por acelerador usando un tamaño de token de entrada de 128 y un tamaño de token de salida de 2048
  • En comparación con TensorRT-LLM, Gaudi 2 es 28% más rápido que los 525 tokens/segundo del A100
  • Esperan mejoras adicionales de velocidad con FP8

Demanda de soluciones de cómputo

  • Empresas como la nuestra enfrentan una demanda creciente de soluciones de cómputo cada vez más potentes y eficientes
  • Nuestros hallazgos resaltan la necesidad de alternativas como Gaudi 2. No solo ofrece un rendimiento superior al de otros chips de 7nm, sino que también responde a necesidades clave del mercado, como mejor relación precio-rendimiento, menor costo y tiempos de entrega reducidos
  • La posibilidad de elegir entre distintas opciones de cómputo amplía la participación y la innovación, y hace que la tecnología avanzada de IA sea más accesible para todos

1 comentarios

 
xguru 2024-03-12

Opiniones de Hacker News

  • Es interesante que las TPU superen con facilidad a las A100. En dreamlook.ai, que ofrece fine-tuning de Stable Diffusion usando TPU, la gente se sorprende por la velocidad de entrega y el costo. Pero no hay un gran secreto: simplemente usan hardware más rápido y más barato por unidad de trabajo.
  • Es bueno fomentar la competencia en el entrenamiento de modelos con nuevo hardware, pero la disponibilidad de estas máquinas es muy limitada. Los principales proveedores de nube no permiten alquilar VM con Gaudi2 por hora, y el propio sitio de Intel te dirige a comprar un servidor de 8x GPU de más de 40k USD. Por ahora, Nvidia todavía lleva ventaja en stack de software y disponibilidad, aunque eso podría empezar a cambiar para finales de este año.
  • NVIDIA obtiene casi un 92% de margen de ganancia con la H100. Sorprende que más empresas de chips no se hayan metido en el campo de los "aceleradores de ML".
  • Sería realmente útil e interesante ver un análisis de por qué puede ser 3 veces más rápido aunque las métricas de hardware no hayan mejorado 3 veces. De lo contrario, esto no pasa de ser simple publicidad.
  • La H100 salió hace casi un año, así que está bien si Intel ya está lista para competir con el modelo del año pasado. Hay que recordar que CUDA es una parte muy importante, y que tanto el hardware como el software tardan 10 años en madurar juntos.
  • La H100 ya se ha estado enviando en volumen desde hace casi un año. ¿Gaudi2 también está disponible a una escala parecida? Nunca hay que descartar a NVIDIA hasta que no deje una ventaja clara frente a piezas competidoras en marcos de tiempo similares.
  • Nadie, incluidos empleados de Intel AXG, ha podido dar una respuesta satisfactoria sobre por qué existen tanto Gaudi como Ponte Vecchio. ¿No aumentaría Intel sus probabilidades de éxito si se concentrara en una sola línea de productos?
  • Me pregunto cómo trabajan hoy en día los científicos de IA. ¿De verdad se ponen a hackear Cudakernels, o conectan modelos con toolkits de alto nivel como pytorch? Si es lo segundo, y si pytorch ofreciera backends optimizados para distinto hardware, ¿CUDA sería realmente una barrera tan grande?