Construcción de la infraestructura GenAI de Meta

(engineering.fb.com)

4 puntos por GN⁺ 2024-03-13 | 1 comentarios | Compartir por WhatsApp

Meta anunció dos clústeres de 24,576 GPU como parte de una inversión clave para el futuro de la IA
- Compartió detalles sobre hardware, red, almacenamiento, diseño, rendimiento y software
- Este diseño de clúster se utilizó para el entrenamiento de Llama 3
Meta está comprometida con Open Compute y el código abierto
- Construye estos clústeres sobre la base de Grand Teton, OpenRack y PyTorch, y sigue impulsando la innovación abierta en toda la industria
Este anuncio es una etapa dentro de una ambiciosa hoja de ruta de infraestructura
- Su objetivo es seguir expandiendo la infraestructura para incluir 350,000 GPU NVIDIA H100 como parte de un portafolio con capacidad de cómputo equivalente a casi 600,000 H100 para finales de 2024

Perspectivas sobre los clústeres masivos de IA de Meta

La visión de largo plazo de Meta es crear inteligencia artificial general (AGI) construida de forma abierta y responsable para que todas las personas puedan beneficiarse
El progreso hacia la AGI da lugar a nuevos productos, nuevas funciones de IA en las apps y nuevos dispositivos de cómputo centrados en IA
Meta tiene una larga historia construyendo infraestructura de IA, y en 2022 compartió por primera vez detalles sobre su AI Research SuperCluster (RSC), que contaba con 16,000 GPU NVIDIA A100

Estructura interna

Los nuevos clústeres de IA se construyeron sobre los éxitos y las lecciones obtenidas con RSC
Con énfasis en la experiencia y productividad de investigadores y desarrolladores, soportan modelos más grandes y complejos gracias a la eficiencia de una red fabric de alto rendimiento y a decisiones clave de almacenamiento

Red

Meta procesa decenas de billones de ejecuciones de modelos de IA al día
Para ofrecer servicios a gran escala, se necesita una infraestructura altamente evolucionada y flexible
Meta diseña a medida su propio hardware, software y network fabric para optimizar la experiencia de los investigadores de IA y garantizar una operación eficiente de los centros de datos

Cómputo

Los dos clústeres se construyeron usando Grand Teton, la plataforma abierta de hardware GPU diseñada internamente por Meta
Grand Teton integra energía, control, cómputo e interfaces de fabric en un solo chasis, lo que mejora el rendimiento general, la integridad de la señal y el desempeño térmico

Almacenamiento

En el entrenamiento de IA, el almacenamiento cumple un papel importante, pero es uno de los aspectos menos mencionados
Se optimizó una versión de la solución de almacenamiento distribuido 'Tectonic' de Meta para medios flash
- Mediante una API FUSE (Linux Filesystem in Userspace) desarrollada internamente, resuelve las necesidades de datos y checkpointing de los clústeres de IA
- Miles de GPU pueden guardar y cargar checkpoints de manera sincronizada, y se proporciona almacenamiento a escala de exabytes, flexible y de alto throughput, necesario para la carga de datos
En colaboración con Hammerspace, desarrolló conjuntamente una implementación de sistema de archivos de red paralelo (NFS)

Rendimiento

Al construir clústeres masivos de IA, un principio importante es maximizar al mismo tiempo el rendimiento y la facilidad de uso
La mejor forma de probar la capacidad de escalamiento de un diseño mientras se empujan los límites de los sistemas de IA es simplemente construir el sistema, optimizarlo y probarlo de verdad
Meta prueba la escalabilidad de sus diseños construyendo los sistemas, optimizándolos y evaluándolos en condiciones reales
Sigue haciendo evolucionar PyTorch, el framework base de IA que soporta las cargas de trabajo de IA, para prepararlo para entrenamientos con decenas e incluso cientos de miles de GPU

Compromiso con la innovación abierta en IA

Meta mantiene su compromiso con la innovación abierta tanto en software como en hardware de IA
Como miembro fundador de OCP, sigue apoyando la innovación en hardware abierto y aporta a la comunidad OCP diseños como Grand Teton y Open Rack
También es el mayor y principal contribuyente de PyTorch, el framework de software de IA que da soporte a gran parte de la industria
El hardware y software de código abierto se consideran herramientas importantes para ayudar a resolver problemas a gran escala

El futuro de la infraestructura de IA de Meta

Estos dos diseños de clústeres de entrenamiento de IA forman parte de una hoja de ruta más amplia para el futuro de la IA
Meta planea seguir expandiendo la infraestructura para incluir 350,000 NVIDIA H100 como parte de un portafolio con capacidad de cómputo equivalente a 600,000 H100 para finales de 2024

Opinión de GN⁺

El clúster de 24k GPU anunciado por Meta representa un avance importante para la investigación y el desarrollo en IA, especialmente al proporcionar los potentes recursos de cómputo necesarios para entrenar modelos de IA a gran escala
A medida que la complejidad y el tamaño de los modelos de IA siguen aumentando, esta infraestructura sienta las bases para que los investigadores desarrollen soluciones de IA aún más innovadoras
El compromiso de Meta con el código abierto y Open Compute puede impulsar la innovación en toda la industria y ayudar a que otras organizaciones aprovechen estas tecnologías para desarrollar sus propias soluciones de IA
Sin embargo, estos clústeres a gran escala obligan a considerar el impacto ambiental asociado con su enorme consumo de energía, lo que podría convertirse en un aspecto importante en términos de sostenibilidad
Este anuncio de Meta ofrece una visión interesante del futuro de la tecnología de IA y brinda la oportunidad de reflexionar más profundamente sobre el impacto que el avance de la IA tendrá en la sociedad y la industria

1 comentarios

GN⁺ 2024-03-13

Comentarios de Hacker News

Mención de float8 y aumento de FLOPs
- Se mencionó float8, y esto duplica los FLOPs.
- xformers ahora soporta esparsidad 2:4, lo que podría duplicar adicionalmente los FLOPs.
- Llama3 también podría usar 4 veces los FLOPs de H100 float16 usando float8 y esparsidad 2:4 en el MLP.
- PyTorch soporta fp8 de forma experimental, pero sigue siendo complicado hacer attention en float8 debido a problemas de precisión.
- Probablemente attention pueda hacerse en float16, RoPE/layernorms en float16/float32, y todo lo demás en float8.
Comparación entre la era puntocom y la era de la IA
- Una persona que vivió la era puntocom siente algo de desánimo con la era de la IA por los enormes costos de capital requeridos para entrenar modelos.
- En los inicios de la era puntocom, cualquiera podía lanzar un sitio de comercio electrónico con costos de infraestructura relativamente bajos.
- Ahora parece que solo grandes empresas como Meta, Google, Microsoft y OpenAI pueden construir modelos de IA.
Relación entre poder de cómputo y tiempo de ingeniería
- Hay interés en saber si, si Facebook pudiera aumentar 10 veces su poder de cómputo, habría que rediseñar todo el stack, y qué pasaría si fuera 100 veces.
- Se cuestiona si cada rediseño sería un cambio simple o un trabajo mucho más complejo.
- Como el entendimiento técnico del interior del clúster es superficial, hay curiosidad por la opinión de alguien con experiencia relacionada.
Interés en trabajar en optimización de pipelines
- Se pregunta cómo empezar alguien que quisiera participar en trabajo de optimización de pipelines.
- Hay curiosidad sobre si esto lo hace un científico de machine learning con conocimientos de C/C++ e infraestructura que "baja" al nivel de sistemas cuando hace falta, o si un experto en CUDA/SIMD "sube" para trabajar en tareas de machine learning.
Capacidad de ingeniería de Meta
- Meta muestra resultados sólidos en ingeniería a pesar de la presión negativa.
- Surge la duda de cómo planea Meta monetizar esa capacidad de ingeniería.
Perspectiva histórica sobre ingeniería e infraestructura
- Se mencionan el paper de DLRM y los primeros racks desagregados y SDN de Facebook.
- Ya en 2018 realizaban recomendación y ranking con redes neuronales grandes, colocando SSD y DRAM en distintas partes del rack.
- Se menciona el modelo de predicción de clics y sorprende el método de entrenamiento HOGWILD usando Intel AVX-2.
- Se enfatiza que Meta sigue teniendo capacidades de primer nivel en diseño de infraestructura y diseño de SKU.
Posibilidad de que Meta compita en cargas de trabajo de IA
- Hay curiosidad sobre la posibilidad de que Meta compita con AWS, MSFT y GOOG en el área de cargas de trabajo de IA.
Costo de las GPU H100
- Se estima cuánto paga Meta por las GPU H100.
- Si comprara 350,000 NVIDIA H100 a $10k, el costo total sería de $3.5b.
Actitud abierta de Meta hacia la innovación en IA
- Se reconoce que Meta muestra una actitud abierta hacia la innovación en IA.
Visión de largo plazo de Meta y AGI
- La visión de largo plazo de Meta es construir inteligencia artificial general (AGI).

Construcción de la infraestructura GenAI de Meta

Perspectivas sobre los clústeres masivos de IA de Meta

Estructura interna

Red

Cómputo

Almacenamiento

Rendimiento

Compromiso con la innovación abierta en IA

El futuro de la infraestructura de IA de Meta

Opinión de GN⁺

Lecturas relacionadas

1 comentarios

Comentarios de Hacker News