- Meta anunció dos clústeres de 24,576 GPU como parte de una inversión clave para el futuro de la IA
- Compartió detalles sobre hardware, red, almacenamiento, diseño, rendimiento y software
- Este diseño de clúster se utilizó para el entrenamiento de Llama 3
- Meta está comprometida con Open Compute y el código abierto
- Construye estos clústeres sobre la base de Grand Teton, OpenRack y PyTorch, y sigue impulsando la innovación abierta en toda la industria
- Este anuncio es una etapa dentro de una ambiciosa hoja de ruta de infraestructura
- Su objetivo es seguir expandiendo la infraestructura para incluir 350,000 GPU NVIDIA H100 como parte de un portafolio con capacidad de cómputo equivalente a casi 600,000 H100 para finales de 2024
Perspectivas sobre los clústeres masivos de IA de Meta
- La visión de largo plazo de Meta es crear inteligencia artificial general (AGI) construida de forma abierta y responsable para que todas las personas puedan beneficiarse
- El progreso hacia la AGI da lugar a nuevos productos, nuevas funciones de IA en las apps y nuevos dispositivos de cómputo centrados en IA
- Meta tiene una larga historia construyendo infraestructura de IA, y en 2022 compartió por primera vez detalles sobre su AI Research SuperCluster (RSC), que contaba con 16,000 GPU NVIDIA A100
Estructura interna
- Los nuevos clústeres de IA se construyeron sobre los éxitos y las lecciones obtenidas con RSC
- Con énfasis en la experiencia y productividad de investigadores y desarrolladores, soportan modelos más grandes y complejos gracias a la eficiencia de una red fabric de alto rendimiento y a decisiones clave de almacenamiento
Red
- Meta procesa decenas de billones de ejecuciones de modelos de IA al día
- Para ofrecer servicios a gran escala, se necesita una infraestructura altamente evolucionada y flexible
- Meta diseña a medida su propio hardware, software y network fabric para optimizar la experiencia de los investigadores de IA y garantizar una operación eficiente de los centros de datos
Cómputo
- Los dos clústeres se construyeron usando Grand Teton, la plataforma abierta de hardware GPU diseñada internamente por Meta
- Grand Teton integra energía, control, cómputo e interfaces de fabric en un solo chasis, lo que mejora el rendimiento general, la integridad de la señal y el desempeño térmico
Almacenamiento
- En el entrenamiento de IA, el almacenamiento cumple un papel importante, pero es uno de los aspectos menos mencionados
- Se optimizó una versión de la solución de almacenamiento distribuido 'Tectonic' de Meta para medios flash
- Mediante una API FUSE (Linux Filesystem in Userspace) desarrollada internamente, resuelve las necesidades de datos y checkpointing de los clústeres de IA
- Miles de GPU pueden guardar y cargar checkpoints de manera sincronizada, y se proporciona almacenamiento a escala de exabytes, flexible y de alto throughput, necesario para la carga de datos
- En colaboración con Hammerspace, desarrolló conjuntamente una implementación de sistema de archivos de red paralelo (NFS)
Rendimiento
- Al construir clústeres masivos de IA, un principio importante es maximizar al mismo tiempo el rendimiento y la facilidad de uso
- La mejor forma de probar la capacidad de escalamiento de un diseño mientras se empujan los límites de los sistemas de IA es simplemente construir el sistema, optimizarlo y probarlo de verdad
- Meta prueba la escalabilidad de sus diseños construyendo los sistemas, optimizándolos y evaluándolos en condiciones reales
- Sigue haciendo evolucionar PyTorch, el framework base de IA que soporta las cargas de trabajo de IA, para prepararlo para entrenamientos con decenas e incluso cientos de miles de GPU
Compromiso con la innovación abierta en IA
- Meta mantiene su compromiso con la innovación abierta tanto en software como en hardware de IA
- Como miembro fundador de OCP, sigue apoyando la innovación en hardware abierto y aporta a la comunidad OCP diseños como Grand Teton y Open Rack
- También es el mayor y principal contribuyente de PyTorch, el framework de software de IA que da soporte a gran parte de la industria
- El hardware y software de código abierto se consideran herramientas importantes para ayudar a resolver problemas a gran escala
El futuro de la infraestructura de IA de Meta
- Estos dos diseños de clústeres de entrenamiento de IA forman parte de una hoja de ruta más amplia para el futuro de la IA
- Meta planea seguir expandiendo la infraestructura para incluir 350,000 NVIDIA H100 como parte de un portafolio con capacidad de cómputo equivalente a 600,000 H100 para finales de 2024
Opinión de GN⁺
- El clúster de 24k GPU anunciado por Meta representa un avance importante para la investigación y el desarrollo en IA, especialmente al proporcionar los potentes recursos de cómputo necesarios para entrenar modelos de IA a gran escala
- A medida que la complejidad y el tamaño de los modelos de IA siguen aumentando, esta infraestructura sienta las bases para que los investigadores desarrollen soluciones de IA aún más innovadoras
- El compromiso de Meta con el código abierto y Open Compute puede impulsar la innovación en toda la industria y ayudar a que otras organizaciones aprovechen estas tecnologías para desarrollar sus propias soluciones de IA
- Sin embargo, estos clústeres a gran escala obligan a considerar el impacto ambiental asociado con su enorme consumo de energía, lo que podría convertirse en un aspecto importante en términos de sostenibilidad
- Este anuncio de Meta ofrece una visión interesante del futuro de la tecnología de IA y brinda la oportunidad de reflexionar más profundamente sobre el impacto que el avance de la IA tendrá en la sociedad y la industria
1 comentarios
Comentarios de Hacker News
Mención de float8 y aumento de FLOPs
Comparación entre la era puntocom y la era de la IA
Relación entre poder de cómputo y tiempo de ingeniería
Interés en trabajar en optimización de pipelines
Capacidad de ingeniería de Meta
Perspectiva histórica sobre ingeniería e infraestructura
Posibilidad de que Meta compita en cargas de trabajo de IA
Costo de las GPU H100
Actitud abierta de Meta hacia la innovación en IA
Visión de largo plazo de Meta y AGI