- Meta necesita una capacidad de cómputo masiva para entrenar modelos de lenguaje de gran escala (LLM)
- El entrenamiento tradicional de modelos de IA implicaba entrenar una gran cantidad de modelos, pero requería relativamente pocas GPU
- Con la llegada de la IA generativa (GenAI), disminuyó la cantidad de trabajos, pero se volvieron necesarios trabajos muy grandes
Desafíos del entrenamiento de modelos a gran escala
- Confiabilidad del hardware: se necesitan pruebas estrictas y control de calidad para minimizar las interrupciones del entrenamiento por fallas de hardware.
- Recuperación rápida ante fallas: cuando ocurre una falla de hardware, debe ser posible recuperarse rápidamente. Se necesita reducir la sobrecarga de reprogramación y reinicializar el entrenamiento con rapidez.
- Preservación eficiente del estado de entrenamiento: en caso de falla, el estado del entrenamiento debe poder guardarse y restaurarse de forma eficiente.
- Conectividad óptima entre GPU: en el entrenamiento de modelos a gran escala, la transferencia de datos entre GPU es clave. Para ello se necesita infraestructura de red de alta velocidad y protocolos eficientes de transferencia de datos.
Es importante mejorar todas las capas del stack de infraestructura
Software de entrenamiento
- Se apoya a los investigadores para que puedan pasar rápidamente de la investigación a producción usando open source como PyTorch.
- Se desarrollan nuevos algoritmos y técnicas para el entrenamiento a gran escala, y se integran nuevas herramientas y frameworks de software.
Programación
- Se usan algoritmos complejos para optimizar recursos, asignándolos según las necesidades de cada trabajo y programándolos de forma dinámica.
Hardware
- Se requiere hardware de alto rendimiento para manejar el entrenamiento de modelos a gran escala.
- Se optimizó el hardware existente y se modificó la plataforma Grand Teton con GPU NVIDIA H100 para aumentar el TDP de las GPU a 700W y cambiar a HBM3.
Implementación en centros de datos
- Las GPU y los sistemas se colocan de forma óptima en el centro de datos para optimizar recursos como energía, enfriamiento y red.
- Se instala la mayor cantidad posible de racks de GPU para lograr la máxima densidad de cómputo.
Confiabilidad
- Se establecen planes de detección y recuperación para minimizar el tiempo de inactividad cuando falla el hardware.
- Modos de falla frecuentes: GPU no reconocida, UCE de DRAM y SRAM, problemas de cables de red de hardware.
Red
- Para el entrenamiento de modelos a gran escala se necesita infraestructura de red de alta velocidad y protocolos eficientes de transferencia de datos.
- Se construyeron dos clústeres de red, RoCE e InfiniBand, y se aprendió a través de la experiencia operativa.
Almacenamiento
- Se invierte en tecnologías de almacenamiento de alta capacidad y alta velocidad para guardar grandes volúmenes de datos, y se desarrollan nuevas soluciones de almacenamiento adaptadas a tareas específicas.
Perspectivas a futuro
- Se planea procesar más datos usando cientos de miles de GPU y manejar mayores distancias y latencias.
- Se adoptarán nuevas tecnologías de hardware y arquitecturas de GPU, y se seguirá evolucionando la infraestructura.
- Se buscará superar los límites de lo posible mientras se navega el entorno cambiante de la IA.
1 comentarios
Comentarios en Hacker News