Cómo Meta entrena modelos de lenguaje a gran escala

(engineering.fb.com)

6 puntos por GN⁺ 2024-06-13 | 1 comentarios | Compartir por WhatsApp

Meta necesita una capacidad de cómputo masiva para entrenar modelos de lenguaje de gran escala (LLM)
El entrenamiento tradicional de modelos de IA implicaba entrenar una gran cantidad de modelos, pero requería relativamente pocas GPU
Con la llegada de la IA generativa (GenAI), disminuyó la cantidad de trabajos, pero se volvieron necesarios trabajos muy grandes

Confiabilidad del hardware: se necesitan pruebas estrictas y control de calidad para minimizar las interrupciones del entrenamiento por fallas de hardware.
Recuperación rápida ante fallas: cuando ocurre una falla de hardware, debe ser posible recuperarse rápidamente. Se necesita reducir la sobrecarga de reprogramación y reinicializar el entrenamiento con rapidez.
Preservación eficiente del estado de entrenamiento: en caso de falla, el estado del entrenamiento debe poder guardarse y restaurarse de forma eficiente.
Conectividad óptima entre GPU: en el entrenamiento de modelos a gran escala, la transferencia de datos entre GPU es clave. Para ello se necesita infraestructura de red de alta velocidad y protocolos eficientes de transferencia de datos.

Se apoya a los investigadores para que puedan pasar rápidamente de la investigación a producción usando open source como PyTorch.
Se desarrollan nuevos algoritmos y técnicas para el entrenamiento a gran escala, y se integran nuevas herramientas y frameworks de software.

Se usan algoritmos complejos para optimizar recursos, asignándolos según las necesidades de cada trabajo y programándolos de forma dinámica.

Se requiere hardware de alto rendimiento para manejar el entrenamiento de modelos a gran escala.
Se optimizó el hardware existente y se modificó la plataforma Grand Teton con GPU NVIDIA H100 para aumentar el TDP de las GPU a 700W y cambiar a HBM3.

Las GPU y los sistemas se colocan de forma óptima en el centro de datos para optimizar recursos como energía, enfriamiento y red.
Se instala la mayor cantidad posible de racks de GPU para lograr la máxima densidad de cómputo.

Se establecen planes de detección y recuperación para minimizar el tiempo de inactividad cuando falla el hardware.
Modos de falla frecuentes: GPU no reconocida, UCE de DRAM y SRAM, problemas de cables de red de hardware.

Para el entrenamiento de modelos a gran escala se necesita infraestructura de red de alta velocidad y protocolos eficientes de transferencia de datos.
Se construyeron dos clústeres de red, RoCE e InfiniBand, y se aprendió a través de la experiencia operativa.

Se invierte en tecnologías de almacenamiento de alta capacidad y alta velocidad para guardar grandes volúmenes de datos, y se desarrollan nuevas soluciones de almacenamiento adaptadas a tareas específicas.

Se planea procesar más datos usando cientos de miles de GPU y manejar mayores distancias y latencias.
Se adoptarán nuevas tecnologías de hardware y arquitecturas de GPU, y se seguirá evolucionando la infraestructura.
Se buscará superar los límites de lo posible mientras se navega el entorno cambiante de la IA.

1 comentarios

GN⁺ 2024-06-13

Problema de conexión de GPU: Se menciona un problema en el que la GPU no es reconocida en el bus PCIe.
Infraestructura de enfriamiento: Tuvieron que cambiar el diseño mecánico y térmico mientras mantenían el entorno existente de refrigeración por aire.
Restricciones de tiempo: Las limitaciones de tiempo afectaron la calidad general del modelo.
Función de búsqueda de Meta: Opinión de que sería mejor que Meta mejorara su función de búsqueda en lugar de entrenar un nuevo LLM.
Método de recopilación de datos: Hay curiosidad sobre cómo Meta recopila y prepara los datos, especialmente cómo depura la PII (información de identificación personal).
Problema de costos: Se menciona que los LLM podrían ser poco realistas fuera de aplicaciones en la nube debido a los costos.
Construcción de clústeres: Resulta impresionante el intento de construir dos clústeres de 24k para aprender experiencia operativa.
Programación de tareas: Falta información específica sobre cómo programan tareas en grandes arreglos de máquinas.
Monetización: No está claro cómo Meta generará ingresos usando LLM a gran escala.
Ventaja de Google en IA: Opinión de que Google lleva ventaja en IA gracias a su silicio personalizado.
Nombre de dominio: Resulta interesante que el dominio de Meta siga siendo engineering.fb.com.