6 puntos por GN⁺ 2024-06-13 | 1 comentarios | Compartir por WhatsApp
  • Meta necesita una capacidad de cómputo masiva para entrenar modelos de lenguaje de gran escala (LLM)
  • El entrenamiento tradicional de modelos de IA implicaba entrenar una gran cantidad de modelos, pero requería relativamente pocas GPU
  • Con la llegada de la IA generativa (GenAI), disminuyó la cantidad de trabajos, pero se volvieron necesarios trabajos muy grandes

Desafíos del entrenamiento de modelos a gran escala

  • Confiabilidad del hardware: se necesitan pruebas estrictas y control de calidad para minimizar las interrupciones del entrenamiento por fallas de hardware.
  • Recuperación rápida ante fallas: cuando ocurre una falla de hardware, debe ser posible recuperarse rápidamente. Se necesita reducir la sobrecarga de reprogramación y reinicializar el entrenamiento con rapidez.
  • Preservación eficiente del estado de entrenamiento: en caso de falla, el estado del entrenamiento debe poder guardarse y restaurarse de forma eficiente.
  • Conectividad óptima entre GPU: en el entrenamiento de modelos a gran escala, la transferencia de datos entre GPU es clave. Para ello se necesita infraestructura de red de alta velocidad y protocolos eficientes de transferencia de datos.

Es importante mejorar todas las capas del stack de infraestructura

Software de entrenamiento

  • Se apoya a los investigadores para que puedan pasar rápidamente de la investigación a producción usando open source como PyTorch.
  • Se desarrollan nuevos algoritmos y técnicas para el entrenamiento a gran escala, y se integran nuevas herramientas y frameworks de software.

Programación

  • Se usan algoritmos complejos para optimizar recursos, asignándolos según las necesidades de cada trabajo y programándolos de forma dinámica.

Hardware

  • Se requiere hardware de alto rendimiento para manejar el entrenamiento de modelos a gran escala.
  • Se optimizó el hardware existente y se modificó la plataforma Grand Teton con GPU NVIDIA H100 para aumentar el TDP de las GPU a 700W y cambiar a HBM3.

Implementación en centros de datos

  • Las GPU y los sistemas se colocan de forma óptima en el centro de datos para optimizar recursos como energía, enfriamiento y red.
  • Se instala la mayor cantidad posible de racks de GPU para lograr la máxima densidad de cómputo.

Confiabilidad

  • Se establecen planes de detección y recuperación para minimizar el tiempo de inactividad cuando falla el hardware.
  • Modos de falla frecuentes: GPU no reconocida, UCE de DRAM y SRAM, problemas de cables de red de hardware.

Red

  • Para el entrenamiento de modelos a gran escala se necesita infraestructura de red de alta velocidad y protocolos eficientes de transferencia de datos.
  • Se construyeron dos clústeres de red, RoCE e InfiniBand, y se aprendió a través de la experiencia operativa.

Almacenamiento

  • Se invierte en tecnologías de almacenamiento de alta capacidad y alta velocidad para guardar grandes volúmenes de datos, y se desarrollan nuevas soluciones de almacenamiento adaptadas a tareas específicas.

Perspectivas a futuro

  • Se planea procesar más datos usando cientos de miles de GPU y manejar mayores distancias y latencias.
  • Se adoptarán nuevas tecnologías de hardware y arquitecturas de GPU, y se seguirá evolucionando la infraestructura.
  • Se buscará superar los límites de lo posible mientras se navega el entorno cambiante de la IA.

1 comentarios

 
GN⁺ 2024-06-13
Comentarios en Hacker News
  • Problema de conexión de GPU: Se menciona un problema en el que la GPU no es reconocida en el bus PCIe.
  • Infraestructura de enfriamiento: Tuvieron que cambiar el diseño mecánico y térmico mientras mantenían el entorno existente de refrigeración por aire.
  • Restricciones de tiempo: Las limitaciones de tiempo afectaron la calidad general del modelo.
  • Función de búsqueda de Meta: Opinión de que sería mejor que Meta mejorara su función de búsqueda en lugar de entrenar un nuevo LLM.
  • Método de recopilación de datos: Hay curiosidad sobre cómo Meta recopila y prepara los datos, especialmente cómo depura la PII (información de identificación personal).
  • Problema de costos: Se menciona que los LLM podrían ser poco realistas fuera de aplicaciones en la nube debido a los costos.
  • Construcción de clústeres: Resulta impresionante el intento de construir dos clústeres de 24k para aprender experiencia operativa.
  • Programación de tareas: Falta información específica sobre cómo programan tareas en grandes arreglos de máquinas.
  • Monetización: No está claro cómo Meta generará ingresos usando LLM a gran escala.
  • Ventaja de Google en IA: Opinión de que Google lleva ventaja en IA gracias a su silicio personalizado.
  • Nombre de dominio: Resulta interesante que el dominio de Meta siga siendo engineering.fb.com.