4 puntos por GN⁺ 2024-03-13 | 1 comentarios | Compartir por WhatsApp
  • Meta anunció dos clústeres de 24,576 GPU como parte de una inversión clave para el futuro de la IA
    • Compartió detalles sobre hardware, red, almacenamiento, diseño, rendimiento y software
    • Este diseño de clúster se utilizó para el entrenamiento de Llama 3
  • Meta está comprometida con Open Compute y el código abierto
    • Construye estos clústeres sobre la base de Grand Teton, OpenRack y PyTorch, y sigue impulsando la innovación abierta en toda la industria
  • Este anuncio es una etapa dentro de una ambiciosa hoja de ruta de infraestructura
    • Su objetivo es seguir expandiendo la infraestructura para incluir 350,000 GPU NVIDIA H100 como parte de un portafolio con capacidad de cómputo equivalente a casi 600,000 H100 para finales de 2024

Perspectivas sobre los clústeres masivos de IA de Meta

  • La visión de largo plazo de Meta es crear inteligencia artificial general (AGI) construida de forma abierta y responsable para que todas las personas puedan beneficiarse
  • El progreso hacia la AGI da lugar a nuevos productos, nuevas funciones de IA en las apps y nuevos dispositivos de cómputo centrados en IA
  • Meta tiene una larga historia construyendo infraestructura de IA, y en 2022 compartió por primera vez detalles sobre su AI Research SuperCluster (RSC), que contaba con 16,000 GPU NVIDIA A100

Estructura interna

  • Los nuevos clústeres de IA se construyeron sobre los éxitos y las lecciones obtenidas con RSC
  • Con énfasis en la experiencia y productividad de investigadores y desarrolladores, soportan modelos más grandes y complejos gracias a la eficiencia de una red fabric de alto rendimiento y a decisiones clave de almacenamiento

Red

  • Meta procesa decenas de billones de ejecuciones de modelos de IA al día
  • Para ofrecer servicios a gran escala, se necesita una infraestructura altamente evolucionada y flexible
  • Meta diseña a medida su propio hardware, software y network fabric para optimizar la experiencia de los investigadores de IA y garantizar una operación eficiente de los centros de datos

Cómputo

  • Los dos clústeres se construyeron usando Grand Teton, la plataforma abierta de hardware GPU diseñada internamente por Meta
  • Grand Teton integra energía, control, cómputo e interfaces de fabric en un solo chasis, lo que mejora el rendimiento general, la integridad de la señal y el desempeño térmico

Almacenamiento

  • En el entrenamiento de IA, el almacenamiento cumple un papel importante, pero es uno de los aspectos menos mencionados
  • Se optimizó una versión de la solución de almacenamiento distribuido 'Tectonic' de Meta para medios flash
    • Mediante una API FUSE (Linux Filesystem in Userspace) desarrollada internamente, resuelve las necesidades de datos y checkpointing de los clústeres de IA
    • Miles de GPU pueden guardar y cargar checkpoints de manera sincronizada, y se proporciona almacenamiento a escala de exabytes, flexible y de alto throughput, necesario para la carga de datos
  • En colaboración con Hammerspace, desarrolló conjuntamente una implementación de sistema de archivos de red paralelo (NFS)

Rendimiento

  • Al construir clústeres masivos de IA, un principio importante es maximizar al mismo tiempo el rendimiento y la facilidad de uso
  • La mejor forma de probar la capacidad de escalamiento de un diseño mientras se empujan los límites de los sistemas de IA es simplemente construir el sistema, optimizarlo y probarlo de verdad
  • Meta prueba la escalabilidad de sus diseños construyendo los sistemas, optimizándolos y evaluándolos en condiciones reales
  • Sigue haciendo evolucionar PyTorch, el framework base de IA que soporta las cargas de trabajo de IA, para prepararlo para entrenamientos con decenas e incluso cientos de miles de GPU

Compromiso con la innovación abierta en IA

  • Meta mantiene su compromiso con la innovación abierta tanto en software como en hardware de IA
  • Como miembro fundador de OCP, sigue apoyando la innovación en hardware abierto y aporta a la comunidad OCP diseños como Grand Teton y Open Rack
  • También es el mayor y principal contribuyente de PyTorch, el framework de software de IA que da soporte a gran parte de la industria
  • El hardware y software de código abierto se consideran herramientas importantes para ayudar a resolver problemas a gran escala

El futuro de la infraestructura de IA de Meta

  • Estos dos diseños de clústeres de entrenamiento de IA forman parte de una hoja de ruta más amplia para el futuro de la IA
  • Meta planea seguir expandiendo la infraestructura para incluir 350,000 NVIDIA H100 como parte de un portafolio con capacidad de cómputo equivalente a 600,000 H100 para finales de 2024

Opinión de GN⁺

  • El clúster de 24k GPU anunciado por Meta representa un avance importante para la investigación y el desarrollo en IA, especialmente al proporcionar los potentes recursos de cómputo necesarios para entrenar modelos de IA a gran escala
  • A medida que la complejidad y el tamaño de los modelos de IA siguen aumentando, esta infraestructura sienta las bases para que los investigadores desarrollen soluciones de IA aún más innovadoras
  • El compromiso de Meta con el código abierto y Open Compute puede impulsar la innovación en toda la industria y ayudar a que otras organizaciones aprovechen estas tecnologías para desarrollar sus propias soluciones de IA
  • Sin embargo, estos clústeres a gran escala obligan a considerar el impacto ambiental asociado con su enorme consumo de energía, lo que podría convertirse en un aspecto importante en términos de sostenibilidad
  • Este anuncio de Meta ofrece una visión interesante del futuro de la tecnología de IA y brinda la oportunidad de reflexionar más profundamente sobre el impacto que el avance de la IA tendrá en la sociedad y la industria

1 comentarios

 
GN⁺ 2024-03-13
Comentarios de Hacker News
  • Mención de float8 y aumento de FLOPs

    • Se mencionó float8, y esto duplica los FLOPs.
    • xformers ahora soporta esparsidad 2:4, lo que podría duplicar adicionalmente los FLOPs.
    • Llama3 también podría usar 4 veces los FLOPs de H100 float16 usando float8 y esparsidad 2:4 en el MLP.
    • PyTorch soporta fp8 de forma experimental, pero sigue siendo complicado hacer attention en float8 debido a problemas de precisión.
    • Probablemente attention pueda hacerse en float16, RoPE/layernorms en float16/float32, y todo lo demás en float8.
  • Comparación entre la era puntocom y la era de la IA

    • Una persona que vivió la era puntocom siente algo de desánimo con la era de la IA por los enormes costos de capital requeridos para entrenar modelos.
    • En los inicios de la era puntocom, cualquiera podía lanzar un sitio de comercio electrónico con costos de infraestructura relativamente bajos.
    • Ahora parece que solo grandes empresas como Meta, Google, Microsoft y OpenAI pueden construir modelos de IA.
  • Relación entre poder de cómputo y tiempo de ingeniería

    • Hay interés en saber si, si Facebook pudiera aumentar 10 veces su poder de cómputo, habría que rediseñar todo el stack, y qué pasaría si fuera 100 veces.
    • Se cuestiona si cada rediseño sería un cambio simple o un trabajo mucho más complejo.
    • Como el entendimiento técnico del interior del clúster es superficial, hay curiosidad por la opinión de alguien con experiencia relacionada.
  • Interés en trabajar en optimización de pipelines

    • Se pregunta cómo empezar alguien que quisiera participar en trabajo de optimización de pipelines.
    • Hay curiosidad sobre si esto lo hace un científico de machine learning con conocimientos de C/C++ e infraestructura que "baja" al nivel de sistemas cuando hace falta, o si un experto en CUDA/SIMD "sube" para trabajar en tareas de machine learning.
  • Capacidad de ingeniería de Meta

    • Meta muestra resultados sólidos en ingeniería a pesar de la presión negativa.
    • Surge la duda de cómo planea Meta monetizar esa capacidad de ingeniería.
  • Perspectiva histórica sobre ingeniería e infraestructura

    • Se mencionan el paper de DLRM y los primeros racks desagregados y SDN de Facebook.
    • Ya en 2018 realizaban recomendación y ranking con redes neuronales grandes, colocando SSD y DRAM en distintas partes del rack.
    • Se menciona el modelo de predicción de clics y sorprende el método de entrenamiento HOGWILD usando Intel AVX-2.
    • Se enfatiza que Meta sigue teniendo capacidades de primer nivel en diseño de infraestructura y diseño de SKU.
  • Posibilidad de que Meta compita en cargas de trabajo de IA

    • Hay curiosidad sobre la posibilidad de que Meta compita con AWS, MSFT y GOOG en el área de cargas de trabajo de IA.
  • Costo de las GPU H100

    • Se estima cuánto paga Meta por las GPU H100.
    • Si comprara 350,000 NVIDIA H100 a $10k, el costo total sería de $3.5b.
  • Actitud abierta de Meta hacia la innovación en IA

    • Se reconoce que Meta muestra una actitud abierta hacia la innovación en IA.
  • Visión de largo plazo de Meta y AGI

    • La visión de largo plazo de Meta es construir inteligencia artificial general (AGI).