6 puntos por GN⁺ 2024-10-18 | 1 comentarios | Compartir por WhatsApp

Meta revela sus diseños más recientes de hardware de IA en el Open Compute Project (OCP) Global Summit 2024

  • Presentó una vitrina de tecnologías innovadoras, incluyendo una nueva plataforma de IA, diseño de rack abierto de última generación, network fabric avanzadas y componentes
  • Busca fomentar la colaboración e impulsar la innovación al compartir sus diseños

Innovación en modelado de IA y avances de infraestructura en Meta

  • Durante años, Meta ha optimizado y mejorado funciones como los sistemas de feed y anuncios mediante innovación en modelado de IA
  • A medida que desarrolla y lanza modelos de IA nuevos y más avanzados, también se enfoca en hacer evolucionar la infraestructura para soportar nuevas cargas de trabajo de IA
  • Por ejemplo, para entrenar el modelo Llama 3.1 405B, realizó optimizaciones significativas en toda la pila de entrenamiento, permitiendo operarlo en más de 16,000 GPU NVIDIA H100
  • Durante 2023, escaló rápidamente el clúster de entrenamiento de 1K a 16K GPU, y actualmente entrena modelos en un clúster de 24K GPU
  • Se espera que la cantidad de cómputo necesaria para el entrenamiento de IA siga creciendo de forma significativa

La importancia del networking y el ancho de banda para construir clústeres de IA

  • Además de las GPU, el networking y el ancho de banda desempeñan un papel importante para garantizar el rendimiento del clúster
  • Los sistemas de Meta están compuestos por sistemas de cómputo HPC y redes de cómputo de alto ancho de banda que conectan GPU y aceleradores especializados por dominio
  • Se espera un aumento futuro del ancho de banda de inyección hasta niveles de terabytes por segundo por acelerador, lo que representa un crecimiento de más de 10 veces frente a las redes actuales
  • Para soportarlo, se requiere una network fabric de alto rendimiento, multinivel y no bloqueante, que permita aprovechar al máximo el potencial de los clústeres de IA

Asegurar la escalabilidad de la IA mediante hardware abierto

  • Para escalar la IA a este ritmo, se necesitan soluciones de hardware abierto
  • Desarrollar nuevas arquitecturas, network fabrics y diseños de sistemas basados en principios de apertura es lo más eficiente y de mayor impacto
  • Invertir en hardware abierto permite desplegar todo el potencial de la IA e impulsar la innovación continua en este campo

Presentación de "Catalina", una arquitectura abierta para infraestructura de IA

  • Meta anunció a la comunidad de OCP el próximo lanzamiento de Catalina, un rack de alto rendimiento para cargas de trabajo de IA
  • Catalina se basa en una solución de rack a escala completa de la plataforma NVIDIA Blackwell y pone énfasis en la modularidad y la flexibilidad
  • Está diseñado para soportar el más reciente superchip NVIDIA GB200 Grace Blackwell y satisfacer las crecientes demandas de la infraestructura moderna de IA
  • Debido al aumento de los requerimientos energéticos de las GPU, las soluciones de open rack deben soportar capacidades eléctricas más altas
  • En Catalina, se introduce el rack Orv3 de alta potencia (HPR), capaz de soportar hasta 140 kW
  • La solución está completamente refrigerada por líquido y consta de varios componentes
  • El diseño modular de Catalina permite personalizar el rack según cargas de trabajo específicas de IA

Soporte para aceleradores AMD en la plataforma Grand Teton

  • Grand Teton es la plataforma de IA de próxima generación de Meta, diseñada para soportar tanto las necesidades de cargas de trabajo limitadas por ancho de banda de memoria como las limitadas por cómputo
  • Ahora la plataforma Grand Teton se ha ampliado para soportar AMD Instinct MI300X, y esta nueva versión será donada a OCP
  • Al igual que la versión anterior, Grand Teton presenta un diseño de sistema monolítico único, con energía, control, cómputo e interfaces de fabric totalmente integradas
  • Además de soportar diversos diseños de aceleradores, incluido AMD Instinct MI300X, ofrece mayor capacidad de cómputo, memoria expandida y más ancho de banda de red

Open Disaggregated Scheduled Fabric (DSF)

  • Para seguir mejorando el rendimiento de los clústeres de entrenamiento de IA, el desarrollo de un backend de networking abierto y neutral respecto a proveedores desempeñará un papel importante
  • Al desagregar la red, es posible colaborar con proveedores de toda la industria para diseñar sistemas innovadores, escalables, flexibles y eficientes
  • El nuevo DSF para los clústeres de IA de próxima generación de Meta ofrece varias ventajas frente a los switches existentes
  • DSF está impulsado por el estándar abierto OCP-SAI y por FBOSS, el sistema operativo de red propio de Meta
  • Soporta interfaces RoCE abiertas y estandarizadas basadas en Ethernet para endpoints y aceleradores a través de múltiples GPU y NIC de varios proveedores, incluidos NVIDIA, Broadcom y AMD
  • Además de DSF, desarrolló e implementó un nuevo fabric switch 51T basado en ASIC de Broadcom y Cisco, y también comparte un nuevo módulo NIC llamado FBNIC, que incluye el primer ASIC de red diseñado internamente por Meta

La colaboración entre Meta y Microsoft para impulsar la innovación abierta

  • Meta y Microsoft mantienen una larga alianza dentro de OCP, iniciada en 2018 con el desarrollo de la Switch Abstraction Interface (SAI) para centros de datos
  • Han contribuido a iniciativas clave como el estándar Open Accelerator Module (OAM) y la estandarización de SSD
  • Actualmente, la colaboración entre ambas empresas se centra en Mount Diablo, un nuevo rack de potencia desagregada
  • Mount Diablo es una solución de última generación con una unidad escalable de 400VDC que mejora la eficiencia y la escalabilidad, impulsando significativamente la infraestructura de IA

El futuro abierto de la infraestructura de IA

  • Meta está comprometida con la IA de código abierto y cree que el open source pondrá los beneficios y oportunidades de la IA en manos de personas de todo el mundo
  • Sin colaboración, la IA no podrá alcanzar su potencial
  • Se necesitan frameworks de software abiertos para impulsar la innovación en modelos, garantizar la portabilidad y promover la transparencia en el desarrollo de IA
  • Debemos priorizar modelos abiertos y estandarizados para aprovechar la experiencia colectiva, hacer la IA más accesible y minimizar los sesgos en los sistemas
  • También se necesitan sistemas de hardware de IA abiertos para ofrecer la infraestructura de alto rendimiento, rentable y adaptable que requiere el avance de la IA
  • Se anima a cualquier persona que quiera contribuir a futuros avances en sistemas de hardware de IA a unirse a la comunidad de OCP
  • Al resolver juntos los requerimientos de infraestructura de la IA, podemos hacer realidad la verdadera promesa de una IA abierta para todos

Opinión de GN⁺

  • La tecnología de red abierta que abarca múltiples proveedores de GPU y NIC puede ayudar a superar la dependencia de un solo proveedor y aumentar la escalabilidad y flexibilidad de los clústeres de entrenamiento de IA
  • La colaboración entre Meta y Microsoft puede desempeñar un papel clave para acelerar la innovación en infraestructura abierta de IA. Se espera que, sobre la base de la alianza que ambas compañías han construido durante años a través de OCP, aceleren el desarrollo de nuevos estándares y soluciones
  • El fuerte respaldo de Meta a la IA de código abierto es alentador. El open source es precisamente el camino para democratizar el potencial de la IA y ampliar sus oportunidades en toda la sociedad
  • En el proceso de construir infraestructura abierta de IA, también deberán abordarse la transparencia, la explicabilidad y las consideraciones éticas. Tan importante como el avance tecnológico es construir confianza social en la IA
  • Para que el ecosistema de hardware y software de IA crezca de forma conjunta, es indispensable la colaboración de toda la industria, junto con la participación de diversos actores como la academia y los responsables de políticas públicas. Se espera que OCP se convierta en una plataforma clave para ello

1 comentarios

 
GN⁺ 2024-10-18
Comentarios en Hacker News
  • Hay quienes ven la competencia entre OpenAI y Meta AI como una competencia de plataformas, similar a macOS vs Windows o iOS vs Android

    • Observan que Meta tiende a abrir la plataforma para ganar cuota de mercado
    • Se cuestiona si Meta seguirá manteniendo la plataforma abierta si termina ganando
  • Zuckerberg y Facebook reciben muchas críticas, pero también están invirtiendo mucho en ingeniería y open source

  • Se menciona que Meta usó más de 16,000 GPU NVIDIA H100 para entrenar el modelo Llama 3.1 405B, lo que implica una inversión a gran escala

    • Se comenta que las acciones de Meta subieron de forma importante después del lanzamiento de su modelo open source
  • Hay opiniones de que el LLM open source de Meta resultará atractivo para muchos usuarios

    • Existe la posibilidad de que OpenAI y Anthropic terminen discutiendo modelos abiertos
  • Se plantea la duda de si Meta, Microsoft y OpenAI podrían colaborar en diseños de chips abiertos para competir con NVIDIA

  • Se menciona la posibilidad de que Meta construya centros de datos para IA junto a sitios de generación de energía, como plantas de fusión nuclear

    • Citando la opinión de Yann LeCun, se explica que la ventaja sería usar electricidad sostenible y de bajo costo
  • Se cuestiona si Meta, después de OpenAI, ahora también está apuntando contra NVIDIA

  • Se menciona que el concepto de "Open" ya se ha convertido en un meme