IA servida desde el sótano: 192GB + 8x RTX 3090

(ahmadosman.com)

3 puntos por GN⁺ 2024-09-09 | 1 comentarios | Compartir por WhatsApp

A medida que crecía la escala de los experimentos personales con LLM, se construyó en casa un servidor de IA dedicado con 8x RTX 3090 y un total de 192GB de VRAM
Como el entorno existente de 48GB de VRAM ya no alcanzaba para seguir el ritmo de los experimentos, se amplió a un nodo multi-GPU pensando incluso en ejecutar Llama-3.1 405B de Meta
La configuración se centra en una Asrock Rack ROMED8-2T, un AMD Epyc Milan 7713, 512GB de DDR4-3200 RDIMM, 3 fuentes de alimentación de 1600W y 8 RTX 3090 conectadas con 4x NVLink
NVLink ofrece una tasa de transferencia de 112GB/s por cada par de GPU, y cuellos de botella como los carriles PCIe, risers, motores de inferencia y fine-tuning quedan como temas principales para artículos posteriores
Construir un servidor doméstico grande para LLM es posible, pero las dificultades de ensamblaje y los costos pueden llevar a errores importantes, por lo que la elección y validación del hardware determinan el éxito o el fracaso

Objetivo del servidor LLM en el sótano

El proyecto paralelo más reciente, AI from The Basement, es un servidor LLM dedicado con 8 tarjetas gráficas RTX 3090 y un total de 192GB de VRAM
Uno de los objetivos es ejecutar Llama-3.1 405B de Meta
Antes se usaban 48GB de VRAM para experimentos con LLM, pero alrededor de marzo de 2024 se concluyó que esa capacidad ya no era suficiente para seguir el ritmo de las pruebas
En el proceso de selección de hardware se evaluaron en conjunto la CPU y la plataforma, la velocidad de memoria, la cantidad de carriles PCIe, una configuración de GPU en potencias de 2, el paralelismo de tensores y la elección del motor de inferencia

Configuración de hardware y puntos clave del proceso de construcción

La plataforma final combina una motherboard de nivel servidor, una CPU EPYC, memoria de gran capacidad, múltiples fuentes de alimentación y 8 GPU
- Motherboard Asrock Rack ROMED8-2T: 7 ranuras PCIe 4.0 x16, 128 carriles PCIe
- CPU AMD Epyc Milan 7713: 2.00GHz, boost de 3.675GHz, 64 núcleos/128 hilos
- Memoria 512GB DDR4-3200 3DS RDIMM
- 3 fuentes de alimentación de 1600W
- GPU 8x RTX 3090 y 4x NVLink
NVLink ofrece una tasa de transferencia de datos de 112GB/s entre cada par de GPU
En el ensamblaje real surgieron problemas físicos como perforar agujeros en el marco metálico, agregar un disyuntor de 30A 240V y pines doblados en el socket de la CPU
También se aborda la importancia de SAS Device Adapter, Redriver y Retimer para los problemas con risers PCIe y conexiones PCIe sin errores
En artículos posteriores se tratarán la velocidad de NVLink, el ancho de banda de los carriles PCIe, la velocidad de transferencia de VRAM y la decisión de Nvidia de bloquear a nivel de software el ancho de banda PCIe nativo P2P
También quedan como próximos temas los benchmarks de motores de inferencia con soporte de paralelismo de tensores, como TensorRT-LLM, vLLM y Aphrodite Engine, además del entrenamiento y fine-tuning de LLM propios
Se usa como ejemplo de avance tecnológico la experiencia de haber estado feliz en 2004 con un HDD de 60GB, comparada con el hecho de que, 20 años después, una sola máquina tenga más del triple de esa capacidad en sus tarjetas gráficas
El propósito del proyecto es contribuir a crear cosas geniales que aparecerán en el futuro, y se considera posible que algún día se recuerde que 192GB de VRAM tampoco era tanto
Part II of this Blogpost Series se ofrece como artículo de continuación

1 comentarios

brainer 2024-09-09

Solo da envidia..

IA servida desde el sótano: 192GB + 8x RTX 3090

Objetivo del servidor LLM en el sótano

Configuración de hardware y puntos clave del proceso de construcción

Lecturas relacionadas

1 comentarios