- Un servidor dedicado para LLM impulsado por 8 tarjetas gráficas RTX 3090. Un total de 192GB de VRAM
- Construido pensando en ejecutar Llama-3.1 405B de Meta
Historia de fondo
- En marzo tuvo dificultades para realizar experimentos con LLM con 48GB de VRAM
- Sintió que necesitaba más VRAM y decidió construir un nuevo sistema
- Surgieron varias preguntas, como la elección de CPU/plataforma, la importancia de la velocidad de la memoria y la necesidad de líneas PCIe
- Después de varias horas de investigación, eligió la siguiente plataforma
- Tarjeta madre Asrock Rack ROMED8-2T (7 ranuras PCIe 4.0x16, 128 líneas PCIe)
- CPU AMD Epyc Milan 7713 (2.00 GHz/3.675GHz boost, 64 núcleos/128 hilos)
- 512GB de memoria DDR4-3200 3DS RDIMM
- 3 fuentes de poder de 1600 watts
- 8x GPU RTX 3090 (4x NVLink, velocidad de transferencia de datos de 112GB/s por cada par)
Avance de la serie del blog
- Los desafíos enfrentados durante el armado de este sistema
- Perforar agujeros en un marco metálico y agregar un interruptor de 30 amperes y 240 voltios
- Doblar los pines del socket del CPU (no intenten esto en casa)
- Los problemas de los risers PCIe y la importancia de los adaptadores de dispositivos SAS, los redrivers y los retimers
- Velocidades de NVLink, ancho de banda de las líneas PCIe, velocidad de transferencia de VRAM y el bloqueo por software de Nvidia al ancho de banda PCIe nativo P2P
- Benchmarking de motores de inferencia como TensorRT-LLM, vLLM y Aphrodite Engine
- Entrenamiento y ajuste fino de LLM propios
Conclusión
- Al ver el avance de la tecnología, recuerda la emoción que sintió al conseguir un HDD de 60GB en 2004
- Tal vez dentro de 20 años recuerde esta época en la que pensaba que 192GB de VRAM era mucha capacidad
- Quiere contribuir, a través de este proyecto, a crear tecnologías increíbles del futuro
Resumen de GN⁺
- Este artículo trata sobre el proceso de construir un servidor de alto rendimiento para modelos de IA
- Explica cómo construir un servidor LLM usando GPU modernas y un CPU de alto rendimiento
- Expresa la velocidad del avance tecnológico y la expectativa por el futuro
- Proyectos con funciones similares incluyen los sistemas DGX de Nvidia o las TPU de Google
2 comentarios
Solo da envidia..
Comentarios de Hacker News
Primer comentario: Armó su propio servidor para proteger sus datos personales. Con la reciente degradación en la calidad de salida de las plataformas, no se arrepiente de haber gastado dinero en esta configuración.
Segundo comentario: Tal vez algún día recordemos esta época como cuando 192 GB de VRAM parecían mucho.
Tercer comentario: Un proyecto para convertir 8 GPU y monitores 4K en un mini muro de píxeles sin bordes.
Cuarto comentario: Se pregunta cuánto ayuda realmente NVLink.
Quinto comentario: Está muy genial, pero sale caro si no se aprovecha de forma productiva 24/7.
Sexto comentario: Tiene curiosidad por la comparación de costos con Tinybox.
Séptimo comentario: Tiene una configuración parecida en el sótano.
Octavo comentario: Se pregunta cómo conectan 8 GPU si la tarjeta madre tiene 7 ranuras PCIe.
Noveno comentario: Se pregunta cómo conectan la octava tarjeta si hay 7 ranuras PCIe 4.0 x16.
Décimo comentario: Tiene ganas de leer esta serie.