3 puntos por GN⁺ 2024-09-09 | 2 comentarios | Compartir por WhatsApp
  • Un servidor dedicado para LLM impulsado por 8 tarjetas gráficas RTX 3090. Un total de 192GB de VRAM
  • Construido pensando en ejecutar Llama-3.1 405B de Meta

Historia de fondo

  • En marzo tuvo dificultades para realizar experimentos con LLM con 48GB de VRAM
  • Sintió que necesitaba más VRAM y decidió construir un nuevo sistema
  • Surgieron varias preguntas, como la elección de CPU/plataforma, la importancia de la velocidad de la memoria y la necesidad de líneas PCIe
  • Después de varias horas de investigación, eligió la siguiente plataforma
    • Tarjeta madre Asrock Rack ROMED8-2T (7 ranuras PCIe 4.0x16, 128 líneas PCIe)
    • CPU AMD Epyc Milan 7713 (2.00 GHz/3.675GHz boost, 64 núcleos/128 hilos)
    • 512GB de memoria DDR4-3200 3DS RDIMM
    • 3 fuentes de poder de 1600 watts
    • 8x GPU RTX 3090 (4x NVLink, velocidad de transferencia de datos de 112GB/s por cada par)

Avance de la serie del blog

  • Los desafíos enfrentados durante el armado de este sistema
    • Perforar agujeros en un marco metálico y agregar un interruptor de 30 amperes y 240 voltios
    • Doblar los pines del socket del CPU (no intenten esto en casa)
  • Los problemas de los risers PCIe y la importancia de los adaptadores de dispositivos SAS, los redrivers y los retimers
  • Velocidades de NVLink, ancho de banda de las líneas PCIe, velocidad de transferencia de VRAM y el bloqueo por software de Nvidia al ancho de banda PCIe nativo P2P
  • Benchmarking de motores de inferencia como TensorRT-LLM, vLLM y Aphrodite Engine
  • Entrenamiento y ajuste fino de LLM propios

Conclusión

  • Al ver el avance de la tecnología, recuerda la emoción que sintió al conseguir un HDD de 60GB en 2004
  • Tal vez dentro de 20 años recuerde esta época en la que pensaba que 192GB de VRAM era mucha capacidad
  • Quiere contribuir, a través de este proyecto, a crear tecnologías increíbles del futuro

Resumen de GN⁺

  • Este artículo trata sobre el proceso de construir un servidor de alto rendimiento para modelos de IA
  • Explica cómo construir un servidor LLM usando GPU modernas y un CPU de alto rendimiento
  • Expresa la velocidad del avance tecnológico y la expectativa por el futuro
  • Proyectos con funciones similares incluyen los sistemas DGX de Nvidia o las TPU de Google

2 comentarios

 
brainer 2024-09-09

Solo da envidia..

 
GN⁺ 2024-09-09
Comentarios de Hacker News
  • Primer comentario: Armó su propio servidor para proteger sus datos personales. Con la reciente degradación en la calidad de salida de las plataformas, no se arrepiente de haber gastado dinero en esta configuración.

    • Aprovecha paralelismo de tensores e inferencia por lotes para hacer cosas geniales.
    • Ajusta finamente modelos con datos personales y genera datos sintéticos.
    • Actualmente está construyendo un modelo desde cero como proyecto de entrenamiento y planea escribir un tutorial cuando resuelva los problemas.
    • Ya inició un blog y planea una serie de publicaciones sobre su aprendizaje y descubrimientos.
    • Está listo para recibir ideas o temas con los que valga la pena experimentar.
  • Segundo comentario: Tal vez algún día recordemos esta época como cuando 192 GB de VRAM parecían mucho.

    • Ya se volvió difícil comprar HDD de gran capacidad para NAS, y los precios han subido bastante.
    • Espera que algo parecido pase también con la IA.
    • A los grandes proveedores de nube no les interesa el hardware doméstico barato y quieren extraer datos a través de servicios en la nube.
  • Tercer comentario: Un proyecto para convertir 8 GPU y monitores 4K en un mini muro de píxeles sin bordes.

    • Es un proyecto para composición local de video y fondos generados por IA.
    • Menciona el ejemplo de "The Mandalorian", ofreciendo fondos fotorrealistas en tiempo real.
  • Cuarto comentario: Se pregunta cuánto ayuda realmente NVLink.

    • Armó un rig con 2 tarjetas 3090 y se pregunta si con EPYC podría usar más tarjetas.
    • El costo total fue de unos $3500, y estima que esta configuración estaría más cerca de $12-15k.
  • Quinto comentario: Está muy genial, pero sale caro si no se aprovecha de forma productiva 24/7.

  • Sexto comentario: Tiene curiosidad por la comparación de costos con Tinybox.

    • Serían $25k con 6 tarjetas 4090, o $15k con 6 tarjetas 7900XTX.
    • Es un paquete completo que incluye fuente de poder, CPU, almacenamiento, enfriamiento, ensamblaje y envío.
  • Séptimo comentario: Tiene una configuración parecida en el sótano.

    • Está compuesta por varios nodos y usa un total de 16 tarjetas 3090.
    • Tuvo que instalar un circuito de 30A 240V.
  • Octavo comentario: Se pregunta cómo conectan 8 GPU si la tarjeta madre tiene 7 ranuras PCIe.

    • Quiere saber si usan dos GPU en la misma ranura, limitando el ancho de banda.
  • Noveno comentario: Se pregunta cómo conectan la octava tarjeta si hay 7 ranuras PCIe 4.0 x16.

  • Décimo comentario: Tiene ganas de leer esta serie.

    • Le gustaría encontrar gráficos o datos sobre la relación costo-rendimiento de los modelos de código abierto.
    • Quiere encontrar un valor $/ELO (una métrica que representa el costo de construir y operar la máquina frente al rendimiento promedio del modelo).