- Experimento de modificar un servidor Nvidia Grace-Hopper GH200 para convertirlo en una desktop de IA personal, logrando un nivel de rendimiento capaz de ejecutar modelos de 235B parámetros en local
- Compró en Reddit un sistema GH200 usado por 7.500 euros y volvió a ensamblar un servidor de centro de datos con refrigeración líquida como una desktop con refrigeración por aire
- Realizó múltiples tareas de troubleshooting de hardware por problemas de refrigeración, energía y errores de sensores, incluyendo una temperatura de GPU mostrada como 16,77 millones de °C, daño en el circuito de ventiladores y recuperación manual con soldadura
- Finalmente completó un sistema estable combinando 4 coolers de refrigeración líquida, adaptadores mecanizados por CNC y piezas impresas en 3D
- Con un costo total de unos 9.000 euros, armó una workstation de IA de ultra alto rendimiento por menos que el precio de una sola GPU H100
Compra y especificaciones del servidor Grace-Hopper
- Encontró en el foro r/LocalLLaMA de Reddit un anuncio de un servidor GH200 de 10.000 euros y, tras negociar, lo compró por 7.500 euros
- Configuración: 2× Grace-Hopper Superchip, 2× CPU Grace de 72 núcleos, 2× GPU H100, 480GB LPDDR5X, 96GB HBM3, para un total de 1.152GB de memoria de alta velocidad
- Ancho de banda NVLink-C2C de 900GB/s, consumo de 1.000~2.000W e incluye PSU de 3.000W
- El vendedor era GPTshop.ai, una empresa que vende servidores Nvidia modificados como desktops
- El sistema originalmente era una especie de “frankensystem” que convertía un servidor con refrigeración líquida en uno con refrigeración por aire
- Tenía un aspecto tosco, no podía montarse en rack y llevaba una fuente de alimentación de 48V
Desmontaje y limpieza del servidor
- El servidor estaba en un estado de contaminación severa por polvo, y sus 8 ventiladores de alta potencia generaban un ruido al nivel de una aspiradora
- Era demasiado ruidoso para usarlo en casa, así que procedió a desmontarlo, limpiarlo y volver a ensamblarlo
- Lavó toda la motherboard usando varios litros de isopropanol y la dejó secar durante una semana sobre un piso calefaccionado
- Desmontó el módulo Grace-Hopper para revisar su estado interno y explorar su estructura
Reconfiguración del sistema de refrigeración líquida
- Por el riesgo de fugas, usó 4 coolers AIO Arctic Liquid Freezer III 420 en lugar de bloques personalizados
- Tras medir las dimensiones de los dies de GPU y CPU, diseñó bloques adaptadores en Fusion 360
- Fabricó prototipos con una impresora 3D Bambu X1 y luego completó las piezas finales con mecanizado CNC
- Después del mecanizado, retiró el aceite residual y completó la instalación, asegurando el rendimiento térmico
Ensamblaje de la desktop
- Construyó el marco con perfiles de aluminio ProfilAlu, diseñándolo en Fusion 360
- También imprimió en 3D decenas de piezas de montaje para PCB y filtros
- Usó varios kilogramos de filamento para estabilizar la estructura
Principales problemas surgidos
- Al conectar la alimentación de los ventiladores se produjo un sonido de “pop” y humo, dañando parte del circuito de headers de ventilador
- Se estimó daño en los MOSFET por un cálculo incorrecto de corriente
- La energía de los ventiladores se reemplazó con un adaptador separado de 12V-5A
- Por el error de ventiladores, el BMC (Baseboard Management Controller) bloqueaba el arranque
- Se evitó la verificación de ventiladores desactivando
phosphor-sensor-monitor.service
Error de temperatura de GPU y reparación del circuito
- Durante el arranque, la temperatura de la GPU se mostraba como 16.777.214°C, lo que hacía que el sistema se apagara automáticamente
- Esto corresponde al valor máximo de un entero de 24 bits (2²⁴-2) y significa un error en la señal del sensor
- Tras inspeccionarlo con microscopio, confirmó daños en un capacitor de 100nF y una resistencia de 4.7kΩ
- Reparó el circuito con microsoldadura y lo fijó con máscara UV
- Después de volver a ensamblarlo, el sistema arrancó con normalidad
Configuración final y rendimiento
- Piezas adicionales fabricadas:
- Montaje para SSD E1.S de 8TB, panel trasero para PSU de 3kW y malla de protección para los radiadores
- El problema de inicialización de la GPU se resolvió con una configuración para desactivar NVLink
- Añadió
NVreg_NvLinkDisable=1 en /etc/modprobe.d/nvidia-disable-nvlink.conf
Resultados de benchmark
- Compilar Llama.cpp con 144 núcleos tomó 90 segundos, y los resultados con modelos grandes fueron:
- gpt-oss-120b-Q4_K_M: prompt 2974.79, tokens 195.84
- GLM-4.5-Air-Q4_K_M: prompt 1936.65, tokens 100.71
- Qwen3-235B-A22B-Instruct: prompt 1022.79, tokens 65.90
- Consumo aproximado de 300W por GPU, con margen frente al máximo (900W)
Desglose de costos
- Servidor Grace-Hopper €7.500, SSD €250, adaptadores CNC €700, coolers de refrigeración líquida €180
- Frame €200, panel de vidrio €40, materiales de impresión 3D €40, otras piezas €50
- Isopropanol para limpieza €20, fuente de 12V €10, iluminación LED €10
- Costo total de unos €9.000, más barato que una sola GPU H100
Conclusión
- Se completó una desktop capaz de ejecutar localmente modelos de 235B parámetros
- En el proceso de adaptar hardware de nivel centro de datos para uso personal, se superaron múltiples obstáculos como errores de sensores, daños en circuitos y problemas de refrigeración
- El resultado fue un caso de construcción de una workstation de alto rendimiento para investigación en IA a bajo costo
1 comentarios
Comentarios de Hacker News
Compré hardware de IA de nivel de centro de datos y, tras pasar por innumerables crisis mientras lo modificaba de refrigeración líquida → por aire → otra vez líquida, incluyendo momentos en los que la temperatura de la GPU aparecía como 16 millones de grados, terminé armando un escritorio capaz de correr modelos de 235B parámetros en casa
Esta es la historia de una decisión temeraria, de resolver problemas con creatividad y de intentar convertir equipo de centro de datos en algo de uso cotidiano
Me tomó una semana encontrar eso, y lo resolví gracias a Reddit. Me pregunto si este tipo de problema también puede ocurrir en todos los centros de datos
Yo tuve una experiencia parecida. Durante 3 años quise armar un servidor gamer en rack para usarlo con mi hijo, pero como la casa es pequeña y mi esposa no lo permitía, terminé aprovechando la planta fotovoltaica de mis padres (90kWp) y un servidor en rack
Hace dos meses compré en eBay un Supermicro SYS-7049GP-TRT por 1,400 euros, y al abrirlo vi que traía una Nvidia V100S 32GB adentro. La vendí por 1,600 euros y la reemplacé comprando dos CPU Xeon 6254. Después compré dos Blackwell RTX 4000 Pro y ahora ya podemos jugar y también hacer experimentos con LLM
Ese gabinete puede montar 4 GPU dobles, así que algún día quizá lo actualice a cuatro RTX 6000, para un total de 384GB de VRAM. El equipo enterprise usado es resistente y da mucho por el precio, así que de verdad es un hobby muy divertido
Da risa que pusiera un servidor de 20 kg que costó 7.5k euros sobre una mesa IKEA LACK de 5 euros. La LACK soporta como máximo 25 kg, así que se ve peligroso
Me dio risa la frase “manejé dos horas para ir a recogerlo”. Literalmente aplica Your mileage may vary
Me impresionó que, como hacer funcionar la GPU fue tan doloroso, dejara los comandos de instalación para los exploradores que vengan después
Hubo que instalar el driver NVIDIA-Linux-aarch64, y cada vez que veo este tipo de comandos inescrutables pienso “yo también estuve ahí”
Hablando en serio, me pregunto si este tipo de equipo realmente da buen rendimiento en juegos. Como está optimizado para IA/ML, quizá los juegos normales ni siquiera corran bien
Y además, cuando mencionó que “fue a una granja en el bosque”, también me pregunté si no había sido peligroso
Este tipo de posts son buenísimos. Estas historias de éxito DIY son parte del encanto de Hacker News
Claro que sigue siendo una buena compra, pero compararlo con el precio nuevo de un H100 es un poco exagerado. Hoy puedes comprar una RTX 6000 Pro por 7~8 mil dólares, con rendimiento parecido. Además, cabe en una workstation normal. La depreciación del equipo enterprise usado es enorme
Blackwell es dos veces más rápido que H100 en FP8, pero aquí la comparación es en FP4, así que en la práctica es distinto. El ancho de banda de VRAM también es de 4.9TB/s con HBM3, o sea 2.5 veces más que los 1.8TB/s de la RTX 6000 Pro
NVLink-C2C alcanza 900GB/s entre tarjetas, unas 5 veces PCIe5, así que en LLM grandes eso reduce cuellos de botella
Por ejemplo, en el benchmark de GPT-OSS-120B, la RTX 6000 Pro genera 145 tokens por segundo, mientras que la GH200 genera 195 tokens
De verdad se siente como vivir un sueño cyberpunk en la vida real. Tremendo valor para atreverse a intentar algo así
Me gustaría que recomendaran alguna tienda para comprar equipo enterprise usado. La mayoría parecen estar en California, pero me pregunto si también hay en la zona de NY/NJ