Comparto mi experiencia armando una máquina local para LLM en casa

6 puntos por popopo 2025-11-09 | 9 comentarios | Compartir por WhatsApp

Vi la Nvidia DGX Spark y tenía grandes expectativas por la GB10, pero al ver las reseñas me decepcionó más de lo que esperaba. Parece que el ancho de banda de memoria termina limitando el resto del rendimiento.

También hubo casos en los que el rendimiento salió similar al de AMD Strix Halo, o incluso mejor.

(aunque viene con memoria unificada de 64 GB, hay opción de 128 GB y se pueden asignar 96 GB de vRAM)

Dicen que tiene soporte para FP4, CUDA, ConnectX-7 y que al expandirla se agregan 128 GB de memoria, pero como el precio de la máquina es más del doble comparado con Strix Halo, no me animo.

Aunque AMD ROCm todavía tiene un ecosistema más limitado frente a CUDA, los programas que hice hasta ahora corren bien, así que me estoy inclinando por esa opción (se puede comprar un SoC de 128 GB y 2 TB por alrededor de 3 millones de wones). Quisiera saber cómo armaron ustedes sus sistemas considerando presupuesto y consumo eléctrico.

Yo planeo irme por AMD Strix Halo, y como OS usar Bazzite basado en Fedora. Ya trae instalados por defecto los controladores gráficos, y con Distrobox y mise vi que podría ejecutar tanto los programas que hice como los modelos que necesito.

9 comentarios

popopo 2025-11-18

La máquina Strix Halo que compré con descuento durante el festival de compras ya llegó, instalé Bazzite e hice algunas pruebas de generación de imágenes con distrobox. El rendimiento salió como esperaba (con LLM no fue tan alto). Básicamente, hay que verla como una mini PC de alto rendimiento.

Dicen que se pueden asignar más de 96 GB de memoria unificada como vRAM, pero no he podido comprobar si es porque cambia dinámicamente; hasta ahora no he visto que se asignen más de 96 GB.

Tomé como referencia el sitio https://strixhalo.wiki/ para la configuración. También hay una tabla comparativa con la guía de compra (Strix Halo - Mac - DGS Spark - 6000), así que puede servirles como referencia.

Publicidad de Bazzite: el sistema operativo se gestiona como una imagen inmutable, y los demás programas se administran como batería aparte (flatpak, brew, etc.). Con el comando de actualización se actualiza todo, desde el firmware hasta todos los paquetes. Si sienten que el OS se ensució, basta con ordenar la ruta del usuario (el OS no se puede tocar por los métodos habituales). Como ya trae instalados todos los drivers de AMD, se puede usar ROMc de inmediato.

El OS que salió como plataforma de lanzamiento de contenedores... es fedora coreOS, y Bazzite, que le agrega varias configuraciones de usuario, resulta muy cómodo tanto para uso general como para desarrollo, además de tener una usabilidad excelente. Ya viene con contenedores (distrobox), wine y tailscale instalados por defecto. Si además le sumas mise, diría que ya puedes gestionar prácticamente todo lo que quieras.

Mi idea era configurarlo todo desde cero y armar una guía, pero como copié completa la carpeta del perfil de usuario de Bazzite que ya usaba, se trasladó toda la configuración... así que al final no pude hacer la guía de configuración.

minsuchae 2025-11-11

Mi opinión personal es que, en el caso de Mac y Nvidia DGX Spark, se usa memoria unificada, mientras que en los demás casos suele dividirse entre RAM y VRAM.
En algunos productos, incluso la asignación de VRAM para la gráfica integrada se hace usando la RAM del sistema.
Para alguien no experto, recomendaría Mac o Nvidia DGX Spark; si uno está dispuesto a batallar un poco, AMD también puede ser una mejor opción.
Cada una tiene sus ventajas y desventajas.

En el caso de Mac, Nvidia DGX Spark y similares, la desventaja es que no se puede ampliar la RAM después, así que hay que comprarlo ya configurado desde el inicio.
En el caso de AMD, la ventaja es que sí se puede ampliar la RAM directamente, pero existe un límite en la asignación de VRAM.

Es decir, si lo que se busca es usar más de 128 GB como VRAM, la Mac Studio es la opción más conveniente.
Tiene menos margen para batallar con configuraciones, pero la desventaja de la Mac Studio es que va bien para inferencia, aunque es menos favorable para entrenamiento. (En entrenamiento es más lenta que AMD)

En el caso de Nvidia DGX Spark, si se quiere configurar con más de 128 GB de memoria, la desventaja es que incluso hay que comprar un cable adicional de Nvidia. Sin embargo, para entrenamiento de IA, como CUDA se usa de forma predeterminada, es la opción que menos complicaciones da. Además, se rumora que en rendimiento, salvo por la VRAM, está al nivel de una 5070, y también tiene limitaciones en el ancho de banda de memoria...(si se piensa en entrenamiento, es una opción razonable)

Asignación de VRAM usando gráficos integrados
Con el aumento reciente en el precio de la memoria, es una opción menos atractiva, pero aun así, considerando las opciones de RAM, sigue siendo mucho más barata que una Mac. Sin embargo, como AMD ROCm todavía se queda corto, tiene la desventaja de que hay que sufrirlo por cuenta propia, así que no se recomienda para no expertos (además, en la práctica es casi imposible aumentar más la VRAM...)

Creo que se puede resumir así.
Si solo se considera la relación costo-beneficio, AMD sí es buena... pero si se busca usar algo con tranquilidad, la Mac Studio tampoco es una mala opción. Si solo se piensa en inferencia, entra perfectamente en la zona de buena relación costo-beneficio...

minsuchae 2025-11-11

En el caso de AMD, tiene la ventaja de que se puede ampliar la RAM directamente, pero existe un límite en la asignación de VRAM
-> Revisándolo ahora, veo que esta parte quedó mal redactada por haberla escrito sin ordenarla bien. Cuando se separan la RAM del sistema y la VRAM, en algunos casos una parte sí se puede ampliar, y en laptops muchas veces tampoco se puede ampliar.

dhy0613 2025-11-11

Dejé de esperar la 5070Ti Super y terminé tentado por Radeon, así que armé esta configuración y la estoy usando así.

9800x3D
7900 XTX usada
96 GB de RAM

Dividí las particiones, instalé Ubuntu 24.10 y ROCm 7.1, y del lado de ComfyUI, donde uso LLM Inference y más o menos PyTorch, está corriendo bien sin mayores problemas.

Que SageAttention no funcione es un pequeño punto en contra, pero considerando el precio, lo dejo pasar.

clastneo 2025-11-10

Estaba pensando en comprar una Mac Studio grande, pero no sabía que se habían ampliado tanto las opciones relacionadas con Home LLM.
Por casualidad, ¿podrías contarme cómo estás armando la configuración del lado de Strix?

popopo 2025-11-10

Todavía no he comprado Strix halo, pero hice un cálculo de aproximadamente 600 millones de casos usando 16 GB de vRAM en una computadora para juegos que usa una GPU AMD de forma similar.

Lo armé una vez e hice búsquedas sobre la marcha según iba pudiendo, así que no recuerdo con precisión.

Como estoy usando Bazzite, el driver gráfico ya estaba instalado, así que no hubo nada especial; instalé ROCm y los módulos relacionados en Rocky Linux dentro de distrobox, y luego ejecuté varios cálculos que usan la GPU.

Como tiene un ancho de banda de memoria rápido y alto, ¿no valdría la pena considerar también una Mac Studio? Con la opción de 128 GB y 2 TB serían 4,000 dólares. Creo que el hecho de ser arquitectura Mac no sería una gran diferencia frente a irse por AMD.

clastneo 2025-11-11

Lo tendré en cuenta para mi respuesta.
¡Gracias por responder tan amablemente!

popopo 2025-11-09

https://www.youtube.com/watch?v=Pww8rIzr1pg Con base en esto, le pedí a Gemini que hiciera una comparación y este fue el resultado

📊 Comparación de opciones para ejecutar LLM con 128GB (noviembre de 2025, con benchmarks reflejados)

Reflejando el contenido del video: tomando como referencia los benchmarks de Hardware Unboxed, Strix Halo muestra una ventaja frente al M3 Max (mejora aproximada de 30~35%), y el sistema GB10 "Spark" muestra un rendimiento de NPU/GPU dedicado muy superior al de estos APU/chipsets integrados. (basado en inferencia de Llama 3 70B Q4 en T/s)

Opción de configuración (128GB) T/s (estimado) Consumo del sistema (estimado) T/W (eficiencia energética) Costo del sistema (estimado) Costo/T (relación costo-rendimiento)
NVIDIA "Spark" (GB10) 120 T/s 400 W 0.30 ~5.2 millones de wones 43.3 mil wones/T
4 x RTX 5080 32GB (nuevas) 240 T/s 1500 W 0.16 ~12 millones de wones 50 mil wones/T
6 x RTX 3090 (usadas) 90 T/s 2300 W 0.04 ~7 millones de wones 78 mil wones/T
AMD Strix Halo (128GB) 30 T/s 180 W 0.17 ~2.6 millones de wones 86.7 mil wones/T
Apple M3 Max (128GB) 22 T/s 100 W 0.22 ~6 millones de wones 273 mil wones/T

💡 Análisis y conclusión (corrección de errores)

Corrijo mi error importante y vuelvo a analizar reflejando correctamente el contenido del video.

Campeón en "precio-rendimiento (Cost/T)": NVIDIA "Spark" (GB10)  

    Cost/T (relación costo-rendimiento): 43.3 mil wones/T  

    Como se muestra en el video de Hardware Unboxed, el sistema 'Spark' de $3999 ofrece un rendimiento de inferencia LLM (T/s) muy superior al sistema 'Strix Halo' de $2000.  

    Por eso, el costo de construcción del sistema por token (Cost/T) es el más bajo entre todas las opciones, convirtiéndolo en el campeón de la 'relación costo-rendimiento'.  

    Su T/W (eficiencia energética) también es 0.30, muy por encima de una configuración con múltiples GPU.  

Campeón en "presupuesto absoluto": AMD Strix Halo (128GB)  

    Cost/T (relación costo-rendimiento): 86.7 mil wones/T  

    El valor de este sistema no está en su velocidad absoluta (30 T/s), sino en que permite entrar a un entorno de VRAM de 128GB con un 'costo mínimo' abrumador de **aprox. 2.6 millones de wones ($2000)**.  

    Tal como se confirmó en el video, supera al M3 Max, por lo que es una excelente opción 'de entrada' para desarrolladores individuales.  

Campeón en "velocidad absoluta": 4 x RTX 5080 32GB  

    T/s (velocidad): 240 T/s  

    Los sistemas integrados como 'Spark' o 'Strix Halo' son potentes para inferencia, pero pueden tener limitaciones para hacer 'fine-tuning' (ajuste fino) del modelo directamente.  

    Si además de la mayor velocidad de inferencia quieres la flexibilidad de entrenar/modificar el modelo por tu cuenta, una configuración con múltiples GPU independientes (4 x 5080) sigue siendo la opción más potente.

popopo 2025-11-10

Un video que dice que, con un presupuesto de 4K, una configuración con cuatro 3090 ofrece un rendimiento muy superior al de DGX Spark

https://www.youtube.com/watch?v=md6a4ENM9pg

La afirmación de que Strix Halo es una mala compra como máquina para ejecutar LLM locales

https://reddit.com/r/LocalLLaMA/…

Parece que el argumento principal es que el consumo de energía difícilmente puede ser un criterio importante y que, por el ancho de banda, aunque cargues modelos grandes en memoria, no se pueden aprovechar de verdad...

Comparto mi experiencia armando una máquina local para LLM en casa

Lecturas relacionadas

9 comentarios