- Se está invirtiendo mucho dinero en el desarrollo de herramientas de IA, y muchos servicios están operando asumiendo pérdidas
- Los servicios de las grandes tecnológicas se ofrecen gratis o a bajo costo para dominar el mercado y, al final, es muy probable que “los modelos de IA puedan ser manipulados por intereses publicitarios o políticos”
- La solución es “operar tu propio modelo de IA”
- Empresas como DeepSeek están sacudiendo el mercado al publicar sus modelos gratis. Estos modelos pueden despojarse de sesgos y ejecutarse en hardware personal
Desafíos de construir una computadora personal de IA
- Para ejecutar un LLM en local, hace falta una tarjeta de video potente de Nvidia o comprar un equipo de Apple
- Cuanta más memoria haya, más grandes serán los modelos que se pueden ejecutar, lo que mejora significativamente la calidad de salida
- Se necesita una GPU Nvidia o un dispositivo Apple (ambos son costosos)
- Se requiere al menos 24 GB o más de VRAM o RAM
- Cómo reducir costos: comprar equipo usado también es una opción, y el ancho de banda de memoria y otras especificaciones también son importantes
Proceso de armado de una computadora de IA de bajo costo
- Objetivo: construir un sistema capaz de ejecutar modelos de IA en local por alrededor de 1700 euros
- Configuración final:
- Workstation HP Z440 (Xeon de 12 núcleos, 128 GB de RAM)
- 2 GPU Nvidia Tesla P40 (24 GB de VRAM cada una, 48 GB en total)
- Fuente de poder NZXT C850 Gold
- Gainward GT 1030 (GPU dummy para salida de pantalla)
- Ventiladores de enfriamiento personalizados y adaptadores de energía
Principales problemas técnicos y cómo resolverlos
1. Problema de enfriamiento de las GPU para servidor
- La Tesla P40 fue diseñada para usarse en entornos de servidor, así que no tiene ventilador propio
- Solución: soporte de ventilador impreso en 3D y control forzado del flujo de aire
- Ajustar la velocidad del ventilador para equilibrar adecuadamente temperatura y ruido
2. Problemas de compatibilidad de la workstation HP
- HP limita el uso a componentes propios
- Fue necesario comprar por separado adaptadores para la conexión entre la fuente de poder y la placa
3. Problema de arranque en el BIOS
- La Tesla P40 no tiene puertos de salida de video → no arranca
- Se resolvió agregando una GPU GT 1030 económica
Resultados de las pruebas de rendimiento
1. Velocidad de inferencia (tokens por segundo)
- Mistral-Small (modelo de 24B): 15.23
- Gemma2 (modelo de 27B): 13.90
- Qwen2.5-Coder (modelo de 32B): 10.75
- Llama3.3 (modelo de 70B): 5.35
- DeepSeek-R1 (modelo de 70B): 5.30
2. Consumo eléctrico
- Cuando la computadora está en reposo, consume unos 80W
- Al cargar un modelo de 32B, sube a 123W, y al ejecutarlo llega hasta 241W
- En el caso de un modelo de 70B, consume 166W al cargarlo y hasta 293W durante la ejecución
- Es decir, cuanto más grande es el modelo, mayor es el consumo eléctrico, y como mantener el modelo cargado en la GPU también consume bastante energía, es importante una estrategia de mantenerlo activo solo cuando sea necesario
Conclusión: ¿vale la pena construir un servidor personal de IA?
- Se logró construir con éxito un sistema de IA completamente independiente
- Es posible ejecutar modelos medianos en local a un precio relativamente bajo
- Resulta satisfactorio poder operar modelos de IA sin depender de hardware moderno y costoso
- Se construyó un sistema flexible capaz de adaptarse a cambios futuros en la tecnología de IA
3 comentarios
También vi una configuración para correr R1 sin GPU, solo con CPU y SSD, pero esta me parece un poco dudosa.
| Por el mismo precio (1,799 dólares) puedes comprar una Mac Mini con 48 GB de memoria unificada y un M4 Pro. Consume poca energía, es silenciosa y probablemente rinda mejor que esta configuración. Disfruté leer este artículo, pero si estuviera en la misma situación, compraría una Mac.
Eso era lo que quería decir, pero ya aparece en los comentarios de Hacker News.
Como el costo por token sigue bajando, a menos que vayas a hacer fine-tuning o generar imágenes, da la impresión de que no hace mucha falta...
Comentarios en Hacker News
Hice algo parecido comprando una K80 y una M40 baratas en eBay. Los drivers de la K80 fueron un verdadero dolor de cabeza. Los 24GB de VRAM por 50 dólares suenan tentadores, pero no la recomiendo por los problemas de drivers. Pude instalar las GPU en una workstation HP con una fuente de poder de 1200 watts. Como estas GPU no tienen refrigeración propia, fabriqué un bracket con una impresora 3D y le monté ventiladores Noctua para dejarlas funcionando 24/7. Funcionó mucho mejor de lo esperado y la temperatura nunca pasó de 60 grados. El CPU también se benefició de este método. Los ventiladores están al frente y atrás del gabinete; el de enfrente mete aire y el de atrás lo saca. También hay dos ventiladores delante de la GPU. Compré la workstation reacondicionada por 600 dólares, las GPU por 120 dólares y los ventiladores por unos 60 dólares. Todavía no he subido los archivos STL, porque es un caso de uso muy específico.
Por el mismo precio (1799 dólares), puedes comprar una Mac Mini con 48GB de memoria unificada y un M4 Pro. Consume poca energía, es silenciosa y probablemente tenga mejor rendimiento que esta configuración. Disfruté leer este artículo, pero en la misma situación compraría la Mac.
Quiero armar una máquina para LLM locales. Probé modelos en una MBP M3 Max con 128GB de RAM y quiero un servidor local dedicado. También quiero probar Proxmox. Ya estoy corriendo OpenWebUI y LibreChat en un "servidor de apps" local y estoy satisfecho. Pero cada vez que pienso en comprar hardware más potente, siento que el ROI no da, especialmente en una industria que cambia tan rápido. La privacidad es un factor imposible de ignorar, pero es difícil ganarle al costo de la inferencia en línea.
Los modelos alojados localmente son lindos como juguete, divertidos para hacer bromas y pueden encargarse de tareas personales. Pero se quedan cortos frente a los modelos accesibles vía API. Estaría genial poder correr deepseek-r1-678b localmente, pero por ahora el costo operativo supera al costo de capital.
Un punto medio es rentar un GPU VPS cuando lo necesites. Puedes usar un H100 por 2 dólares la hora. No da tanta privacidad como algo completamente local y offline, pero es mejor que una API SaaS. Ojalá en 1 a 3 años ya sea rentable correr algo útil de forma local.
Como ya dijeron otros, por el mismo precio puedes usar una Mac potente y con menor consumo eléctrico. Me pregunto por qué Apple no entra al mercado de chips de IA empresariales para competir con Nvidia. Apple seguramente podría diseñar su propio ASIC.
"Sé dueño de tu propia IA" suena excelente como hobby en casa, pero terminas gastando mucho tiempo y dinero en hardware. Recomiendo revisar la dream machine de Mitko Vasilev. Si no tienes un caso de uso claro, probablemente solo necesitas modelos pequeños o una velocidad lenta de generación de tokens. Si tu objetivo es construir y aprender sobre IA, rentar GPU/TPU cuando haga falta sale más económico.
No considero que comprar 2 tarjetas Nvidia Tesla P40 por 660 euros sea realmente "de bajo presupuesto". La gente puede usar modelos "pequeños" o "medianos" con tarjetas más baratas. Una Nvidia Geforce RTX 3060 se consigue por 200 a 250 euros en el mercado de segunda mano. 48GB de VRAM es demasiado como para llamarlo presupuesto. Esta configuración es para semiprofesionales o profesionales. Usar modelos medianos o pequeños implica compromisos, pero hacer concesiones también es parte de mantenerse dentro del presupuesto.
El problema con hacer este tipo de inversión es que el mes siguiente va a salir un modelo mejor. Puede que necesites más RAM, o menos RAM que la que exige el mejor modelo actual. La infraestructura en la nube resuelve ese problema. Cuesta más por ejecución, pero si tu uso es esporádico puede ahorrarte dinero. Me da curiosidad cómo están manejando esto los usuarios de HN.
Me pregunto si alguien ha probado correr inferencia de LLM usando un clúster de SBC. Por ejemplo, la Radxa ROCK 5C tiene 32GB de memoria y una NPU, y cuesta unos 300 euros. No conozco tan bien la arquitectura de los LLM modernos, pero debería ser posible dividir capas entre varios nodos. La cantidad de datos a transferir no parece tan grande. No tendría el rendimiento de una Mac moderna o una GPU Nvidia, pero podría ser una forma aceptable y barata de conseguir mucha memoria. También me da curiosidad el estado actual de la inferencia CPU + GPU. El procesamiento del prompt está limitado por cómputo y memoria, pero la generación de tokens está limitada sobre todo por memoria. Me pregunto si existe alguna herramienta que cargue algunas capas en la GPU para el procesamiento inicial del prompt y luego cambie a inferencia en CPU. En mis últimos experimentos pude correr algunas capas en la GPU y otras en el CPU. Parece que sería más eficiente correr todo en la GPU y cambiar al CPU cuando la generación de tokens quede limitada por memoria.