Cómo ejecutar localmente el modelo DeepSeek R1 671b en un servidor EPYC de $2000

(digitalspaceport.com)

3 puntos por GN⁺ 2025-02-02 | 1 comentarios | Compartir por WhatsApp

El Deepseek AI Rig basado en un sistema AMD EPYC Rome ofrece un rendimiento sobresaliente.
Con el modelo Q4 671b registra entre 4.25 y 3.5 TPS, lo que demuestra que puede ejecutarse suficientemente bien solo con CPU.
Este sistema puede funcionar sin una gran cantidad de VRAM de GPU, y puede ser un proyecto divertido para quienes disfrutan los desafíos técnicos.
Como la versión destilada ofrece menor rendimiento, se recomienda usar el "modelo completo".
- Admite una ventana de contexto de más de 16K para ofrecer un mejor rendimiento.

Hardware de cómputo CPU para IA local

El sistema armado siguiendo la guía previa de cuatro 3090 sigue siendo potente. La motherboard MZ32-AR0 permite configurar entre 512 GB y 1 TB de RAM del sistema a bajo costo. Actualmente se usa RAM DDR4 2400, pero es posible que el rendimiento mejore con RAM DDR4 ECC de 3200.
Componentes y costo:
- Rack frame: $55
- Motherboard MZ32-AR0: $500
- Refrigeración líquida 420 mm Corsair h170i elite capellix xt: $170
- AMD EPYC 7702 de 64 núcleos: $650
- 512 GB de RAM ECC 2400: $400
- 1 TB NVMe – Samsung 980 Pro: $75
- PSU de 850W: $80
Costo total: aproximadamente $2000

Ensamblaje del rack

Ensámblalo igual que en la guía anterior, pero excluyendo la GPU y las tarjetas riser.
Si planeas agregar una GPU más adelante, conviene usar desde el inicio una PSU de 1500W o 1600W.
Para reducir la temperatura de los módulos de RAM, se recomienda armar una pared de ventilación con 4 ventiladores de 80 mm.

Notas sobre actualización de la motherboard

Si vas a usar una CPU AMD EPYC 7V13, se recomienda usar la versión V3 de la motherboard MZ32-AR0.
La versión V1 de la motherboard puede no ser compatible con CPUs Milan, por lo que habría que actualizar el BIOS a V3.

Configuración de software self-hosted de IA local

Se recomienda instalar la versión servidor de Ubuntu 24.04.
Mediante la configuración de BMC, establece la IP de red como IP fija.
En la configuración del BIOS, realiza los siguientes cambios:
- Configurar NPS en 1
- Configurar CCD en Auto
- Desactivar SMT
- Desactivar SVM
- Desactivar IOMMU
- Configurar cTDP en 200
- Configurar deterministic control en manual y mover el deslizador a performance
- Configurar quick power policy en performance
- Configurar BoostFMax en manual y establecer el valor en 3400

Instalación de Ollama

Instala Ollama usando los siguientes comandos:

curl -L https://ollama.com/download/ollama-linux-amd64.tgz -o ollama-linux-amd64.tgz  
sudo tar -C /usr -xzf ollama-linux-amd64.tgz  
sudo useradd -r -s /bin/false -U -m -d /usr/share/ollama ollama  
sudo usermod -a -G ollama $(whoami)

Configura las variables de entorno y crea el archivo ollama.service para registrarlo como servicio.

Descarga del modelo DeepSeek 671b

Descarga el modelo DeepSeek 671b con el siguiente comando:
```
ollama pull deepseek-r1:671b  
```
Este modelo ocupa aproximadamente 400 GB de espacio en disco, así que debes asegurarte de tener suficiente almacenamiento.

Instalación de OpenWEBUI

Instala OpenWEBUI usando Docker.
Configura y ejecuta el servicio de OpenWEBUI con Docker Compose.

Conexión entre OpenWEBUI y Ollama

En la configuración de OpenWEBUI, agrega el servidor Ollama y verifica el estado de la conexión.
En los parámetros avanzados, configura opciones como GPU, Reasoning Effort, Context Length, num_thread, etc.

Prueba de ejecución

Inicia un nuevo chat en OpenWEBUI y selecciona el modelo DeepSeek-r1:671b para realizar una conversación de prueba.

Si sigues esta guía, podrás ejecutar localmente el modelo DeepSeek R1 671b con un presupuesto aproximado de $2000.

1 comentarios

GN⁺ 2025-02-02

Comentarios de Hacker News

Ejecutar el modelo 671B con cuantización Q4 en un servidor Epyc de un solo socket cuesta $2K y usa 512GB de RAM. En Q8, un servidor Epyc de doble socket con 768GB de RAM ofrece 6-8 TPS y cuesta $6K. Le da curiosidad cómo influye la velocidad de la RAM en los TPS.
En línea, R1 cuesta $2/MTok, y este equipo logra más de 4 tok/s, lo que da un costo de $0.04 por hora. El costo eléctrico se estima en $0.20 por hora. Piensa que, salvo por la privacidad, no tiene mucho sentido.
Lo raro de la IA actual es que uno quiere ejecutar los mejores modelos, pero el hardware es caro. En los 90 se podía correr Linux con hardware barato. Los modelos de IA modernos necesitan más RAM. Se pregunta si esto ya había pasado antes. Los videojuegos podrían ser un buen ejemplo.
Cree que sería más interesante obtener 5-10 tokens/sec con modelos pequeños (33b-70b). No quiere gastar dinero en una GPU de $3k ni en un equipo de $2k.
Se pregunta si tendría sentido un modelo pequeño que solo haga traducción entre inglés y español, o uno que entienda utilidades Unix y bash. No sabe si limitar el contenido del entrenamiento afecta la calidad del resultado o el tamaño del modelo.
Armó una estación de trabajo con un EPYC 9274F y 384GB de RAM, pero no obtuvo el rendimiento que esperaba. Hizo varias pruebas de benchmark, pero ni siquiera consiguió la mitad de los resultados del benchmark de Fujitsu.
Le sorprende que la NVIDIA Digits de $3000 no se mencione más seguido. Era escéptico con la IA, pero ahora planea ejecutar DeepSeek en local.
Le sorprende lo que se puede comprar por $2K. Está buscando sugerencias para armar un desktop de bajo consumo.
Como youtuber, comparte estadísticas sobre consumo eléctrico y velocidad de la RAM. El consumo en reposo es de 60w, bajo carga es de 260w, y la velocidad de la RAM es 2400.
Ejecutó el modelo en una r6a.16xlarge, pero después del primer prompt la carga del modelo toma mucho tiempo. Con 512GB de RAM no puede usar un tamaño de contexto mayor a 4k. Puede que se le haya pasado algo porque no conoce bien la configuración del modelo.