3 puntos por GN⁺ 2025-09-20 | 5 comentarios | Compartir por WhatsApp
  • Se construyó un clúster de IA de unos 3 mil dólares usando 10 Raspberry Pi Compute Blade y módulos CM5, pero no cumplió las expectativas en rendimiento ni en relación costo-beneficio
  • En benchmarks de HPC obtuvo una mejora de rendimiento de 10x (325 Gflops) frente a una sola Pi, pero mostró un resultado 4 veces más lento que un clúster de escritorio de Framework
  • En las pruebas de IA, como no había compatibilidad con aceleración por GPU, dependió de inferencia basada en CPU, y al ejecutar el modelo Llama 70B la velocidad de generación de tokens fue de apenas 0.85 t/s
  • Aun así, sus ventajas de bajo consumo, poco ruido y alta densidad podrían hacerlo útil para usos específicos como trabajos de CI, despliegues edge donde la seguridad es crítica o nodos relay de Tor
  • En general, se recalca que puede ser divertido con fines de aprendizaje y experimentación, pero que no es adecuado para usos generales de IA/HPC, y que es un caso que deja en evidencia las limitaciones de los servidores blade

Introducción y panorama general del clúster

  • Hace dos años, en abril de 2023, se pidieron 10 Compute Blade, y recién ahora llegaron todos para completar el clúster
  • En ese tiempo, Raspberry Pi pasó de CM4 a CM5, así que se pidieron además 10 módulos CM5 Lite de 16GB para completar una configuración con 160GB de memoria total
  • El costo total fue de 3,000 dólares (incluyendo envío), y fue el clúster Pi más grande construido por el autor
  • También existe Xerxes Pi como computadora blade basada en Pi, pero hay una alta probabilidad de retrasos en lanzamiento y envíos, y aun así el autor la apoyó por curiosidad
  • La duda era si un clúster Pi todavía tiene valor hoy, y se buscó comprobar si valía la inversión comparando rendimiento, densidad y eficiencia con el clúster de escritorio de Framework

Construcción del clúster y trabajo repetitivo

  • Por varios problemas de compatibilidad con SSD y de temperatura, el clúster tuvo que rearmarse tres veces
    • 1er rearme: se usaron varios SSD NVMe, pero hubo problemas de compatibilidad y confiabilidad, así que se reemplazaron todos por SSD Patriot P300 y mejoró la estabilidad
    • 2do rearme: apareció throttling por temperatura, y el problema de gestión térmica se resolvió asegurando firmemente los disipadores

Resultados de benchmarks de HPC (High Performance Computing)

  • Se midió el rendimiento de supercomputación con el benchmark High Performance Linpack (Top500)
    • Antes de montar los disipadores, el rendimiento era de 275 Gflops; después subió hasta 325 Gflops
    • Esa cifra equivale a un rendimiento 10 veces mayor que un nodo individual CM5 integrado de 8GB, con un consumo eléctrico de 130W
  • Sin embargo, comparado con el clúster de 4 nodos Framework Desktop de 8,000 dólares, el clúster Pi es 4 veces más lento
  • En eficiencia energética (Gflops/W) tiene una ligera ventaja, pero queda por detrás del clúster Framework en rendimiento por precio
  • No es una solución adecuada para HPC a gran escala

Pruebas de uso en IA y limitaciones

  • Con sus 160GB de memoria se esperaba un clúster de IA, pero la iGPU del Pi 5 no permite aceleración mediante Vulkan
  • La inferencia de IA queda limitada al CPU, y por las limitaciones del Arm Cortex A76 el rendimiento cae de forma importante
  • En el caso del modelo Llama 3.2:3B, un nodo apenas alcanza 6 tokens por segundo (relativamente lento)
  • Incluso distribuyendo un modelo grande (Llama 3.3:70B) entre todos los nodos, el rendimiento se queda en 0.28~0.85 tokens/segundo (al menos entre 5 y 25 veces más lento que el clúster Framework)
  • Otras herramientas de IA distribuida como Exo y distributed-llama también resultan inestables o insuficientes para uso real
  • En general, no es apto para cargas de trabajo de IA

Conclusión y propuestas de uso realistas

  • El clúster blade Pi es una opción poco competitiva en rendimiento y costo-beneficio, y es difícil recomendarlo fuera de fines de aprendizaje, experimentación o hobby
  • En cambio, sí ofrece ventajas en facilidad de administración, bajo ruido, tamaño compacto y densidad/separación de nodos
  • En la práctica, podría considerarse de forma limitada para trabajos de CI (integración continua) o entornos que requieren aislamiento, como computación edge o de alta seguridad
  • En Unredacted Labs lo usan para entornos con gran cantidad de nodos, como Tor exit relay, con el fin de maximizar la eficiencia y la densidad de nodos
  • Pero para la mayoría de las personas existen otras alternativas con mejor rendimiento y eficiencia por un costo similar
  • El fabricante Gateworks también vendió en su momento GBlade para uso industrial, pero no tuvo éxito comercial y fue descontinuado
  • Desde la perspectiva de mantenimiento y practicidad, es más simple que operar clústeres grandes, pero sigue siendo un entorno difícil de recomendar salvo que exista una razón muy específica

Lista de componentes utilizados

  • (El autor presentó por separado la lista de componentes usados, pero mencionó que no recomienda copiar tal cual una configuración similar)

5 comentarios

 
euphcat 2025-09-22

Para ser precisos con respecto a Vulkan, lo correcto sería decir que “la API de Vulkan compatible con la iGPU del Pi 5 todavía no es compatible con llama.cpp”. También me da curiosidad saber qué rendimiento habría dado si eso hubiera sido compatible.

 
GN⁺ 2025-09-20
Opiniones de Hacker News
  • Para quienes estén interesados en sistemas distribuidos, recomiendo mucho probar con una sola máquina con un CPU AMD moderno de 16 núcleos y levantar 8 máquinas virtuales. Puedes asignar 4 hyperthreads a cada VM y 1/8 de la RAM total, y crear una red virtual dentro de un software de virtualización como Proxmox para vivir la experiencia de un clúster. De hecho, también puedes probar la resiliencia suspendiendo una VM a la vez con un solo clic. Este método es muy superior a un clúster de Pi en términos de rendimiento por watt y comodidad. Sin el estrés de armar piezas, solo necesitas CPU, motherboard, un SSD m.2 y dos módulos de RAM. Claro, si lo ejecutas directamente en una máquina de muchos núcleos sin virtualización obtendrás el mejor rendimiento por watt, pero algo que a menudo se pasa por alto en los benchmarks es el consumo en reposo. Si el clúster va a estar encendido todo el tiempo y se usará rara vez, esa parte también es muy importante

    • No creo que se necesite tanto rendimiento de CPU. Incluso con un quad-core viejo alcanza

    • Como comentario relacionado, me sorprendió que no se haya vuelto más común correr programas antiguos de MPI en entornos como una workstation AMD multichip

    • La verdad, dudo que se necesite tanta potencia de CPU. Si la idea es practicar sistemas distribuidos, incluso en una vieja caja Linux o en una sola Raspberry Pi basta con instalar Erlang y armar algunos nodos para experimentar

    • Me dio pena ver cómo durante la escasez de Raspberry Pi de hace unos años la gente se desesperaba por conseguirlas para armar estos clústeres de juguete. Pi originalmente era para educación, pero creo que en la práctica muchas veces se desperdicia. Yo corro un “clúster” de K8s con xcp-ng, aunque en realidad se puede hacer de manera mucho más simple. Docker Machine también permitía levantar varios hosts en una sola línea. Creo que el proyecto ya terminó, pero con Docker Swarm igual puedes escalar servicios fácilmente sin hipervisor

    • Yo practiqué Postgres hot standby y read replica de esta manera. También estudié clústeres de Hadoop y Cassandra así. Gracias a que podía hablar de experiencia configurando y simulando la recuperación de estos sistemas, conseguí un nuevo trabajo donde mi sueldo se duplicó o triplicó. A cualquier desarrollador con cierto nivel práctico le recomiendo mucho hacer este tipo de ejercicios. Ayuda muchísimo a subir de nivel en la carrera

  • Me recordó a la sesión de NormConf “Just use one big machine for model training and inference.” Recomiendo este video relacionado. Y también es muy interesante el viejo clásico “Scalability! But at what COST?” (enlace). Si resumimos la conclusión: en el rendimiento del procesamiento paralelo hay muchísimos factores más allá de Amdahl's Law. Los sistemas scale-out requieren un montón de trabajo adicional que un nodo único no tiene. De hecho, el multithreading también introduce mucho trabajo que no existe en el código secuencial. El verdadero secreto del rendimiento es que “la operación más rápida es la que no se ejecuta”

  • El primer benchmark que corrí fue el benchmark de clúster top500 High Performance Linpack. Le tengo cariño porque es la forma tradicional de medir rendimiento en supercomputadoras. Después de resolver unos problemas térmicos, consumía unos 130W y daba 325 Gflops. Como la lista del sitio top500 empieza en 1993, tenía la esperanza de que este clúster de Pi pudiera entrar en la historia absurda de los años 70, pero resulta que no, es bastante más reciente. Entre 1993 (n.º 1: 131 Gflop/s, n.º 10: 15.24 Gflop/s) y 1997 (n.º 1: 1,830,40, n.º 10: 326.4), parece que saldría del top500 hacia 2002~2003. Como se basa en Rpeak, habría que reordenarlo según Rmax para que fuera preciso, pero sería mucho trabajo revisarlo todo, así que lo omito. Para ser un clúster de juguete, creo que se defendió bastante bien. Como ya estoy acostumbrado al tipo de broma de “el Apple Watch es más rápido que la computadora del Apolo”, pensé que llegaría mucho más atrás en el tiempo

  • RPI siempre ha tenido un rendimiento de CPU terrible. La idea de Pi desde el principio fue aprovechar chips Broadcom baratos bajo el pretexto de ser “educativa”. Es para que niños aprendan circuitos haciendo parpadear LEDs con una Raspberry Pi. Pensar en hacer cómputo de alto rendimiento con un clúster de Pi no tenía sentido desde el inicio

  • No hay que tomar el contenido del artículo demasiado al pie de la letra. El autor es un tech influencer exitoso que compra equipos caros, los presume y luego gana dinero quejándose de lo caro que fueron. Su manera de ver la economía no tiene por qué ser la misma que la mía

    • Eso es obvio, pero el punto real es que si hoy quieres hacer algo, probablemente la respuesta no sea Raspberry Pi. La relación especificaciones/precio no cuadra para nada y el mercado está estancado

    • Aun así, creo que los videos de Jeff son refrescantes. Otros youtubers caen una y otra vez en contenido que solo compara “tiempo de render para YouTube, precisión de color, calidad de cámara y calidad de audio”, pero él es diferente

    • Ojalá Dan Luu se cambiara a este tipo de contenido

    • Cualquiera que sepa construir estas cosas ya sabe que con una sola GPU obtienes 10 veces más rendimiento de cómputo

  • El titular me pareció un poco sensacionalista, pero el autor sí parece haberse divertido mucho con el experimento y con el armado del equipo. Aun así, la primera frase —“Pedí un set de 10 Compute Blades en abril de 2023 y acaba de llegar”— sí da bastante lástima

    • Ese es el mayor arrepentimiento. Hasta ahora he apoyado 6 proyectos de Kickstarter, y el tiempo promedio de entrega fue de alrededor de un año. Aun así, curiosamente todos terminaron llegando. El hardware startup es realmente difícil, y he visto muchas veces cómo más de la mitad muere antes de entregar a los clientes, aunque hayan empezado como ideas pequeñas. Incluso cuando tienen suerte y apenas alcanzan a mandar prototipos o muestras, a menudo terminan en un gran caos durante el envío y la logística
  • Si los clústeres de Pi realmente fueran competitivos en costo frente al rendimiento, los data centers ya estarían llenos de Pi

    • Esto se parece al chiste de economistas sobre “por qué nadie recoge un billete de 20 dólares tirado en el suelo”. La eficiencia perfecta del mercado puede funcionar a largo plazo, pero en el corto plazo manda la costumbre y la intuición empírica

    • No hay que olvidar que con PlayStation se dijo exactamente lo mismo

    • Los clústeres de Pi... no parecen ser realmente competitivos en precio para absolutamente ningún uso

    • Hay una empresa llamada Mythic Beasts que ofrece alquiler de servidores rpi (enlace). En mercados muy pequeños, claramente sí hay algunos usos posibles

  • Hay una razón por la que las supercomputadoras han usado GPU durante los últimos 10 años. Las GPU son mucho más eficientes. Si necesitas procesamiento paralelo de 32 bits, basta con poner una GPU de consumo; si necesitas 64 bits, compras una GPU prosumer como la RTX 6000 Pro y listo. Hoy en día nadie arma clústeres de CPU

    • Por desgracia, incluso la RTX 6000 Pro solo da 2 TFLOPS en doble precisión, 64 veces más lento que en precisión simple. Un EPYC 9755 puede dar alrededor de 10 TFLOPS, y además con menos consumo. Lo mismo pasa con la A100. Si como hobby quieres operaciones DP para HPC, una tarjeta AMD antigua en realidad puede ser mejor. Ahora tanto AMD como NVIDIA ya saben que los clientes científicos pagan caro por rendimiento de alta precisión

    • La supercomputadora El Capitan también usa CPU AMD (con GPU integrada) y está entre los primeros lugares del ranking reciente. Frontier sigue con una configuración similar. Que la GPU tenga su propio bus de datos y memoria separados no necesariamente es lo óptimo

  • En realidad, un clúster de Pi no busca alto rendimiento, sino que es un equipo raro y divertido para un hobby. Casi nadie espera que sea una forma rentable. Parece más bien que el titular sensacionalista típico de YouTube se trasladó a un blog. Si el objetivo real es practicar con clústeres Linux, sale mucho más barato instalar un hipervisor en un CPU de escritorio y crear VM. A menos que tu meta sea sentir la emoción de conectar muchos cables, este enfoque termina siendo mucho más eficiente en uso de recursos del sistema y flexibilidad

    • Si de verdad quieres practicar de la forma más rentable, usa la nube. Normalmente uno termina la práctica y pierde el interés bastante rápido, así que es muy probable que el cobro de la nube se acabe antes de llegar al costo de comprar equipo de escritorio

    • Hice las cuentas y comprar una Mac Studio con el procesador Mx Ultra más reciente y la mayor cantidad de memoria es la forma más rentable de experimentar con modelos de más de 100B parámetros

    • En computación tradicional, solo pierdes en espacio pero ganas en energía y costo. Pero en IA no se pudo usar GPU, y el software de clustering de llama.cpp todavía es inmaduro, así que es difícil sacar una conclusión significativa. Eso podría cambiar si el software mejora

    • Creo que en este tipo de discusión se puede llegar a una conclusión clara incluso sin tener contexto técnico. Basta ver que todo el mundo usa GPU para IA y cómo se disparó la acción de NVIDIA. Me pregunto si OP realmente pensaba que el mundo simplemente no se había dado cuenta de que podía conectar puras Raspberry Pi

    • Algunos productos Raspberry Pi se venden con pérdidas, y solo por eso podría surgir la idea equivocada de que “tal vez sí son competitivos en precio”

  • Agradecí el comentario del autor de “si llegaste al blog, probablemente prefieras leer que ver un video, así que iré directo al grano”

 
chcv0313 2025-09-20

Dice que se arrepiente después de habérsela pasado increíble, jaja. Es como decir que un juego no te gustó cuando ya llevas más de 1000 horas jugándolo, ¿qué diferencia hay?

 
gafani 2025-09-25

La analogía queda perfecta jajaja

 
kandk 2025-09-22

jajajajajajaja