Logran 13 tokens por segundo con Qwen3 30B A3B en 4 Raspberry Pi 5

(github.com/b4rtaz)

18 puntos por GN⁺ 2025-09-09 | 3 comentarios | Compartir por WhatsApp

Presentación de un caso de configuración y benchmark que ejecuta el modelo cuantizado A3B Q40 de Qwen3 30B MoE uniendo 4 pequeñas placas Raspberry Pi como nodos de inferencia distribuidos
Configuración de red mediante un switch con 1 ROOT + 3 WORKER (todos Raspberry Pi 5 de 8 GB)
La velocidad de generación de tokens se midió en 14.33 tok/s durante la etapa de evaluación y en 13.04 tok/s durante la etapa de predicción
El modelo se basa en la arquitectura Qwen3 MoE y está compuesto por 48 capas y 128 expertos
Hace posible ejecutar un modelo de lenguaje de alto rendimiento con hardware de bajo costo, abriendo la puerta al potencial de un clúster de Raspberry Pi y a una investigación de IA rentable

Resumen del proyecto

Uso de Distributed Llama v0.16.0 para ejecutar el modelo Qwen3 30B A3B Q40 en 4 Raspberry Pi 5 de 8 GB
- Diseñado para hacer posible ejecutar modelos de lenguaje grandes en dispositivos de bajo costo
- Conexión de red mediante un switch TP-Link LS1008G
El objetivo principal es operar modelos de IA de forma eficiente sin recursos de cómputo de alto rendimiento
- Distribución del trabajo entre 4 dispositivos (1 root y 3 workers)
- Direcciones IP: root (10.0.0.2), workers (10.0.0.1, 10.0.0.3, 10.0.0.4)

Configuración de hardware y red

Composición: un clúster formado por 4 Raspberry Pi 5 de 8 GB
- Cada dispositivo está conectado a un switch TP-Link LS1008G
- El nodo root y los 3 nodos worker se comunican a través de la red
Inicialización de red: conexión exitosa a todos los nodos worker (10.0.0.1:9999, 10.0.0.3:9999, 10.0.0.4:9999)
- Funcionamiento de red en modo no bloqueante
- Transferencia de datos: 12084kB enviados y 20085kB recibidos durante la evaluación
Uso de CPU: procesamiento optimizado con soporte Neon Dotprod FP16

Detalles del modelo

Modelo: Qwen3 30B A3B Q40
- Arquitectura: Qwen3 MoE (Mixture of Experts)
- Número de capas: 48
- Número de expertos: 128, con 8 expertos activos
- Dimensiones: Dim 2048, QDim 4096, KvDim 512, HiddenDim 6144
Tokenizer: tamaño de vocabulario de 151669, con una ligera discrepancia frente al tamaño de vocabulario del modelo de 151936
- Tamaño de vocabulario general: 151643
- Tamaño de vocabulario especial: 26
Requisitos de memoria: 5513MB
- Longitud máxima de secuencia: 4096
- NormEpsilon: 0.000001, RopeTheta: 10000000

Rendimiento del benchmark

Etapa de evaluación
- Número de lotes: 32
- Número de tokens: 19
- Velocidad de generación de tokens: 14.33 tok/s (69.80ms/tok)
Etapa de predicción
- Número de tokens: 109
- Velocidad de generación de tokens: 13.04 tok/s (76.69ms/tok)
Logs detallados de predicción:
- Cada paso de predicción tarda aproximadamente entre 49 y 70ms, con tiempos de sincronización de 14 a 94ms
- Los datos enviados se mantienen en 636kB y los recibidos en 1057kB
- Ejemplos de tokens generados: "Of", "course", "Poland"
- Número de hilos: 4
- Tipo float del buffer: Q80
- Longitud máxima de secuencia: 4096

Precauciones y limitaciones (Notes & Caveats)

Existe una advertencia por discrepancia entre Tokenizer vocab size y Model vocab size, por lo que es necesario verificar la consistencia del tokenizer
A3B Q40 corresponde a una cuantización agresiva, por lo que conviene considerar el equilibrio entre precisión y calidad de respuesta
La configuración de 4 Pi 5 de 8 GB tiene límites de memoria y cómputo, por lo que puede haber una gran variación según la longitud del prompt, la concurrencia y la calidad de la red

Implicaciones prácticas

Un proyecto que muestra el potencial de la ejecución de IA de bajo costo
Como caso reproducible de ejecución distribuida de un modelo MoE de clase 30B con un clúster SBC de bajo costo, puede servir como referencia para reducir la barrera de entrada en experimentos de inferencia ligera on-premise y desarrollo
Incluye logs de red y sincronización por token, lo que aporta datos valiosos para medir y ajustar el overhead distribuido
La combinación de framework distribuido + modelo cuantizado puede mejorar el rendimiento frente al TCO en entornos de edge e investigación personal

3 comentarios

seohc 2025-09-10

Las mini PC de la serie n también son baratas, pero si juntas cuatro de 16 GB... pensándolo bien, saldría por el precio de subir a 32 GB en una 8845 jaja

ndrgrd 2025-09-10

Impresionante. Qué bueno que últimamente parece haber cada vez más información sobre cómo operar LLM de baja carga.

developerjhp 2025-09-09

Una locura...