18 puntos por GN⁺ 2025-09-09 | 3 comentarios | Compartir por WhatsApp
  • Presentación de un caso de configuración y benchmark que ejecuta el modelo cuantizado A3B Q40 de Qwen3 30B MoE uniendo 4 pequeñas placas Raspberry Pi como nodos de inferencia distribuidos
  • Configuración de red mediante un switch con 1 ROOT + 3 WORKER (todos Raspberry Pi 5 de 8 GB)
  • La velocidad de generación de tokens se midió en 14.33 tok/s durante la etapa de evaluación y en 13.04 tok/s durante la etapa de predicción
  • El modelo se basa en la arquitectura Qwen3 MoE y está compuesto por 48 capas y 128 expertos
  • Hace posible ejecutar un modelo de lenguaje de alto rendimiento con hardware de bajo costo, abriendo la puerta al potencial de un clúster de Raspberry Pi y a una investigación de IA rentable

Resumen del proyecto

  • Uso de Distributed Llama v0.16.0 para ejecutar el modelo Qwen3 30B A3B Q40 en 4 Raspberry Pi 5 de 8 GB
    • Diseñado para hacer posible ejecutar modelos de lenguaje grandes en dispositivos de bajo costo
    • Conexión de red mediante un switch TP-Link LS1008G
  • El objetivo principal es operar modelos de IA de forma eficiente sin recursos de cómputo de alto rendimiento
    • Distribución del trabajo entre 4 dispositivos (1 root y 3 workers)
    • Direcciones IP: root (10.0.0.2), workers (10.0.0.1, 10.0.0.3, 10.0.0.4)

Configuración de hardware y red

  • Composición: un clúster formado por 4 Raspberry Pi 5 de 8 GB
    • Cada dispositivo está conectado a un switch TP-Link LS1008G
    • El nodo root y los 3 nodos worker se comunican a través de la red
  • Inicialización de red: conexión exitosa a todos los nodos worker (10.0.0.1:9999, 10.0.0.3:9999, 10.0.0.4:9999)
    • Funcionamiento de red en modo no bloqueante
    • Transferencia de datos: 12084kB enviados y 20085kB recibidos durante la evaluación
  • Uso de CPU: procesamiento optimizado con soporte Neon Dotprod FP16

Detalles del modelo

  • Modelo: Qwen3 30B A3B Q40
    • Arquitectura: Qwen3 MoE (Mixture of Experts)
    • Número de capas: 48
    • Número de expertos: 128, con 8 expertos activos
    • Dimensiones: Dim 2048, QDim 4096, KvDim 512, HiddenDim 6144
  • Tokenizer: tamaño de vocabulario de 151669, con una ligera discrepancia frente al tamaño de vocabulario del modelo de 151936
    • Tamaño de vocabulario general: 151643
    • Tamaño de vocabulario especial: 26
  • Requisitos de memoria: 5513MB
    • Longitud máxima de secuencia: 4096
    • NormEpsilon: 0.000001, RopeTheta: 10000000

Rendimiento del benchmark

  • Etapa de evaluación
    • Número de lotes: 32
    • Número de tokens: 19
    • Velocidad de generación de tokens: 14.33 tok/s (69.80ms/tok)
  • Etapa de predicción
    • Número de tokens: 109
    • Velocidad de generación de tokens: 13.04 tok/s (76.69ms/tok)
  • Logs detallados de predicción:
    • Cada paso de predicción tarda aproximadamente entre 49 y 70ms, con tiempos de sincronización de 14 a 94ms
    • Los datos enviados se mantienen en 636kB y los recibidos en 1057kB
    • Ejemplos de tokens generados: "Of", "course", "Poland"
    • Número de hilos: 4
    • Tipo float del buffer: Q80
    • Longitud máxima de secuencia: 4096

Precauciones y limitaciones (Notes & Caveats)

  • Existe una advertencia por discrepancia entre Tokenizer vocab size y Model vocab size, por lo que es necesario verificar la consistencia del tokenizer
  • A3B Q40 corresponde a una cuantización agresiva, por lo que conviene considerar el equilibrio entre precisión y calidad de respuesta
  • La configuración de 4 Pi 5 de 8 GB tiene límites de memoria y cómputo, por lo que puede haber una gran variación según la longitud del prompt, la concurrencia y la calidad de la red

Implicaciones prácticas

  • Un proyecto que muestra el potencial de la ejecución de IA de bajo costo
  • Como caso reproducible de ejecución distribuida de un modelo MoE de clase 30B con un clúster SBC de bajo costo, puede servir como referencia para reducir la barrera de entrada en experimentos de inferencia ligera on-premise y desarrollo
  • Incluye logs de red y sincronización por token, lo que aporta datos valiosos para medir y ajustar el overhead distribuido
  • La combinación de framework distribuido + modelo cuantizado puede mejorar el rendimiento frente al TCO en entornos de edge e investigación personal

3 comentarios

 
seohc 2025-09-10

Las mini PC de la serie n también son baratas, pero si juntas cuatro de 16 GB... pensándolo bien, saldría por el precio de subir a 32 GB en una 8845 jaja

 
ndrgrd 2025-09-10

Impresionante. Qué bueno que últimamente parece haber cada vez más información sobre cómo operar LLM de baja carga.

 
developerjhp 2025-09-09

Una locura...