Modelo Qwen de 30 mil millones de parámetros ejecutándose en tiempo real en una Raspberry Pi

(byteshape.com)

22 puntos por GN⁺ 2026-01-07 | 1 comentarios | Compartir por WhatsApp

El modelo Qwen3-30B-A3B-Instruct-2507 funciona en tiempo real en una Raspberry Pi 5 (16GB), manteniendo 8.03 TPS y el 94.18% de la calidad BF16
Mediante el método de aprendizaje de longitud de bits ShapeLearn de ByteShape, se optimiza el equilibrio entre velocidad y calidad dentro del límite de memoria de cada dispositivo
Frente a Unsloth y MagicQuant, logra más TPS con la misma calidad, o mayor calidad con los mismos TPS
Tanto en CPU como en GPU (especialmente RTX 5090 y 4080), cerca de 4 bits aparece como la zona de rendimiento óptimo, y reducir los bits no siempre acelera el modelo
En conjunto, los modelos de ByteShape ofrecen rendimiento eficiente desde el edge hasta el centro de datos con un enfoque de “tratar la memoria como presupuesto y optimizar TPS/calidad”

Resumen de la optimización basada en ShapeLearn

ByteShape optimiza poniendo en el centro la velocidad y la calidad de respuesta que percibe el usuario al ejecutar el modelo
- ShapeLearn aprende el tipo de dato de pesos (bitlength) de cada tensor para maximizar al mismo tiempo los TPS (tokens por segundo) y la calidad de salida
- El objetivo no es simplemente reducir el tamaño del archivo, sino mejorar el equilibrio real entre velocidad y calidad
En el entorno de llama.cpp, bajar el número de bits no siempre mejora la velocidad, y la selección de kernels y la sobrecarga influyen mucho en el rendimiento
ByteShape considera la memoria como un “presupuesto suficiente para que quepa” y, a partir de ahí, ajusta en función de TPS y calidad

Rendimiento en Raspberry Pi 5

En una Raspberry Pi 5 (16GB), el modelo de 30B mantiene 8.5 TPS y más del 92% de precisión
- El modelo Q3_K_S-2.70bpw [KQ-2] ofrece una velocidad de respuesta a nivel de conversación en tiempo real
En los modelos priorizando precisión, ByteShape logra una tasa de error relativa de 1.1~1.3% (aprox. 98.8% de precisión), con una tasa de error hasta 1.87 veces menor que Unsloth
- En el mismo entorno mantiene 5~6 TPS, adecuado para tareas centradas en precisión
El modelo priorizando velocidad (Q3_K_S-3.25bpw [KQ-5]) también es más pequeño y más rápido que Unsloth, manteniendo ventaja en precisión
Muchos modelos de Unsloth y MagicQuant no pueden ejecutarse en el entorno Pi por restricciones de memoria

Rendimiento en Intel i7 (64GB)

En un entorno donde todos los modelos caben en memoria, ByteShape logra mayor calidad y TPS que Unsloth y MagicQuant
Zona centrada en calidad: el modelo IQ4_XS-4.67bpw [KQ-9] de ByteShape consigue una tasa de error 1.44 veces menor que Q6_K de Unsloth, junto con mayores TPS
Zona equilibrada: el modelo Q3_K_S-3.25bpw de ByteShape muestra una tasa de error 1.73 veces menor que Unsloth y supera a MagicQuant tanto en precisión como en velocidad
Solo ByteShape cubre simultáneamente la zona de más de 26 TPS y la de alta calidad

Comparación de rendimiento en GPU (RTX 5090 / RTX 4080)

En GPU, el rendimiento depende de la selección de kernels y la eficiencia de acceso a VRAM
- Se confirma que cerca de 4 bits (~4bpw) es el sweet spot de TPS y calidad
RTX 5090 (32GB)
- Unsloth, MagicQuant y ByteShape se sitúan todos en 302~303 TPS y 98.4~98.9% de precisión en la zona de 4b
- El modelo IQ4_XS-4.67bpw de ByteShape alcanza la mejor precisión con 272.98 TPS y 99.75% de precisión
- Supera a Unsloth Q6_K(6.57bpw, 264.88 TPS, 99.64%) y a MagicQuant mxfp4(5.46bpw, 240.42 TPS, 99.32%)
RTX 4080 (16GB)
- Por las limitaciones de VRAM, los modelos 4b no son viables, y en las mismas condiciones de 16GB ByteShape supera a Unsloth tanto en TPS como en precisión
- ByteShape IQ4_XS-3.87bpw: 214.81 TPS, 98.66% de precisión
  - Frente a Unsloth Q3_K_XL, tiene una tasa de error 1.59 veces menor y 9.4% más TPS
  - Frente a Unsloth IQ2_M, tiene una tasa de error 2.54 veces menor

La paradoja entre número de bits y velocidad

Reducir a 3 bits o menos no garantiza una mejora de velocidad
- Las GPU operan en warps de 32 hilos y están optimizadas para ciertos formatos de datos y patrones de acceso
- La VRAM se lee en bloques alineados de 32 bytes, por lo que datos más pequeños pueden consumir el mismo ancho de banda
- Un menor ancho de bits puede incluso volver el proceso más lento por el aumento de la sobrecarga de decodificación
Ejemplo: en una RTX 5090, iq4_xs tarda 54µs y iq3_xxs tarda 62µs → una reducción del 25% en tamaño lleva a una caída del 13% en velocidad
ShapeLearn selecciona el tipo de dato por tensor teniendo en cuenta estas características del hardware, para asegurar velocidad y precisión al mismo tiempo

Método de evaluación y conclusión

Todos los modelos se midieron con el mismo harness de evaluación para TPS y puntaje de calidad normalizado (frente a BF16)
- La evaluación de calidad integra resultados de MMLU, GSM8K, IFEval y LiveCodeBench V4
Conclusiones clave:
- “Trata la memoria no como objetivo, sino como restricción.”
- Una vez que el modelo cabe en el dispositivo, lo importante es la curva de equilibrio entre TPS y calidad
- ByteShape logra en todos los dispositivos más velocidad con la misma calidad, o mayor calidad con la misma velocidad
En Raspberry Pi 5, el modelo Q3_K_S-2.70bpw [KQ-2] es adecuado para conversación en tiempo real
El mismo principio aplica en entornos de CPU y GPU grandes: “Primero haz que quepa, luego optimiza.”
ByteShape planea seguir publicando más modelos optimizados por dispositivo

1 comentarios

GN⁺ 2026-01-07

Opiniones de Hacker News

Creo que aquí hay una gran oportunidad de mercado
Lo que quiero es un sistema tipo Alexa, pero con componentes estandarizados basados en inferencia local y almacenamiento local
- Dispositivo conversacional: un aparato tipo Alexa/Google/Apple con buen altavoz y control por voz, o un dispositivo de entrada para la TV. También estaría bien que funcionara como extensor Wi-Fi o router. Me gustaría tener uno en cada habitación para crear una red mesh real
- Servidor cloud del hogar: un dispositivo con CPU barata, algo de RAM y suficiente almacenamiento, que sea el nodo central para gestionar las apps y los respaldos de red de la casa
- Motor de inferencia: estaría bien que anunciara servicios de una forma estándar y que el nodo de control se conectara automáticamente. Quiero un entorno de plug and play que simplemente funcione al conectarlo
  Lo clave es la privacidad y la interoperabilidad. Si requiere registrar una cuenta o conectarse a servidores externos, no lo compraría. Quiero que comandos como “Freddy, pon un temporizador de 10 minutos” se procesen localmente
- Aún no existe un producto completamente plug and play, pero he tenido resultados bastante buenos con Home Assistant y su Voice Preview Edition
  La idea es poner varios dispositivos baratos con Wi-Fi + micrófono + altavoz por toda la casa, y hacer el procesamiento de voz en una caja central más potente
  Al final esto funciona como un solo programa, así que si le agregas una tarjeta Wi-Fi a una máquina un poco más potente, también puede servir como extensor Wi-Fi
- Yo también coincido con esta idea. He tenido dificultades para lograr una integración fluida de voz con ChatGPT en Home Assistant (HA)
  Tampoco me gusta el concepto de wake word. Siento que todavía hay mucho por mejorar en toda la pila
- Y además sería divertido ver un sistema así aplicado a juguetes
Me pregunto si hay algún buen recurso para comparar fácilmente distintos modelos
Entiendo la diferencia en número de parámetros entre gpt-oss-20b y gpt-oss-120b, pero no tengo claro cómo cambia el rendimiento real
Solo he usado modelos grandes como Gemini o GPT, pero me gustaría saber hasta qué tamaño más pequeño de modelo seguiría siendo útil en mi hardware
- En swe-rebench.com se pueden comparar benchmarks por modelo
Me dio curiosidad qué tan “en tiempo real” era el rendimiento, así que lo revisé
En una Pi 5 (16GB), el modelo Q3_K_S-2.70bpw [KQ-2] alcanza 8.03 TPS y mantiene el 94.18% de la calidad de BF16
El artículo también cubre otros detalles del hardware
- Creo que estaría bueno tener una página de resumen de Hacker News que mostrara solo este tipo de cifras clave
Yo también hice pruebas en una Pi 5 (16GB) con la última versión de llama.cpp y me apareció un segmentation fault (segfault)
Salió un mensaje de error por falta de memoria y se cerró después de usar unos 10GB de RAM
Al reducir el tamaño de contexto con la opción -c 4096, la carga sí funcionó
- También podría valer la pena probar los modelos cuantizados de 4 bits de illama o ik_llama.cpp, o incluso Microsoft BitNet
  Modelos como BitNet b1.58-2B-4T-gguf parecen buenos para hacer pruebas comparativas incluso en dispositivos modestos o PCs de oficina con solo iGPU
- Quizá también hayan agregado memoria swap
Me pregunto si la forma de medir la precisión es distinta de la perplexity habitual
Me parece raro que bajar desde BF16 hasta 2.8 implique solo una pérdida de calidad del 5%
GPT-OSS-20B pesa alrededor de 11.2GB, así que debería poder ejecutarse sin pérdida de calidad incluso en equipos con 16GB de memoria

Modelo Qwen de 30 mil millones de parámetros ejecutándose en tiempo real en una Raspberry Pi

Resumen de la optimización basada en ShapeLearn

Rendimiento en Raspberry Pi 5

Rendimiento en Intel i7 (64GB)

Comparación de rendimiento en GPU (RTX 5090 / RTX 4080)

La paradoja entre número de bits y velocidad

Método de evaluación y conclusión

Lecturas relacionadas

1 comentarios

Opiniones de Hacker News