22 puntos por GN⁺ 2026-01-07 | 1 comentarios | Compartir por WhatsApp
  • El modelo Qwen3-30B-A3B-Instruct-2507 funciona en tiempo real en una Raspberry Pi 5 (16GB), manteniendo 8.03 TPS y el 94.18% de la calidad BF16
  • Mediante el método de aprendizaje de longitud de bits ShapeLearn de ByteShape, se optimiza el equilibrio entre velocidad y calidad dentro del límite de memoria de cada dispositivo
  • Frente a Unsloth y MagicQuant, logra más TPS con la misma calidad, o mayor calidad con los mismos TPS
  • Tanto en CPU como en GPU (especialmente RTX 5090 y 4080), cerca de 4 bits aparece como la zona de rendimiento óptimo, y reducir los bits no siempre acelera el modelo
  • En conjunto, los modelos de ByteShape ofrecen rendimiento eficiente desde el edge hasta el centro de datos con un enfoque de “tratar la memoria como presupuesto y optimizar TPS/calidad”

Resumen de la optimización basada en ShapeLearn

  • ByteShape optimiza poniendo en el centro la velocidad y la calidad de respuesta que percibe el usuario al ejecutar el modelo
    • ShapeLearn aprende el tipo de dato de pesos (bitlength) de cada tensor para maximizar al mismo tiempo los TPS (tokens por segundo) y la calidad de salida
    • El objetivo no es simplemente reducir el tamaño del archivo, sino mejorar el equilibrio real entre velocidad y calidad
  • En el entorno de llama.cpp, bajar el número de bits no siempre mejora la velocidad, y la selección de kernels y la sobrecarga influyen mucho en el rendimiento
  • ByteShape considera la memoria como un “presupuesto suficiente para que quepa” y, a partir de ahí, ajusta en función de TPS y calidad

Rendimiento en Raspberry Pi 5

  • En una Raspberry Pi 5 (16GB), el modelo de 30B mantiene 8.5 TPS y más del 92% de precisión
    • El modelo Q3_K_S-2.70bpw [KQ-2] ofrece una velocidad de respuesta a nivel de conversación en tiempo real
  • En los modelos priorizando precisión, ByteShape logra una tasa de error relativa de 1.1~1.3% (aprox. 98.8% de precisión), con una tasa de error hasta 1.87 veces menor que Unsloth
    • En el mismo entorno mantiene 5~6 TPS, adecuado para tareas centradas en precisión
  • El modelo priorizando velocidad (Q3_K_S-3.25bpw [KQ-5]) también es más pequeño y más rápido que Unsloth, manteniendo ventaja en precisión
  • Muchos modelos de Unsloth y MagicQuant no pueden ejecutarse en el entorno Pi por restricciones de memoria

Rendimiento en Intel i7 (64GB)

  • En un entorno donde todos los modelos caben en memoria, ByteShape logra mayor calidad y TPS que Unsloth y MagicQuant
  • Zona centrada en calidad: el modelo IQ4_XS-4.67bpw [KQ-9] de ByteShape consigue una tasa de error 1.44 veces menor que Q6_K de Unsloth, junto con mayores TPS
  • Zona equilibrada: el modelo Q3_K_S-3.25bpw de ByteShape muestra una tasa de error 1.73 veces menor que Unsloth y supera a MagicQuant tanto en precisión como en velocidad
  • Solo ByteShape cubre simultáneamente la zona de más de 26 TPS y la de alta calidad

Comparación de rendimiento en GPU (RTX 5090 / RTX 4080)

  • En GPU, el rendimiento depende de la selección de kernels y la eficiencia de acceso a VRAM
    • Se confirma que cerca de 4 bits (~4bpw) es el sweet spot de TPS y calidad
  • RTX 5090 (32GB)
    • Unsloth, MagicQuant y ByteShape se sitúan todos en 302~303 TPS y 98.4~98.9% de precisión en la zona de 4b
    • El modelo IQ4_XS-4.67bpw de ByteShape alcanza la mejor precisión con 272.98 TPS y 99.75% de precisión
    • Supera a Unsloth Q6_K(6.57bpw, 264.88 TPS, 99.64%) y a MagicQuant mxfp4(5.46bpw, 240.42 TPS, 99.32%)
  • RTX 4080 (16GB)
    • Por las limitaciones de VRAM, los modelos 4b no son viables, y en las mismas condiciones de 16GB ByteShape supera a Unsloth tanto en TPS como en precisión
    • ByteShape IQ4_XS-3.87bpw: 214.81 TPS, 98.66% de precisión
      • Frente a Unsloth Q3_K_XL, tiene una tasa de error 1.59 veces menor y 9.4% más TPS
      • Frente a Unsloth IQ2_M, tiene una tasa de error 2.54 veces menor

La paradoja entre número de bits y velocidad

  • Reducir a 3 bits o menos no garantiza una mejora de velocidad
    • Las GPU operan en warps de 32 hilos y están optimizadas para ciertos formatos de datos y patrones de acceso
    • La VRAM se lee en bloques alineados de 32 bytes, por lo que datos más pequeños pueden consumir el mismo ancho de banda
    • Un menor ancho de bits puede incluso volver el proceso más lento por el aumento de la sobrecarga de decodificación
  • Ejemplo: en una RTX 5090, iq4_xs tarda 54µs y iq3_xxs tarda 62µs → una reducción del 25% en tamaño lleva a una caída del 13% en velocidad
  • ShapeLearn selecciona el tipo de dato por tensor teniendo en cuenta estas características del hardware, para asegurar velocidad y precisión al mismo tiempo

Método de evaluación y conclusión

  • Todos los modelos se midieron con el mismo harness de evaluación para TPS y puntaje de calidad normalizado (frente a BF16)
    • La evaluación de calidad integra resultados de MMLU, GSM8K, IFEval y LiveCodeBench V4
  • Conclusiones clave:
    • “Trata la memoria no como objetivo, sino como restricción.”
    • Una vez que el modelo cabe en el dispositivo, lo importante es la curva de equilibrio entre TPS y calidad
    • ByteShape logra en todos los dispositivos más velocidad con la misma calidad, o mayor calidad con la misma velocidad
  • En Raspberry Pi 5, el modelo Q3_K_S-2.70bpw [KQ-2] es adecuado para conversación en tiempo real
  • El mismo principio aplica en entornos de CPU y GPU grandes: “Primero haz que quepa, luego optimiza.”
  • ByteShape planea seguir publicando más modelos optimizados por dispositivo

1 comentarios

 
GN⁺ 2026-01-07
Opiniones de Hacker News
  • Creo que aquí hay una gran oportunidad de mercado
    Lo que quiero es un sistema tipo Alexa, pero con componentes estandarizados basados en inferencia local y almacenamiento local

    • Dispositivo conversacional: un aparato tipo Alexa/Google/Apple con buen altavoz y control por voz, o un dispositivo de entrada para la TV. También estaría bien que funcionara como extensor Wi-Fi o router. Me gustaría tener uno en cada habitación para crear una red mesh real
    • Servidor cloud del hogar: un dispositivo con CPU barata, algo de RAM y suficiente almacenamiento, que sea el nodo central para gestionar las apps y los respaldos de red de la casa
    • Motor de inferencia: estaría bien que anunciara servicios de una forma estándar y que el nodo de control se conectara automáticamente. Quiero un entorno de plug and play que simplemente funcione al conectarlo
      Lo clave es la privacidad y la interoperabilidad. Si requiere registrar una cuenta o conectarse a servidores externos, no lo compraría. Quiero que comandos como “Freddy, pon un temporizador de 10 minutos” se procesen localmente
    • Aún no existe un producto completamente plug and play, pero he tenido resultados bastante buenos con Home Assistant y su Voice Preview Edition
      La idea es poner varios dispositivos baratos con Wi-Fi + micrófono + altavoz por toda la casa, y hacer el procesamiento de voz en una caja central más potente
      Al final esto funciona como un solo programa, así que si le agregas una tarjeta Wi-Fi a una máquina un poco más potente, también puede servir como extensor Wi-Fi
    • Yo también coincido con esta idea. He tenido dificultades para lograr una integración fluida de voz con ChatGPT en Home Assistant (HA)
      Tampoco me gusta el concepto de wake word. Siento que todavía hay mucho por mejorar en toda la pila
    • Y además sería divertido ver un sistema así aplicado a juguetes
  • Me pregunto si hay algún buen recurso para comparar fácilmente distintos modelos
    Entiendo la diferencia en número de parámetros entre gpt-oss-20b y gpt-oss-120b, pero no tengo claro cómo cambia el rendimiento real
    Solo he usado modelos grandes como Gemini o GPT, pero me gustaría saber hasta qué tamaño más pequeño de modelo seguiría siendo útil en mi hardware

  • Me dio curiosidad qué tan “en tiempo real” era el rendimiento, así que lo revisé
    En una Pi 5 (16GB), el modelo Q3_K_S-2.70bpw [KQ-2] alcanza 8.03 TPS y mantiene el 94.18% de la calidad de BF16
    El artículo también cubre otros detalles del hardware

    • Creo que estaría bueno tener una página de resumen de Hacker News que mostrara solo este tipo de cifras clave
  • Yo también hice pruebas en una Pi 5 (16GB) con la última versión de llama.cpp y me apareció un segmentation fault (segfault)
    Salió un mensaje de error por falta de memoria y se cerró después de usar unos 10GB de RAM
    Al reducir el tamaño de contexto con la opción -c 4096, la carga sí funcionó

    • También podría valer la pena probar los modelos cuantizados de 4 bits de illama o ik_llama.cpp, o incluso Microsoft BitNet
      Modelos como BitNet b1.58-2B-4T-gguf parecen buenos para hacer pruebas comparativas incluso en dispositivos modestos o PCs de oficina con solo iGPU
    • Quizá también hayan agregado memoria swap
  • Me pregunto si la forma de medir la precisión es distinta de la perplexity habitual
    Me parece raro que bajar desde BF16 hasta 2.8 implique solo una pérdida de calidad del 5%

  • GPT-OSS-20B pesa alrededor de 11.2GB, así que debería poder ejecutarse sin pérdida de calidad incluso en equipos con 16GB de memoria