Cuantización del modelo Qwen3.5: por qué la versión de la comunidad pierde rendimiento

(x.com/Brooooook_lyn)

18 puntos por ragingwind 11 일 전 | 4 comentarios | Compartir por WhatsApp

Se identificó técnicamente la causa de que los modelos Qwen3.5 en formato MLX distribuidos por la comunidad presenten errores en llamadas a herramientas, salidas sin sentido y fenómenos de alucinación (hallucination) dentro de la técnica de "cuantización (quantization)", que comprime los modelos de IA para hacerlos más pequeños y rápidos. Se trata del contenido en el que la empresa de herramientas de fine-tuning de IA Unsloth presenta la causa y la solución a través de más de 150 experimentos de benchmark.

Resumen clave

La cuantización es una técnica que comprime los datos numéricos del modelo a una menor precisión (cantidad de bits) para reducir el tamaño del archivo y la carga de cómputo
La mayoría de las herramientas de cuantización de la comunidad usan "cuantización uniforme", que aplica la misma cantidad de bits a todas las capas
Qwen3.5 tiene una estructura híbrida en la que se alternan capas de self-attention convencionales y capas de atención lineal llamadas GatedDeltaNet
El núcleo del problema está en la capa linear_attn.out_proj, cuya sensibilidad a la pérdida de información al comprimirse a 4 bits es aproximadamente 120 veces mayor que la de la capa de salida (lm_head)
La cuantización uniforme tiene un problema estructural: desperdicia precisión en partes poco importantes y termina destruyendo las capas realmente sensibles

La solución de Unsloth

Aplicó un enfoque de "cuantización de bits mixtos", que asigna distintas cantidades de bits según la sensibilidad real de cada capa
Las capas MLP de baja sensibilidad se dejan en 3 bits, a las capas de atención Q/K/V se les aplican 5 bits con AWQ (técnica de corrección de pesos), y la capa de salida más sensible conserva precisión completa en bf16
Como datos de calibración (ajuste), en lugar de Wikipedia se usan ejemplos de conversación, código y llamadas a herramientas, lo que permite calcular la importancia de acuerdo con el entorno real de uso

Ventajas y desventajas

Ventaja: la calidad de las llamadas a herramientas, la salida estructurada y la generación de código mejora notablemente frente a las versiones previas de la comunidad. En MLX se logró un rendimiento equivalente al de la misma versión en GGUF
Desventaja: como algunas capas sensibles deben mantenerse en bf16, el tamaño en disco es mayor que en un modelo puramente de bajos bits

Diferenciadores

Mientras que las herramientas comunitarias existentes comprimen todo en bloque sin considerar la estructura, Unsloth derivó científicamente la cantidad óptima de bits por capa mediante más de 150 experimentos de KLD (métrica para medir pérdida de información) y la comparación de 121 configuraciones
También destaca que se demostró empíricamente que la calidad de los datos de calibración determina la calidad de la compresión

Implicaciones

Se confirma una vez más que la compresión de modelos de IA no consiste simplemente en reducir la cantidad de bits, sino que requiere entender la estructura interna del modelo
Deja una lección práctica: al usar en trabajo real modelos livianos distribuidos por la comunidad, es indispensable verificar tanto el método de cuantización del distribuidor como los datos de calibración

4 comentarios

iiiiiiiiiiiii 9 일 전

De hecho, si se comprimen sin miedo las capas que no son tan importantes, no se producen muchas pérdidas. En el caso de algunas capas, incluso con cuantización de 2 bits no hay una pérdida perceptible.
Pero los modelos de la comunidad cuantizan todas las capas de forma uniforme, y ahí es donde surge el problema.

jeeeyul 11 일 전

Eso se debe a que las dimensiones y las capas del modelo no quedaron "horneadas" de manera uniforme. Como siempre.

ryj0902 10 일 전

Guau......!

mammal 11 일 전

Parece que Daniel Han, fundador de Unsloth, es un verdadero genio. Cada vez que sale un modelo de pesos abiertos, comparte análisis desde la arquitectura del modelo hasta bugs de tokenización, errores de cuantización y errores de plantillas, y de verdad es impresionante.

Cuantización del modelo Qwen3.5: por qué la versión de la comunidad pierde rendimiento

Lecturas relacionadas

4 comentarios