- Meta lanzó modelos Llama cuantizados y ligeros que pueden ejecutarse en dispositivos móviles
- Están orientados a aplicaciones de contexto corto de hasta 8K
- Los modelos cuantizados logran una mejora de velocidad de 2 a 4 veces, una reducción del 56% en el tamaño del modelo y una disminución del 41% en el uso de memoria.
- Técnicas de cuantización
- Para los modelos Llama 3.2 1B y 3B, se utilizan las técnicas Quantization-Aware Training (QAT) y SpinQuant.
- QAT prioriza la precisión, mientras que SpinQuant prioriza la portabilidad.
- Ambas técnicas de cuantización son compatibles a través del framework ExecuTorch de PyTorch.
- Optimización para dispositivos móviles
- Están diseñados para ejecutarse en SoC de Qualcomm y MediaTek.
- En pruebas realizadas en un Android OnePlus 12, el tamaño del modelo y el uso de memoria se redujeron de forma significativa.
- El rendimiento se optimiza aprovechando la CPU y la NPU del dispositivo móvil.
- Configuración de cuantización
- Se diseñó considerando el framework de inferencia ExecuTorch de PyTorch y el backend de CPU de Arm.
- Todas las capas lineales se cuantizan en grupos de 4 bits, y las activaciones usan cuantización dinámica de 8 bits.
- Entrenamiento consciente de la cuantización (QAT) y LoRA
- Se usa QAT, que simula durante el entrenamiento de los modelos Llama 3.2 los efectos de la cuantización, para optimizar el rendimiento en entornos de baja precisión
- Para inicializar QAT, se aprovechan checkpoints del modelo BF16 Llama 3.2 y luego se realiza entrenamiento SFT adicional con QAT
- Se congela el backbone del modelo QAT y se vuelve a ejecutar SFT aplicando adaptadores LoRA
- QAT se realiza usando la API de
torchao
- SpinQuant
- Aunque es menos preciso que QAT + LoRA, ofrece gran portabilidad porque puede funcionar sin acceso al dataset.
- Permite cuantizar modelos según distintos objetivos de hardware y casos de uso.
- Resultados
- El enfoque QLoRA mostró la mejor calidad en todos los aspectos
- Frente a BF16, la latencia de decodificación mejoró en promedio 2.5 veces y la latencia de prefill 4.2 veces
- El tamaño del modelo se redujo en promedio un 56% y el uso de memoria un 41%
- Las mediciones se realizaron en un Android OnePlus 12; en dispositivos iOS la precisión fue similar, pero el rendimiento no fue evaluado
Resumen de GN⁺
- Los modelos Llama cuantizados de Meta apuntan a reducir peso y optimizar el rendimiento para ejecutarse en dispositivos móviles
- Mediante las técnicas QAT y SpinQuant, ofrecen modelos cuantizados que equilibran precisión y portabilidad
- Aprovechan la CPU y la NPU móviles para maximizar el rendimiento y admitir su uso en distintos tipos de hardware
- Gracias a una colaboración estrecha con diversas plataformas móviles y socios, parece tratarse de una solución con un nivel de madurez aplicable a productos reales
- Se considera que los modelos Llama de Meta son competitivos en apertura, capacidad de modificación y eficiencia de costos, y se espera que sigan ofreciendo experiencias potentes de IA en móviles mediante innovación continua
Aún no hay comentarios.