- Los checkpoints de entrenamiento consciente de cuantización (QAT) de Gemma 4 optimizan los requisitos de memoria y el rendimiento en el dispositivo para facilitar la ejecución local en dispositivos edge cotidianos y GPUs de consumo
- QAT simula la cuantización durante el entrenamiento para reducir la pérdida de calidad al comprimir, y produce una calidad general superior a la línea base estándar de PTQ
- Los checkpoints publicados apuntan al formato Q4_0 y a un formato especializado para móviles, y el formato móvil reduce la huella de memoria de Gemma 4 E2B a 1 GB
- El esquema móvil reduce la carga de trabajo y el uso de memoria activa en chips móviles mediante activaciones estáticas, cuantización por canal, cuantización selectiva de 2 bits y optimización de embeddings y caché KV
- Con soporte para pesos en Hugging Face, llama.cpp·Ollama·LM Studio, LiteRT-LM·Transformers.js y SGLang·vLLM·MLX·Unsloth, se puede realizar ejecución local, despliegue en el dispositivo y fine-tuning
Contexto del anuncio y alcance
- Dos meses después del lanzamiento de Gemma 4, Google publicó checkpoints QAT tras presentar Multi-Token Prediction (MTP) para acelerar la inferencia y el modelo de 12B, que cubre el espacio entre los modelos MOE E4B y 26B
- Los nuevos checkpoints forman parte de un trabajo de eficiencia orientado a permitir la ejecución local de Gemma 4 en dispositivos edge cotidianos y GPUs de consumo
- QAT es un método que simula la cuantización durante el entrenamiento para minimizar la pérdida de calidad al comprimir el modelo
- Este lanzamiento ofrece checkpoints QAT para el popular formato de cuantización Q4_0 y un nuevo formato de cuantización especializado para casos de uso móvil
Compresión y equilibrio de calidad
- La cuantización es una tecnología clave para ejecutar modelos en hardware de consumo, ya que reduce la huella de memoria y aumenta la velocidad de decodificación
- La cuantización post-entrenamiento estándar (PTQ) suele provocar degradación del rendimiento, pero QAT integra directamente el proceso de cuantización en el entrenamiento
- PTQ también puede ser eficaz para preservar la calidad, pero los resultados de QAT muestran una calidad general superior a la línea base estándar de PTQ
- Google aplicó recetas QAT al formato Q4_0 para maximizar el rendimiento de todos los modelos, y diseñó por separado un esquema de cuantización especializado para móviles en los modelos edge E2B y E4B
Estructura de optimización para móviles
- Como los formatos de compresión estándar muchas veces no se ejecutan eficientemente en procesadores móviles, Gemma 4 usa un esquema de cuantización móvil personalizado para hardware edge
- Las activaciones estáticas precalculan durante el entrenamiento la configuración de escala de datos para reducir la carga de trabajo de los chips móviles y mejorar la velocidad de respuesta
- La cuantización por canal organiza los datos comprimidos según la arquitectura de los aceleradores móviles para permitir cómputo nativo sin recurrir a métodos alternativos más lentos
- La cuantización selectiva de 2 bits comprime con fuerza a 2 bits la parte de generación de tokens, mientras mantiene las capas clave de inferencia con mayor precisión para ahorrar espacio de almacenamiento
- La optimización de embeddings y caché KV concentra la compresión en el vocabulario del modelo y su memoria de corto plazo para reducir considerablemente la huella de memoria activa y permitir conversaciones largas
- En casos de uso donde no se necesitan codificadores de audio o visión, se puede desplegar solo la modalidad necesaria para reducir aún más la huella de memoria, y el modelo Gemma 4 E2B de solo texto sin Per-Layer Embeddings requiere menos de 1 GB de memoria
Cómo usarlo y soporte de herramientas
- Google ofrece los pesos de los modelos Q4_0 y mobile en Hugging Face
- El formato GGUF puede usarse directamente en llama.cpp, los tensores comprimidos se ofrecen para vLLM y, para otros flujos de trabajo, también se comparten checkpoints no cuantizados que pueden convertirse y cuantizarse a formatos compatibles con Q4_0
- Los métodos de despliegue pueden consultarse en la documentación
- En escritorio, se pueden descargar, administrar y ejecutar localmente modelos Gemma 4 QAT con llama.cpp, Ollama y LM Studio
- Para despliegue en el dispositivo, puede usarse el runtime ligero LiteRT-LM de Google, y en la web pueden ejecutarse directamente con Transformers.js
- Para servir modelos grandes, pueden usarse SGLang y vLLM, y para optimización en Apple Silicon puede usarse MLX
- Los checkpoints MTP QAT preservan la mejora de velocidad de MTP mientras cuantizan el modelo, y los pesos pueden ajustarse directamente con fine-tuning usando Hugging Face Transformers y Unsloth
1 comentarios
Comentarios en Hacker News
Probé ejecutar Gemma 4 E2B localmente en Mac con
uvx litert-lm run, y en la primera ejecución descargó 3.2GB en~/.cache/huggingface/hub/models--litert-community--gemma-4-E2B-it-litert-lmEs bastante impresionante que un modelo de ese tamaño también procese entrada de audio e imagen; con imágenes se puede ejecutar como
--attachment image.jpg --prompt describe, y con audio como--attachment audio.wav --prompt transcribeEl resultado del SVG del pelícano en sí no fue gran cosa, pero me sorprendió que un archivo de 3.2GB produjera un SVG válido: https://gist.github.com/simonw/94b318afde4b1ce5ff67d4b5d0362...
Los modelos de MLX Community sí lo llevan en el nombre, pero estos no, y la fecha de subida tampoco parece coincidir del todo
Ahora ya es posible tener conversaciones básicas en tiempo real dentro del dispositivo reconociendo video y audio
uvxes realmente cómodo de usarOjalá Nvidia también lo soportara como algo de primera clase en vez de hacer que la gente tenga que pasar por Docker
También está la colección de Unsloth [0], y los resultados también están publicados [1]
Frente al modelo BF16 sin cuantizar, parece estar muy cerca del 100% de precisión, y la cuantización de Unsloth se ve mejor que el QAT original de Google que sale en el artículo
En lo personal, incluso con el modelo integrado en el teléfono, estoy usando el modelo 2B con búsqueda web y salida JSON estructurada mediante Unsloth Studio y la API, y para ese uso encaja muy bien
[0] https://huggingface.co/collections/unsloth/gemma-4-qat
[1] https://unsloth.ai/docs/models/gemma-4/qat#qat-analysis
Lo que se ve ahí no es BF16 normal, sino BF16 QAT Q4_0
Se acerca más a decir que Google cuantizó el modelo a 4 bits y luego guardó el resultado en formato BF16 por compatibilidad y conveniencia con packers posteriores
Es parecido a guardar números pequeños de 8 bits dentro de enteros de 32 bits, así que no significa que esté cerca del 100% del BF16 sin cuantizar
Aun así, me da curiosidad por qué el QAT Q4_0 de 4 bits que publicó Google no da exactamente el 100% del BF16 QAT Q4_0. Parecería que la conversión entre ambos empaquetados podría ser solo manipulación de bits sin cuantización adicional, pero Unsloth dice que hay un problema de alineación de rejilla
Fuera de eso, no me gusta que Google, Qwen y otros fabricantes de modelos pequeños muestren solo benchmarks en BF16 cuando sacan modelos nuevos. En la práctica, la gente corre cuantización de 4 a 8 bits, y es demasiado difícil saber cuánto se pierde en 4 bits y 6 bits
Incluso viendo solo esta semana, impresiona lo rápido que ha evolucionado el ecosistema de Gemma
Salieron Gemma 12B, predicción multítoken y modelos cuantizados oficiales, y se siente que Google realmente está metiéndole fuerza a este ritmo de lanzamientos, así que genera expectativa
Es viernes antes de la WWDC, y llama la atención que Apple vaya a anunciar un Siri “mejorado” basado en modelos de Google
Puede que por ahora sea una alianza cerrada, pero también podría ser que Google esté publicando por adelantado el modelo que Apple mostrará la próxima semana
No hay información firme; es solo especulación
Probé
hf.co/google/gemma-4-12B-it-qat-q4_0-gguf:Q4_0conollamaen una laptop con AMD Ryzen 9 8940HX, NVIDIA GeForce RTX 5060 8GB y 14GB de RAM, y fue más rápido de lo esperadoEs un poco raro publicar Gemma 4 12B(https://news.ycombinator.com/item?id=48385906) y unos días después sacar el Q4_0 Gemma 4 12B oficial
Aun así, está bien que este artículo ponga el uso esperado de VRAM del Q4_0 Gemma 4 12B en 6.7GB, y también confirma que, aunque encaja holgadamente dentro de los 16GB que mencionó Google, al final eso solo aplica a la versión cuantizada
Relacionado con eso, en el nuevo Edge Gallery para macOS de Google se indica explícitamente que Gemma 4 12B no está soportado en máquinas de 16GB por falta de RAM, pero viendo el uso estimado de VRAM aquí, la variante Q4_0 claramente sí debería entrar, así que Google tendría que corregir eso
Me parece mejor ir publicando el modelo y las variantes conforme estén listas, en vez de retener todo hasta que esté preparado al mismo tiempo
Q4_0 no es simplemente una cuantización de Gemma 4 12B, sino un checkpoint con entrenamiento consciente de cuantización
Google Pixel Intelligence podría vencer a Apple Intelligence
Que un modelo de 12B pueda correr en 8GB de VRAM es un cambio grande
Sorprende lo rápido que están avanzando los modelos locales pequeños
Me fue bastante bien con Gemma 4 E2B Unsloth 4Q: https://youtube.com/shorts/XLsAnz5aAAI
El modelo E4B no entra en el TPU de mi teléfono y hace swap a RAM, así que me alegra que la versión QAT mejore la precisión
Nosotros consideramos que incluso el modelo E2B sin cuantizar era totalmente inútil para la tarea de clasificación real más simple
Quiero probarlo también en mi Pixel