Modelos Gemma 4 QAT: optimización de compresión para eficiencia en móviles y laptops

(blog.google)

4 puntos por GN⁺ 2026-06-06 | 1 comentarios | Compartir por WhatsApp

Los checkpoints de entrenamiento consciente de cuantización (QAT) de Gemma 4 optimizan los requisitos de memoria y el rendimiento en el dispositivo para facilitar la ejecución local en dispositivos edge cotidianos y GPUs de consumo
QAT simula la cuantización durante el entrenamiento para reducir la pérdida de calidad al comprimir, y produce una calidad general superior a la línea base estándar de PTQ
Los checkpoints publicados apuntan al formato Q4_0 y a un formato especializado para móviles, y el formato móvil reduce la huella de memoria de Gemma 4 E2B a 1 GB
El esquema móvil reduce la carga de trabajo y el uso de memoria activa en chips móviles mediante activaciones estáticas, cuantización por canal, cuantización selectiva de 2 bits y optimización de embeddings y caché KV
Con soporte para pesos en Hugging Face, llama.cpp·Ollama·LM Studio, LiteRT-LM·Transformers.js y SGLang·vLLM·MLX·Unsloth, se puede realizar ejecución local, despliegue en el dispositivo y fine-tuning

Contexto del anuncio y alcance

Dos meses después del lanzamiento de Gemma 4, Google publicó checkpoints QAT tras presentar Multi-Token Prediction (MTP) para acelerar la inferencia y el modelo de 12B, que cubre el espacio entre los modelos MOE E4B y 26B
Los nuevos checkpoints forman parte de un trabajo de eficiencia orientado a permitir la ejecución local de Gemma 4 en dispositivos edge cotidianos y GPUs de consumo
QAT es un método que simula la cuantización durante el entrenamiento para minimizar la pérdida de calidad al comprimir el modelo
Este lanzamiento ofrece checkpoints QAT para el popular formato de cuantización Q4_0 y un nuevo formato de cuantización especializado para casos de uso móvil

Compresión y equilibrio de calidad

La cuantización es una tecnología clave para ejecutar modelos en hardware de consumo, ya que reduce la huella de memoria y aumenta la velocidad de decodificación
La cuantización post-entrenamiento estándar (PTQ) suele provocar degradación del rendimiento, pero QAT integra directamente el proceso de cuantización en el entrenamiento
PTQ también puede ser eficaz para preservar la calidad, pero los resultados de QAT muestran una calidad general superior a la línea base estándar de PTQ
Google aplicó recetas QAT al formato Q4_0 para maximizar el rendimiento de todos los modelos, y diseñó por separado un esquema de cuantización especializado para móviles en los modelos edge E2B y E4B

Estructura de optimización para móviles

Como los formatos de compresión estándar muchas veces no se ejecutan eficientemente en procesadores móviles, Gemma 4 usa un esquema de cuantización móvil personalizado para hardware edge
Las activaciones estáticas precalculan durante el entrenamiento la configuración de escala de datos para reducir la carga de trabajo de los chips móviles y mejorar la velocidad de respuesta
La cuantización por canal organiza los datos comprimidos según la arquitectura de los aceleradores móviles para permitir cómputo nativo sin recurrir a métodos alternativos más lentos
La cuantización selectiva de 2 bits comprime con fuerza a 2 bits la parte de generación de tokens, mientras mantiene las capas clave de inferencia con mayor precisión para ahorrar espacio de almacenamiento
La optimización de embeddings y caché KV concentra la compresión en el vocabulario del modelo y su memoria de corto plazo para reducir considerablemente la huella de memoria activa y permitir conversaciones largas
En casos de uso donde no se necesitan codificadores de audio o visión, se puede desplegar solo la modalidad necesaria para reducir aún más la huella de memoria, y el modelo Gemma 4 E2B de solo texto sin Per-Layer Embeddings requiere menos de 1 GB de memoria

Cómo usarlo y soporte de herramientas

Google ofrece los pesos de los modelos Q4_0 y mobile en Hugging Face
El formato GGUF puede usarse directamente en llama.cpp, los tensores comprimidos se ofrecen para vLLM y, para otros flujos de trabajo, también se comparten checkpoints no cuantizados que pueden convertirse y cuantizarse a formatos compatibles con Q4_0
Los métodos de despliegue pueden consultarse en la documentación
En escritorio, se pueden descargar, administrar y ejecutar localmente modelos Gemma 4 QAT con llama.cpp, Ollama y LM Studio
Para despliegue en el dispositivo, puede usarse el runtime ligero LiteRT-LM de Google, y en la web pueden ejecutarse directamente con Transformers.js
Para servir modelos grandes, pueden usarse SGLang y vLLM, y para optimización en Apple Silicon puede usarse MLX
Los checkpoints MTP QAT preservan la mejora de velocidad de MTP mientras cuantizan el modelo, y los pesos pueden ajustarse directamente con fine-tuning usando Hugging Face Transformers y Unsloth

1 comentarios

GN⁺ 2026-06-06

Comentarios en Hacker News

Probé ejecutar Gemma 4 E2B localmente en Mac con uvx litert-lm run, y en la primera ejecución descargó 3.2GB en ~/.cache/huggingface/hub/models--litert-community--gemma-4-E2B-it-litert-lm
Es bastante impresionante que un modelo de ese tamaño también procese entrada de audio e imagen; con imágenes se puede ejecutar como --attachment image.jpg --prompt describe, y con audio como --attachment audio.wav --prompt transcribe
El resultado del SVG del pelícano en sí no fue gran cosa, pero me sorprendió que un archivo de 3.2GB produjera un SVG válido: https://gist.github.com/simonw/94b318afde4b1ce5ff67d4b5d0362...
- No me queda claro si esto es realmente entrenamiento consciente de cuantización (QAT)
  Los modelos de MLX Community sí lo llevan en el nombre, pero estos no, y la fecha de subida tampoco parece coincidir del todo
- Sorprende que también exista una versión de 0.8GB solo para texto
  Ahora ya es posible tener conversaciones básicas en tiempo real dentro del dispositivo reconociendo video y audio
- Aparte, uvx es realmente cómodo de usar
  Ojalá Nvidia también lo soportara como algo de primera clase en vez de hacer que la gente tenga que pasar por Docker
También está la colección de Unsloth [0], y los resultados también están publicados [1]
Frente al modelo BF16 sin cuantizar, parece estar muy cerca del 100% de precisión, y la cuantización de Unsloth se ve mejor que el QAT original de Google que sale en el artículo
En lo personal, incluso con el modelo integrado en el teléfono, estoy usando el modelo 2B con búsqueda web y salida JSON estructurada mediante Unsloth Studio y la API, y para ese uso encaja muy bien
[0] https://huggingface.co/collections/unsloth/gemma-4-qat
[1] https://unsloth.ai/docs/models/gemma-4/qat#qat-analysis
- Creo que malinterpretaste esa gráfica
  Lo que se ve ahí no es BF16 normal, sino BF16 QAT Q4_0
  Se acerca más a decir que Google cuantizó el modelo a 4 bits y luego guardó el resultado en formato BF16 por compatibilidad y conveniencia con packers posteriores
  Es parecido a guardar números pequeños de 8 bits dentro de enteros de 32 bits, así que no significa que esté cerca del 100% del BF16 sin cuantizar
  Aun así, me da curiosidad por qué el QAT Q4_0 de 4 bits que publicó Google no da exactamente el 100% del BF16 QAT Q4_0. Parecería que la conversión entre ambos empaquetados podría ser solo manipulación de bits sin cuantización adicional, pero Unsloth dice que hay un problema de alineación de rejilla
  Fuera de eso, no me gusta que Google, Qwen y otros fabricantes de modelos pequeños muestren solo benchmarks en BF16 cuando sacan modelos nuevos. En la práctica, la gente corre cuantización de 4 a 8 bits, y es demasiado difícil saber cuánto se pierde en 4 bits y 6 bits
- Me confunde: ¿el modelo de Unsloth pesa unos 600MB y el de Google 7GB?
Incluso viendo solo esta semana, impresiona lo rápido que ha evolucionado el ecosistema de Gemma
Salieron Gemma 12B, predicción multítoken y modelos cuantizados oficiales, y se siente que Google realmente está metiéndole fuerza a este ritmo de lanzamientos, así que genera expectativa
Es viernes antes de la WWDC, y llama la atención que Apple vaya a anunciar un Siri “mejorado” basado en modelos de Google
Puede que por ahora sea una alianza cerrada, pero también podría ser que Google esté publicando por adelantado el modelo que Apple mostrará la próxima semana
No hay información firme; es solo especulación
Probé hf.co/google/gemma-4-12B-it-qat-q4_0-gguf:Q4_0 con ollama en una laptop con AMD Ryzen 9 8940HX, NVIDIA GeForce RTX 5060 8GB y 14GB de RAM, y fue más rápido de lo esperado
Es un poco raro publicar Gemma 4 12B(https://news.ycombinator.com/item?id=48385906) y unos días después sacar el Q4_0 Gemma 4 12B oficial
Aun así, está bien que este artículo ponga el uso esperado de VRAM del Q4_0 Gemma 4 12B en 6.7GB, y también confirma que, aunque encaja holgadamente dentro de los 16GB que mencionó Google, al final eso solo aplica a la versión cuantizada
Relacionado con eso, en el nuevo Edge Gallery para macOS de Google se indica explícitamente que Gemma 4 12B no está soportado en máquinas de 16GB por falta de RAM, pero viendo el uso estimado de VRAM aquí, la variante Q4_0 claramente sí debería entrar, así que Google tendría que corregir eso
- No entiendo bien por qué sería raro que haya varios lanzamientos
  Me parece mejor ir publicando el modelo y las variantes conforme estén listas, en vez de retener todo hasta que esté preparado al mismo tiempo
  Q4_0 no es simplemente una cuantización de Gemma 4 12B, sino un checkpoint con entrenamiento consciente de cuantización
- Si entendí bien, 4Q y QAT 4Q no son lo mismo
Google Pixel Intelligence podría vencer a Apple Intelligence
Que un modelo de 12B pueda correr en 8GB de VRAM es un cambio grande
Sorprende lo rápido que están avanzando los modelos locales pequeños
Me fue bastante bien con Gemma 4 E2B Unsloth 4Q: https://youtube.com/shorts/XLsAnz5aAAI
El modelo E4B no entra en el TPU de mi teléfono y hace swap a RAM, así que me alegra que la versión QAT mejore la precisión
- Me da curiosidad cómo lograste obtener resultados útiles con eso
  Nosotros consideramos que incluso el modelo E2B sin cuantizar era totalmente inútil para la tarea de clasificación real más simple
- Me gustaría saber cómo supiste si estaba corriendo en el TPU o si estaba haciendo swap a RAM
  Quiero probarlo también en mi Pixel

Modelos Gemma 4 QAT: optimización de compresión para eficiencia en móviles y laptops

Contexto del anuncio y alcance

Compresión y equilibrio de calidad

Estructura de optimización para móviles

Cómo usarlo y soporte de herramientas

Lecturas relacionadas

1 comentarios

Comentarios en Hacker News