Modelos Gemma 3 QAT: IA de vanguardia llega a las GPU de consumo

(developers.googleblog.com)

12 puntos por GN⁺ 2025-04-21 | 1 comentarios | Compartir por WhatsApp

Gemma 3, anunciada el mes pasado, es un modelo de IA abierto que ofrece rendimiento de vanguardia y puede ejecutarse incluso en una sola GPU de alto rendimiento como la NVIDIA H100
Se lanzó una versión liviana que aplica la técnica QAT (Quantization-Aware Training), por lo que ahora también puede ejecutarse en GPU de consumo
Gracias a la cuantización int4, el uso de memoria se reduce de forma significativa y la pérdida de rendimiento se minimiza
Los modelos QAT pueden ejecutarse en GPU comunes como RTX 3090 y RTX 4060, y usarse de inmediato en Hugging Face, Ollama, LM Studio y más
También se ofrecen varias versiones PTQ de la comunidad, lo que permite una elección flexible

Introducción a Gemma 3 y panorama general de rendimiento

Gemma 3, el más reciente modelo abierto presentado por Google, es un modelo de lenguaje de gran escala con un rendimiento sobresaliente
Puede ejecutarse en una GPU NVIDIA H100 con precisión BF16 (punto flotante de 16 bits) y logró una excelente puntuación Elo en Chatbot Arena
La razón de usar BF16 es hacer más justa la comparación de rendimiento entre modelos, permitiendo evaluar su desempeño base sin distintos métodos de optimización

Cuantización basada en QAT para mejorar la accesibilidad

Aunque los modelos grandes tradicionales requerían entornos en la nube de alta gama, se aplicó la técnica QAT para que también puedan ejecutarse en hardware de consumo
La cuantización (Quantization) reduce la precisión numérica interna del modelo para disminuir el uso de memoria y acelerar la ejecución
Ejemplo: al usar formato int4 en lugar de BF16, se logra una compresión de más de 4 veces

Mantener la calidad con QAT

En lugar de una cuantización simple de posprocesamiento, se utilizó el enfoque QAT (Quantization-Aware Training) para reflejar la cuantización durante el entrenamiento
Durante el entrenamiento, se usaron como valores objetivo las probabilidades de predicción de un checkpoint no cuantizado durante unas 5,000 steps
Con este método, al usar cuantización Q4_0 se logró reducir en 54% la caída de Perplexity

Reducción drástica del uso de VRAM

El efecto de ahorro de VRAM por la cuantización int4 es grande, y la reducción por modelo es la siguiente:
- Gemma 3 27B: 54GB → 14.1GB
- Gemma 3 12B: 24GB → 6.6GB
- Gemma 3 4B: 8GB → 2.6GB
- Gemma 3 1B: 2GB → 0.5GB
Estas cifras solo incluyen la VRAM necesaria para cargar los pesos del modelo; la KV cache requerida durante la ejecución necesita VRAM adicional

Ejecución en distintos dispositivos

Gemma 3 27B (int4): puede ejecutarse localmente en una RTX 3090 (24GB de VRAM)
Gemma 3 12B (int4): también funciona sin problemas en una RTX 4060 Laptop (8GB de VRAM)
Gemma 3 4B y 1B: pueden ejecutarse incluso en smartphones y dispositivos de bajos recursos

Integración y uso sencillos

Los modelos QAT pueden usarse de inmediato en varias plataformas y herramientas:
- Ollama: ejecución con una sola línea de comando
- LM Studio: descarga y ejecución en entorno GUI
- MLX: inferencia de alta eficiencia sobre Apple Silicon
- Gemma.cpp: ejecución de alto rendimiento en entornos CPU
- llama.cpp: integración sencilla con formato GGUF

Modelos comunitarios de Gemmaverse

Además de los modelos QAT oficiales, también se ofrecen diversos modelos PTQ de la comunidad
Principales contribuidores: Bartowski, Unsloth, GGML
Los distintos modelos permiten elegir según el equilibrio entre velocidad, tamaño y calidad

Ya puedes empezar

Como un paso importante para la democratización de la IA, la versión QAT de Gemma 3 puede ejecutarse localmente por cualquier persona
Cómo ejecutarlo:
- PC: Ollama
- Descarga del modelo: Hugging Face, Kaggle
- Ejecución móvil: usar Google AI Edge

1 comentarios

GN⁺ 2025-04-21

Opiniones en Hacker News

el modelo gemma-3-27b-it-qat-4bit es ahora un nuevo modelo preferido junto con Mistral Small 3.1 24B
- lo usan en una M2 de 64 GB a través de Ollama y MLX, y como consume poca memoria, queda suficiente margen para ejecutar otras apps
- obtuvieron buenos resultados al escribir un plugin para herramientas de LLM
para preguntas personales de "tomar la temperatura" del ambiente, el modelo 27B QAT de 4 bits da respuestas precisas
- sorprende la densidad de información contenida en 13 GB de pesos
- el modelo Gemma 3 27B de Deepmind es el modelo open source más impresionante
el primer gráfico compara el "Elo Score" con precisión BF16, y el segundo compara el uso de VRAM
- es una lástima que no haya un gráfico de comparación de calidad entre BF16 y QAT
están usando gemma3:27b-it-qat en lugar de qwen2.5 para tareas diarias en una Mac con 32 GB de memoria
- es muy útil para desarrollo en Python, Haskell y Common Lisp
- resulta satisfactorio ejecutar modelos open source de forma local
lo están ejecutando en un CPU AMD 3950x de 16 núcleos, y les parece muy impresionante en traducción y descripción de imágenes
- para traducir, ajustan el prompt para evitar el análisis del idioma de entrada
después de descargar el QAT más reciente de gemma3:27b, el rendimiento mejoró 1.47 veces
hace falta que los LLM locales sean tratados como ciudadanos de primera clase por las empresas
- el primer gráfico podría llevar a confusión sobre cuántas H100 se necesitan para ejecutar DeepSeek r1 en FP16
Microsoft y Apple promocionaron las AI PC y Apple Intelligence, pero en la práctica los modelos utilizables en GPU de consumo solo son posibles con GPU de gama alta
Gemma 3 es muy superior a Llama 4
- Meta podría perder su posición en el mercado de los LLM
- el tamaño de los modelos de Llama 4 es demasiado grande y limita a los usuarios
- Gemma 3 puede usarse ampliamente en hardware de todos los tamaños
disponible en Ollama

Modelos Gemma 3 QAT: IA de vanguardia llega a las GPU de consumo

Introducción a Gemma 3 y panorama general de rendimiento

Cuantización basada en QAT para mejorar la accesibilidad

Mantener la calidad con QAT

Reducción drástica del uso de VRAM

Ejecución en distintos dispositivos

Integración y uso sencillos

Modelos comunitarios de Gemmaverse

Ya puedes empezar

Lecturas relacionadas

1 comentarios

Opiniones en Hacker News