Modelos Gemma 3 QAT: IA de vanguardia llega a las GPU de consumo
(developers.googleblog.com)- Gemma 3, anunciada el mes pasado, es un modelo de IA abierto que ofrece rendimiento de vanguardia y puede ejecutarse incluso en una sola GPU de alto rendimiento como la NVIDIA H100
- Se lanzó una versión liviana que aplica la técnica QAT (Quantization-Aware Training), por lo que ahora también puede ejecutarse en GPU de consumo
- Gracias a la cuantización int4, el uso de memoria se reduce de forma significativa y la pérdida de rendimiento se minimiza
- Los modelos QAT pueden ejecutarse en GPU comunes como RTX 3090 y RTX 4060, y usarse de inmediato en Hugging Face, Ollama, LM Studio y más
- También se ofrecen varias versiones PTQ de la comunidad, lo que permite una elección flexible
Introducción a Gemma 3 y panorama general de rendimiento
- Gemma 3, el más reciente modelo abierto presentado por Google, es un modelo de lenguaje de gran escala con un rendimiento sobresaliente
- Puede ejecutarse en una GPU NVIDIA H100 con precisión BF16 (punto flotante de 16 bits) y logró una excelente puntuación Elo en Chatbot Arena
- La razón de usar BF16 es hacer más justa la comparación de rendimiento entre modelos, permitiendo evaluar su desempeño base sin distintos métodos de optimización
Cuantización basada en QAT para mejorar la accesibilidad
- Aunque los modelos grandes tradicionales requerían entornos en la nube de alta gama, se aplicó la técnica QAT para que también puedan ejecutarse en hardware de consumo
- La cuantización (Quantization) reduce la precisión numérica interna del modelo para disminuir el uso de memoria y acelerar la ejecución
- Ejemplo: al usar formato int4 en lugar de BF16, se logra una compresión de más de 4 veces
Mantener la calidad con QAT
- En lugar de una cuantización simple de posprocesamiento, se utilizó el enfoque QAT (Quantization-Aware Training) para reflejar la cuantización durante el entrenamiento
- Durante el entrenamiento, se usaron como valores objetivo las probabilidades de predicción de un checkpoint no cuantizado durante unas 5,000 steps
- Con este método, al usar cuantización Q4_0 se logró reducir en 54% la caída de Perplexity
Reducción drástica del uso de VRAM
-
El efecto de ahorro de VRAM por la cuantización int4 es grande, y la reducción por modelo es la siguiente:
- Gemma 3 27B: 54GB → 14.1GB
- Gemma 3 12B: 24GB → 6.6GB
- Gemma 3 4B: 8GB → 2.6GB
- Gemma 3 1B: 2GB → 0.5GB
-
Estas cifras solo incluyen la VRAM necesaria para cargar los pesos del modelo; la KV cache requerida durante la ejecución necesita VRAM adicional
Ejecución en distintos dispositivos
- Gemma 3 27B (int4): puede ejecutarse localmente en una RTX 3090 (24GB de VRAM)
- Gemma 3 12B (int4): también funciona sin problemas en una RTX 4060 Laptop (8GB de VRAM)
- Gemma 3 4B y 1B: pueden ejecutarse incluso en smartphones y dispositivos de bajos recursos
Integración y uso sencillos
-
Los modelos QAT pueden usarse de inmediato en varias plataformas y herramientas:
- Ollama: ejecución con una sola línea de comando
- LM Studio: descarga y ejecución en entorno GUI
- MLX: inferencia de alta eficiencia sobre Apple Silicon
- Gemma.cpp: ejecución de alto rendimiento en entornos CPU
- llama.cpp: integración sencilla con formato GGUF
Modelos comunitarios de Gemmaverse
- Además de los modelos QAT oficiales, también se ofrecen diversos modelos PTQ de la comunidad
- Principales contribuidores: Bartowski, Unsloth, GGML
- Los distintos modelos permiten elegir según el equilibrio entre velocidad, tamaño y calidad
Ya puedes empezar
- Como un paso importante para la democratización de la IA, la versión QAT de Gemma 3 puede ejecutarse localmente por cualquier persona
- Cómo ejecutarlo:
- PC: Ollama
- Descarga del modelo: Hugging Face, Kaggle
- Ejecución móvil: usar Google AI Edge
1 comentarios
Opiniones en Hacker News
el modelo gemma-3-27b-it-qat-4bit es ahora un nuevo modelo preferido junto con Mistral Small 3.1 24B
para preguntas personales de "tomar la temperatura" del ambiente, el modelo 27B QAT de 4 bits da respuestas precisas
el primer gráfico compara el "Elo Score" con precisión BF16, y el segundo compara el uso de VRAM
están usando gemma3:27b-it-qat en lugar de qwen2.5 para tareas diarias en una Mac con 32 GB de memoria
lo están ejecutando en un CPU AMD 3950x de 16 núcleos, y les parece muy impresionante en traducción y descripción de imágenes
después de descargar el QAT más reciente de gemma3:27b, el rendimiento mejoró 1.47 veces
hace falta que los LLM locales sean tratados como ciudadanos de primera clase por las empresas
Microsoft y Apple promocionaron las AI PC y Apple Intelligence, pero en la práctica los modelos utilizables en GPU de consumo solo son posibles con GPU de gama alta
Gemma 3 es muy superior a Llama 4
disponible en Ollama