12 puntos por GN⁺ 2025-04-21 | 1 comentarios | Compartir por WhatsApp
  • Gemma 3, anunciada el mes pasado, es un modelo de IA abierto que ofrece rendimiento de vanguardia y puede ejecutarse incluso en una sola GPU de alto rendimiento como la NVIDIA H100
  • Se lanzó una versión liviana que aplica la técnica QAT (Quantization-Aware Training), por lo que ahora también puede ejecutarse en GPU de consumo
  • Gracias a la cuantización int4, el uso de memoria se reduce de forma significativa y la pérdida de rendimiento se minimiza
  • Los modelos QAT pueden ejecutarse en GPU comunes como RTX 3090 y RTX 4060, y usarse de inmediato en Hugging Face, Ollama, LM Studio y más
  • También se ofrecen varias versiones PTQ de la comunidad, lo que permite una elección flexible

Introducción a Gemma 3 y panorama general de rendimiento

  • Gemma 3, el más reciente modelo abierto presentado por Google, es un modelo de lenguaje de gran escala con un rendimiento sobresaliente
  • Puede ejecutarse en una GPU NVIDIA H100 con precisión BF16 (punto flotante de 16 bits) y logró una excelente puntuación Elo en Chatbot Arena
  • La razón de usar BF16 es hacer más justa la comparación de rendimiento entre modelos, permitiendo evaluar su desempeño base sin distintos métodos de optimización

Cuantización basada en QAT para mejorar la accesibilidad

  • Aunque los modelos grandes tradicionales requerían entornos en la nube de alta gama, se aplicó la técnica QAT para que también puedan ejecutarse en hardware de consumo
  • La cuantización (Quantization) reduce la precisión numérica interna del modelo para disminuir el uso de memoria y acelerar la ejecución
  • Ejemplo: al usar formato int4 en lugar de BF16, se logra una compresión de más de 4 veces

Mantener la calidad con QAT

  • En lugar de una cuantización simple de posprocesamiento, se utilizó el enfoque QAT (Quantization-Aware Training) para reflejar la cuantización durante el entrenamiento
  • Durante el entrenamiento, se usaron como valores objetivo las probabilidades de predicción de un checkpoint no cuantizado durante unas 5,000 steps
  • Con este método, al usar cuantización Q4_0 se logró reducir en 54% la caída de Perplexity

Reducción drástica del uso de VRAM

  • El efecto de ahorro de VRAM por la cuantización int4 es grande, y la reducción por modelo es la siguiente:

    • Gemma 3 27B: 54GB → 14.1GB
    • Gemma 3 12B: 24GB → 6.6GB
    • Gemma 3 4B: 8GB → 2.6GB
    • Gemma 3 1B: 2GB → 0.5GB
  • Estas cifras solo incluyen la VRAM necesaria para cargar los pesos del modelo; la KV cache requerida durante la ejecución necesita VRAM adicional

Ejecución en distintos dispositivos

  • Gemma 3 27B (int4): puede ejecutarse localmente en una RTX 3090 (24GB de VRAM)
  • Gemma 3 12B (int4): también funciona sin problemas en una RTX 4060 Laptop (8GB de VRAM)
  • Gemma 3 4B y 1B: pueden ejecutarse incluso en smartphones y dispositivos de bajos recursos

Integración y uso sencillos

  • Los modelos QAT pueden usarse de inmediato en varias plataformas y herramientas:

    • Ollama: ejecución con una sola línea de comando
    • LM Studio: descarga y ejecución en entorno GUI
    • MLX: inferencia de alta eficiencia sobre Apple Silicon
    • Gemma.cpp: ejecución de alto rendimiento en entornos CPU
    • llama.cpp: integración sencilla con formato GGUF

Modelos comunitarios de Gemmaverse

  • Además de los modelos QAT oficiales, también se ofrecen diversos modelos PTQ de la comunidad
  • Principales contribuidores: Bartowski, Unsloth, GGML
  • Los distintos modelos permiten elegir según el equilibrio entre velocidad, tamaño y calidad

Ya puedes empezar

  • Como un paso importante para la democratización de la IA, la versión QAT de Gemma 3 puede ejecutarse localmente por cualquier persona
  • Cómo ejecutarlo:

1 comentarios

 
GN⁺ 2025-04-21
Opiniones en Hacker News
  • el modelo gemma-3-27b-it-qat-4bit es ahora un nuevo modelo preferido junto con Mistral Small 3.1 24B

    • lo usan en una M2 de 64 GB a través de Ollama y MLX, y como consume poca memoria, queda suficiente margen para ejecutar otras apps
    • obtuvieron buenos resultados al escribir un plugin para herramientas de LLM
  • para preguntas personales de "tomar la temperatura" del ambiente, el modelo 27B QAT de 4 bits da respuestas precisas

    • sorprende la densidad de información contenida en 13 GB de pesos
    • el modelo Gemma 3 27B de Deepmind es el modelo open source más impresionante
  • el primer gráfico compara el "Elo Score" con precisión BF16, y el segundo compara el uso de VRAM

    • es una lástima que no haya un gráfico de comparación de calidad entre BF16 y QAT
  • están usando gemma3:27b-it-qat en lugar de qwen2.5 para tareas diarias en una Mac con 32 GB de memoria

    • es muy útil para desarrollo en Python, Haskell y Common Lisp
    • resulta satisfactorio ejecutar modelos open source de forma local
  • lo están ejecutando en un CPU AMD 3950x de 16 núcleos, y les parece muy impresionante en traducción y descripción de imágenes

    • para traducir, ajustan el prompt para evitar el análisis del idioma de entrada
  • después de descargar el QAT más reciente de gemma3:27b, el rendimiento mejoró 1.47 veces

  • hace falta que los LLM locales sean tratados como ciudadanos de primera clase por las empresas

    • el primer gráfico podría llevar a confusión sobre cuántas H100 se necesitan para ejecutar DeepSeek r1 en FP16
  • Microsoft y Apple promocionaron las AI PC y Apple Intelligence, pero en la práctica los modelos utilizables en GPU de consumo solo son posibles con GPU de gama alta

  • Gemma 3 es muy superior a Llama 4

    • Meta podría perder su posición en el mercado de los LLM
    • el tamaño de los modelos de Llama 4 es demasiado grande y limita a los usuarios
    • Gemma 3 puede usarse ampliamente en hardware de todos los tamaños
  • disponible en Ollama