1 puntos por GN⁺ 4 시간 전 | 1 comentarios | Compartir por WhatsApp
  • Los checkpoints de entrenamiento consciente de cuantización (QAT) de Gemma 4 optimizan los requisitos de memoria y el rendimiento en el dispositivo para facilitar la ejecución local en dispositivos edge cotidianos y GPUs de consumo
  • QAT simula la cuantización durante el entrenamiento para reducir la pérdida de calidad al comprimir, y produce una calidad general superior a la línea base estándar de PTQ
  • Los checkpoints publicados apuntan al formato Q4_0 y a un formato especializado para móviles, y el formato móvil reduce la huella de memoria de Gemma 4 E2B a 1 GB
  • El esquema móvil reduce la carga de trabajo y el uso de memoria activa en chips móviles mediante activaciones estáticas, cuantización por canal, cuantización selectiva de 2 bits y optimización de embeddings y caché KV
  • Con soporte para pesos en Hugging Face, llama.cpp·Ollama·LM Studio, LiteRT-LM·Transformers.js y SGLang·vLLM·MLX·Unsloth, se puede realizar ejecución local, despliegue en el dispositivo y fine-tuning

Contexto del anuncio y alcance

  • Dos meses después del lanzamiento de Gemma 4, Google publicó checkpoints QAT tras presentar Multi-Token Prediction (MTP) para acelerar la inferencia y el modelo de 12B, que cubre el espacio entre los modelos MOE E4B y 26B
  • Los nuevos checkpoints forman parte de un trabajo de eficiencia orientado a permitir la ejecución local de Gemma 4 en dispositivos edge cotidianos y GPUs de consumo
  • QAT es un método que simula la cuantización durante el entrenamiento para minimizar la pérdida de calidad al comprimir el modelo
  • Este lanzamiento ofrece checkpoints QAT para el popular formato de cuantización Q4_0 y un nuevo formato de cuantización especializado para casos de uso móvil

Compresión y equilibrio de calidad

  • La cuantización es una tecnología clave para ejecutar modelos en hardware de consumo, ya que reduce la huella de memoria y aumenta la velocidad de decodificación
  • La cuantización post-entrenamiento estándar (PTQ) suele provocar degradación del rendimiento, pero QAT integra directamente el proceso de cuantización en el entrenamiento
  • PTQ también puede ser eficaz para preservar la calidad, pero los resultados de QAT muestran una calidad general superior a la línea base estándar de PTQ
  • Google aplicó recetas QAT al formato Q4_0 para maximizar el rendimiento de todos los modelos, y diseñó por separado un esquema de cuantización especializado para móviles en los modelos edge E2B y E4B

Estructura de optimización para móviles

  • Como los formatos de compresión estándar muchas veces no se ejecutan eficientemente en procesadores móviles, Gemma 4 usa un esquema de cuantización móvil personalizado para hardware edge
  • Las activaciones estáticas precalculan durante el entrenamiento la configuración de escala de datos para reducir la carga de trabajo de los chips móviles y mejorar la velocidad de respuesta
  • La cuantización por canal organiza los datos comprimidos según la arquitectura de los aceleradores móviles para permitir cómputo nativo sin recurrir a métodos alternativos más lentos
  • La cuantización selectiva de 2 bits comprime con fuerza a 2 bits la parte de generación de tokens, mientras mantiene las capas clave de inferencia con mayor precisión para ahorrar espacio de almacenamiento
  • La optimización de embeddings y caché KV concentra la compresión en el vocabulario del modelo y su memoria de corto plazo para reducir considerablemente la huella de memoria activa y permitir conversaciones largas
  • En casos de uso donde no se necesitan codificadores de audio o visión, se puede desplegar solo la modalidad necesaria para reducir aún más la huella de memoria, y el modelo Gemma 4 E2B de solo texto sin Per-Layer Embeddings requiere menos de 1 GB de memoria

Cómo usarlo y soporte de herramientas

  • Google ofrece los pesos de los modelos Q4_0 y mobile en Hugging Face
  • El formato GGUF puede usarse directamente en llama.cpp, los tensores comprimidos se ofrecen para vLLM y, para otros flujos de trabajo, también se comparten checkpoints no cuantizados que pueden convertirse y cuantizarse a formatos compatibles con Q4_0
  • Los métodos de despliegue pueden consultarse en la documentación
  • En escritorio, se pueden descargar, administrar y ejecutar localmente modelos Gemma 4 QAT con llama.cpp, Ollama y LM Studio
  • Para despliegue en el dispositivo, puede usarse el runtime ligero LiteRT-LM de Google, y en la web pueden ejecutarse directamente con Transformers.js
  • Para servir modelos grandes, pueden usarse SGLang y vLLM, y para optimización en Apple Silicon puede usarse MLX
  • Los checkpoints MTP QAT preservan la mejora de velocidad de MTP mientras cuantizan el modelo, y los pesos pueden ajustarse directamente con fine-tuning usando Hugging Face Transformers y Unsloth

1 comentarios

 
GN⁺ 4 시간 전
Comentarios en Hacker News
  • Probé ejecutar Gemma 4 E2B localmente en Mac con uvx litert-lm run, y en la primera ejecución descargó 3.2GB en ~/.cache/huggingface/hub/models--litert-community--gemma-4-E2B-it-litert-lm
    Es bastante impresionante que un modelo de ese tamaño también procese entrada de audio e imagen; con imágenes se puede ejecutar como --attachment image.jpg --prompt describe, y con audio como --attachment audio.wav --prompt transcribe
    El resultado del SVG del pelícano en sí no fue gran cosa, pero me sorprendió que un archivo de 3.2GB produjera un SVG válido: https://gist.github.com/simonw/94b318afde4b1ce5ff67d4b5d0362...

    • No me queda claro si esto es realmente entrenamiento consciente de cuantización (QAT)
      Los modelos de MLX Community sí lo llevan en el nombre, pero estos no, y la fecha de subida tampoco parece coincidir del todo
    • Sorprende que también exista una versión de 0.8GB solo para texto
      Ahora ya es posible tener conversaciones básicas en tiempo real dentro del dispositivo reconociendo video y audio
    • Aparte, uvx es realmente cómodo de usar
      Ojalá Nvidia también lo soportara como algo de primera clase en vez de hacer que la gente tenga que pasar por Docker
  • También está la colección de Unsloth [0], y los resultados también están publicados [1]
    Frente al modelo BF16 sin cuantizar, parece estar muy cerca del 100% de precisión, y la cuantización de Unsloth se ve mejor que el QAT original de Google que sale en el artículo
    En lo personal, incluso con el modelo integrado en el teléfono, estoy usando el modelo 2B con búsqueda web y salida JSON estructurada mediante Unsloth Studio y la API, y para ese uso encaja muy bien
    [0] https://huggingface.co/collections/unsloth/gemma-4-qat
    [1] https://unsloth.ai/docs/models/gemma-4/qat#qat-analysis

    • Creo que malinterpretaste esa gráfica
      Lo que se ve ahí no es BF16 normal, sino BF16 QAT Q4_0
      Se acerca más a decir que Google cuantizó el modelo a 4 bits y luego guardó el resultado en formato BF16 por compatibilidad y conveniencia con packers posteriores
      Es parecido a guardar números pequeños de 8 bits dentro de enteros de 32 bits, así que no significa que esté cerca del 100% del BF16 sin cuantizar
      Aun así, me da curiosidad por qué el QAT Q4_0 de 4 bits que publicó Google no da exactamente el 100% del BF16 QAT Q4_0. Parecería que la conversión entre ambos empaquetados podría ser solo manipulación de bits sin cuantización adicional, pero Unsloth dice que hay un problema de alineación de rejilla
      Fuera de eso, no me gusta que Google, Qwen y otros fabricantes de modelos pequeños muestren solo benchmarks en BF16 cuando sacan modelos nuevos. En la práctica, la gente corre cuantización de 4 a 8 bits, y es demasiado difícil saber cuánto se pierde en 4 bits y 6 bits
    • Me confunde: ¿el modelo de Unsloth pesa unos 600MB y el de Google 7GB?
  • Incluso viendo solo esta semana, impresiona lo rápido que ha evolucionado el ecosistema de Gemma
    Salieron Gemma 12B, predicción multítoken y modelos cuantizados oficiales, y se siente que Google realmente está metiéndole fuerza a este ritmo de lanzamientos, así que genera expectativa

  • Es viernes antes de la WWDC, y llama la atención que Apple vaya a anunciar un Siri “mejorado” basado en modelos de Google
    Puede que por ahora sea una alianza cerrada, pero también podría ser que Google esté publicando por adelantado el modelo que Apple mostrará la próxima semana
    No hay información firme; es solo especulación

  • Probé hf.co/google/gemma-4-12B-it-qat-q4_0-gguf:Q4_0 con ollama en una laptop con AMD Ryzen 9 8940HX, NVIDIA GeForce RTX 5060 8GB y 14GB de RAM, y fue más rápido de lo esperado

  • Es un poco raro publicar Gemma 4 12B(https://news.ycombinator.com/item?id=48385906) y unos días después sacar el Q4_0 Gemma 4 12B oficial
    Aun así, está bien que este artículo ponga el uso esperado de VRAM del Q4_0 Gemma 4 12B en 6.7GB, y también confirma que, aunque encaja holgadamente dentro de los 16GB que mencionó Google, al final eso solo aplica a la versión cuantizada
    Relacionado con eso, en el nuevo Edge Gallery para macOS de Google se indica explícitamente que Gemma 4 12B no está soportado en máquinas de 16GB por falta de RAM, pero viendo el uso estimado de VRAM aquí, la variante Q4_0 claramente sí debería entrar, así que Google tendría que corregir eso

    • No entiendo bien por qué sería raro que haya varios lanzamientos
      Me parece mejor ir publicando el modelo y las variantes conforme estén listas, en vez de retener todo hasta que esté preparado al mismo tiempo
      Q4_0 no es simplemente una cuantización de Gemma 4 12B, sino un checkpoint con entrenamiento consciente de cuantización
    • Si entendí bien, 4Q y QAT 4Q no son lo mismo
  • Google Pixel Intelligence podría vencer a Apple Intelligence

  • Que un modelo de 12B pueda correr en 8GB de VRAM es un cambio grande
    Sorprende lo rápido que están avanzando los modelos locales pequeños

  • Me fue bastante bien con Gemma 4 E2B Unsloth 4Q: https://youtube.com/shorts/XLsAnz5aAAI
    El modelo E4B no entra en el TPU de mi teléfono y hace swap a RAM, así que me alegra que la versión QAT mejore la precisión

    • Me da curiosidad cómo lograste obtener resultados útiles con eso
      Nosotros consideramos que incluso el modelo E2B sin cuantizar era totalmente inútil para la tarea de clasificación real más simple
    • Me gustaría saber cómo supiste si estaba corriendo en el TPU o si estaba haciendo swap a RAM
      Quiero probarlo también en mi Pixel