Google presenta Gemma 3n: llega una nueva IA multimodal on-device
(developers.googleblog.com)- Gemma 3n es el modelo más reciente de IA multimodal on-device para entornos móviles y edge, capaz de procesar imágenes, audio, video y texto
- Con una arquitectura enfocada en la eficiencia e innovaciones como Matformer, Per-Layer Embeddings y MobileNet-V5, ofrece un rendimiento al nivel de los grandes modelos en la nube usando solo 2~3 GB de memoria
- Está disponible en dos tamaños, E2B y E4B, y permite tamaños personalizados más finos para ajustarse al hardware mediante el enfoque Mix-n-Match
- Puede aplicarse de inmediato a diversos casos de uso de IA on-device, como reconocimiento y traducción de voz, análisis visual en tiempo real y procesamiento multilingüe en 140 idiomas
- Se integra ampliamente con ecosistemas open source clave de IA como Hugging Face, Ollama y llama.cpp, y puede usarse de inmediato con distintas herramientas, API y SDK
Resumen y contexto
- El primer modelo Gemma, lanzado a inicios del año pasado, superó los 160 millones de descargas y creció hasta convertirse en un ecosistema llamado Gemmaverse
- Ese ecosistema incluye varios modelos especializados, como en seguridad y salud, además de múltiples casos de uso innovadores creados gracias a contribuciones de la comunidad
- Impulsado por ese éxito, Google anunció el lanzamiento oficial de Gemma 3n, diseñado con enfoque móvil
- Ofrece una amplia integración con ecosistemas y herramientas amigables para desarrolladores como Hugging Face Transformers, llama.cpp, Google AI Edge y Ollama
- Presenta en profundidad, desde la perspectiva de los desarrolladores, las innovaciones clave, benchmarks y formas de desarrollo con Gemma 3n
What’s new in Gemma 3n?
- Gemma 3n representa un nuevo salto para la IA on-device
- Ofrece soporte multimodal nativo para entradas de texto, imagen, audio y video, con salida en texto
- Maximiza la eficiencia y se ofrece en dos tamaños de modelo, E2B (5B parámetros) y E4B (8B parámetros), pudiendo ejecutarse incluso con poca memoria (2 GB y 3 GB)
- Incorpora arquitecturas innovadoras como MatFormer, Per Layer Embeddings, LAuReL y AltUp, además de nuevos codificadores de audio y visión
- Soporta 140 idiomas, comprensión multimodal en 35 idiomas, mejoras en matemáticas, programación y razonamiento, y supera los 1300 puntos en LMArena para E4B
MatFormer: un modelo, varios tamaños
- La arquitectura MatFormer (🪆Matryoshka Transformer) es una nueva estructura transformer diseñada para escalabilidad y flexibilidad
- Aprovecha el principio de las muñecas rusas matrioshka, donde modelos pequeños quedan incluidos de forma independiente dentro de un modelo grande
- Durante el entrenamiento de E4B, el submodelo E2B se optimiza al mismo tiempo, lo que permite inferencia hasta 2 veces más rápida sin descargar modelos extraídos por separado
- Con el enfoque Mix-n-Match es posible crear modelos intermedios personalizados según las restricciones del hardware, usando redes feedforward o salto de capas
- En MatFormer Lab se pueden revisar configuraciones óptimas basadas en benchmarks y generar modelos
- En el futuro también planea soportar Elastic execution, es decir, cambio dinámico en tiempo real del tamaño del modelo
Per-Layer Embeddings (PLE): máxima eficiencia de memoria on-device
- Con Per-Layer Embeddings (embeddings por capa), mejora la calidad en despliegues on-device y al mismo tiempo minimiza el uso de memoria
- De todos los parámetros (5B/8B), solo los embeddings se cargan y procesan eficientemente en CPU, mientras que el núcleo transformer (2B/4B) permanece residente en la VRAM
- Gracias a esto, puede funcionar sin pérdida de calidad usando mucha menos memoria que antes, con solo alrededor de 2B parámetros en el acelerador
KV Cache Sharing: optimización para entradas de contexto largo
- Gemma 3n añade la función KV Cache Sharing para procesar rápidamente entradas secuenciales largas como audio o video extensos
- En la etapa de prefill (procesamiento inicial de entrada), comparte directamente la caché KV de capas intermedias con capas superiores, logrando mejoras de rendimiento de hasta más de 2 veces
- Permite reconocer prompts de secuencia larga más rápido que antes, mejorando la capacidad en tiempo real de aplicaciones multimodales
Reconocimiento de audio: soporte para STT y traducción
- Incorpora un codificador de audio basado en Universal Speech Model (USM), que usa tokens de audio en unidades de 160 ms como entrada para el modelo de lenguaje
- Permite implementar reconocimiento de voz de alta calidad (ASR) y traducción de voz (AST) on-device
- Se confirmó un alto rendimiento en pares de idiomas principales como inglés↔español, francés, italiano y portugués
- Al usar la técnica de prompts Chain-of-Thought, es posible mejorar la calidad de traducción
- El codificador de audio inicial, en el momento del lanzamiento, soporta clips de hasta 30 segundos, y más adelante se ampliará para procesamiento de streaming más largo
MobileNet-V5: codificador visual de última generación
- MobileNet-V5-300M, integrado en Gemma 3n, es un codificador visual de alta eficiencia que ofrece gran rendimiento incluso en dispositivos edge
- Soporta varias resoluciones de entrada, como 256x256, 512x512 y 768x768 píxeles, para ajustar rendimiento y nivel de detalle según la necesidad
- Gracias al entrenamiento conjunto con grandes datasets multimodales, logra una comprensión amplia de imágenes y video y destaca en tareas visuales específicas
- Permite análisis en tiempo real a 60 cuadros por segundo en Google Pixel
- A nivel de arquitectura, aplica múltiples innovaciones como bloques basados en MobileNet-V4 (universal inverted bottleneck, Mobile MQA), estructura de pirámide híbrida y adaptador Multi-Scale Fusion VLM
- Frente a SoViT (baseline de Gemma 3), es claramente superior con 13 veces más velocidad, 46% menos parámetros, 4 veces menos memoria y mayor precisión
- Más adelante se publicarán detalles adicionales en el informe técnico, incluyendo arquitectura, estrategia de escalado de datos y técnicas de destilación de deep learning
Aplicación práctica y uso
- Probarlo directamente en AI Studio: https://aistudio.google.com/prompts/new_chat?model=gemma-3n-e4b-it
- Descarga y despliegue del modelo: disponible de inmediato en Hugging Face, Kaggle, Ollama y llama.cpp
- Integración con herramientas y frameworks: compatible en la mayoría de los casos con Hugging Face Transformers/TRL, MLX, Docker, LMStudio, NVIDIA NeMo y Unsloth
- Despliegue por API y en la nube: puede desplegarse en distintos entornos como Google GenAI API, Vertex AI y NVIDIA API
Principales escenarios de uso on-device
- Asistentes de IA en tiempo real en smartphones y dispositivos edge, traductores de voz, chatbots multimodales, análisis visual en tiempo real e IoT
- Integración de servicios de IA en entornos con recursos limitados
- Innovación con IA en entornos offline o con restricciones de red
Recursos para desarrolladores
- Documentación oficial
- Descarga del modelo (HF)
- MatFormer Lab
- Probarlo en Google AI Studio
- Integración con el ecosistema open source, Ollama, MLX, llama.cpp, entre otros
Gemma 3n Impact Challenge
- Se realiza una competencia para desarrollar productos con impacto social real aprovechando capacidades on-device, offline y multimodales
- Premio de $150,000, se requiere enviar video y demo: https://www.kaggle.com/competitions/google-gemma-3n-hackathon
1 comentarios
Opiniones en Hacker News
jinjaaquí