Gemma 4 12B: modelo multimodal sin codificador integrado

(blog.google)

10 puntos por GN⁺ 2026-06-04 | 5 comentarios | Compartir por WhatsApp

Gemma 4 12B es un modelo de tamaño intermedio diseñado para ejecutar inteligencia multimodal orientada a agentes en laptops, y cubre el espacio entre el E4B optimizado para edge y el más avanzado 26B MoE
Con una arquitectura integrada sin codificador, envía directamente entradas de imagen y audio al backbone del LLM sin un codificador multimodal separado, reduciendo la latencia y el uso de memoria
Su rendimiento en benchmarks estándar se acerca al del modelo más grande 26B MoE, mientras que su uso total de memoria es menos de la mitad, y puede ejecutarse localmente en laptops de consumo con 16GB de RAM o de VRAM/memoria unificada
Gemma 4 12B es el primer modelo de tamaño intermedio de la familia Gemma con soporte para entrada de audio nativa, y busca reducir la latencia con drafters de Multi-Token Prediction
Los modelos Gemma 4 ya superaron los 150 millones de descargas, y Gemma 4 12B amplía el alcance del desarrollo de agentes multimodales locales con licencia Apache 2.0 y soporte para las principales herramientas de desarrollo y rutas de despliegue

Características clave

Gemma 4 12B fue diseñado para llevar inteligencia multimodal de alto rendimiento directamente a laptops, combinando eficiencia mobile-first con razonamiento avanzado
Se ubica entre el E4B optimizado para edge y el más avanzado 26B Mixture of Experts (MoE), ofreciendo capacidades potentes dentro de una huella de memoria reducida
Sus características principales son:
- Arquitectura integrada que entrega entradas de visión y audio directamente al backbone del LLM sin un codificador multimodal
- Rendimiento en benchmarks cercano al modelo 26B y soporte para razonamiento de múltiples pasos y flujos de trabajo de agentes
- Preparado para laptops, con ejecución local usando solo 16GB de VRAM o memoria unificada
- Licencia Apache 2.0 y soporte del ecosistema para desarrolladores
- Reducción de latencia mediante drafters de Multi-Token Prediction (MTP)

Cómo funciona el procesamiento multimodal sin codificador

Los modelos multimodales tradicionales normalmente convierten imágenes y audio con codificadores separados antes de pasar esas representaciones al modelo de lenguaje
Gemma 4 12B fue entrenado para integrar directamente entradas de audio y visión, evitando que codificadores separados aumenten la latencia y el uso de memoria
En el procesamiento visual, reemplaza el codificador de visión de Gemma 4 por un módulo de embeddings ligero compuesto por una sola multiplicación de matrices, embeddings posicionales y normalización, dejando el procesamiento visual a cargo del backbone del LLM
En el procesamiento de audio, elimina por completo el codificador de audio y proyecta la señal de audio cruda al mismo espacio dimensional que los tokens de texto
Una explicación más detallada de la arquitectura para desarrolladores está disponible en Gemma 4 12B Developer Guide

Cómo empezar

Se puede probar con unos pocos clics en LM Studio, Ollama, Google AI Edge Gallery App, la app Google AI Edge Eloquent y LiteRT-LM CLI
Los checkpoints preentrenados y ajustados con instruction tuning se pueden descargar desde Hugging Face y Kaggle
Para integración y entrenamiento se pueden usar la developer documentation y el quick start notebook
Los pipelines de inferencia local pueden implementarse con Hugging Face Transformers, llama.cpp, MLX, SGLang, vLLM, y el fine-tuning eficiente puede hacerse con Unsloth
El repositorio oficial Skills Repository es una biblioteca de skills diseñada para que los agentes puedan construirse con las funciones más recientes de Gemma
Los endpoints de producción pueden desplegarse en Google Cloud mediante Gemini Enterprise Agent Platform Model Garden, Cloud Run y GKE

5 comentarios

hmmhmmhm 2026-06-04

Comparado con gemma4 26b a4b, sí se siente un poco decepcionante en velocidad, esto también.... ¿creen que pueda salir una versión a4b?

loblue 2026-06-04

Tendré que probarlo en mi MacBook M1 con 32 GB de RAM. Si es 12B, creo que podría estar bien.

kaydash 2026-06-04

No acaba de salir, ¿entonces por qué lo mencionan?

winterjung 2026-06-04

Antes solo existían el modelo e y los 26b y 31b, y el modelo Gemma 4 12b salió recién esta vez.

GN⁺ 2026-06-04

Comentarios en Hacker News

Probé el modelo cuantizado Q4 en llama.cpp y lo puse en un benchmark de vibe coding de Buscaminas hecho por mí: https://senko.net/vibecode-bench/2026/minesweeper-gamma-4-12...
El resultado fue decente, pero tuve que corregir manualmente varias veces errores de sintaxis raros y menores, como agregar un paréntesis de cierre extra o intentar separar una definición de función con comas
Teniendo en cuenta esas pistas, es un modelo local de programación bastante competente, y por la salida se ve más o menos similar a GPT-4.1 de hace 14 meses: https://senko.net/vibecode-bench/2025/minesweeper-gpt-4.1.ht...
En una tarjeta de consumo con 12GB de VRAM dio 5 tokens/segundo en GGUF de 4 bits; es lento para programación interactiva, pero es un modelo bastante usable
Es interesante que, en poco más de un año, un modelo de 12 mil millones de parámetros casi haya alcanzado en un benchmark específico el rendimiento de programación que se consideraba de nivel GPT-4.1
Lista de varios modelos probados: https://senko.net/vibecode-bench/
- Probablemente no es un modelo entrenado para programación. Tiene entrada de audio y visión, solo 12B, y en ningún lugar del anuncio se menciona programación
  Es muy probable que su rendimiento general en coding sea inferior al de otros modelos pequeños como Qwen 3.6 35B A3B, Gemma 4 26B A4B, Nvidia Nemotron 3 Nano 30B-A3B o gpt-oss-20b
  En laptops de 16GB, Qwen 3.5 9B es claramente el campeón, y en la cima de los modelos pequeños para coding está Gemma 4 31B, pero al ser dense necesita alrededor de 48GB de memoria unificada para usar todo el contexto
- Si en una tarjeta de 12GB de VRAM da 5 tokens/segundo, parece que está usando modo híbrido mezclando CPU y RAM del sistema
  Esa velocidad es más o menos lo que sale al correr un modelo de ese tamaño en 4 bits con el ancho de banda de DDR4 RAM, y con una GPU Nvidia de consumo de 12GB como una RTX 2080 o RTX 3060, en el backend CUDA de llama.cpp debería dar más de 20 tokens/segundo
- Parece que la mayor victoria en coding fue la capacidad de razonamiento. Por eso un modelo pequeño puede igualar el rendimiento de programación de GPT-4.1, pero en conocimiento general del mundo es probable que el GPT-4.1 más grande siga ganando
- Me pregunto si los problemas de sintaxis podrían resolverse con fine-tuning u otro ajuste de parámetros. Ese tipo de errores son bastante frustrantes
La gran historia aquí es la arquitectura sin encoder, aunque todavía no la entiendo por completo
La explicación de que “reemplazaron el encoder de visión de Gemma 4 por un módulo ligero de embeddings compuesto por una sola multiplicación de matrices, embeddings posicionales y normalización” técnicamente sigue siendo codificación, y parece significar que no usan un modelo dedicado como SigLIP
En la guía para desarrolladores lo explican un poco más diciendo que es una capa de 35M, pero me pregunto si será lo bastante robusta: https://developers.googleblog.com/gemma-4-12b-the-developer-...
Decir que “se puede ejecutar localmente en una laptop de consumo con 16GB de RAM” parece asumir cuantización, y considerando la pérdida de calidad eso puede resultar algo engañoso
- Dentro de la página para desarrolladores hay un artículo que explica bien la arquitectura sin encoder: https://newsletter.maartengrootendorst.com/p/a-visual-guide-...
- Esto básicamente es fusión temprana
  FAIR ya lo había hecho hace 2 años: https://arxiv.org/abs/2405.09818
  Desde entonces he estado esperando que se publicaran modelos así, y lo molesto es que Chameleon, con el mismo principio, incluso permitía salida multimodal, mientras que este modelo solo acepta entrada
  Me intriga cómo hicieron el preentrenamiento sin salida multimodal, y no sé si simplemente le recortaron el soporte de salida de imagen
- En el sentido habitual, “codificación” sí aplica, pero aquí parece que quieren decir que no hay una red neuronal encoder
- Yo diría que la verdadera gran historia es la app Gallery: https://developers.google.com/edge/gallery
  Hay bastante gente con una Mac de 16GB, especialmente periodistas, y cualquiera puede descargar la app, instalar el modelo y empezar a probarlo de inmediato
  Creo que ya es hora de que los periodistas empiecen a hacer preguntas sobre las perspectivas de ingresos de consumo de OpenAI
  Soy bastante escéptico con la IA, pero para ser un escéptico bien informado probé un poco de trabajo con agentes y generación CAD-to-image con modelos locales, y el modelo Gemma 26B me gustó bastante
  Lo estoy usando para aprender fundamentos y familiarizarme con OpenCode sin crear dependencia de la nube, y también escribe código bastante bien, además de ayudarme a aprender a mi propio ritmo
  Si este modelo de 12B está aunque sea a la mitad de lo que promete la publicidad, al menos a corto plazo pone en duda el modelo de negocio en la nube orientado al consumidor
  No está claro si esta app usa MTP drafter, y todavía no he podido hacerlo funcionar directamente en Gemma, pero el soporte MTP integrado de Qwen 3.6 fue excelente en LM Studio
- Si es 12B, entonces son 12GB a 8 bits/parámetro, con pérdida casi nula, y 6GB a 4 bits/parámetro, que en general se considera “bastante cercano”
  Antes de obsesionarse demasiado con la cuantización, primero hay que ver qué tan bueno es el modelo base
Ya estamos entrando en un juego de circuito cerrado. Google no necesita a nadie más para acelerar sus propios modelos, y esto está muy cerca de su negocio principal
Es sorprendente, pero al mismo tiempo no tanto, que sigan desarrollando este tipo de eficiencias. Igual que con la evolución del silicio y de la arquitectura de CPU, siguieron reduciendo y reduciendo mientras se volvían más potentes, y parece probable que la IA termine siendo 100 veces más eficiente con el tiempo
En algún momento habrá límites, pero en los próximos 30 años probablemente habrá más progreso que en los últimos 30, y quizás terminemos viviendo en un mundo futurista tipo Blade Runner donde la edición genética repare células envejecidas y órganos, y cure el cáncer)

Después de nuestra generación, parece que la gente vivirá manteniendo la movilidad de forma estable hasta los 125 años, y al final incluso habrá que pensar en una vida útil de 1000 años.
Si miramos 30 años hacia atrás y 30 años hacia adelante, parece que todo va a cambiar de forma absurda. Que Dios nos cuide.

Sin duda este es un momento interesante, pero desde la perspectiva del avance de punta todavía quedan muchas frutas al alcance de la mano por recoger.
Aun así, hay un límite para el “conocimiento” que se puede meter en un número pequeño de parámetros.
Me imagino que así se sentían los inicios de la radio, la aviación o incluso las microcomputadoras.
Elegí priorizar la optimización de la longevidad por encima de la carrera profesional o los hobbies. Quiero ver el futuro, y esta ola de IA me parece realmente fascinante.
No es así.
Los modelos grandes siguen estando muy por delante, e incluso Gemma 31B es mejor que 12B en términos generales, pero no hay que engañarse pensando que ya está cerca de los modelos grandes.
Claramente hay margen de optimización, pero en tareas complejas se necesitan gradientes pequeños y visibles que puedan capturarse durante el entrenamiento y seguirse durante la inferencia para lograr precisión.
Por ejemplo, si le haces una pregunta de programación mientras le indicas que no escriba código, Gemma igual sigue escribiendo código, mientras que Gemini o Claude captan ese matiz y siguen mejor las instrucciones.
Me da curiosidad la razón de negocio por la que Google publica modelos abiertos. Se agradece esta apertura, pero como empresa con fines de lucro quiero entender cómo encaja en el panorama general.
Me pregunto si no estarán ayudando a que competidores se suban sobre nueva tecnología desarrollada por ellos mismos.
Quisiera saber si es simple buena voluntad o marketing, o si hay una estrategia que se me está escapando.
- Una gran razón por la que los laboratorios frontier pueden obtener 80% de margen bruto en inferencia es que controlan el recurso escaso que son los modelos frontier.
  Si la inferencia se vuelve lo bastante popular y valiosa como para que esas compañías ganen miles de millones de dólares, pueden usar esas ganancias para construir productos y plataformas sustitutas que corten la relación entre Google y sus clientes.
  Google ya tiene el negocio de 80% de margen bruto más grande del mundo, y todos quieren una parte de eso.
  Si ofrecen la inferencia frontier cerca del costo y liberan como open source los modelos por debajo de la frontera para comoditizar los modelos, a los laboratorios frontier les resulta más difícil mantener márgenes brutos altos de forma sostenida en inferencia.
  Es una estrategia.
- Este modelo no reemplaza sus propios productos comerciales de ingresos, pero sí habilita actividad de desarrollo y abre conversaciones con empresas que empiezan con este modelo y luego quieren un poco más.
  En este momento mi empresa también está apostando fuerte por varios productos de plataforma, y ayer Microsoft también dijo que su meta era “Unmetered intelligence”.
  Hay muchas cosas que se pueden hacer con modelos locales pequeños, y esas cosas pasan a formar parte de un stack que genera ingresos en otras capas.
- Android y Chrome necesitan funciones de IA en dispositivo. Google no puede bloquear esos pesos como sí puede hacerlo con el machine learning del lado del servidor.
  De todos modos alguien va a extraer los pesos, así que es más fácil publicarlos como open source y formalizarlo.
- Google es una de las pocas opciones de integración vertical en IA. Tiene datos, modelos, servicios cloud, silicio de bajo nivel (TPU), uso interno, uso para consumidores, uso B2B y canales de distribución (navegador y móvil).
  Cuanto más aumente la adopción de IA, más sube con ella, y si la gente elige soluciones de Google, mejor todavía.
  Cada token enviado a un modelo de Google, sea gratis o de pago, mete presión para que los competidores gasten enormes cantidades de dinero para mantenerse en la frontera.
- Si eres un laboratorio de IA, es casi inevitable querer tener un equipo de investigación en esta área. Es donde más fácilmente puedes iterar, experimentar y producir mejoras que después pueden reflejarse en modelos frontier más grandes.
  La cuestión es si publicar el modelo o usarlo solo para I+D pura.
  Como otros ya están publicando modelos de calidad similar, no parece que sumarse a esa tendencia sea pegarse un tiro en el pie.
  La canibalización adicional es prácticamente cero, y es muy probable que la ganancia reputacional lo valga.
El procesamiento de imágenes es malísimo. Hice varias pruebas contra Qwen 3.5 0.8B y Qwen, que tiene solo el 7% del tamaño, ganó siempre; Gemma se equivocó por completo muchas veces.
Incluso con una imagen simple que decía “This is a test”, se quedó 6 minutos intentando analizarla y falló, mientras que Qwen 3.5 0.8B acertó con seguridad en menos de un segundo.
Puede que la cuantización Q6 que me tocó estuviera rota o que fuera un problema de LM Studio, pero en cualquier caso el rendimiento de 0.8B es sorprendente en comparación.
- Parece que Google mete más o peores guardrails que Alibaba y eso confunde al modelo pequeño.
  En los modelos Gemma3 también pasaba seguido que se negaban a describir una imagen diciendo que había desnudez o escenas sexuales, y nunca entendí el sentido de ese comportamiento.
- Siempre he sentido que los modelos Gemma son mucho peores que Qwen en tareas de visión, así que no es nada nuevo.
Más allá del cambio de arquitectura, esto parece responder por qué en la línea de modelos preentrenados de Gemma4 había un hueco raro entre 4B y 26B.
Es una mejora bienvenida tener un modelo que cabe cómodamente en 16GB de VRAM incluso dejando margen para el contexto.
Dejando fuera lo multimedia, me pregunto cuánto mejor es esto que el modelo de 1.5 bits basado en qwen2.5 de prismml.
Me da curiosidad cuáles son los casos de uso de estos modelos pequeños. ¿Alguien que use modelos de este tamaño a diario podría compartir su experiencia real?
- Corro vLLM en una máquina Linux en el sótano y me conecto por Tailscale para usar modelos pequeños en varias tareas.
  Cosas como pasar documentos escaneados a texto con formato, hacer captions/descripciones de imágenes y clasificar si un objeto es apto o no (incluyendo prevención de spam), o etiquetar documentos emparejándolos con páginas relevantes de Wikipedia.
  No los uso como usaría un modelo frontier; divido cada prompt en microtareas para que cada una tenga un objetivo claro.
  También uso bastante código de pegamento para que todo el flujo funcione, y en realidad estas tareas ya las hacía desde antes de que existieran los LLM.
  Gracias a los LLM pude reducir código complejo y sumar modelos para obtener mejores resultados.
  Uso modelos locales por costo y control. Ya tenía la workstation y la GPU, y el costo operativo es solo la electricidad.
  También he usado modelos propietarios de OpenAI y Google, pero una vez todo se tambaleó cuando retiraron un modelo del que dependía una herramienta. Si guardas los pesos localmente, no tienes esa preocupación.
- En una app de dictado que hice, uso un modelo local para pulir el texto y corregir la gramática. Fue muy fácil de hacer, y ahora lo estoy ampliando para capturar y resumir actas de reuniones, todo procesado en dispositivo.
  Hace poco también vi una pequeña app que mira una captura de pantalla y renombra archivos según su contenido.
  Hay muchos ejemplos pequeños así, y para muchos casos de uso no hace falta para nada un modelo frontier.
He usado Gemma durante varios años para revisar y clasificar escritura en línea. Lo probé con unos 5 millones de palabras que escribí en foros de proyectos open source en los que participo, HN, Reddit, etc., y como eran textos míos también experimenté con entrenamiento LoRA sin preocuparme por la ética del origen de los datos.
Ahora lo estoy usando para búsquedas web y extracción de datos sobre sectores específicos.
Es lo suficientemente inteligente como para encontrar negocios de ese sector en una ciudad dada, leer sus sitios web, extraer direcciones, números de teléfono, etc., e incluso eliminar duplicados y cruzar la información con otras fuentes.
Gemma 4 fue mejor, o al menos hizo juicios más matizados, que Gemini 2.5 Flash, y el nuevo Gemini 3.5 Flash es muy bueno, pero irrealmente caro.
Si no necesitas un rendimiento extremadamente rápido, Gemma 4 autoalojado gana en muchas tareas.
Qwen 3.6 27B también encuentra bugs de seguridad sorprendentemente bien para su tamaño. Supera a varios modelos más grandes y se acerca a Gemini Pro 3.1, pero Gemini 3.5 Flash sorprendentemente sí es claramente mejor.
Solo pago la electricidad, y la mía es barata y 100% renovable, así que puedo usarlo más ampliamente que los modelos alojados.
Aun así, hoy por hoy lo más sensato financieramente sigue siendo comprar tokens que los proveedores están vendiendo casi como si estuvieran subsidiados.
En este momento conviene más pagar una suscripción de 100 dólares a Claude o Codex para usar modelos de primera línea con un gran descuento, que comprar hardware para correr modelos de más de 30GB.
Si necesitas una API para automatización, DeepSeek/MiMo cuesta uno o dos órdenes de magnitud menos que los mejores modelos de Anthropic u OpenAI.
Me gasté unos 4000 dólares en dos máquinas de inferencia, y con ese dinero podría haber comprado tokens para estos modelos pequeños para varios años.
Pero me gusta trastear con hardware, así que eso en sí ya es una recompensa, y recuperar aunque sea una parte sería un extra.
Si los grandes proveedores dejan de quemar dinero con tokens subsidiados y empiezan a cobrar en serio, el cálculo podría cambiar, y quizá termine siendo una suerte haber comprado el equipo antes de que el precio de la RAM subiera 2 o 3 veces.
Si no planeas aprender la tecnología o hacer experimentos de entrenamiento por tu cuenta, en la mayoría de los casos probablemente sea mejor no intentar correrlo en local.
- Los modelos pequeños tienen un nicho muy bueno para tareas específicas. En la parte de procesamiento de documentos de la app de escritorio que desarrollo uso un modelo Phi-4 ajustado, que es más pequeño que este y cabe en unos 3.5GB de RAM, no de VRAM.
  Si tienes una idea muy concreta de cómo usar modelos locales, puedes hacer que funcione bien incluso sin tarjeta gráfica ni NPU.
  Eso sí, tienes que limitar muchísimo la forma de uso. No es bueno como chatbot de propósito general, y aunque me gustan los LLM locales, en ese caso usaría un modelo alojado moderno.
- No conozco este modelo, pero el 31B de arriba sí lo estoy usando en OpenCode como asistente de programación agéntico.
  Si una tarea es lo bastante fácil como para dársela a Sonnet, también se la doy a Gemma 4, y le va muy bien.
  Me sorprende positivamente muchas más veces de las que me decepciona.
  No es raro que Gemma 4 falle, cambie a Opus 4.7, y que Opus también falle.
Es una actualización bastante buena. Pero el video de demo da un poco de risa.
El tester le pidió al modelo que convirtiera el release en viñetas, y lo hizo bien.
Luego le pidió que armara un borrador de email con ese contenido, y sin que nadie se lo pidiera volvió a convertir las viñetas en párrafos, deshaciendo justo lo que había hecho bien.
No sé si existe alguna etiqueta que diga que los emails no deben llevar viñetas.
Publiqué rápidamente unos benchmarks relacionados con alemán para comprobarlo. En el resultado específico para alemán de CohereLabs/include-base-44, Gemma 4 12B queda alrededor de 0.618.
Gemma 4 26B (A4B MoE) marca 0.647, Qwen 3 14B 0.621, Gemma 4 12B 0.618, Ministral 14B 2512 0.604 y Gemma 3 12B 0.547.
La diferencia entre Qwen 3 14B y Gemma 4 12B está dentro del rango de variación aleatoria, y en ejecuciones repetidas incluso han salido exactamente con la misma puntuación.
El siguiente escalón, Gemma 4 31B, da 0.676 en este benchmark, y Qwen 3 14B con razonamiento habilitado también da 0.676.
Mañana voy a correr también benchmarks anti-cheating para ver si Qwen sigue adelante.