Google presenta el modelo abierto Gemma 4
(deepmind.google)- Google DeepMind anunció Gemma 4, el modelo abierto de IA de próxima generación basado en la tecnología de Gemini 3, diseñado con una arquitectura que maximiza la eficiencia de inteligencia por parámetro
- El modelo se ofrece en cuatro tamaños: E2B, E4B, 26B y 31B, y admite una amplia gama de ejecución, desde móviles e IoT hasta entornos con GPU personal
- Incluye funciones clave como razonamiento multimodal, soporte para 140 idiomas, flujos de trabajo agénticos, ajuste fino detallado y arquitectura eficiente
- El rendimiento mejoró notablemente frente a Gemma 3 en áreas como matemáticas, programación y comprensión multimodal, mientras que los estándares de seguridad y confiabilidad se mantienen al mismo nivel que los modelos comerciales de Google
- Los pesos del modelo pueden descargarse desde Hugging Face, Ollama, Kaggle, LM Studio y Docker, con soporte para ejecución integrada en entornos locales y en la nube
Gemma 4 — el modelo abierto de IA de próxima generación
- Gemma 4 es el modelo abierto más reciente de Google DeepMind, desarrollado a partir de la investigación y la tecnología de Gemini 3, con una estructura que maximiza la eficiencia de inteligencia por parámetro (intelligence-per-parameter)
- El modelo está disponible en cuatro tamaños: E2B, E4B, 26B y 31B, y puede ejecutarse en distintos entornos, desde dispositivos móviles e IoT hasta estaciones de trabajo personales
- Sus funciones principales incluyen razonamiento multimodal, soporte para 140 idiomas, flujos de trabajo agénticos, ajuste fino detallado y arquitectura eficiente
- En los benchmarks de rendimiento, registra mejoras generales frente a Gemma 3, con puntuaciones especialmente altas en matemáticas, programación y comprensión multimodal
- Los estándares de seguridad y confiabilidad se mantienen al mismo nivel que los modelos comerciales de Google, y los pesos del modelo pueden descargarse desde Hugging Face, Ollama, Kaggle, LM Studio, Docker y otras plataformas
Configuración del modelo y eficiencia
- Gemma 4 fue diseñado sobre la base tecnológica de Gemini 3 y adopta una arquitectura de modelo abierto enfocada en maximizar la eficiencia de inteligencia
- El tamaño del modelo se divide en cuatro versiones: E2B, E4B, 26B y 31B, y cada una está optimizada según los recursos de cómputo y la eficiencia de memoria
- E2B y E4B: para dispositivos móviles e IoT, con soporte para máxima eficiencia y ejecución offline
- 26B y 31B: ofrecen capacidad de razonamiento de nivel frontier en entornos con GPU personal
Funciones principales
-
Agentic workflows
- Ofrece soporte nativo para function calling, lo que permite crear agentes autónomos capaces de planificar, explorar apps y ejecutar tareas en nombre del usuario
-
Multimodal reasoning
- Combina comprensión de audio y visual para facilitar el desarrollo de aplicaciones multimodales más ricas
-
Support for 140 languages
- Va más allá de la traducción simple y permite generar experiencias multilingües que incluyen comprensión del contexto cultural
-
Fine tuning
- Permite realizar fine-tuning con los frameworks y técnicas preferidos por el usuario para mejorar el rendimiento en tareas específicas
-
Efficient architecture
- Puede ejecutarse en hardware propio, ofreciendo un entorno eficiente para desarrollo y despliegue
Rendimiento
- Gemma 4 fue evaluado con base en diversos datasets y métricas relacionados con generación de texto
- Principales resultados de benchmark (basados en Gemma 4 31B IT):
- Arena AI (text): 1452 (frente a 1365 de Gemma 3 27B)
- MMMLU (preguntas y respuestas multilingües): 85.2%
- MMMU Pro (razonamiento multimodal): 76.9%
- AIME 2026 (matemáticas): 89.2%
- LiveCodeBench v6 (problemas de programación): 80.0%
- GPQA Diamond (conocimiento científico): 84.3%
- τ2-bench (uso de herramientas por agentes): 86.4%
- En general, muestra mejoras de rendimiento en todos los apartados frente a Gemma 3, especialmente en matemáticas, programación y comprensión multimodal
E2B y E4B — para móviles e IoT
- Con soporte para audio y visión, permiten procesamiento en tiempo real en dispositivos edge
- Ofrecen ejecución completamente offline y rendimiento con latencia casi nula en smartphones, Raspberry Pi y Jetson Nano
- Puede probarse a través de Google AI Edge Gallery
26B y 31B — IA local de alto rendimiento
- Ofrecen capacidades avanzadas de razonamiento adecuadas para IDE, asistentes de programación y flujos de trabajo agénticos
- Están optimizados para GPU de consumo, lo que permite a estudiantes, investigadores y desarrolladores construir entornos locales de servidor de IA
- Pueden ejecutarse directamente en Google AI Studio
Seguridad y confiabilidad
- Gemma 4 aplica los mismos protocolos de seguridad de infraestructura que los modelos comerciales de Google
- Proporciona una base transparente y confiable para uso por parte de empresas e instituciones públicas
- Ofrece funciones de IA de última generación manteniendo los más altos estándares de seguridad y confiabilidad
Descarga y ejecución
-
Descarga de pesos del modelo
- Los pesos del modelo Gemma 4 están disponibles en Hugging Face, Ollama, Kaggle, LM Studio y Docker Hub
-
Soporte para entrenamiento y despliegue
- Ofrece integración con diversas plataformas como Jax, Vertex AI, Keras, Google AI Edge, Google Kubernetes Engine y Ollama
- Es posible configurar entornos de entrenamiento, despliegue e inferencia mediante la documentación oficial y las APIs
Comunidad Gemmaverse
- A través de Gemmaverse, es posible explorar proyectos creados por desarrolladores de todo el mundo con Gemma
- Google DeepMind comparte las últimas novedades a través de sus canales de X, Instagram, YouTube, LinkedIn y GitHub
- También es posible suscribirse para recibir las últimas noticias sobre innovación en IA
2 comentarios
Comentarios en Hacker News
Se publicó una versión de Gemma 4 que integra reasoning, multimodalidad y llamadas a herramientas.
En la colección de Hugging Face se pueden descargar modelos cuantizados, y también se ofrece una guía de Unsloth.
Los parámetros recomendados son temperature=1.0, top_p=0.95, top_k=64, el EOS es
"y el thinking trace usa<|channel>thought\nConstruí un pipeline de OCR, embeddings y resúmenes para hacer buscables registros de tierras del siglo XIX.
Gracias a GGUF y llama.cpp, la búsqueda multilingüe se volvió posible, y un tiempo de espera de 1 minuto por procesamiento no se siente como un problema.
--reasoning-budget 0ni--chat-template-kwargs '{"enable_thinking":false}'funcionaron.Descubrí que hay que usar la nueva bandera
--reasoning off.Probé unsloth/gemma-4-26B-A4B-it-GGUF:UD-Q4_K_XL en una MacBook Air M4 (32GB), y me pareció mucho más impresionante que qwen3.5-35b-a3b.
PowerShell instaló varios componentes y luego pidió abrir una URL de
localhost, pero justo después falló.Como no soy desarrollador, usar PowerShell me resulta poco familiar y complicado; estaría bien que lo distribuyeran como un archivo ejecutable único (.exe).
Probé modelos Gemma 4 en LM Studio.
Los modelos 2B y 4B generaron una imagen rara de un pelícano, mientras que el modelo 26B-A4B dio el mejor resultado que he visto hasta ahora.
Comparto los resultados de la prueba.
El modelo 31B en local solo imprimió
---\n, pero en la API de AI Studio funcionó normalmente.Por ejemplo: clocks.brianmoore.com
Organicé una tabla comparando benchmarks de Gemma 4 y Qwen 3.5.
Incluye métricas variadas como MMLU-Pro, GPQA y Codeforces ELO.
Al comparar Qwen 3.5-27B con Gemma 4 26B/31B, hay partes donde los resultados aparecen invertidos.
Impresiona que el equipo de Unsloth haya publicado GGUF tan rápido, y si está al nivel de Qwen 3.5, eso es muy alentador.
Los modelos pequeños de Gemma son bastante más débiles que los modelos pequeños de Qwen.
Ver Qwen3.5-4B y el hilo de Reddit sobre Gemma 4.
Soy parte del equipo de Gemma y participé en esta major release.
Si tienen preguntas, puedo responderlas.
Ver el blog relacionado.
Esperaba un modelo intermedio para competir con Qwen3.5 9B.
Se preguntan si el benchmark mismo podría estar distorsionando la comparación.
Enlace de comparación
Comparé Gemma 4 y Qwen 3.5 con un prompt para calcular un Unix timestamp.
Qwen pensó durante más de 8 minutos y dio la respuesta correcta, mientras que Gemma dio un resultado incorrecto en 30 segundos.
Gemma escribió un script en Python pero no pudo ejecutarlo, así que respondió mal.
De lo contrario, solo puede adivinar.
datefunciona correctamente en entorno GNU.En macOS hay que instalar
gdate(brew install coreutils).Enlace al gist
El modelo simplemente los ejecutó “en su imaginación”.
MAX nightly de Modular es la implementación open source más rápida en Blackwell y AMD MI355.
Según el blog de Modular, se puede instalar directamente con pip.
Los benchmarks de Gemma 4 centrados en ELO pueden ser engañosos.
Sale por debajo de Qwen 3.5 27B en la mayoría de las métricas.
Aun así, los modelos 2B y 4B son interesantes para ASR u OCR.
Yo confío más en las puntuaciones de Lmarena (basadas en evaluación humana).
Enlace de comparación
Por fin salió el lanzamiento que estaba esperando.
Con una o dos iteraciones más, parece que en un entorno de self-hosting ya podrá cubrir la mayoría de las necesidades.
Antes bastaba con preguntas y respuestas simples, pero ahora espero algo al nivel de un agente de programación.
Los modelos abiertos todavía no llegan a ese nivel, pero este lanzamiento genera expectativas.
Se encargan de la mayoría de mis tareas de traducción, clasificación y categorización.
Lo mejor de este lanzamiento es la licencia Apache 2.0.
Hay modelos E2B·E4B (para móviles), 26B-A4B (MoE) y 31B (dense grande).
La versión móvil admite entrada de audio, y 31B es fuerte en tareas agentic.
26B-A4B tiene una eficiencia de VRAM similar, pero la velocidad de inferencia es mucho mayor.
Le di un pequeño proyecto en Rust a Gemma 4 26B y Qwen 3.5 27B para compararlos.
Qwen se rindió después de más de 1 hora, y Gemma después de 20 minutos.
Según el resumen de Codex, Qwen tiene mejor completitud estructural y Gemma es más rápido, pero queda incompleto.
Yo también estoy de acuerdo con esa evaluación.
Ver el PR relacionado y el issue.
No conviene apresurarse a juzgar en esta etapa inicial del lanzamiento.
26B-A4B debería compararse con Qwen 3.5 35B-A3B.
Parece que el rumor de 120b lamentablemente no era cierto.