10 puntos por GN⁺ 27 일 전 | 2 comentarios | Compartir por WhatsApp
  • Google DeepMind anunció Gemma 4, el modelo abierto de IA de próxima generación basado en la tecnología de Gemini 3, diseñado con una arquitectura que maximiza la eficiencia de inteligencia por parámetro
  • El modelo se ofrece en cuatro tamaños: E2B, E4B, 26B y 31B, y admite una amplia gama de ejecución, desde móviles e IoT hasta entornos con GPU personal
  • Incluye funciones clave como razonamiento multimodal, soporte para 140 idiomas, flujos de trabajo agénticos, ajuste fino detallado y arquitectura eficiente
  • El rendimiento mejoró notablemente frente a Gemma 3 en áreas como matemáticas, programación y comprensión multimodal, mientras que los estándares de seguridad y confiabilidad se mantienen al mismo nivel que los modelos comerciales de Google
  • Los pesos del modelo pueden descargarse desde Hugging Face, Ollama, Kaggle, LM Studio y Docker, con soporte para ejecución integrada en entornos locales y en la nube

Gemma 4 — el modelo abierto de IA de próxima generación

  • Gemma 4 es el modelo abierto más reciente de Google DeepMind, desarrollado a partir de la investigación y la tecnología de Gemini 3, con una estructura que maximiza la eficiencia de inteligencia por parámetro (intelligence-per-parameter)
  • El modelo está disponible en cuatro tamaños: E2B, E4B, 26B y 31B, y puede ejecutarse en distintos entornos, desde dispositivos móviles e IoT hasta estaciones de trabajo personales
  • Sus funciones principales incluyen razonamiento multimodal, soporte para 140 idiomas, flujos de trabajo agénticos, ajuste fino detallado y arquitectura eficiente
  • En los benchmarks de rendimiento, registra mejoras generales frente a Gemma 3, con puntuaciones especialmente altas en matemáticas, programación y comprensión multimodal
  • Los estándares de seguridad y confiabilidad se mantienen al mismo nivel que los modelos comerciales de Google, y los pesos del modelo pueden descargarse desde Hugging Face, Ollama, Kaggle, LM Studio, Docker y otras plataformas

Configuración del modelo y eficiencia

  • Gemma 4 fue diseñado sobre la base tecnológica de Gemini 3 y adopta una arquitectura de modelo abierto enfocada en maximizar la eficiencia de inteligencia
  • El tamaño del modelo se divide en cuatro versiones: E2B, E4B, 26B y 31B, y cada una está optimizada según los recursos de cómputo y la eficiencia de memoria
    • E2B y E4B: para dispositivos móviles e IoT, con soporte para máxima eficiencia y ejecución offline
    • 26B y 31B: ofrecen capacidad de razonamiento de nivel frontier en entornos con GPU personal

Funciones principales

  • Agentic workflows

    • Ofrece soporte nativo para function calling, lo que permite crear agentes autónomos capaces de planificar, explorar apps y ejecutar tareas en nombre del usuario
  • Multimodal reasoning

    • Combina comprensión de audio y visual para facilitar el desarrollo de aplicaciones multimodales más ricas
  • Support for 140 languages

    • Va más allá de la traducción simple y permite generar experiencias multilingües que incluyen comprensión del contexto cultural
  • Fine tuning

    • Permite realizar fine-tuning con los frameworks y técnicas preferidos por el usuario para mejorar el rendimiento en tareas específicas
  • Efficient architecture

    • Puede ejecutarse en hardware propio, ofreciendo un entorno eficiente para desarrollo y despliegue

Rendimiento

  • Gemma 4 fue evaluado con base en diversos datasets y métricas relacionados con generación de texto
  • Principales resultados de benchmark (basados en Gemma 4 31B IT):
    • Arena AI (text): 1452 (frente a 1365 de Gemma 3 27B)
    • MMMLU (preguntas y respuestas multilingües): 85.2%
    • MMMU Pro (razonamiento multimodal): 76.9%
    • AIME 2026 (matemáticas): 89.2%
    • LiveCodeBench v6 (problemas de programación): 80.0%
    • GPQA Diamond (conocimiento científico): 84.3%
    • τ2-bench (uso de herramientas por agentes): 86.4%
  • En general, muestra mejoras de rendimiento en todos los apartados frente a Gemma 3, especialmente en matemáticas, programación y comprensión multimodal

E2B y E4B — para móviles e IoT

  • Con soporte para audio y visión, permiten procesamiento en tiempo real en dispositivos edge
  • Ofrecen ejecución completamente offline y rendimiento con latencia casi nula en smartphones, Raspberry Pi y Jetson Nano
  • Puede probarse a través de Google AI Edge Gallery

26B y 31B — IA local de alto rendimiento

  • Ofrecen capacidades avanzadas de razonamiento adecuadas para IDE, asistentes de programación y flujos de trabajo agénticos
  • Están optimizados para GPU de consumo, lo que permite a estudiantes, investigadores y desarrolladores construir entornos locales de servidor de IA
  • Pueden ejecutarse directamente en Google AI Studio

Seguridad y confiabilidad

  • Gemma 4 aplica los mismos protocolos de seguridad de infraestructura que los modelos comerciales de Google
  • Proporciona una base transparente y confiable para uso por parte de empresas e instituciones públicas
  • Ofrece funciones de IA de última generación manteniendo los más altos estándares de seguridad y confiabilidad

Descarga y ejecución

  • Descarga de pesos del modelo

    • Los pesos del modelo Gemma 4 están disponibles en Hugging Face, Ollama, Kaggle, LM Studio y Docker Hub
  • Soporte para entrenamiento y despliegue

    • Ofrece integración con diversas plataformas como Jax, Vertex AI, Keras, Google AI Edge, Google Kubernetes Engine y Ollama
    • Es posible configurar entornos de entrenamiento, despliegue e inferencia mediante la documentación oficial y las APIs

Comunidad Gemmaverse

  • A través de Gemmaverse, es posible explorar proyectos creados por desarrolladores de todo el mundo con Gemma
  • Google DeepMind comparte las últimas novedades a través de sus canales de X, Instagram, YouTube, LinkedIn y GitHub
  • También es posible suscribirse para recibir las últimas noticias sobre innovación en IA

2 comentarios

 
GN⁺ 27 일 전
Comentarios en Hacker News
  • Se publicó una versión de Gemma 4 que integra reasoning, multimodalidad y llamadas a herramientas.
    En la colección de Hugging Face se pueden descargar modelos cuantizados, y también se ofrece una guía de Unsloth.
    Los parámetros recomendados son temperature=1.0, top_p=0.95, top_k=64, el EOS es " y el thinking trace usa <|channel>thought\n

    • El trabajo de Daniel está cambiando el mundo.
      Construí un pipeline de OCR, embeddings y resúmenes para hacer buscables registros de tierras del siglo XIX.
      Gracias a GGUF y llama.cpp, la búsqueda multilingüe se volvió posible, y un tiempo de espera de 1 minuto por procesamiento no se siente como un problema.
    • Intenté desactivar “thinking” en llama.cpp, pero ni --reasoning-budget 0 ni --chat-template-kwargs '{"enable_thinking":false}' funcionaron.
      Descubrí que hay que usar la nueva bandera --reasoning off.
      Probé unsloth/gemma-4-26B-A4B-it-GGUF:UD-Q4_K_XL en una MacBook Air M4 (32GB), y me pareció mucho más impresionante que qwen3.5-35b-a3b.
    • La captura de pantalla del paso “Search and download Gemma 4” en la guía aparece como si fuera para qwen3.5, y en Unsloth Studio solo se ven modelos Gemma 3.
    • Es una pregunta de principiante, pero me da curiosidad por qué debería usar esta versión en vez del modelo original.
    • Al instalar Gemma 4 con Unsloth en Windows 11, apareció un error en el paso de configurar la contraseña.
      PowerShell instaló varios componentes y luego pidió abrir una URL de localhost, pero justo después falló.
      Como no soy desarrollador, usar PowerShell me resulta poco familiar y complicado; estaría bien que lo distribuyeran como un archivo ejecutable único (.exe).
  • Probé modelos Gemma 4 en LM Studio.
    Los modelos 2B y 4B generaron una imagen rara de un pelícano, mientras que el modelo 26B-A4B dio el mejor resultado que he visto hasta ahora.
    Comparto los resultados de la prueba.
    El modelo 31B en local solo imprimió ---\n, pero en la API de AI Studio funcionó normalmente.

    • Gracias al benchmark del pelícano, termino revisando los comentarios de Hacker News cada vez que sale un modelo nuevo.
    • Me pregunto si el pelícano ya no se habrá convertido en parte de los datos de entrenamiento.
    • Estaría bien tener una página de galería donde se pudieran ver todas las imágenes del pelícano de un vistazo.
      Por ejemplo: clocks.brianmoore.com
    • Si se usara una versión instruction-tuned, parece que la calidad del pelícano sería mucho mejor.
    • Me da curiosidad saber en qué especificaciones de laptop se ejecutó.
  • Organicé una tabla comparando benchmarks de Gemma 4 y Qwen 3.5.
    Incluye métricas variadas como MMLU-Pro, GPQA y Codeforces ELO.

    • La puntuación ELO difiere mucho del gráfico de tfa.
      Al comparar Qwen 3.5-27B con Gemma 4 26B/31B, hay partes donde los resultados aparecen invertidos.
      Impresiona que el equipo de Unsloth haya publicado GGUF tan rápido, y si está al nivel de Qwen 3.5, eso es muy alentador.
    • Para alguien con una GPU de 24GB, no queda muy claro qué modelo debería elegir a partir de esta tabla.
    • Invertir el eje y quitar algunos modelos puede resultar engañoso.
      Los modelos pequeños de Gemma son bastante más débiles que los modelos pequeños de Qwen.
      Ver Qwen3.5-4B y el hilo de Reddit sobre Gemma 4.
  • Soy parte del equipo de Gemma y participé en esta major release.
    Si tienen preguntas, puedo responderlas.

    • Tengo curiosidad por saber si hay planes de lanzar una versión con quantization-aware training (QAT) como en Gemma 3.
      Ver el blog relacionado.
    • Me pregunto por qué esta vez no hubo una versión 12B.
      Esperaba un modelo intermedio para competir con Qwen3.5 9B.
    • Me da curiosidad si “major number release” realmente significa un aumento en la escala de cómputo, o si se refiere a una transición a una arquitectura nueva.
    • Preguntan si hay alguna razón por la que el rendimiento salga bajo en benchmarks aparte del ELO.
      Se preguntan si el benchmark mismo podría estar distorsionando la comparación.
    • En pruebas personales, mostró un rendimiento casi igual al de Gemini 3 Pro, y el costo fue 10 veces menor.
      Enlace de comparación
  • Comparé Gemma 4 y Qwen 3.5 con un prompt para calcular un Unix timestamp.
    Qwen pensó durante más de 8 minutos y dio la respuesta correcta, mientras que Gemma dio un resultado incorrecto en 30 segundos.
    Gemma escribió un script en Python pero no pudo ejecutarlo, así que respondió mal.

    • Para que el modelo realmente ejecute código, hace falta un entorno de agentic harness con sandboxing y especificaciones claras.
      De lo contrario, solo puede adivinar.
    • El comando date funciona correctamente en entorno GNU.
      En macOS hay que instalar gdate (brew install coreutils).
    • En un entorno con RX 9070 XT (24GB VRAM), incluso ejecutándolo sin herramientas se obtuvo el resultado correcto.
      Enlace al gist
    • El autor del comentario original no le dio al modelo permiso real para ejecutar comandos.
      El modelo simplemente los ejecutó “en su imaginación”.
    • La última frase estuvo graciosa.
  • MAX nightly de Modular es la implementación open source más rápida en Blackwell y AMD MI355.
    Según el blog de Modular, se puede instalar directamente con pip.

    • Preguntan si es más rápido que TensorRT-LLM, o si hay alguna razón para no considerar a TensorRT-LLM como open source.
    • Me da curiosidad cuál es la mejora de velocidad frente a PyTorch.
  • Los benchmarks de Gemma 4 centrados en ELO pueden ser engañosos.
    Sale por debajo de Qwen 3.5 27B en la mayoría de las métricas.
    Aun así, los modelos 2B y 4B son interesantes para ASR u OCR.

    • Los benchmarks públicos son fáciles de manipular.
      Yo confío más en las puntuaciones de Lmarena (basadas en evaluación humana).
    • En pruebas personales, mostró resultados bastante buenos en áreas que no son coding.
      Enlace de comparación
    • Los modelos chinos rinden peor en pruebas privadas como arc-agi 2.
    • Los benchmarks son solo una referencia; lo más preciso es probar directamente con casos de uso reales.
    • No está claro qué significa exactamente la métrica “ELO Score”.
  • Por fin salió el lanzamiento que estaba esperando.
    Con una o dos iteraciones más, parece que en un entorno de self-hosting ya podrá cubrir la mayoría de las necesidades.

    • Yo también estoy de acuerdo, pero mis “necesidades cotidianas” se vuelven más complejas cada año.
      Antes bastaba con preguntas y respuestas simples, pero ahora espero algo al nivel de un agente de programación.
      Los modelos abiertos todavía no llegan a ese nivel, pero este lanzamiento genera expectativas.
    • Gemma3:27b y Qwen3-vl:30b-a3b son los LLM locales que más uso.
      Se encargan de la mayoría de mis tareas de traducción, clasificación y categorización.
    • Me da curiosidad para qué tipo de tareas usan self-hosting.
  • Lo mejor de este lanzamiento es la licencia Apache 2.0.
    Hay modelos E2B·E4B (para móviles), 26B-A4B (MoE) y 31B (dense grande).
    La versión móvil admite entrada de audio, y 31B es fuerte en tareas agentic.
    26B-A4B tiene una eficiencia de VRAM similar, pero la velocidad de inferencia es mucho mayor.

  • Le di un pequeño proyecto en Rust a Gemma 4 26B y Qwen 3.5 27B para compararlos.
    Qwen se rindió después de más de 1 hora, y Gemma después de 20 minutos.
    Según el resumen de Codex, Qwen tiene mejor completitud estructural y Gemma es más rápido, pero queda incompleto.
    Yo también estoy de acuerdo con esa evaluación.

    • Actualmente, por un bug en chat template, las llamadas a herramientas son inestables.
      Ver el PR relacionado y el issue.
      No conviene apresurarse a juzgar en esta etapa inicial del lanzamiento.
    • Qwen 3.5 27B es un modelo dense, así que lo correcto sería compararlo con Gemma 4 31B.
      26B-A4B debería compararse con Qwen 3.5 35B-A3B.
    • Qwen es dense y Gemma tiene estructura MoE, así que compararlos directamente es difícil.
 
eoeoe 27 일 전

Parece que el rumor de 120b lamentablemente no era cierto.