Google presenta Gemma 3 270M: un modelo compacto para IA de ultraalta eficiencia
(developers.googleblog.com)- Gemma 3 270M es un modelo ligero de 270 millones de parámetros, con una sólida capacidad para seguir instrucciones y funciones de estructuración de texto
- Gracias a un vocabulario masivo de 256k tokens, maneja bien tokens raros y fue diseñado como un modelo para ajuste fino orientado a dominios e idiomas específicos
- En el SoC del Pixel 9 Pro, el modelo cuantizado INT4 consume solo 0.75% de batería en 25 conversaciones, lo que demuestra una excelente eficiencia energética
- Es ideal para una estrategia que, en lugar de usar un gran modelo generalista, opera múltiples modelos pequeños especializados para asegurar velocidad, costo y precisión al mismo tiempo
- Está optimizado para tareas fijas que requieren ejecución en el dispositivo, iteración rápida de experimentos y operación de bajo costo, lo que permite crear diversas aplicaciones de IA
Resumen de Gemma 3 270M
- Un nuevo modelo pequeño especializado para ajuste fino presentado por Google después de Gemma 3 y Gemma 3 QAT
- De sus 270M parámetros, 170 millones se asignan a embeddings y 100 millones a bloques Transformer
- Su gran vocabulario de 256k tokens permite procesar tokens raros y especiales
- Está disponible tanto en versión preentrenada (
pretrained) como ajustada para instrucciones (instruction-tuned)
Características principales
- Estructura compacta pero potente: ideal para ajuste fino adaptado a dominios/idiomas específicos
- Eficiencia energética extrema: en el SoC del Pixel 9 Pro, el modelo INT4 usa solo 0.75% de batería en 25 conversaciones
- Capacidad para seguir instrucciones: está más optimizado para tareas concretas que para conversación general, y puede seguir instrucciones incluso en su estado base
- Compatibilidad con cuantización (QAT): minimiza la pérdida de rendimiento con precisión INT4 y es adecuado para entornos con recursos limitados
La filosofía de “usar lo adecuado en el lugar adecuado”
- Enfatiza un enfoque centrado en la eficiencia al diseñar sistemas de IA
- Los modelos pequeños permiten respuestas rápidas y operación de bajo costo
- Ofrece alto rendimiento cuando se especializa en tareas claras como clasificación de texto o extracción de datos
Casos de uso reales
- Adaptive ML ajustó el modelo Gemma 3 4B para la moderación de contenido multilingüe de SK Telecom y logró un rendimiento superior al de grandes modelos propietarios
- El modelo 270M extiende ese enfoque a una escala menor, permitiendo crear en masa “modelos expertos” para distintos grupos de tareas especializadas
- La app web Bedtime Story Generator de Hugging Face permite generar contenido en tiempo real sin conexión o dentro del navegador web gracias a Gemma 3 270M
Escenarios de uso adecuados
- Procesamiento claro y masivo de tareas: ideal para tareas específicas como análisis de sentimiento, extracción de entidades, enrutamiento de consultas, transformación de texto, creación de contenido y revisiones de cumplimiento
- Máxima economía y velocidad: puede operar con costos muy bajos en infraestructura ligera o en el dispositivo, ofreciendo respuestas inmediatas
- Desarrollo y despliegue rápidos: como el modelo es pequeño, los experimentos de ajuste fino y los procesos de optimización/pruebas se completan en cuestión de horas
- Privacidad: permite procesamiento integrado en el dispositivo sin enviar datos a la nube, lo que favorece la protección de información sensible
- Operación de modelos especializados personalizados: permite construir y desplegar simultáneamente distintos modelos para diversos fines sin una gran carga presupuestaria
Ajuste fino y despliegue
- El modelo puede descargarse desde Hugging Face, Ollama, Kaggle, LM Studio, Docker y otros
- Es compatible con diversas herramientas de inferencia como Vertex AI, llama.cpp, Gemma.cpp, LiteRT, Keras y MLX
- Se ofrecen guías completas de ajuste fino con Hugging Face, UnSloth y JAX
- Puede desplegarse con flexibilidad desde entornos locales hasta Google Cloud Run
Conclusión
- Gemma 3 270M es un modelo base pequeño pero potente que acelera la creación de soluciones de IA optimizadas para tareas específicas
- Es una opción ideal para desarrolladores que buscan al mismo tiempo bajo costo, alta eficiencia y despliegue rápido
3 comentarios
Si lo hicieran en un archivo
.task, podría probarlo a gusto en un smartphone Android..Había un archivo
.task(no web) que alguien ya había creado, así que lo probé en el móvil, y responde bien de forma concisa y rápida.Pero creo que
qwen3:0.6blo hace mejor (aunque, claro, este probablemente sea más pesado).Opiniones en Hacker News
Yo hice estos modelos junto con un gran equipo, y recomiendo que todos los prueben, ya que se pueden descargar en todo el ecosistema de modelos abiertos. Los diseñamos con el objetivo de ofrecer un rendimiento potente en relación con su tamaño, y para que cualquiera pueda ajustarlos fácilmente a su caso de uso. Gracias a su tamaño reducido, pueden ejecutarse en una gran variedad de hardware, y el costo de fine-tuning también es muy bajo. Incluso puedes probar a hacer fine-tuning tú mismo en un Colab gratuito en menos de 5 minutos. Como guía para elegir el tamaño de Gemma, puede servir un video que grabé personalmente presentando las versiones de 1b a 27b, además de la 270m agregada recientemente: enlace de YouTube. Trabajo como investigador en Google, pero todas las opiniones aquí son personales. Voy a compartir todo lo que pueda, enfocándome en preguntas técnicas
Creo que los modelos Gemma 3 son realmente geniales. La generación en noruego también sale bien, y el seguimiento de instrucciones suele ser bueno en la mayoría de los casos. Pero parece haber un problema relacionado con la censura; especialmente en temas serios, actúa de forma demasiado conservadora en comparación con las instrucciones. Por ejemplo, si se le pide clasificar si un mensaje de chat en un juego donde los jugadores pueden matarse entre sí es una amenaza real o una amenaza dentro del juego, no funciona bien. Incluso si se le dice que, cuando no esté claro si es una amenaza dentro del juego, la clasifique como relacionada con el juego, tiende a sesgarse hacia la seguridad. A veces incluso devuelve líneas de ayuda. Supongo que esto se debe al entrenamiento para que el modelo se comporte de forma segura, pero me pregunto si sabes por qué ocurre
Me acordé de un increíble ingeniero de Google que conocí en BSidesSF. Fue alguien que respondió mis preguntas con muchísima dedicación, y al hacer clic en el video resultaste ser tú. Fue un momento muy inspirador, gracias
Me gustaría saber si podrías compartir algún caso real de una versión fine-tuned. Incluso una explicación estaría bien, pero sería ideal si hubiera una demo o incluso pesos del modelo disponibles para descargar, mejor aún si están en formato GGUF
Esto es realmente genial. No es común ver un modelo de 270M parámetros tan eficiente. La elección de arquitectura también es nueva e interesante. Me pregunto si podrías compartir información más detallada sobre el entrenamiento. Si los parámetros de embedding son 170M, me interesa saber cómo mantuvieron estable la matriz de embeddings durante el entrenamiento sin que colapsara. También quisiera saber si hay algún material donde se expliquen experimentos internos o trade-offs de rendimiento sobre la división de parámetros (170m/100m). Gracias por toda la serie de modelos
Trabajo realmente impresionante. Este modelo se siente muy bueno para tareas de una sola pasada como resumen o autocompletado. También estuvo muy bien que publicaran una versión con quantized aware training desde el día del lanzamiento; eso ayudó a hacerlo más pequeño
Me impresionó conversar con el modelo 270M-F16. Cuando pregunté "¿cuál es la segunda montaña más alta de la Tierra?", siguió respondiendo "Everest". A "¿entonces cuál es la primera?" también respondió "Everest". A "¿la tercera?" y "¿la cuarta?" respondió "Everest" en todos los casos. Cuando le dije "pero ya dijiste que la más alta es el Everest", respondió "correcto, alegría". Incluso al seguir preguntando por la segunda montaña más alta, solo repetía "Everest". Al final, solo cuando le pedí una "lista de las montañas del puesto 1 al 5", cambió su respuesta a 1. Everest, 2. K2, 3. Sahel, 4. Fuji, 5. McKinley. Y aun así, cuando le dije "entonces la segunda montaña más alta es K2, ¿no?", siguió respondiendo "Everest". Estos modelos pequeños son excelentes, pero de verdad se siente como hablar con un niño pequeño
Este modelo tiene unos 270M parámetros, o sea alrededor de un tercio de 1B. En esencia, no deja de ser un poco de multiplicación de matrices, así que no se puede esperar mucho conocimiento, gramática o consistencia. Los modelos por debajo de 1B como este son modelos especializados optimizados para un propósito concreto. Por ejemplo, sirven para extraer información de reseñas de clientes a un objeto JSON, es decir, convertir texto de entrada en una forma que un programa pueda usar de manera significativa. Para que den buenos resultados, hay que hacerles fine-tuning de forma muy agresiva sobre los datos esperados. Si al final un modelo de 270MB puede darte con fine-tuning el resultado que quieres, no hace falta usar un modelo generalista de 32GB
Sumando a eso, desde el principio no apuntábamos a una correspondencia factual perfecta. Sin importar el tamaño del modelo, estos pesos ya están fijos. Lo que recomendaría es conectarlo a un sistema RAG para depender de conocimiento externo, o hacer fine-tuning directamente con solo los hechos que quieras que tenga. También aprende conocimiento nuevo con rapidez
Usar un modelo de 270M para pruebas de conocimiento enciclopédico es como mirar un JPG muy comprimido y decir "la calidad de imagen se ve mal"
Por el prompt, parece que estás intentando evaluar conocimiento, pero este modelo no está hecho para eso. Como se menciona en la publicación del blog, "muestra un rendimiento sobresaliente en exactitud, velocidad y costo para tareas como clasificación de texto o extracción de datos"
Ante la solicitud "hazme un itinerario de 2 días en París", respondió con un plan de viaje detallado por horas, incluyendo sitios emblemáticos de París, puntos de referencia, museos, experiencias gastronómicas variadas, paseos por Le Marais y el Barrio Latino, y una visita al Museo de Orsay. También dio consejos de preparación para el viaje muy completos
Este modelo es realmente divertido. Con un tamaño diminuto de unos 241MB, es rapidísimo y aun así se inventa casi cualquier cosa con total libertad. Por ejemplo, ante la solicitud "genera un SVG de un pelícano en bicicleta", el modelo escribió un poema (por ejemplo: "este es un gato, con alas grandes y una cola feliz", "la luz de la bicicleta brilla intensamente", "está listo para la aventura", etc.). Subí varios resultados de intentos a un Gist. Espero que en el futuro salgan modelos fine-tuned que puedan producir resultados útiles para tareas seleccionadas
Me reí muchísimo con este intento. Generó algo que parecía poema o canción, luego explicó cómo cada línea se reflejaba en el SVG, y terminó con "este código SVG transmite la escena de manera clara y visual"
Veo que estás usando los ggufs de ollamas. Por defecto te descarga el modelo cuantizado Q4_0, pero puedes obtener mejores resultados con
gemma3:270m-it-bf16o con los ggufs de unsloth enhf.co/unsloth/gemma-3-270m-it-GGUF:16También genera muchos tokens inútiles, pero la cantidad de tokens que escupe es realmente enorme
Una descarga de 241MB requeriría más de 170 disquetes
A la pregunta "¿cuándo nació Julio César?", respondió "Julio César nació en Roma". Hermoso :D (no lo digo para menospreciarlo, sino en el sentido de que hará falta más trabajo para domesticarlo)
Creo que Apple también debería hacer modelos así. Si el objetivo no es reemplazar un acuerdo de búsqueda por un acuerdo de IA, entonces es muy raro que Apple tenga tan poca presencia. Tim Cook dijo que era "una oportunidad que debemos aprovechar", pero viendo sus movimientos recientes, da la impresión de que perdieron el rumbo. Vamos Google
Es algo que se dice en todos los hilos de HN sobre LLM: que los LLM siguen siendo tontos e inútiles. No estoy de acuerdo con eso, pero sí es cierto que hasta ahora ninguna empresa ha encontrado un uso de IA cuya inversión valga lo suficiente a largo plazo de forma claramente demostrada. Apple siempre ha tenido historial de entrar tarde a un mercado (por ejemplo: MP3, smartphone, smartwatch) y aun así aplastar a la competencia con productos innovadores
Ya se están usando modelos al nivel de GPT2 en el autocompletado de Apple enlace con más detalles
Si por modelos "como este" te refieres a SLM (modelos de lenguaje pequeños), entonces sí es cierto que Apple lleva mucho tiempo investigando en esa área
Apple también lo está haciendo. Incluso hay documentación oficial Foundation Models Doc. Si instalas la beta más reciente, puedes llamar directamente a la API. Además, también hay soporte oficial para hacer fine-tuning del modelo que se aplica a casi todos sus dispositivos documentación relacionada
Apple no va a lanzar modelos así. Como ya puede verse en otros comentarios, por ahora el rendimiento no da la talla. Es realmente difícil encontrar un modelo que, en uso real, genere tokens a una velocidad razonable sin sobrecalentar el dispositivo y sin ponerse a decir tonterías (he probado varios personalmente). Apple nunca ha preferido lanzar productos incompletos o poco pulidos; más bien retrasa los lanzamientos
Estoy usando DistilBERT para clasificar publicaciones de wordpress. Tengo más de 100 mil datos y, tras el fine-tuning, incluso puedo hacer reportes suficientemente sólidos. Aunque la distribución no sea uniforme, se puede solucionar en cierta medida con algunos trucos. Planeo cambiar a este modelo y comparar el rendimiento, y si hay cambios voy a compartirlos
Me pregunto si existen casos reales donde la gente haya hecho fine-tuning a modelos tan pequeños y los haya llevado a producción
Tuve experiencia creando un reranker para un sistema RAG con un modelo pequeño. Después de la generación de candidatos (búsqueda vectorial + BM25), la lógica de negocio y los filtros ACL, usábamos un modelo diminuto para decidir si los chunks de texto restantes realmente estaban relacionados con la consulta y filtrarlos. Sí llegó a producción, pero a medida que creció el tamaño de contexto de los modelos, ese módulo terminó saliendo por temas de costo y calidad. Aun así, sí estuvo en operación por un tiempo
En nuestra empresa estamos escalando con un enfoque donde un modelo pequeño hace una selección inicial y, si la confianza es alta, luego se valida con ChatGPT. También planeamos aplicar este método a detección de idioma. Los modelos ML open source existentes tienen debilidades con idiomas mezclados, longitud de oración o dominios específicos (por ejemplo, cuando fueron entrenados solo en traducciones bíblicas)
No está del todo claro para qué usarlo, pero quizá sirva para generación de etiquetas. Encoders de este tamaño a veces incluso superan ampliamente a otros en tareas específicas
Si no recuerdo mal, en Android (especialmente en Pixel) están usando modelos Gemma fine-tuned para asistentes on-device y cosas por el estilo
Para comentarios en 9gag.com
Últimamente la competencia por optimizar modelos está intensa, y me preguntaba cuánto se pueden reducir los parámetros si se elimina información innecesaria de idioma o dominio. Por ejemplo, si solo se soporta inglés, ¿sería posible quitar chino o lenguas europeas y habilitar más tareas dentro del mismo presupuesto de parámetros?
Esa pregunta es justamente la que más nos preocupó al crear este modelo. Hay un trade-off según "qué tan bien quieres rendir en cuántas tareas". Hay que elegir otros datos y otras estrategias de entrenamiento y luego medir el rendimiento. De hecho, recomiendo entrenar el modelo sobre tu propio conjunto de tareas para evaluar esos trade-offs de rendimiento. Ese tipo de pruebas te permite sentir directamente cómo cambian las capacidades de un LLM
En realidad no funciona de manera tan simple. Puede servir revisar transfer learning
Nunca imaginé que en 2025 estaría ejecutando en mi iPhone un LLM anunciado ese mismo año, con precisión completa BF16. En un iPhone 16 Pro da alrededor de 80 tokens por segundo
Como añadido al artículo, la puntuación exacta de IFEval para Gemma 3 270M es 51.2. Qwen 3 aparece en el diagrama de dispersión en (0.6, 59.2)
Menciono que la elección del prompt afecta muchísimo el rendimiento de este modelo. NER y POS tagging me parecieron algo decepcionantes. Pero la traducción entre idiomas no indoeuropeos (por ejemplo, traducir tailandés o indonesio al inglés) funcionó sorprendentemente bien