Gemini 2.5 Flash Image

(developers.googleblog.com)

1 puntos por GN⁺ 2025-08-27 | 1 comentarios | Compartir por WhatsApp

Google presentó Gemini 2.5 Flash Image, un modelo de generación y edición de imágenes de última generación
Los usuarios pueden combinar varias imágenes en una sola, mantener la consistencia de personajes y aprovechar la transformación de imágenes objetivo basada en lenguaje natural
Este modelo está disponible para desarrolladores y empresas a través de Google AI Studio, Gemini API y Vertex AI, entre otros
Hay varios ejemplos de uso disponibles, como composición de imágenes, generación basada en plantillas y edición programable
Las imágenes creadas por IA incluyen la marca de agua digital invisible SynthID, lo que permite identificar que son imágenes generadas o editadas

Introducción a Gemini 2.5 Flash Image

Google presentó Gemini 2.5 Flash Image (nombre clave nano-banana). Este modelo admite generación y edición de imágenes, composición de múltiples imágenes, mantenimiento de consistencia de personajes y modificación integral de imágenes basada en instrucciones en lenguaje natural. Además, aprovecha el conocimiento del mundo de Gemini para ofrecer una calidad de edición y generación más profunda en comparación con modelos previos de generación de imágenes

La versión anterior de Gemini 2.0 Flash tenía ventajas como baja latencia, eficiencia en costos y facilidad de uso, pero en respuesta a las necesidades de la comunidad se reforzaron las funciones de mayor calidad y control creativo

Este modelo está disponible de inmediato en vista previa a través de Gemini API, Google AI Studio y Vertex AI. El precio es de $30.00 por 1 millón de tokens de salida, y cada imagen se cobra como 1290 tokens ($0.039). Las demás modalidades de entrada y salida siguen la política de precios de Gemini 2.5 Flash

Casos de uso reales

Google AI Studio renovó por completo su build mode, para que sea más fácil probar y desarrollar funciones de Gemini 2.5 Flash Image en apps de IA personalizadas. Se pueden crear apps directamente con prompts o reutilizar libremente plantillas predefinidas. Las apps terminadas pueden desplegarse directamente desde AI Studio o guardar su código en GitHub

Prompt de ejemplo: “Crea una app de edición de imágenes donde el usuario suba una imagen y aplique varios filtros”

Consistencia de personajes

Es posible mantener de forma efectiva la consistencia visual de personajes u objetos, uno de los desafíos clave en la generación de imágenes. Se puede colocar de manera natural a la misma persona en distintos entornos, producir un mismo producto desde diferentes ángulos y configuraciones, o generar assets de marca con consistencia

La demostración de consistencia de personajes puede probarse mediante una app de plantilla personalizada en Google AI Studio, y a partir de ella se puede personalizar el código directamente

Además, también destaca en la generación de imágenes basada en plantillas visuales. Es posible generar en masa desde una sola plantilla de diseño elementos como tarjetas inmobiliarias, credenciales de empleados y mockups de productos para catálogos

Edición de imágenes basada en prompts

Con solo instrucciones en lenguaje natural, admite transformaciones parciales y ediciones locales precisas. Por ejemplo, con un solo prompt se puede desenfocar el fondo, quitar manchas de ropa, eliminar personas de una foto, cambiar la pose del sujeto o colorear fotografías en blanco y negro

Para experimentar estas funciones directamente, también se ofrece una app de plantilla de edición de fotos basada en UI y prompts

Conocimiento nativo del mundo

Los modelos previos de generación de imágenes solían crear imágenes atractivas estéticamente, pero carecían de comprensión semántica y profunda del mundo real. Gemini 2.5 Flash Image aplica un enfoque basado en conocimiento del mundo, lo que hace más visibles sus fortalezas en nuevos usos

Por ejemplo, puede leer y entender diagramas dibujados a mano, responder preguntas sobre el mundo real y ejecutar instrucciones de edición complejas. Estas capacidades pueden probarse directamente en una app interactiva de tutor educativo para AI Studio

Composición de múltiples imágenes

Puede interpretar y fusionar varias imágenes de entrada para crear una imagen compuesta. Permite colocar objetos en otras escenas, rediseñar una habitación con nuevos colores y texturas, o fusionar imágenes en un solo prompt

Para ello, AI Studio también ofrece una app de plantilla para arrastrar imágenes de productos y componerlas rápidamente en nuevas escenas

Cómo empezar a desarrollar

Los desarrolladores pueden comenzar de inmediato con la documentación oficial, y actualmente se ofrece en vista previa. Todas las apps de demostración presentadas en el artículo fueron creadas en Google AI Studio con vibe code, por lo que pueden remixarse y personalizarse solo con prompts

En colaboración con OpenRouter.ai, estará disponible para más de 3 millones de desarrolladores en todo el mundo, y actualmente es el primer modelo en OpenRouter con soporte para generación de imágenes. Gracias a la alianza con fal.ai, también se prevé ampliar su uso en una comunidad más amplia de desarrolladores de medios generativos

Todas las imágenes generadas o editadas con Gemini 2.5 Flash Image incluyen una marca de agua digital invisible SynthID, que permite identificarlas como imágenes creadas por IA

Código de ejemplo en Python

from google import genai
from PIL import Image
from io import BytesIO

client = genai.Client()

prompt = "Create a picture of my cat eating a nano-banana in a fancy restaurant under the gemini constellation"

image = Image.open('/path/to/image.png')

response = client.models.generate_content(
    model="gemini-2.5-flash-image-preview",
    contents=[prompt, image],
)

for part in response.candidates[0].content.parts:
  if part.text is not None:
    print(part.text)
  elif part.inline_data is not None:
    image = Image.open(BytesIO(part.inline_data.data))   
    image.save("generated_image.png")

El código anterior muestra un ejemplo de generar un resultado en Gemini 2.5 Flash Image ingresando juntos un prompt y una imagen

Retroalimentación de desarrolladores y planes futuros

Google seguirá enfocándose en renderizado de texto largo, mejora de la consistencia de personajes y avances en realismo y nivel de detalle. Recibe comentarios a través del foro para desarrolladores y X (antes Twitter), y espera ver diversos usos por parte de la comunidad de desarrolladores

1 comentarios

GN⁺ 2025-08-27

Opiniones de Hacker News

Siento que este es el momento tipo GPT-4 para el campo de los modelos de edición de imágenes
Gemini 2.5 Flash, al que llaman Nano Banana, es increíblemente bueno
Registró un aumento de nada menos que 171 puntos ELO en lmarena
Si buscas nano banana en Twitter, puedes ver resultados impresionantes
Como ejemplo, vean este tuit
- Lo he estado probando yo mismo durante unas semanas
  A veces produce resultados realmente impresionantes, pero para obtener la imagen que quieres hay que intentar varias veces repitiendo el prompt
  No es una solución universal, pero sin duda es un avance enorme y está entre lo mejor que existe hoy
- En el tercer ejemplo, las manos se ven raras
  Parece que el modelo no puede decidir en qué dirección colocarlas
  Pero ese no es un problema creado por Gemini, sino algo que ya estaba en la imagen original
- Parece que todas las combinaciones relacionadas con "nano banana" fueron registradas como dominios con una UI propia
  Me pregunto si habrá intermediarios aprovechándose del nombre de un modelo popular para sacar margen con los créditos
- Antes de que apareciera la IA, mucha gente criticaba a Google por usar talento de ingeniería de clase mundial solo para vender anuncios
  Pero con la llegada de la era de la IA, ahora ese talento puede usarse para product placement en prototipos
  De verdad hemos llegado muy lejos
- Otro detalle decepcionante es que la chamarra acolchada rosa editada se ve sutilmente distinta de la imagen de referencia
  Si usas este modelo para promocionar productos o eres sensible a los detalles, creo que podría generarte molestia
Actualicé un sitio de comparación de imágenes GenAI
Este sitio está estrictamente enfocado en el cumplimiento de prompts de texto a imagen
También refleja el nuevo modelo Google Gemini 2.5 Flash (nano-banana)
El modelo acierta correctamente 8 de 12 prompts y logra resultados muy cercanos a los mejores modelos, Imagen y gpt-image-1
Es una gran mejora frente al Gemini Flash 2.0 anterior
El número 1, gpt-image-1, solo va ligeramente por delante en el laberinto y la estrella de 9 puntas
Lo más sorprendente es que gpt-image-1 haya mantenido el liderato durante casi 6 meses (en este campo, 6 meses son casi una eternidad)
Sin embargo, gpt-image-1 es casi inútil como "editor", porque cambia la imagen completa en vez de trabajar con inpainting (editar solo una parte) como Kontext, Qwen o Nano-Banana
Enlace comparativo entre OpenAI_4O, Imagen_4, Gemini Flash 2, Nano-Banana y otros
- Siento que hace falta un benchmark aparte para edición de texto
- gpt-image-1 es inútil como "editor"
  Entré al hilo buscando justo este comentario
  Me parece un enfoque excelente para comparar el cumplimiento de prompts entre modelos
  Como últimamente están ganando fuerza los prompts estilo inpainting, me pregunto si piensas agregar también capacidades de edición
- No entiendo por qué Hunyuan, OpenAI 4o y Gwen pasan la prueba del pulpo
  No cubrieron "cada tentáculo"
  Midjourney le puso nada menos que 9 calcetines de muñeco a 8 brazos
- Me parece interesante que los resultados de Imagen 4 y Gemini 2.5 Flash se vean demasiado parecidos en algunos casos de prueba
  Tal vez Gemini 2.5 Flash primero genera en segundo plano una imagen base con Imagen (modelo de difusión), y luego Gemini la edita encima para cumplir mejor el prompt
- Me gusta mucho el sitio
  ¿De casualidad conoces algún sitio que compare qué tan bien distintos modelos siguen una guía de estilo, como ilustraciones dibujadas con un mismo estilo?
  Personalmente me gustaría que agregaran esa función al sitio
  Por ejemplo, me gustaría dar varias imágenes del estilo de un artista y luego comparar si pueden generar ilustraciones con ese mismo estilo
  Sería muy útil para casos como ilustraciones de libros, donde hace falta consistencia visual
Gemini 2.5 Flash Image es el único que puede manejar varias imágenes a la vez sin trucos raros
Por ejemplo, en Flux Kontext, para "componer la primera imagen sobre la segunda" hay que combinar las imágenes de antemano de forma engorrosa
Pero este modelo puede usarse sin esa incomodidad, e incluso acepta más de dos imágenes (aunque si son demasiadas puede confundirse)
En mis pruebas rápidas, parece seguir bien incluso prompts largos y las expresiones sintácticas funcionan mejor
Siento que todavía hay más formas de control que no se han descubierto del todo, así que sigo experimentando
El precio también es similar al de modelos competidores, así que espero que provoque un gran cambio en el mercado
- Esta función es realmente divertida
  Mi vecino de al lado está de vacaciones y le estoy dando de comer a sus peces
  Le saco fotos a la pecera y le pido a Gemini que la ponga en lugares emblemáticos de ciudades con un prompt tipo "poner la pecera en un sitio famoso"
  Le mando una imagen cada día y a mi vecino le encanta
  Ese tipo de bromas pequeñas le agregan una sonrisa a la rutina de ambos
Por desgracia, como otros productos de IA, también tiene el problema de aplicar políticas de seguridad excesivamente estrictas
La mitad de los prompts son rechazados
Si no se puede editar humanos, me pregunto cómo se puede mantener la consistencia de personajes
Yo intento editar sobre todo fotos que incluyen personas, pero con este modelo no se puede
Entiendo que Google esté pensando en el problema de los deepfakes, pero ese rumbo de todos modos no se puede frenar y al final la sociedad tendrá que adaptarse
Frustra ver que las herramientas cada vez restringen más al usuario
Al final creo que hará falta un nuevo movimiento OSS para recuperar la libertad
- Tengo una foto de mi pareja de cuando era niña, con ropa navideña, junto a su prima
  Las dos vivieron separadas durante mucho tiempo, así que ahora es un recuerdo muy valioso
  La foto no solo está en mal estado, sino que además tiene baja calidad
  Y aun así, hasta ahora ningún modelo de IA ha logrado restaurarla
- Hace dos días intenté usar Veo gratis para crear video
  Quité incluso palabras totalmente inofensivas, pero aun así me seguía rechazando todo
  Supongo que el problema fue que intenté generar "a mí mismo", así que terminé rindiéndome
Digitalicé fotos familiares, pero tienen mucho daño difícil de restaurar: dominantes de color, manchas, huellas, suciedad de película y más
Como es difícil corregir cientos de fotos una por una, he estado esperando a que la generación de imágenes con IA avance lo suficiente como para restaurarlas en lote sin cambiar detalles importantes, especialmente las caras
Este modelo parece bastante bueno para conservar los detalles mientras reconstruye solo las partes perdidas, así que siento que ya llegó el momento de probarlo
- Todo el daño que mencionaste arriba se puede corregir automáticamente con un escáner de película con función ICE y software de restauración automática como Vuescan
  No hace falta subir cientos o miles de fotos a una IA experimental y propietaria en la nube para recibir resultados mediocres llenos de compresión rara y artefactos
- No termino de entender el sentido de ese caso de uso
  ¿No es básicamente imaginar cómo se vería la foto sin daños?
  Lo mismo con el upscale por IA en cámaras de teléfono
  Si quieres ver algo lejano, solo imagínalo
  Creo que al final lo que hace falta es que las herramientas de IA automaticen el tipo de trabajo que un experto en Photoshop puede hacer manualmente con herramientas reales
  Generar detalles nuevos de forma arbitraria me parece una pérdida de tiempo
- Me pregunto si alguien conoce software que restaure o mejore archivos de video
  Estoy digitalizando videos de mi madre de los años 2000 y cintas VHS
  Ya tengo lista la configuración para digitalizar, pero me gustaría mejorar más la calidad del video
- Ojalá te funcione bien
  Viendo el resultado del prompt de "restauración de foto" en los ejemplos, la cara de la mujer muestra rasgos de IA bastante marcados
  Claro, espero que con el tiempo eso mejore más
- Creo que Flux Kontext ya había llegado a ese punto hace unos meses (https://bfl.ai/models/flux-kontext)
Todas las imágenes generadas o editadas con Gemini 2.5 Flash Image llevarán incrustada una marca de agua digital invisible llamada SynthID para indicar si fueron generadas o editadas por IA
Entiendo el propósito y la buena intención, pero me decepciona que ahora, en vez de dejar que los adultos asuman su propia responsabilidad, sean las grandes corporaciones las que decidan lo que se puede y no se puede hacer
Se siente como vigilancia
- Me gustaría responder preguntando si los humanos alguna vez hemos sido realmente adultos responsables al usar tecnología
  Los deepfakes ya tienen un gran potencial para empeorar la inseguridad sobre qué es real
  Habrá muchísima gente engañada por falsificaciones, y también gente que ya no creerá en nada
  Los políticos dirán "es falso" cada vez que aparezca un video que los perjudique
  Ya vivimos hasta cierto punto en una era post-verdad, pero la situación se va a poner peor
- En la práctica, cuesta decir que sea una imagen hecha por el usuario
  Por ejemplo, aunque un artista ponga una marca de agua en una obra encargada, eso solo indica que el trabajo es suyo, y no necesariamente se vería como una "delación"
  Quizá no lo dijiste con esa intención, pero creo que vale la pena pensarlo
- No estoy de acuerdo con la lógica de "si no tienes nada que ocultar, no tienes nada que temer", pero me pregunto por qué sería un problema que las imágenes generadas o editadas con IA lleven marca de agua
  A título personal, de hecho creo que el watermark en imágenes de IA debería ser obligatorio
- Como tampoco estás obligado a usar este modelo, personalmente no me parece un problema
- Es una carrera armamentista tecnológica
  Vean removemysynthid.com
Como la mayoría de los generadores de imágenes, falla la prueba del teclado de piano (las teclas negras están mal)
Ejemplo de prueba
- Me pregunto qué es exactamente la prueba del teclado de piano
  El enlace pide acceso a Google Drive desde AI Studio, así que se me hace difícil usarlo
- Me pregunto si existe algún modelo que incluya ideas dentro del espacio conceptual, como la repetición de 8 notas
  Al representar un piano, parece que apoyarse solo en palabras cercanas a "piano" no basta para representar conceptos fijos como la repetición de octavas, y ahí es donde falla
  Tengo la impresión de que solo con palabras es difícil conectar la imagen y el significado de forma consistente
- La verdadera fortaleza de este modelo no parece ser tanto la calidad de generación en sí, sino la "consistencia entre generaciones"
  Enlace de ejemplo
- Qué interesante
  Para alguien que ha visto un piano real, se nota de inmediato que algo está mal; es parecido a las pruebas de renderizado de texto, donde la imagen se ve "más o menos" correcta a simple vista, pero en realidad está equivocada
  En un prompt genérico, probablemente también se aceptaría sin problemas algo como tomar el primer resultado de Google Images y decir "aquí tienes una foto de un teclado de piano"
- También falló en mi prueba de texto horizontal
Intenté reproducir por mi cuenta los ejemplos de tenedor/espagueti y burbuja de moda, pero salieron muy distintos a los resultados oficiales
Los resultados también fueron consistentes
Puede que la resolución haya sido distinta porque copié la imagen de la página promocional, pero usé exactamente el mismo prompt
Parece que sí estoy usando el modelo nuevo y, comparado con antes, realmente es un gran avance
- La consistencia de los resultados es interesante
  He corrido varias generaciones como parte de mis pruebas estándar para modelos de imagen (hasta ahora nunca he visto uno que dibuje bien las octavas del piano), y Gemini 2.5 Flash Image no es la excepción
  Si lo pruebas varias veces y comparas resultados, no cambia absolutamente nada
  Con ChatGPT, al darle un prompt de edición, a menudo cambiaban también partes ajenas a lo que yo quería modificar, pero aquí no pasa en absoluto
  Ejemplo de imagen
- Los resultados reales salen mucho más comunes o ambiguos que lo que muestran en la publicidad
  En el ejemplo, la generación del sujeto de burbujas solo produce una forma vagamente parecida a burbujas dentro del sujeto
  En el ejemplo del tenedor, solo agrega un tenedor sobre los fideos
  En ambos casos podría decirse que en realidad sigue mejor el prompt, pero visualmente se ven menos impresionantes
Siento alivio de no haberme convertido en experto en Photoshop
Hubo un tiempo en que me parecía una carrera atractiva, pero ahora me alegra no haber elegido ese camino
Con nano-banana basta
Estoy seguro de que otros modelos pronto lo alcanzarán
Adiós a la comunidad de r/photoshopbattles
- El retoque es un arte
  Para los profesionales, una IA como esta no deja de ser otra herramienta para mejorar la eficiencia
  No se trata solo de saber usar Photoshop, también hace falta criterio
  Claro, si no aumenta el volumen de trabajo, es posible que el mismo trabajo lo hagan menos retocadores
  Si bajan los precios, ¿todos harán mucho más retoque? No estoy tan seguro
- Es una opinión interesante
  Soy programador, pero a principios de los 2000 también aprendí Photoshop y realmente disfrutaba editar imágenes
  Los modelos generativos de hoy sin duda producen cosas mejores que las que yo hacía en esa época, pero no creo que esa experiencia y esa habilidad hayan perdido totalmente su valor
  De hecho, Photoshop (o hoy en día Affinity Designer/Photo) sigue siendo súper útil para pulir resultados de IA
  Nunca me he arrepentido
- Si hubieras escrito este comentario hace 10 años, habrías dicho que al menos el programa y las habilidades eran tuyos, y seguirían siéndolo aunque Google subiera la suscripción o cancelara el servicio
  Ahora hasta PS es por suscripción, así que solo queda esperar a que llegue un buen modelo abierto
- Photoshop sigue siendo útil
  Las imágenes de IA son excelentes, pero todavía quiero crear yo mismo la composición base, y para limpiar artefactos de resultados de IA o combinar distintas capas generadas por IA, las habilidades manuales siguen siendo indispensables
- Al final, otros campos como la programación también están destinados a caer ante la automatización
  Solo tardarán un poco más (¿5 a 10 años?)
  En ingeniería puede tardar más por los errores y la deuda técnica
  Una imagen arruinada se vuelve a generar, pero un programa arruinado se convierte de inmediato en un bloque de código imposible de mantener
  Pero tarde o temprano esta corriente también llegará a nuestra área
Cuando le pides generación de imágenes a Gemini, la mitad de las veces responde que no puede hacerlo
Se siente muy difícil usar de verdad las funciones de Google
Algunas están en un producto, otras en otro, y hasta es confuso saber desde dónde se accede
- Exacto
  En el sitio web te dicen "pruébalo en Gemini", pero cuando eliges Gemini 2.5 Flash ni siquiera queda claro si realmente lo estás usando bien
- En la app o el sitio de Gemini ni siquiera está ese modelo
  Hay que usar otra vía como AI Studio
  La UI/UX de Google en general es realmente confusa