Gemini 2.5 Flash Image
(developers.googleblog.com)- Google presentó Gemini 2.5 Flash Image, un modelo de generación y edición de imágenes de última generación
- Los usuarios pueden combinar varias imágenes en una sola, mantener la consistencia de personajes y aprovechar la transformación de imágenes objetivo basada en lenguaje natural
- Este modelo está disponible para desarrolladores y empresas a través de Google AI Studio, Gemini API y Vertex AI, entre otros
- Hay varios ejemplos de uso disponibles, como composición de imágenes, generación basada en plantillas y edición programable
- Las imágenes creadas por IA incluyen la marca de agua digital invisible SynthID, lo que permite identificar que son imágenes generadas o editadas
Introducción a Gemini 2.5 Flash Image
Google presentó Gemini 2.5 Flash Image (nombre clave nano-banana). Este modelo admite generación y edición de imágenes, composición de múltiples imágenes, mantenimiento de consistencia de personajes y modificación integral de imágenes basada en instrucciones en lenguaje natural. Además, aprovecha el conocimiento del mundo de Gemini para ofrecer una calidad de edición y generación más profunda en comparación con modelos previos de generación de imágenes
La versión anterior de Gemini 2.0 Flash tenía ventajas como baja latencia, eficiencia en costos y facilidad de uso, pero en respuesta a las necesidades de la comunidad se reforzaron las funciones de mayor calidad y control creativo
Este modelo está disponible de inmediato en vista previa a través de Gemini API, Google AI Studio y Vertex AI. El precio es de $30.00 por 1 millón de tokens de salida, y cada imagen se cobra como 1290 tokens ($0.039). Las demás modalidades de entrada y salida siguen la política de precios de Gemini 2.5 Flash
Casos de uso reales
Google AI Studio renovó por completo su build mode, para que sea más fácil probar y desarrollar funciones de Gemini 2.5 Flash Image en apps de IA personalizadas. Se pueden crear apps directamente con prompts o reutilizar libremente plantillas predefinidas. Las apps terminadas pueden desplegarse directamente desde AI Studio o guardar su código en GitHub
Prompt de ejemplo: “Crea una app de edición de imágenes donde el usuario suba una imagen y aplique varios filtros”
Consistencia de personajes
Es posible mantener de forma efectiva la consistencia visual de personajes u objetos, uno de los desafíos clave en la generación de imágenes. Se puede colocar de manera natural a la misma persona en distintos entornos, producir un mismo producto desde diferentes ángulos y configuraciones, o generar assets de marca con consistencia
La demostración de consistencia de personajes puede probarse mediante una app de plantilla personalizada en Google AI Studio, y a partir de ella se puede personalizar el código directamente
Además, también destaca en la generación de imágenes basada en plantillas visuales. Es posible generar en masa desde una sola plantilla de diseño elementos como tarjetas inmobiliarias, credenciales de empleados y mockups de productos para catálogos
Edición de imágenes basada en prompts
Con solo instrucciones en lenguaje natural, admite transformaciones parciales y ediciones locales precisas. Por ejemplo, con un solo prompt se puede desenfocar el fondo, quitar manchas de ropa, eliminar personas de una foto, cambiar la pose del sujeto o colorear fotografías en blanco y negro
Para experimentar estas funciones directamente, también se ofrece una app de plantilla de edición de fotos basada en UI y prompts
Conocimiento nativo del mundo
Los modelos previos de generación de imágenes solían crear imágenes atractivas estéticamente, pero carecían de comprensión semántica y profunda del mundo real. Gemini 2.5 Flash Image aplica un enfoque basado en conocimiento del mundo, lo que hace más visibles sus fortalezas en nuevos usos
Por ejemplo, puede leer y entender diagramas dibujados a mano, responder preguntas sobre el mundo real y ejecutar instrucciones de edición complejas. Estas capacidades pueden probarse directamente en una app interactiva de tutor educativo para AI Studio
Composición de múltiples imágenes
Puede interpretar y fusionar varias imágenes de entrada para crear una imagen compuesta. Permite colocar objetos en otras escenas, rediseñar una habitación con nuevos colores y texturas, o fusionar imágenes en un solo prompt
Para ello, AI Studio también ofrece una app de plantilla para arrastrar imágenes de productos y componerlas rápidamente en nuevas escenas
Cómo empezar a desarrollar
Los desarrolladores pueden comenzar de inmediato con la documentación oficial, y actualmente se ofrece en vista previa. Todas las apps de demostración presentadas en el artículo fueron creadas en Google AI Studio con vibe code, por lo que pueden remixarse y personalizarse solo con prompts
En colaboración con OpenRouter.ai, estará disponible para más de 3 millones de desarrolladores en todo el mundo, y actualmente es el primer modelo en OpenRouter con soporte para generación de imágenes. Gracias a la alianza con fal.ai, también se prevé ampliar su uso en una comunidad más amplia de desarrolladores de medios generativos
Todas las imágenes generadas o editadas con Gemini 2.5 Flash Image incluyen una marca de agua digital invisible SynthID, que permite identificarlas como imágenes creadas por IA
Código de ejemplo en Python
from google import genai
from PIL import Image
from io import BytesIO
client = genai.Client()
prompt = "Create a picture of my cat eating a nano-banana in a fancy restaurant under the gemini constellation"
image = Image.open('/path/to/image.png')
response = client.models.generate_content(
model="gemini-2.5-flash-image-preview",
contents=[prompt, image],
)
for part in response.candidates[0].content.parts:
if part.text is not None:
print(part.text)
elif part.inline_data is not None:
image = Image.open(BytesIO(part.inline_data.data))
image.save("generated_image.png")
El código anterior muestra un ejemplo de generar un resultado en Gemini 2.5 Flash Image ingresando juntos un prompt y una imagen
Retroalimentación de desarrolladores y planes futuros
Google seguirá enfocándose en renderizado de texto largo, mejora de la consistencia de personajes y avances en realismo y nivel de detalle. Recibe comentarios a través del foro para desarrolladores y X (antes Twitter), y espera ver diversos usos por parte de la comunidad de desarrolladores
1 comentarios
Opiniones de Hacker News
Siento que este es el momento tipo GPT-4 para el campo de los modelos de edición de imágenes
Gemini 2.5 Flash, al que llaman Nano Banana, es increíblemente bueno
Registró un aumento de nada menos que 171 puntos ELO en lmarena
Si buscas nano banana en Twitter, puedes ver resultados impresionantes
Como ejemplo, vean este tuit
Lo he estado probando yo mismo durante unas semanas
A veces produce resultados realmente impresionantes, pero para obtener la imagen que quieres hay que intentar varias veces repitiendo el prompt
No es una solución universal, pero sin duda es un avance enorme y está entre lo mejor que existe hoy
En el tercer ejemplo, las manos se ven raras
Parece que el modelo no puede decidir en qué dirección colocarlas
Pero ese no es un problema creado por Gemini, sino algo que ya estaba en la imagen original
Parece que todas las combinaciones relacionadas con "nano banana" fueron registradas como dominios con una UI propia
Me pregunto si habrá intermediarios aprovechándose del nombre de un modelo popular para sacar margen con los créditos
Antes de que apareciera la IA, mucha gente criticaba a Google por usar talento de ingeniería de clase mundial solo para vender anuncios
Pero con la llegada de la era de la IA, ahora ese talento puede usarse para product placement en prototipos
De verdad hemos llegado muy lejos
Otro detalle decepcionante es que la chamarra acolchada rosa editada se ve sutilmente distinta de la imagen de referencia
Si usas este modelo para promocionar productos o eres sensible a los detalles, creo que podría generarte molestia
Actualicé un sitio de comparación de imágenes GenAI
Este sitio está estrictamente enfocado en el cumplimiento de prompts de texto a imagen
También refleja el nuevo modelo Google Gemini 2.5 Flash (nano-banana)
El modelo acierta correctamente 8 de 12 prompts y logra resultados muy cercanos a los mejores modelos, Imagen y gpt-image-1
Es una gran mejora frente al Gemini Flash 2.0 anterior
El número 1, gpt-image-1, solo va ligeramente por delante en el laberinto y la estrella de 9 puntas
Lo más sorprendente es que gpt-image-1 haya mantenido el liderato durante casi 6 meses (en este campo, 6 meses son casi una eternidad)
Sin embargo, gpt-image-1 es casi inútil como "editor", porque cambia la imagen completa en vez de trabajar con inpainting (editar solo una parte) como Kontext, Qwen o Nano-Banana
Enlace comparativo entre OpenAI_4O, Imagen_4, Gemini Flash 2, Nano-Banana y otros
Siento que hace falta un benchmark aparte para edición de texto
No entiendo por qué Hunyuan, OpenAI 4o y Gwen pasan la prueba del pulpo
No cubrieron "cada tentáculo"
Midjourney le puso nada menos que 9 calcetines de muñeco a 8 brazos
Me parece interesante que los resultados de Imagen 4 y Gemini 2.5 Flash se vean demasiado parecidos en algunos casos de prueba
Tal vez Gemini 2.5 Flash primero genera en segundo plano una imagen base con Imagen (modelo de difusión), y luego Gemini la edita encima para cumplir mejor el prompt
Me gusta mucho el sitio
¿De casualidad conoces algún sitio que compare qué tan bien distintos modelos siguen una guía de estilo, como ilustraciones dibujadas con un mismo estilo?
Personalmente me gustaría que agregaran esa función al sitio
Por ejemplo, me gustaría dar varias imágenes del estilo de un artista y luego comparar si pueden generar ilustraciones con ese mismo estilo
Sería muy útil para casos como ilustraciones de libros, donde hace falta consistencia visual
Gemini 2.5 Flash Image es el único que puede manejar varias imágenes a la vez sin trucos raros
Por ejemplo, en Flux Kontext, para "componer la primera imagen sobre la segunda" hay que combinar las imágenes de antemano de forma engorrosa
Pero este modelo puede usarse sin esa incomodidad, e incluso acepta más de dos imágenes (aunque si son demasiadas puede confundirse)
En mis pruebas rápidas, parece seguir bien incluso prompts largos y las expresiones sintácticas funcionan mejor
Siento que todavía hay más formas de control que no se han descubierto del todo, así que sigo experimentando
El precio también es similar al de modelos competidores, así que espero que provoque un gran cambio en el mercado
Mi vecino de al lado está de vacaciones y le estoy dando de comer a sus peces
Le saco fotos a la pecera y le pido a Gemini que la ponga en lugares emblemáticos de ciudades con un prompt tipo "poner la pecera en un sitio famoso"
Le mando una imagen cada día y a mi vecino le encanta
Ese tipo de bromas pequeñas le agregan una sonrisa a la rutina de ambos
Por desgracia, como otros productos de IA, también tiene el problema de aplicar políticas de seguridad excesivamente estrictas
La mitad de los prompts son rechazados
Si no se puede editar humanos, me pregunto cómo se puede mantener la consistencia de personajes
Yo intento editar sobre todo fotos que incluyen personas, pero con este modelo no se puede
Entiendo que Google esté pensando en el problema de los deepfakes, pero ese rumbo de todos modos no se puede frenar y al final la sociedad tendrá que adaptarse
Frustra ver que las herramientas cada vez restringen más al usuario
Al final creo que hará falta un nuevo movimiento OSS para recuperar la libertad
Tengo una foto de mi pareja de cuando era niña, con ropa navideña, junto a su prima
Las dos vivieron separadas durante mucho tiempo, así que ahora es un recuerdo muy valioso
La foto no solo está en mal estado, sino que además tiene baja calidad
Y aun así, hasta ahora ningún modelo de IA ha logrado restaurarla
Hace dos días intenté usar Veo gratis para crear video
Quité incluso palabras totalmente inofensivas, pero aun así me seguía rechazando todo
Supongo que el problema fue que intenté generar "a mí mismo", así que terminé rindiéndome
Digitalicé fotos familiares, pero tienen mucho daño difícil de restaurar: dominantes de color, manchas, huellas, suciedad de película y más
Como es difícil corregir cientos de fotos una por una, he estado esperando a que la generación de imágenes con IA avance lo suficiente como para restaurarlas en lote sin cambiar detalles importantes, especialmente las caras
Este modelo parece bastante bueno para conservar los detalles mientras reconstruye solo las partes perdidas, así que siento que ya llegó el momento de probarlo
Todo el daño que mencionaste arriba se puede corregir automáticamente con un escáner de película con función ICE y software de restauración automática como Vuescan
No hace falta subir cientos o miles de fotos a una IA experimental y propietaria en la nube para recibir resultados mediocres llenos de compresión rara y artefactos
No termino de entender el sentido de ese caso de uso
¿No es básicamente imaginar cómo se vería la foto sin daños?
Lo mismo con el upscale por IA en cámaras de teléfono
Si quieres ver algo lejano, solo imagínalo
Creo que al final lo que hace falta es que las herramientas de IA automaticen el tipo de trabajo que un experto en Photoshop puede hacer manualmente con herramientas reales
Generar detalles nuevos de forma arbitraria me parece una pérdida de tiempo
Me pregunto si alguien conoce software que restaure o mejore archivos de video
Estoy digitalizando videos de mi madre de los años 2000 y cintas VHS
Ya tengo lista la configuración para digitalizar, pero me gustaría mejorar más la calidad del video
Ojalá te funcione bien
Viendo el resultado del prompt de "restauración de foto" en los ejemplos, la cara de la mujer muestra rasgos de IA bastante marcados
Claro, espero que con el tiempo eso mejore más
Creo que Flux Kontext ya había llegado a ese punto hace unos meses (https://bfl.ai/models/flux-kontext)
Todas las imágenes generadas o editadas con Gemini 2.5 Flash Image llevarán incrustada una marca de agua digital invisible llamada SynthID para indicar si fueron generadas o editadas por IA
Entiendo el propósito y la buena intención, pero me decepciona que ahora, en vez de dejar que los adultos asuman su propia responsabilidad, sean las grandes corporaciones las que decidan lo que se puede y no se puede hacer
Se siente como vigilancia
Me gustaría responder preguntando si los humanos alguna vez hemos sido realmente adultos responsables al usar tecnología
Los deepfakes ya tienen un gran potencial para empeorar la inseguridad sobre qué es real
Habrá muchísima gente engañada por falsificaciones, y también gente que ya no creerá en nada
Los políticos dirán "es falso" cada vez que aparezca un video que los perjudique
Ya vivimos hasta cierto punto en una era post-verdad, pero la situación se va a poner peor
En la práctica, cuesta decir que sea una imagen hecha por el usuario
Por ejemplo, aunque un artista ponga una marca de agua en una obra encargada, eso solo indica que el trabajo es suyo, y no necesariamente se vería como una "delación"
Quizá no lo dijiste con esa intención, pero creo que vale la pena pensarlo
No estoy de acuerdo con la lógica de "si no tienes nada que ocultar, no tienes nada que temer", pero me pregunto por qué sería un problema que las imágenes generadas o editadas con IA lleven marca de agua
A título personal, de hecho creo que el watermark en imágenes de IA debería ser obligatorio
Como tampoco estás obligado a usar este modelo, personalmente no me parece un problema
Es una carrera armamentista tecnológica
Vean removemysynthid.com
Como la mayoría de los generadores de imágenes, falla la prueba del teclado de piano (las teclas negras están mal)
Ejemplo de prueba
Me pregunto qué es exactamente la prueba del teclado de piano
El enlace pide acceso a Google Drive desde AI Studio, así que se me hace difícil usarlo
Me pregunto si existe algún modelo que incluya ideas dentro del espacio conceptual, como la repetición de 8 notas
Al representar un piano, parece que apoyarse solo en palabras cercanas a "piano" no basta para representar conceptos fijos como la repetición de octavas, y ahí es donde falla
Tengo la impresión de que solo con palabras es difícil conectar la imagen y el significado de forma consistente
La verdadera fortaleza de este modelo no parece ser tanto la calidad de generación en sí, sino la "consistencia entre generaciones"
Enlace de ejemplo
Qué interesante
Para alguien que ha visto un piano real, se nota de inmediato que algo está mal; es parecido a las pruebas de renderizado de texto, donde la imagen se ve "más o menos" correcta a simple vista, pero en realidad está equivocada
En un prompt genérico, probablemente también se aceptaría sin problemas algo como tomar el primer resultado de Google Images y decir "aquí tienes una foto de un teclado de piano"
También falló en mi prueba de texto horizontal
Intenté reproducir por mi cuenta los ejemplos de tenedor/espagueti y burbuja de moda, pero salieron muy distintos a los resultados oficiales
Los resultados también fueron consistentes
Puede que la resolución haya sido distinta porque copié la imagen de la página promocional, pero usé exactamente el mismo prompt
Parece que sí estoy usando el modelo nuevo y, comparado con antes, realmente es un gran avance
La consistencia de los resultados es interesante
He corrido varias generaciones como parte de mis pruebas estándar para modelos de imagen (hasta ahora nunca he visto uno que dibuje bien las octavas del piano), y Gemini 2.5 Flash Image no es la excepción
Si lo pruebas varias veces y comparas resultados, no cambia absolutamente nada
Con ChatGPT, al darle un prompt de edición, a menudo cambiaban también partes ajenas a lo que yo quería modificar, pero aquí no pasa en absoluto
Ejemplo de imagen
Los resultados reales salen mucho más comunes o ambiguos que lo que muestran en la publicidad
En el ejemplo, la generación del sujeto de burbujas solo produce una forma vagamente parecida a burbujas dentro del sujeto
En el ejemplo del tenedor, solo agrega un tenedor sobre los fideos
En ambos casos podría decirse que en realidad sigue mejor el prompt, pero visualmente se ven menos impresionantes
Siento alivio de no haberme convertido en experto en Photoshop
Hubo un tiempo en que me parecía una carrera atractiva, pero ahora me alegra no haber elegido ese camino
Con nano-banana basta
Estoy seguro de que otros modelos pronto lo alcanzarán
Adiós a la comunidad de r/photoshopbattles
El retoque es un arte
Para los profesionales, una IA como esta no deja de ser otra herramienta para mejorar la eficiencia
No se trata solo de saber usar Photoshop, también hace falta criterio
Claro, si no aumenta el volumen de trabajo, es posible que el mismo trabajo lo hagan menos retocadores
Si bajan los precios, ¿todos harán mucho más retoque? No estoy tan seguro
Es una opinión interesante
Soy programador, pero a principios de los 2000 también aprendí Photoshop y realmente disfrutaba editar imágenes
Los modelos generativos de hoy sin duda producen cosas mejores que las que yo hacía en esa época, pero no creo que esa experiencia y esa habilidad hayan perdido totalmente su valor
De hecho, Photoshop (o hoy en día Affinity Designer/Photo) sigue siendo súper útil para pulir resultados de IA
Nunca me he arrepentido
Si hubieras escrito este comentario hace 10 años, habrías dicho que al menos el programa y las habilidades eran tuyos, y seguirían siéndolo aunque Google subiera la suscripción o cancelara el servicio
Ahora hasta PS es por suscripción, así que solo queda esperar a que llegue un buen modelo abierto
Photoshop sigue siendo útil
Las imágenes de IA son excelentes, pero todavía quiero crear yo mismo la composición base, y para limpiar artefactos de resultados de IA o combinar distintas capas generadas por IA, las habilidades manuales siguen siendo indispensables
Al final, otros campos como la programación también están destinados a caer ante la automatización
Solo tardarán un poco más (¿5 a 10 años?)
En ingeniería puede tardar más por los errores y la deuda técnica
Una imagen arruinada se vuelve a generar, pero un programa arruinado se convierte de inmediato en un bloque de código imposible de mantener
Pero tarde o temprano esta corriente también llegará a nuestra área
Cuando le pides generación de imágenes a Gemini, la mitad de las veces responde que no puede hacerlo
Se siente muy difícil usar de verdad las funciones de Google
Algunas están en un producto, otras en otro, y hasta es confuso saber desde dónde se accede
Exacto
En el sitio web te dicen "pruébalo en Gemini", pero cuando eliges Gemini 2.5 Flash ni siquiera queda claro si realmente lo estás usando bien
En la app o el sitio de Gemini ni siquiera está ese modelo
Hay que usar otra vía como AI Studio
La UI/UX de Google en general es realmente confusa