Gemini 2.5 Flash Image: se presenta el modelo más reciente de generación y edición de imágenes

(developers.googleblog.com)

10 puntos por GN⁺ 2025-08-27 | 2 comentarios | Compartir por WhatsApp

Google presentó Gemini 2.5 Flash Image, conocido como Nano-Banana, con capacidades de generación y edición de imágenes notablemente mejoradas
Ofrece consistencia de personajes, edición parcial basada en lenguaje natural, uso de conocimiento del mundo y combinación de múltiples imágenes, entre otras funciones
Los desarrolladores pueden usar el modelo de inmediato a través de Gemini API, Google AI Studio, Vertex AI, OpenRouter y fal.ai
El precio es de 30 dólares por 1 millón de tokens de salida, aproximadamente 0.039 dólares por imagen
Todos los resultados incluyen una marca de agua digital SynthID invisible

Introducción a Gemini 2.5 Flash Image

Google anunció Gemini 2.5 Flash Image (nombre en clave nano-banana), un modelo de nueva generación para creación y edición de imágenes
Con esta actualización ahora es posible combinar varias imágenes en una sola, mantener la consistencia de una persona u objeto específico, aplicar transformaciones detalladas usando lenguaje natural y generar o editar imágenes con base en el conocimiento del mundo de Gemini
Aunque la versión inicial, Gemini 2.0 Flash, ya destacaba por su baja latencia, eficiencia de costos y facilidad de uso, esta vez se añadieron imágenes de mayor calidad y controles creativos mejorados a partir de los comentarios de los usuarios
Actualmente está disponible en Gemini API, Google AI Studio y Vertex AI, entre otros, con un precio de $30 por 1 millón de tokens de salida (aproximadamente $0.039 por imagen)
Otros métodos de entrada y salida siguen la misma política de precios que Gemini 2.5 Flash
Sitio oficial: https://deepmind.google/models/gemini/image/

Funciones principales y escenarios de uso

Mejora de “Build Mode” en Google AI Studio
- Con Gemini 2.5 Flash Image, desarrollar apps se vuelve más sencillo
- Los desarrolladores pueden crear, probar y remezclar rápidamente apps de IA personalizadas, además de implementarlas directamente desde Google AI Studio o guardar el código en GitHub
- Por ejemplo, se puede crear fácilmente una app con un prompt como “crear una app de edición de imágenes donde el usuario pueda subir una imagen y aplicar filtros”
- La función para seleccionar o remezclar plantillas prediseñadas también se ofrece sin costo
Consistencia de personajes
- Mantener la apariencia del mismo personaje durante la generación de imágenes ha sido un gran desafío
- Gemini 2.5 Flash Image puede usarse eficazmente para ubicar a la misma persona en distintos entornos, mostrar un producto desde varios ángulos o lugares y mantener la consistencia de activos de marca
- La app de plantillas de Google AI Studio facilita la demostración de consistencia de personajes y la personalización del código
- Esta función también puede aplicarse para garantizar consistencia de diseño basada en plantillas en tarjetas inmobiliarias, credenciales de empleados, mockups masivos de productos y más
Edición de imágenes basada en prompts en lenguaje natural
- Los usuarios pueden modificar partes de una imagen solo con instrucciones en lenguaje natural
- Algunos ejemplos incluyen desenfocar el fondo, borrar una mancha en una camiseta, eliminar una persona, cambiar una pose o convertir una imagen en blanco y negro a color
- Se ofrece una app de plantillas con edición basada en UI/prompts para experimentar su uso en la práctica
Uso nativo basado en conocimiento del mundo
- Mientras que los modelos anteriores eran fuertes para generar imágenes estéticas, tenían debilidades en la comprensión semántica del mundo real
- Gemini 2.5 Flash Image, con base en conocimiento del mundo, puede reconocer diagramas dibujados a mano, responder preguntas sobre el mundo real y ejecutar instrucciones de edición complejas
- Como ejemplo práctico, se ofrece una app que transforma un lienzo simple en un tutor educativo interactivo
Fusión de múltiples imágenes
- Este modelo puede entender varias imágenes y combinarlas de forma natural
- Por ejemplo, permite insertar un producto en un fondo nuevo, cambiar la tonalidad y textura de toda una habitación, y fusionar imágenes con un solo prompt
- Con una app de plantillas, es posible colocar productos con arrastrar y soltar y generar imágenes fusionadas fotorrealistas

Inicio y alianzas

Es posible comenzar de inmediato mediante la documentación para desarrolladores; por ahora está en vista previa, pero se espera su estabilización pronto
Todas las apps de demostración pueden remezclarse y personalizarse en Google AI Studio
En alianza con OpenRouter.ai, el modelo se ofrece a 3 millones de desarrolladores y es el primero entre los más de 480 modelos compatibles con OpenRouter capaz de generar imágenes
La colaboración con fal.ai amplía el soporte a una comunidad más amplia de desarrolladores

Marca de agua digital y retroalimentación

Todas las imágenes generadas o editadas con Gemini 2.5 Flash Image incluyen una marca de agua digital invisible SynthID que permite detectar que fueron creadas por IA
Se siguen mejorando continuamente funciones como la calidad del texto, la consistencia de personajes y la representación detallada de imágenes
Google recibe retroalimentación de desarrolladores de forma continua a través del foro para desarrolladores de Google o de X (antes Twitter)

Ejemplo simple de uso (código Python)

En Python, es posible usar Gemini 2.5 Flash Image con el SDK de genai y las bibliotecas PIL e io, usando el prompt y la imagen que se deseen
Ejemplo: se puede usar libremente un prompt como “mi gato comiendo nano-banana en un restaurante”
Los resultados pueden guardarse desde el código tanto como texto simple como en archivos de imagen

Dirección futura del desarrollo

Se sigue trabajando en mejoras continuas en renderizado de texto largo, consistencia de personajes más confiable y detalles más realistas
Se busca fomentar la participación activa y la retroalimentación de la comunidad
Se espera ampliar las experiencias de creación y desarrollo con Gemini 2.5 Flash Image

2 comentarios

xguru 2025-08-27

¿Qué es Google Nano Banana? La IA secreta de imágenes de Google

GN⁺ 2025-08-27

Comentarios de Hacker News

Esto se siente como el momento GPT-4 de los modelos de edición de imágenes. Ver resultados sorprendentes en Twitter
- nano banana, es decir, gemini 2.5 flash, tiene un rendimiento brutal y subió 171 puntos de elo en lmarena
- Si buscas nano banana en Twitter, puedes ver resultados sorprendentes
- Últimamente todos los dominios de "nano banana" ya están registrados y cada quien ofrece su propia UI de generación de imágenes, pero todos dan la impresión de ser intermediarios que aprovechan el nombre de un modelo popular
- Me pregunto por qué se llama nano banana
Este es el famoso modelo nano-banana, y ahora en LMArena le cambiaron el nombre a gemini-2.5-flash-image-preview
- Para quienes no saben qué es nano-banana, aquí hay un enlace: ¿Qué es Google Nano Banana? La IA secreta de imágenes de Google
- Yo también vine por esa duda, así que gracias por la respuesta
Cuando intento crear imágenes con Gemini, la mitad de las veces responde que es imposible
- Además, como las funciones que anunció Google están dispersas por todos lados, queda una sensación de confusión total sobre en qué producto se puede usar y dónde hay que pagar
Al final, los modelos de imagen parecen vampiros de tiempo
- Crear una habitación es fácil, pero hacer la misma habitación de forma consistente desde varios ángulos es prácticamente imposible
- Es difícil usarlos para trabajos donde se necesita consistencia visual
Digitalicé fotos familiares, pero muchas estaban dañadas y fue difícil restaurarlas
- Este modelo parece bueno restaurando sin cambiar los detalles, así que por fin da la impresión de que ya llegó a un punto utilizable
- En realidad, este tipo de defectos se puede reparar automáticamente con un escáner de película + ICE y software como Vuescan
  - Parece innecesario confiar cientos de fotos a una IA experimental en la nube
- Me pregunto si alguien conoce software para mejorar la calidad de video
  - Estoy digitalizando cintas Video 2000 y VHS, y me gustaría mejorar aunque sea un poco esos videos de recuerdos
- Ojalá funcione bien, pero uno de los ejemplos sí se veía con una cara demasiado AIzada
- En realidad, un modelo llamado Flux Kontext ya había llegado a este nivel hace unos meses
El rendimiento del modelo es impresionante, pero al mismo tiempo me preocupa su impacto social
- Basta con ver los comentarios de Facebook para inquietarse
- Probé SynthID de Google y estuvo bastante bien
  - La marca de agua sigue ahí incluso con compresión, recorte, cambio de tamaño, corrección de color y overpainting
- Yo también caí hace poco en una estafa deepfake durante un evento de lanzamiento de SpaceX y perdí 15k BTC
  - La tecnología es tan sofisticada que los ataques se vuelven cada vez más peligrosos
- Los comentarios de Facebook definitivamente parecen estar manejados por bots
El ejemplo de la lámpara fue bastante impresionante
- La conexión eléctrica, la iluminación y hasta las sombras se ven naturales
Me gusta que sea mucho más rápido que la generación de imágenes de ChatGPT
- ChatGPT era tan lento que casi había que recibir el resultado por notificación
- Me da risa imaginar una imagen como “Así se ven los inversionistas de OpenAI después de probar Gemini 2.5 Flash Image”
Había una tarea que quería hacer desde hace tiempo
- Era reemplazar un objeto específico de la imagen 1 con el objeto de la imagen 2, y quería incluso indicar la posición exacta
- Probé varios modelos, pero todos fallaron; este modelo casi lo logró, aunque al final reemplazó otro objeto distinto
- Me pregunto si existe algún modelo especializado en reemplazar una posición específica usando una imagen de referencia
- El modelo ACE++ de Alibaba admite esa función
  - Lo están usando en phind.design, aunque es una tarea bastante especializada y no muy común

Gemini 2.5 Flash Image: se presenta el modelo más reciente de generación y edición de imágenes

Introducción a Gemini 2.5 Flash Image

Funciones principales y escenarios de uso

Mejora de “Build Mode” en Google AI Studio

Consistencia de personajes

Edición de imágenes basada en prompts en lenguaje natural

Uso nativo basado en conocimiento del mundo

Fusión de múltiples imágenes

Inicio y alianzas

Marca de agua digital y retroalimentación

Ejemplo simple de uso (código Python)

Dirección futura del desarrollo

Lecturas relacionadas

2 comentarios

Comentarios de Hacker News