- Google presentó Gemini 2.5 Flash Image, conocido como Nano-Banana, con capacidades de generación y edición de imágenes notablemente mejoradas
- Ofrece consistencia de personajes, edición parcial basada en lenguaje natural, uso de conocimiento del mundo y combinación de múltiples imágenes, entre otras funciones
- Los desarrolladores pueden usar el modelo de inmediato a través de Gemini API, Google AI Studio, Vertex AI, OpenRouter y fal.ai
- El precio es de 30 dólares por 1 millón de tokens de salida, aproximadamente 0.039 dólares por imagen
- Todos los resultados incluyen una marca de agua digital SynthID invisible
Introducción a Gemini 2.5 Flash Image
- Google anunció Gemini 2.5 Flash Image (nombre en clave nano-banana), un modelo de nueva generación para creación y edición de imágenes
- Con esta actualización ahora es posible combinar varias imágenes en una sola, mantener la consistencia de una persona u objeto específico, aplicar transformaciones detalladas usando lenguaje natural y generar o editar imágenes con base en el conocimiento del mundo de Gemini
- Aunque la versión inicial, Gemini 2.0 Flash, ya destacaba por su baja latencia, eficiencia de costos y facilidad de uso, esta vez se añadieron imágenes de mayor calidad y controles creativos mejorados a partir de los comentarios de los usuarios
- Actualmente está disponible en Gemini API, Google AI Studio y Vertex AI, entre otros, con un precio de $30 por 1 millón de tokens de salida (aproximadamente $0.039 por imagen)
- Otros métodos de entrada y salida siguen la misma política de precios que Gemini 2.5 Flash
- Sitio oficial: https://deepmind.google/models/gemini/image/
Funciones principales y escenarios de uso
-
Mejora de “Build Mode” en Google AI Studio
- Con Gemini 2.5 Flash Image, desarrollar apps se vuelve más sencillo
- Los desarrolladores pueden crear, probar y remezclar rápidamente apps de IA personalizadas, además de implementarlas directamente desde Google AI Studio o guardar el código en GitHub
- Por ejemplo, se puede crear fácilmente una app con un prompt como “crear una app de edición de imágenes donde el usuario pueda subir una imagen y aplicar filtros”
- La función para seleccionar o remezclar plantillas prediseñadas también se ofrece sin costo
-
Consistencia de personajes
- Mantener la apariencia del mismo personaje durante la generación de imágenes ha sido un gran desafío
- Gemini 2.5 Flash Image puede usarse eficazmente para ubicar a la misma persona en distintos entornos, mostrar un producto desde varios ángulos o lugares y mantener la consistencia de activos de marca
- La app de plantillas de Google AI Studio facilita la demostración de consistencia de personajes y la personalización del código
- Esta función también puede aplicarse para garantizar consistencia de diseño basada en plantillas en tarjetas inmobiliarias, credenciales de empleados, mockups masivos de productos y más
-
Edición de imágenes basada en prompts en lenguaje natural
- Los usuarios pueden modificar partes de una imagen solo con instrucciones en lenguaje natural
- Algunos ejemplos incluyen desenfocar el fondo, borrar una mancha en una camiseta, eliminar una persona, cambiar una pose o convertir una imagen en blanco y negro a color
- Se ofrece una app de plantillas con edición basada en UI/prompts para experimentar su uso en la práctica
-
Uso nativo basado en conocimiento del mundo
- Mientras que los modelos anteriores eran fuertes para generar imágenes estéticas, tenían debilidades en la comprensión semántica del mundo real
- Gemini 2.5 Flash Image, con base en conocimiento del mundo, puede reconocer diagramas dibujados a mano, responder preguntas sobre el mundo real y ejecutar instrucciones de edición complejas
- Como ejemplo práctico, se ofrece una app que transforma un lienzo simple en un tutor educativo interactivo
-
Fusión de múltiples imágenes
- Este modelo puede entender varias imágenes y combinarlas de forma natural
- Por ejemplo, permite insertar un producto en un fondo nuevo, cambiar la tonalidad y textura de toda una habitación, y fusionar imágenes con un solo prompt
- Con una app de plantillas, es posible colocar productos con arrastrar y soltar y generar imágenes fusionadas fotorrealistas
Inicio y alianzas
- Es posible comenzar de inmediato mediante la documentación para desarrolladores; por ahora está en vista previa, pero se espera su estabilización pronto
- Todas las apps de demostración pueden remezclarse y personalizarse en Google AI Studio
- En alianza con OpenRouter.ai, el modelo se ofrece a 3 millones de desarrolladores y es el primero entre los más de 480 modelos compatibles con OpenRouter capaz de generar imágenes
- La colaboración con fal.ai amplía el soporte a una comunidad más amplia de desarrolladores
Marca de agua digital y retroalimentación
- Todas las imágenes generadas o editadas con Gemini 2.5 Flash Image incluyen una marca de agua digital invisible SynthID que permite detectar que fueron creadas por IA
- Se siguen mejorando continuamente funciones como la calidad del texto, la consistencia de personajes y la representación detallada de imágenes
- Google recibe retroalimentación de desarrolladores de forma continua a través del foro para desarrolladores de Google o de X (antes Twitter)
Ejemplo simple de uso (código Python)
- En Python, es posible usar Gemini 2.5 Flash Image con el SDK de genai y las bibliotecas PIL e io, usando el prompt y la imagen que se deseen
- Ejemplo: se puede usar libremente un prompt como “mi gato comiendo nano-banana en un restaurante”
- Los resultados pueden guardarse desde el código tanto como texto simple como en archivos de imagen
Dirección futura del desarrollo
- Se sigue trabajando en mejoras continuas en renderizado de texto largo, consistencia de personajes más confiable y detalles más realistas
- Se busca fomentar la participación activa y la retroalimentación de la comunidad
- Se espera ampliar las experiencias de creación y desarrollo con Gemini 2.5 Flash Image
2 comentarios
¿Qué es Google Nano Banana? La IA secreta de imágenes de Google
Comentarios de Hacker News