10 puntos por GN⁺ 2025-08-27 | 2 comentarios | Compartir por WhatsApp
  • Google presentó Gemini 2.5 Flash Image, conocido como Nano-Banana, con capacidades de generación y edición de imágenes notablemente mejoradas
  • Ofrece consistencia de personajes, edición parcial basada en lenguaje natural, uso de conocimiento del mundo y combinación de múltiples imágenes, entre otras funciones
  • Los desarrolladores pueden usar el modelo de inmediato a través de Gemini API, Google AI Studio, Vertex AI, OpenRouter y fal.ai
  • El precio es de 30 dólares por 1 millón de tokens de salida, aproximadamente 0.039 dólares por imagen
  • Todos los resultados incluyen una marca de agua digital SynthID invisible

Introducción a Gemini 2.5 Flash Image

  • Google anunció Gemini 2.5 Flash Image (nombre en clave nano-banana), un modelo de nueva generación para creación y edición de imágenes
  • Con esta actualización ahora es posible combinar varias imágenes en una sola, mantener la consistencia de una persona u objeto específico, aplicar transformaciones detalladas usando lenguaje natural y generar o editar imágenes con base en el conocimiento del mundo de Gemini
  • Aunque la versión inicial, Gemini 2.0 Flash, ya destacaba por su baja latencia, eficiencia de costos y facilidad de uso, esta vez se añadieron imágenes de mayor calidad y controles creativos mejorados a partir de los comentarios de los usuarios
  • Actualmente está disponible en Gemini API, Google AI Studio y Vertex AI, entre otros, con un precio de $30 por 1 millón de tokens de salida (aproximadamente $0.039 por imagen)
  • Otros métodos de entrada y salida siguen la misma política de precios que Gemini 2.5 Flash
  • Sitio oficial: https://deepmind.google/models/gemini/image/

Funciones principales y escenarios de uso

  • Mejora de “Build Mode” en Google AI Studio

    • Con Gemini 2.5 Flash Image, desarrollar apps se vuelve más sencillo
    • Los desarrolladores pueden crear, probar y remezclar rápidamente apps de IA personalizadas, además de implementarlas directamente desde Google AI Studio o guardar el código en GitHub
    • Por ejemplo, se puede crear fácilmente una app con un prompt como “crear una app de edición de imágenes donde el usuario pueda subir una imagen y aplicar filtros”
    • La función para seleccionar o remezclar plantillas prediseñadas también se ofrece sin costo
  • Consistencia de personajes

    • Mantener la apariencia del mismo personaje durante la generación de imágenes ha sido un gran desafío
    • Gemini 2.5 Flash Image puede usarse eficazmente para ubicar a la misma persona en distintos entornos, mostrar un producto desde varios ángulos o lugares y mantener la consistencia de activos de marca
    • La app de plantillas de Google AI Studio facilita la demostración de consistencia de personajes y la personalización del código
    • Esta función también puede aplicarse para garantizar consistencia de diseño basada en plantillas en tarjetas inmobiliarias, credenciales de empleados, mockups masivos de productos y más
  • Edición de imágenes basada en prompts en lenguaje natural

    • Los usuarios pueden modificar partes de una imagen solo con instrucciones en lenguaje natural
    • Algunos ejemplos incluyen desenfocar el fondo, borrar una mancha en una camiseta, eliminar una persona, cambiar una pose o convertir una imagen en blanco y negro a color
    • Se ofrece una app de plantillas con edición basada en UI/prompts para experimentar su uso en la práctica
  • Uso nativo basado en conocimiento del mundo

    • Mientras que los modelos anteriores eran fuertes para generar imágenes estéticas, tenían debilidades en la comprensión semántica del mundo real
    • Gemini 2.5 Flash Image, con base en conocimiento del mundo, puede reconocer diagramas dibujados a mano, responder preguntas sobre el mundo real y ejecutar instrucciones de edición complejas
    • Como ejemplo práctico, se ofrece una app que transforma un lienzo simple en un tutor educativo interactivo
  • Fusión de múltiples imágenes

    • Este modelo puede entender varias imágenes y combinarlas de forma natural
    • Por ejemplo, permite insertar un producto en un fondo nuevo, cambiar la tonalidad y textura de toda una habitación, y fusionar imágenes con un solo prompt
    • Con una app de plantillas, es posible colocar productos con arrastrar y soltar y generar imágenes fusionadas fotorrealistas

Inicio y alianzas

  • Es posible comenzar de inmediato mediante la documentación para desarrolladores; por ahora está en vista previa, pero se espera su estabilización pronto
  • Todas las apps de demostración pueden remezclarse y personalizarse en Google AI Studio
  • En alianza con OpenRouter.ai, el modelo se ofrece a 3 millones de desarrolladores y es el primero entre los más de 480 modelos compatibles con OpenRouter capaz de generar imágenes
  • La colaboración con fal.ai amplía el soporte a una comunidad más amplia de desarrolladores

Marca de agua digital y retroalimentación

  • Todas las imágenes generadas o editadas con Gemini 2.5 Flash Image incluyen una marca de agua digital invisible SynthID que permite detectar que fueron creadas por IA
  • Se siguen mejorando continuamente funciones como la calidad del texto, la consistencia de personajes y la representación detallada de imágenes
  • Google recibe retroalimentación de desarrolladores de forma continua a través del foro para desarrolladores de Google o de X (antes Twitter)

Ejemplo simple de uso (código Python)

  • En Python, es posible usar Gemini 2.5 Flash Image con el SDK de genai y las bibliotecas PIL e io, usando el prompt y la imagen que se deseen
  • Ejemplo: se puede usar libremente un prompt como “mi gato comiendo nano-banana en un restaurante”
  • Los resultados pueden guardarse desde el código tanto como texto simple como en archivos de imagen

Dirección futura del desarrollo

  • Se sigue trabajando en mejoras continuas en renderizado de texto largo, consistencia de personajes más confiable y detalles más realistas
  • Se busca fomentar la participación activa y la retroalimentación de la comunidad
  • Se espera ampliar las experiencias de creación y desarrollo con Gemini 2.5 Flash Image

2 comentarios

 
GN⁺ 2025-08-27
Comentarios de Hacker News
  • Esto se siente como el momento GPT-4 de los modelos de edición de imágenes. Ver resultados sorprendentes en Twitter
    • nano banana, es decir, gemini 2.5 flash, tiene un rendimiento brutal y subió 171 puntos de elo en lmarena
    • Si buscas nano banana en Twitter, puedes ver resultados sorprendentes
    • Últimamente todos los dominios de "nano banana" ya están registrados y cada quien ofrece su propia UI de generación de imágenes, pero todos dan la impresión de ser intermediarios que aprovechan el nombre de un modelo popular
    • Me pregunto por qué se llama nano banana
  • Este es el famoso modelo nano-banana, y ahora en LMArena le cambiaron el nombre a gemini-2.5-flash-image-preview
  • Cuando intento crear imágenes con Gemini, la mitad de las veces responde que es imposible
    • Además, como las funciones que anunció Google están dispersas por todos lados, queda una sensación de confusión total sobre en qué producto se puede usar y dónde hay que pagar
  • Al final, los modelos de imagen parecen vampiros de tiempo
    • Crear una habitación es fácil, pero hacer la misma habitación de forma consistente desde varios ángulos es prácticamente imposible
    • Es difícil usarlos para trabajos donde se necesita consistencia visual
  • Digitalicé fotos familiares, pero muchas estaban dañadas y fue difícil restaurarlas
    • Este modelo parece bueno restaurando sin cambiar los detalles, así que por fin da la impresión de que ya llegó a un punto utilizable
    • En realidad, este tipo de defectos se puede reparar automáticamente con un escáner de película + ICE y software como Vuescan
      • Parece innecesario confiar cientos de fotos a una IA experimental en la nube
    • Me pregunto si alguien conoce software para mejorar la calidad de video
      • Estoy digitalizando cintas Video 2000 y VHS, y me gustaría mejorar aunque sea un poco esos videos de recuerdos
    • Ojalá funcione bien, pero uno de los ejemplos sí se veía con una cara demasiado AIzada
    • En realidad, un modelo llamado Flux Kontext ya había llegado a este nivel hace unos meses
  • El rendimiento del modelo es impresionante, pero al mismo tiempo me preocupa su impacto social
    • Basta con ver los comentarios de Facebook para inquietarse
    • Probé SynthID de Google y estuvo bastante bien
      • La marca de agua sigue ahí incluso con compresión, recorte, cambio de tamaño, corrección de color y overpainting
    • Yo también caí hace poco en una estafa deepfake durante un evento de lanzamiento de SpaceX y perdí 15k BTC
      • La tecnología es tan sofisticada que los ataques se vuelven cada vez más peligrosos
    • Los comentarios de Facebook definitivamente parecen estar manejados por bots
  • El ejemplo de la lámpara fue bastante impresionante
    • La conexión eléctrica, la iluminación y hasta las sombras se ven naturales
  • Me gusta que sea mucho más rápido que la generación de imágenes de ChatGPT
    • ChatGPT era tan lento que casi había que recibir el resultado por notificación
    • Me da risa imaginar una imagen como “Así se ven los inversionistas de OpenAI después de probar Gemini 2.5 Flash Image”
  • Había una tarea que quería hacer desde hace tiempo
    • Era reemplazar un objeto específico de la imagen 1 con el objeto de la imagen 2, y quería incluso indicar la posición exacta
    • Probé varios modelos, pero todos fallaron; este modelo casi lo logró, aunque al final reemplazó otro objeto distinto
    • Me pregunto si existe algún modelo especializado en reemplazar una posición específica usando una imagen de referencia
    • El modelo ACE++ de Alibaba admite esa función
      • Lo están usando en phind.design, aunque es una tarea bastante especializada y no muy común