Nano Banana Pro: el modelo de generación de imágenes de Google DeepMind basado en Gemini 3 Pro

(blog.google)

11 puntos por GN⁺ 2025-11-21 | 1 comentarios | Compartir por WhatsApp

Nano Banana Pro es el más reciente modelo de generación y edición de imágenes de Google DeepMind, basado en Gemini 3 Pro, y ofrece la capacidad de materializar ideas visuales con precisión
Gracias a la mejora en el renderizado de texto y al soporte multilingüe, permite insertar directamente en las imágenes textos legibles para pósters, mockups e infografías
Con funciones como combinación de hasta 14 imágenes, consistencia de hasta 5 personas y soporte para resolución de 2K a 4K, ayuda a crear contenido visual de alta calidad
Está integrado en varios productos de Google, como Google Ads, Workspace, la app de Gemini y AI Studio, por lo que puede ser aprovechado por consumidores, profesionales y desarrolladores
Con la marca de agua SynthID garantiza la transparencia de las imágenes generadas por IA, y ofrece directamente en la app de Gemini una función de identificación de contenido de IA

Resumen de Nano Banana Pro

Nano Banana Pro es un modelo que utiliza la capacidad de razonamiento y el conocimiento del mundo de Gemini 3 Pro para visualizar información de forma detallada
- Es una versión mejorada lanzada después de la versión anterior, Nano Banana (Gemini 2.5 Flash Image)
- Da soporte a distintos trabajos de diseño, como ideación, visualización de datos y conversión de notas manuscritas en diagramas

Funciones principales

Generación de materiales visuales precisos y ricos en contexto
- A través de las capacidades avanzadas de razonamiento de Gemini 3, genera contenido basado en hechos, como infografías educativas y diagramas
- Al conectarse con información en tiempo real de Google Search, puede visualizar datos en tiempo real como clima, deportes y recetas
Renderizado de texto multilingüe
- Representa el texto dentro de las imágenes de forma precisa y fácil de leer, y permite traducir y localizar en varios idiomas
- Es adecuado para crear pósters o contenido de marca utilizando diversas fuentes, texturas y estilos tipográficos
Expresión visual de alta calidad
- Permite crear imágenes compuestas complejas con combinación de hasta 14 imágenes y consistencia de hasta 5 personas
- Ofrece controles de edición detallados, como edición local, ajuste del ángulo de cámara, corrección de color y cambio de iluminación
- Es compatible con resoluciones 2K y 4K y varias relaciones de aspecto, por lo que se adapta tanto a impresión como a plataformas digitales

Entornos de uso

Para consumidores y estudiantes
- Nano Banana Pro puede usarse desde la función “Create images” de la app de Gemini
- Los usuarios gratuitos reciben una cantidad limitada de generaciones y luego cambian al Nano Banana básico
- Los suscriptores de Google AI Plus, Pro y Ultra tienen límites de generación más altos
Para profesionales
- La función de generación de imágenes de Google Ads fue actualizada a Nano Banana Pro
- También puede usarse en Slides y Vids de Google Workspace
Para desarrolladores y empresas
- Se amplía el soporte en Gemini API, Google AI Studio, Vertex AI, Antigravity y Gemini Enterprise
Para creadores
- A través de la herramienta Flow, los creadores de video y marketers pueden tener un control detallado por escena

Identificación y transparencia de imágenes generadas por IA

Todas las imágenes generadas con Nano Banana Pro incluyen una marca de agua digital SynthID, que permite identificar su procedencia
- En la app de Gemini se puede subir una imagen para verificar directamente si fue “generada por Google AI”
- Las imágenes de usuarios gratuitos y Pro incluyen además una marca de agua visible (Gemini sparkle)
- En el caso de los suscriptores Ultra y las herramientas para desarrolladores de AI Studio, se ofrece un lienzo limpio sin marca de agua
En el futuro, SynthID se expandirá también a contenido de audio y video

Material relacionado

Build with Nano Banana Pro: introducción al modelo de imagen Gemini 3 Pro para desarrolladores
Prompting Tips for Nano Banana Pro: guía para redactar prompts efectivos
AI Image Verification in Gemini App: explicación de la función de verificación de imágenes basada en SynthID

No hay información adicional en el texto original.

1 comentarios

GN⁺ 2025-11-21

Comentarios en Hacker News

Esta semana Google se sintió como si se estuviera moviendo como Godzilla
Fue la primera vez que intenté vincular una tarjeta en AI Studio, y el proceso de pago fue demasiado complicado
Incluso después de configurar todo, seguía apareciendo el error de “permission denied”
Si tengo que pasar por tanto solo para pagar, da igual qué tan bueno sea el modelo
- Lamentamos la mala experiencia
  El equipo está trabajando duro para mejorar la accesibilidad
  Para reducir la fricción con los pagos, estamos preparando un sistema de pagos integrado en AI Studio, con lanzamiento global previsto para enero
- La API de Google, en general, tiene una barrera de entrada demasiado alta
  En otros servicios basta con una API key, pero con Google hay que crear una cuenta → crear una app → activar servicios → crear una app OAuth → descargar un JSON
- Si solo quieres usar la API, recomiendo Nano-Banana-Pro de Fal.ai
  El proceso de registro es mucho más simple y ofrece varios modelos de IA
- Yo también uso los planes de pago de Claude y OpenAI, pero con Gemini pagar es tan difícil que cuesta incluso intentarlo
  Crear un proyecto de GCP solo para hacer una prueba simple es demasiado
- Es tan incómodo usar los productos de IA de Google que hasta parece haber una oportunidad de negocio en crear un mejor frontend para desarrolladores
Volví a probar todos los prompts relacionados con edición usando Nano Banana Pro
Pasó las pruebas de SHRDLU, M&M Van Halen y Scorpio Street
Los resultados pueden verse aquí
NB Pro mostró un rendimiento claramente mejor que el NB original
- En la prueba de edición de la jirafa, el resultado de NB Pro se veía mejor que el de Seedream, pero la evaluación está al revés
  Parece que la prueba en sí no fue la adecuada
- NB Pro debió haber pasado la prueba de la jirafa
  El resultado no es perfecto, pero sí hizo lo que se pidió
- La prueba de la Torre de Pisa fue interesante
  Supera prompts que requieren conocimiento claro, pero seguir enderezando un objeto simplemente inclinado sigue siendo difícil
- Sería más fácil comparar si siempre mostraran la imagen original junto con cada prueba
  Mostrar original y resultado al mismo tiempo sería más intuitivo que usar un slider
- El sitio es realmente útil. Me pregunto si también planean hacer el benchmark de texto a imagen con NB Pro
Durante varios meses hice un análisis de prompt engineering de Nano Banana, y ahora Google lanzó una nueva versión
El nuevo modelo funciona de inmediato en el paquete gemimg
Pero el precio es alto, así que es difícil ponerlo como modelo predeterminado
Según la documentación, el modelo genera hasta dos imágenes intermedias (etapa de Thinking)
Esa podría ser la razón del aumento en el costo
- El ejemplo del prompt “fresa en el ojo izquierdo, mora en el ojo derecho” fue interesante
  El modelo interpretó izquierda y derecha desde la perspectiva del observador y las colocó mal
  Este tipo de errores de instrucciones relativas también es común en entornos médicos
  Enlace al ejemplo relacionado
- La guía de Nano Banana de Max sigue vigente
  La mayoría de los prompts también funcionan bien en NB Pro
  Enlace a la guía
  También comparto los resultados de mis pruebas
- El costo por imagen de entrada es de $0.0011, no de $0.06
- Se lanzó gemimg 0.3.2, y se corrigieron la mayoría de los errores de imagen en NB Pro
  La “transformación al estilo Studio Ghibli” es mucho más precisa que en ChatGPT
  Aun así, a veces las imágenes demasiado realistas caen en el uncanny valley
- El wrapper de gemimg sigue siendo útil
  Me volvió a recordar la importancia de un diseño de herramientas adaptable que pueda responder a los cambios tecnológicos
Sorprende la capacidad de generar una infografía completa con un prompt corto
Pedí “cómo funciona el proyecto Datasette” y obtuve un resultado muy bien logrado
Enlace al resultado
- Esta función podría transformar radicalmente la generación de volantes para eventos en SaaS
  Hasta ahora el texto se renderizaba por separado, pero ahora parece posible hacerlo de una sola vez
- Falló al intentar encontrar el Do central en un teclado de piano
  Ver la imagen resultante
- Incluso con un proyecto sobre el que casi no hay información, player.html, generó bien una infografía
  Enlace de GitHub
  También la convirtió automáticamente a formato cuadrado para Instagram
- Me pregunto si la infografía de Datasette coincide con cómo funciona realmente
Las imágenes de IA ya no producen artefactos obvios, pero todavía se nota que son IA por el estilo
Sobre todo las infografías seguían siendo distinguibles de las hechas por humanos
Parece ser el resultado de una sobrerrepresentación de ciertos datasets
- Los humanos son muy sensibles a pequeñas diferencias visuales
  Los modelos entrenados sobre promedios terminan creando un “espacio de imagen promedio”
  Este ejemplo relacionado muestra que con ajuste fino también se pueden lograr resultados realistas
- No es solo un problema de datos
  Algunos modelos eliminan el estilo intencionalmente y eso les da una sensación artificial
  En modelos abiertos se puede ajustar fino con LoRA, pero en modelos cerrados eso es difícil, y ese es el problema
- La mayoría de los modelos entrenan con datos de toda la web, así que producen resultados promedio predecibles
  Si quieres imágenes originales, el prompt en sí tiene que ser más creativo
- Todavía quedan errores sutiles en textura, proporciones, iluminación, etc.
  Por eso la edición de imágenes se considera el siguiente reto
- Los modelos ajustados con feedback humano aprenden el “gusto promedio” y pierden personalidad
  Los modelos iniciales tenían menor calidad, pero daban resultados más interesantes
SynthID es un buen primer paso, pero tiene la limitación de que no puede distinguir contenido de IA sin marca de agua
Las grandes empresas deberían introducir identificadores estandarizados
- Creo que sería riesgoso que el gobierno hiciera obligatorias las marcas de agua
  Si hubiera existido una regulación así para Photoshop, la creatividad se habría visto muy limitada
- Algún día Apple probablemente lanzará algo como Real Photos
  Algo que pruebe que la foto fue tomada con una cámara real y muestre una insignia de verificación en iMessage
- La razón por la que las empresas aplican marcas de agua es por la gestión del reentrenamiento de datos
  Al final, los principales modelos comerciales probablemente terminarán forzando marcas de agua por defecto
- Si surge un identificador estándar, también aparecerá software para quitarlo
  Será un interminable juego del gato y el ratón
- Existe el proyecto C2PA que intenta resolver este problema
Los animadores 2D todavía pueden estar tranquilos
Probé generar una sprite sheet, y solo repetía cuadros en vez de crear una interpolación natural entre movimientos
Recopilación de materiales oficiales
Developer Blog
Página de DeepMind
Model Card PDF
Introducción a SynthID
Este modelo es el primer generador de imágenes que logra pasar mi prueba del piano
Repite correctamente el patrón de teclas negras en cada octava
Los modelos anteriores siempre representaban mal la disposición de las teclas
- Pero si se sale del estándar de 88 teclas, todavía comete muchos errores
  Incluso cuando se le pide colorear notas específicas, lo hace al azar
  El piano es un objeto estandarizado y debería haber muchos datos de entrenamiento, pero aun así le falta comprensión
- Mantener un patrón repetitivo durante mucho tiempo es difícil
  Es impresionante que haya mantenido la coherencia a lo largo de las 88 teclas
Ahora el modelo puede renderizar texto de forma natural dentro de una imagen
Una función que antes era imposible ahora ya se siente como algo básico
- Yo también estoy de acuerdo. Pero en áreas donde se cruzan lo visual y el código, como la generación de íconos, sigue siendo débil
  El diseño fino de curvas, espaciado y equilibrio todavía lo hace mejor una persona directamente

Nano Banana Pro: el modelo de generación de imágenes de Google DeepMind basado en Gemini 3 Pro

Resumen de Nano Banana Pro

Funciones principales

Entornos de uso

Identificación y transparencia de imágenes generadas por IA

Material relacionado

Lecturas relacionadas

1 comentarios

Comentarios en Hacker News