Nano Banana Pro: el modelo de generación de imágenes de Google DeepMind basado en Gemini 3 Pro
(blog.google)- Nano Banana Pro es el más reciente modelo de generación y edición de imágenes de Google DeepMind, basado en Gemini 3 Pro, y ofrece la capacidad de materializar ideas visuales con precisión
- Gracias a la mejora en el renderizado de texto y al soporte multilingüe, permite insertar directamente en las imágenes textos legibles para pósters, mockups e infografías
- Con funciones como combinación de hasta 14 imágenes, consistencia de hasta 5 personas y soporte para resolución de 2K a 4K, ayuda a crear contenido visual de alta calidad
- Está integrado en varios productos de Google, como Google Ads, Workspace, la app de Gemini y AI Studio, por lo que puede ser aprovechado por consumidores, profesionales y desarrolladores
- Con la marca de agua SynthID garantiza la transparencia de las imágenes generadas por IA, y ofrece directamente en la app de Gemini una función de identificación de contenido de IA
Resumen de Nano Banana Pro
- Nano Banana Pro es un modelo que utiliza la capacidad de razonamiento y el conocimiento del mundo de Gemini 3 Pro para visualizar información de forma detallada
- Es una versión mejorada lanzada después de la versión anterior, Nano Banana (Gemini 2.5 Flash Image)
- Da soporte a distintos trabajos de diseño, como ideación, visualización de datos y conversión de notas manuscritas en diagramas
Funciones principales
- Generación de materiales visuales precisos y ricos en contexto
- A través de las capacidades avanzadas de razonamiento de Gemini 3, genera contenido basado en hechos, como infografías educativas y diagramas
- Al conectarse con información en tiempo real de Google Search, puede visualizar datos en tiempo real como clima, deportes y recetas
- Renderizado de texto multilingüe
- Representa el texto dentro de las imágenes de forma precisa y fácil de leer, y permite traducir y localizar en varios idiomas
- Es adecuado para crear pósters o contenido de marca utilizando diversas fuentes, texturas y estilos tipográficos
- Expresión visual de alta calidad
- Permite crear imágenes compuestas complejas con combinación de hasta 14 imágenes y consistencia de hasta 5 personas
- Ofrece controles de edición detallados, como edición local, ajuste del ángulo de cámara, corrección de color y cambio de iluminación
- Es compatible con resoluciones 2K y 4K y varias relaciones de aspecto, por lo que se adapta tanto a impresión como a plataformas digitales
Entornos de uso
- Para consumidores y estudiantes
- Nano Banana Pro puede usarse desde la función “Create images” de la app de Gemini
- Los usuarios gratuitos reciben una cantidad limitada de generaciones y luego cambian al Nano Banana básico
- Los suscriptores de Google AI Plus, Pro y Ultra tienen límites de generación más altos
- Para profesionales
- La función de generación de imágenes de Google Ads fue actualizada a Nano Banana Pro
- También puede usarse en Slides y Vids de Google Workspace
- Para desarrolladores y empresas
- Se amplía el soporte en Gemini API, Google AI Studio, Vertex AI, Antigravity y Gemini Enterprise
- Para creadores
- A través de la herramienta Flow, los creadores de video y marketers pueden tener un control detallado por escena
Identificación y transparencia de imágenes generadas por IA
- Todas las imágenes generadas con Nano Banana Pro incluyen una marca de agua digital SynthID, que permite identificar su procedencia
- En la app de Gemini se puede subir una imagen para verificar directamente si fue “generada por Google AI”
- Las imágenes de usuarios gratuitos y Pro incluyen además una marca de agua visible (Gemini sparkle)
- En el caso de los suscriptores Ultra y las herramientas para desarrolladores de AI Studio, se ofrece un lienzo limpio sin marca de agua
- En el futuro, SynthID se expandirá también a contenido de audio y video
Material relacionado
- Build with Nano Banana Pro: introducción al modelo de imagen Gemini 3 Pro para desarrolladores
- Prompting Tips for Nano Banana Pro: guía para redactar prompts efectivos
- AI Image Verification in Gemini App: explicación de la función de verificación de imágenes basada en SynthID
No hay información adicional en el texto original.
1 comentarios
Comentarios en Hacker News
Esta semana Google se sintió como si se estuviera moviendo como Godzilla
Fue la primera vez que intenté vincular una tarjeta en AI Studio, y el proceso de pago fue demasiado complicado
Incluso después de configurar todo, seguía apareciendo el error de “permission denied”
Si tengo que pasar por tanto solo para pagar, da igual qué tan bueno sea el modelo
El equipo está trabajando duro para mejorar la accesibilidad
Para reducir la fricción con los pagos, estamos preparando un sistema de pagos integrado en AI Studio, con lanzamiento global previsto para enero
En otros servicios basta con una API key, pero con Google hay que crear una cuenta → crear una app → activar servicios → crear una app OAuth → descargar un JSON
El proceso de registro es mucho más simple y ofrece varios modelos de IA
Crear un proyecto de GCP solo para hacer una prueba simple es demasiado
Volví a probar todos los prompts relacionados con edición usando Nano Banana Pro
Pasó las pruebas de SHRDLU, M&M Van Halen y Scorpio Street
Los resultados pueden verse aquí
NB Pro mostró un rendimiento claramente mejor que el NB original
Parece que la prueba en sí no fue la adecuada
El resultado no es perfecto, pero sí hizo lo que se pidió
Supera prompts que requieren conocimiento claro, pero seguir enderezando un objeto simplemente inclinado sigue siendo difícil
Mostrar original y resultado al mismo tiempo sería más intuitivo que usar un slider
Durante varios meses hice un análisis de prompt engineering de Nano Banana, y ahora Google lanzó una nueva versión
El nuevo modelo funciona de inmediato en el paquete gemimg
Pero el precio es alto, así que es difícil ponerlo como modelo predeterminado
Según la documentación, el modelo genera hasta dos imágenes intermedias (etapa de Thinking)
Esa podría ser la razón del aumento en el costo
El modelo interpretó izquierda y derecha desde la perspectiva del observador y las colocó mal
Este tipo de errores de instrucciones relativas también es común en entornos médicos
Enlace al ejemplo relacionado
La mayoría de los prompts también funcionan bien en NB Pro
Enlace a la guía
También comparto los resultados de mis pruebas
La “transformación al estilo Studio Ghibli” es mucho más precisa que en ChatGPT
Aun así, a veces las imágenes demasiado realistas caen en el uncanny valley
Me volvió a recordar la importancia de un diseño de herramientas adaptable que pueda responder a los cambios tecnológicos
Sorprende la capacidad de generar una infografía completa con un prompt corto
Pedí “cómo funciona el proyecto Datasette” y obtuve un resultado muy bien logrado
Enlace al resultado
Hasta ahora el texto se renderizaba por separado, pero ahora parece posible hacerlo de una sola vez
Ver la imagen resultante
Enlace de GitHub
También la convirtió automáticamente a formato cuadrado para Instagram
Las imágenes de IA ya no producen artefactos obvios, pero todavía se nota que son IA por el estilo
Sobre todo las infografías seguían siendo distinguibles de las hechas por humanos
Parece ser el resultado de una sobrerrepresentación de ciertos datasets
Los modelos entrenados sobre promedios terminan creando un “espacio de imagen promedio”
Este ejemplo relacionado muestra que con ajuste fino también se pueden lograr resultados realistas
Algunos modelos eliminan el estilo intencionalmente y eso les da una sensación artificial
En modelos abiertos se puede ajustar fino con LoRA, pero en modelos cerrados eso es difícil, y ese es el problema
Si quieres imágenes originales, el prompt en sí tiene que ser más creativo
Por eso la edición de imágenes se considera el siguiente reto
Los modelos iniciales tenían menor calidad, pero daban resultados más interesantes
SynthID es un buen primer paso, pero tiene la limitación de que no puede distinguir contenido de IA sin marca de agua
Las grandes empresas deberían introducir identificadores estandarizados
Si hubiera existido una regulación así para Photoshop, la creatividad se habría visto muy limitada
Algo que pruebe que la foto fue tomada con una cámara real y muestre una insignia de verificación en iMessage
Al final, los principales modelos comerciales probablemente terminarán forzando marcas de agua por defecto
Será un interminable juego del gato y el ratón
Los animadores 2D todavía pueden estar tranquilos
Probé generar una sprite sheet, y solo repetía cuadros en vez de crear una interpolación natural entre movimientos
Recopilación de materiales oficiales
Developer Blog
Página de DeepMind
Model Card PDF
Introducción a SynthID
Este modelo es el primer generador de imágenes que logra pasar mi prueba del piano
Repite correctamente el patrón de teclas negras en cada octava
Los modelos anteriores siempre representaban mal la disposición de las teclas
Incluso cuando se le pide colorear notas específicas, lo hace al azar
El piano es un objeto estandarizado y debería haber muchos datos de entrenamiento, pero aun así le falta comprensión
Es impresionante que haya mantenido la coherencia a lo largo de las 88 teclas
Ahora el modelo puede renderizar texto de forma natural dentro de una imagen
Una función que antes era imposible ahora ya se siente como algo básico
El diseño fino de curvas, espaciado y equilibrio todavía lo hace mejor una persona directamente