11 puntos por GN⁺ 2025-11-21 | 1 comentarios | Compartir por WhatsApp
  • Nano Banana Pro es el más reciente modelo de generación y edición de imágenes de Google DeepMind, basado en Gemini 3 Pro, y ofrece la capacidad de materializar ideas visuales con precisión
  • Gracias a la mejora en el renderizado de texto y al soporte multilingüe, permite insertar directamente en las imágenes textos legibles para pósters, mockups e infografías
  • Con funciones como combinación de hasta 14 imágenes, consistencia de hasta 5 personas y soporte para resolución de 2K a 4K, ayuda a crear contenido visual de alta calidad
  • Está integrado en varios productos de Google, como Google Ads, Workspace, la app de Gemini y AI Studio, por lo que puede ser aprovechado por consumidores, profesionales y desarrolladores
  • Con la marca de agua SynthID garantiza la transparencia de las imágenes generadas por IA, y ofrece directamente en la app de Gemini una función de identificación de contenido de IA

Resumen de Nano Banana Pro

  • Nano Banana Pro es un modelo que utiliza la capacidad de razonamiento y el conocimiento del mundo de Gemini 3 Pro para visualizar información de forma detallada
    • Es una versión mejorada lanzada después de la versión anterior, Nano Banana (Gemini 2.5 Flash Image)
    • Da soporte a distintos trabajos de diseño, como ideación, visualización de datos y conversión de notas manuscritas en diagramas

Funciones principales

  • Generación de materiales visuales precisos y ricos en contexto
    • A través de las capacidades avanzadas de razonamiento de Gemini 3, genera contenido basado en hechos, como infografías educativas y diagramas
    • Al conectarse con información en tiempo real de Google Search, puede visualizar datos en tiempo real como clima, deportes y recetas
  • Renderizado de texto multilingüe
    • Representa el texto dentro de las imágenes de forma precisa y fácil de leer, y permite traducir y localizar en varios idiomas
    • Es adecuado para crear pósters o contenido de marca utilizando diversas fuentes, texturas y estilos tipográficos
  • Expresión visual de alta calidad
    • Permite crear imágenes compuestas complejas con combinación de hasta 14 imágenes y consistencia de hasta 5 personas
    • Ofrece controles de edición detallados, como edición local, ajuste del ángulo de cámara, corrección de color y cambio de iluminación
    • Es compatible con resoluciones 2K y 4K y varias relaciones de aspecto, por lo que se adapta tanto a impresión como a plataformas digitales

Entornos de uso

  • Para consumidores y estudiantes
    • Nano Banana Pro puede usarse desde la función “Create images” de la app de Gemini
    • Los usuarios gratuitos reciben una cantidad limitada de generaciones y luego cambian al Nano Banana básico
    • Los suscriptores de Google AI Plus, Pro y Ultra tienen límites de generación más altos
  • Para profesionales
    • La función de generación de imágenes de Google Ads fue actualizada a Nano Banana Pro
    • También puede usarse en Slides y Vids de Google Workspace
  • Para desarrolladores y empresas
    • Se amplía el soporte en Gemini API, Google AI Studio, Vertex AI, Antigravity y Gemini Enterprise
  • Para creadores
    • A través de la herramienta Flow, los creadores de video y marketers pueden tener un control detallado por escena

Identificación y transparencia de imágenes generadas por IA

  • Todas las imágenes generadas con Nano Banana Pro incluyen una marca de agua digital SynthID, que permite identificar su procedencia
    • En la app de Gemini se puede subir una imagen para verificar directamente si fue “generada por Google AI”
    • Las imágenes de usuarios gratuitos y Pro incluyen además una marca de agua visible (Gemini sparkle)
    • En el caso de los suscriptores Ultra y las herramientas para desarrolladores de AI Studio, se ofrece un lienzo limpio sin marca de agua
  • En el futuro, SynthID se expandirá también a contenido de audio y video

Material relacionado

  • Build with Nano Banana Pro: introducción al modelo de imagen Gemini 3 Pro para desarrolladores
  • Prompting Tips for Nano Banana Pro: guía para redactar prompts efectivos
  • AI Image Verification in Gemini App: explicación de la función de verificación de imágenes basada en SynthID

No hay información adicional en el texto original.

1 comentarios

 
GN⁺ 2025-11-21
Comentarios en Hacker News
  • Esta semana Google se sintió como si se estuviera moviendo como Godzilla
    Fue la primera vez que intenté vincular una tarjeta en AI Studio, y el proceso de pago fue demasiado complicado
    Incluso después de configurar todo, seguía apareciendo el error de “permission denied”
    Si tengo que pasar por tanto solo para pagar, da igual qué tan bueno sea el modelo

    • Lamentamos la mala experiencia
      El equipo está trabajando duro para mejorar la accesibilidad
      Para reducir la fricción con los pagos, estamos preparando un sistema de pagos integrado en AI Studio, con lanzamiento global previsto para enero
    • La API de Google, en general, tiene una barrera de entrada demasiado alta
      En otros servicios basta con una API key, pero con Google hay que crear una cuenta → crear una app → activar servicios → crear una app OAuth → descargar un JSON
    • Si solo quieres usar la API, recomiendo Nano-Banana-Pro de Fal.ai
      El proceso de registro es mucho más simple y ofrece varios modelos de IA
    • Yo también uso los planes de pago de Claude y OpenAI, pero con Gemini pagar es tan difícil que cuesta incluso intentarlo
      Crear un proyecto de GCP solo para hacer una prueba simple es demasiado
    • Es tan incómodo usar los productos de IA de Google que hasta parece haber una oportunidad de negocio en crear un mejor frontend para desarrolladores
  • Volví a probar todos los prompts relacionados con edición usando Nano Banana Pro
    Pasó las pruebas de SHRDLU, M&M Van Halen y Scorpio Street
    Los resultados pueden verse aquí
    NB Pro mostró un rendimiento claramente mejor que el NB original

    • En la prueba de edición de la jirafa, el resultado de NB Pro se veía mejor que el de Seedream, pero la evaluación está al revés
      Parece que la prueba en sí no fue la adecuada
    • NB Pro debió haber pasado la prueba de la jirafa
      El resultado no es perfecto, pero sí hizo lo que se pidió
    • La prueba de la Torre de Pisa fue interesante
      Supera prompts que requieren conocimiento claro, pero seguir enderezando un objeto simplemente inclinado sigue siendo difícil
    • Sería más fácil comparar si siempre mostraran la imagen original junto con cada prueba
      Mostrar original y resultado al mismo tiempo sería más intuitivo que usar un slider
    • El sitio es realmente útil. Me pregunto si también planean hacer el benchmark de texto a imagen con NB Pro
  • Durante varios meses hice un análisis de prompt engineering de Nano Banana, y ahora Google lanzó una nueva versión
    El nuevo modelo funciona de inmediato en el paquete gemimg
    Pero el precio es alto, así que es difícil ponerlo como modelo predeterminado
    Según la documentación, el modelo genera hasta dos imágenes intermedias (etapa de Thinking)
    Esa podría ser la razón del aumento en el costo

    • El ejemplo del prompt “fresa en el ojo izquierdo, mora en el ojo derecho” fue interesante
      El modelo interpretó izquierda y derecha desde la perspectiva del observador y las colocó mal
      Este tipo de errores de instrucciones relativas también es común en entornos médicos
      Enlace al ejemplo relacionado
    • La guía de Nano Banana de Max sigue vigente
      La mayoría de los prompts también funcionan bien en NB Pro
      Enlace a la guía
      También comparto los resultados de mis pruebas
    • El costo por imagen de entrada es de $0.0011, no de $0.06
    • Se lanzó gemimg 0.3.2, y se corrigieron la mayoría de los errores de imagen en NB Pro
      La “transformación al estilo Studio Ghibli” es mucho más precisa que en ChatGPT
      Aun así, a veces las imágenes demasiado realistas caen en el uncanny valley
    • El wrapper de gemimg sigue siendo útil
      Me volvió a recordar la importancia de un diseño de herramientas adaptable que pueda responder a los cambios tecnológicos
  • Sorprende la capacidad de generar una infografía completa con un prompt corto
    Pedí “cómo funciona el proyecto Datasette” y obtuve un resultado muy bien logrado
    Enlace al resultado

    • Esta función podría transformar radicalmente la generación de volantes para eventos en SaaS
      Hasta ahora el texto se renderizaba por separado, pero ahora parece posible hacerlo de una sola vez
    • Falló al intentar encontrar el Do central en un teclado de piano
      Ver la imagen resultante
    • Incluso con un proyecto sobre el que casi no hay información, player.html, generó bien una infografía
      Enlace de GitHub
      También la convirtió automáticamente a formato cuadrado para Instagram
    • Me pregunto si la infografía de Datasette coincide con cómo funciona realmente
  • Las imágenes de IA ya no producen artefactos obvios, pero todavía se nota que son IA por el estilo
    Sobre todo las infografías seguían siendo distinguibles de las hechas por humanos
    Parece ser el resultado de una sobrerrepresentación de ciertos datasets

    • Los humanos son muy sensibles a pequeñas diferencias visuales
      Los modelos entrenados sobre promedios terminan creando un “espacio de imagen promedio”
      Este ejemplo relacionado muestra que con ajuste fino también se pueden lograr resultados realistas
    • No es solo un problema de datos
      Algunos modelos eliminan el estilo intencionalmente y eso les da una sensación artificial
      En modelos abiertos se puede ajustar fino con LoRA, pero en modelos cerrados eso es difícil, y ese es el problema
    • La mayoría de los modelos entrenan con datos de toda la web, así que producen resultados promedio predecibles
      Si quieres imágenes originales, el prompt en sí tiene que ser más creativo
    • Todavía quedan errores sutiles en textura, proporciones, iluminación, etc.
      Por eso la edición de imágenes se considera el siguiente reto
    • Los modelos ajustados con feedback humano aprenden el “gusto promedio” y pierden personalidad
      Los modelos iniciales tenían menor calidad, pero daban resultados más interesantes
  • SynthID es un buen primer paso, pero tiene la limitación de que no puede distinguir contenido de IA sin marca de agua
    Las grandes empresas deberían introducir identificadores estandarizados

    • Creo que sería riesgoso que el gobierno hiciera obligatorias las marcas de agua
      Si hubiera existido una regulación así para Photoshop, la creatividad se habría visto muy limitada
    • Algún día Apple probablemente lanzará algo como Real Photos
      Algo que pruebe que la foto fue tomada con una cámara real y muestre una insignia de verificación en iMessage
    • La razón por la que las empresas aplican marcas de agua es por la gestión del reentrenamiento de datos
      Al final, los principales modelos comerciales probablemente terminarán forzando marcas de agua por defecto
    • Si surge un identificador estándar, también aparecerá software para quitarlo
      Será un interminable juego del gato y el ratón
    • Existe el proyecto C2PA que intenta resolver este problema
  • Los animadores 2D todavía pueden estar tranquilos
    Probé generar una sprite sheet, y solo repetía cuadros en vez de crear una interpolación natural entre movimientos

  • Recopilación de materiales oficiales
    Developer Blog
    Página de DeepMind
    Model Card PDF
    Introducción a SynthID

  • Este modelo es el primer generador de imágenes que logra pasar mi prueba del piano
    Repite correctamente el patrón de teclas negras en cada octava
    Los modelos anteriores siempre representaban mal la disposición de las teclas

    • Pero si se sale del estándar de 88 teclas, todavía comete muchos errores
      Incluso cuando se le pide colorear notas específicas, lo hace al azar
      El piano es un objeto estandarizado y debería haber muchos datos de entrenamiento, pero aun así le falta comprensión
    • Mantener un patrón repetitivo durante mucho tiempo es difícil
      Es impresionante que haya mantenido la coherencia a lo largo de las 88 teclas
  • Ahora el modelo puede renderizar texto de forma natural dentro de una imagen
    Una función que antes era imposible ahora ya se siente como algo básico

    • Yo también estoy de acuerdo. Pero en áreas donde se cruzan lo visual y el código, como la generación de íconos, sigue siendo débil
      El diseño fino de curvas, espaciado y equilibrio todavía lo hace mejor una persona directamente