Nano Banana permite generar imágenes de IA con gran precisión mediante ingeniería de prompts

(minimaxir.com)

10 puntos por GN⁺ 2025-11-14 | 1 comentarios | Compartir por WhatsApp

Nano Banana es el modelo Gemini 2.5 Flash Image de Google, un modelo autorregresivo de generación de imágenes que interpreta prompts de texto con gran detalle para implementar con precisión composiciones visuales complejas
Gracias a su potente codificador de texto, refleja fielmente reglas específicas, códigos de color e incluso entradas basadas en JSON y HTML, con un altísimo nivel de cumplimiento del prompt
Es más barato que gpt-image-1 de ChatGPT y, mediante la API, los desarrolladores pueden crear directamente apps de generación de imágenes; además, se puede usar fácilmente con el paquete de Python gemimg
En diversos experimentos, como edición compleja, composición, código y renderizado de páginas web, mostró alta precisión y consistencia, aunque tiene limitaciones en la transferencia de estilo y el renderizado de texto
Demuestra el potencial del control preciso en la generación de imágenes con IA y está llamando la atención como un nuevo referente para la futura ingeniería visual basada en prompts

El cambio en los modelos de generación de imágenes con IA y la llegada de Nano Banana

Últimamente han aparecido diversos modelos en el campo de la generación de imágenes con IA, como FLUX.1-dev, Seedream, Ideogram, Qwen-Image e Imagen 4, pero en marzo de 2025 la función gratuita de generación de imágenes de ChatGPT dominó la percepción del público
Las imágenes de ChatGPT se pueden identificar fácilmente por sus tonos amarillentos y un estilo constante de line art y tipografía
El modelo base de ChatGPT, gpt-image-1, tiene una arquitectura autorregresiva, genera imágenes por tokens y tarda unos 30 segundos por imagen de alta calidad
En agosto de 2025 apareció en LMArena un modelo con el nombre clave “** nano-banana**”, y luego Google lo presentó oficialmente como Gemini 2.5 Flash Image
- Genera imágenes con 1,290 tokens y, con el aumento de popularidad de la app Gemini, el nombre “Nano Banana” terminó consolidándose como apodo oficial

Generación de imágenes con Nano Banana y uso de la API

Con Nano Banana se pueden generar imágenes gratis desde la función “Create Image 🍌” de la app web/móvil de Gemini o desde Google AI Studio
- En AI Studio se pueden ajustar parámetros detallados, como la relación de aspecto
- Las imágenes generadas muestran una marca de agua en la esquina inferior derecha
Los desarrolladores pueden generar imágenes de forma programática mediante el endpoint gemini-2.5-flash-image de la API de Gemini
- Aproximadamente $0.04 por imagen de 1 MP, más barato que los $0.17 de ChatGPT

Para reducir la complejidad de usar la API, el paquete de Python gemimg permite generar imágenes con prompts simples

from gemimg import GemImg
g = GemImg(api_key="AI...")
g.generate("A kitten with prominent purple-and-green fur.")

Prueba de cumplimiento del prompt: panqueques con forma de calavera y edición de imágenes

Implementó con precisión el prompt de una “imagen de panqueques con forma de calavera cubiertos con arándanos y jarabe de maple”
- Reprodujo fielmente detalles como el flujo del jarabe, la textura de los panqueques y la posición de los arándanos
Después, sobre la misma imagen, ejecutó cinco órdenes de edición simultáneas (agregar fresas y moras, decorar con menta, cambiar el plato y añadir una persona al fondo)
- Todas las modificaciones se reflejaron correctamente y las partes innecesarias se alteraron al mínimo

Prueba de consistencia de personajes: Ugly Sonic y el apretón de manos con Obama

Nano Banana puede mantener la consistencia de un personaje específico incluso sin entrenamiento LoRA
En el prompt “una imagen de Ugly Sonic dándole la mano a Barack Obama”, efectivamente aparecen ambos personajes
- Luego, al añadir la frase “Pulitzer-prize-winning New York Times portada photo”, mejoraron la composición, el color y la calidad de la iluminación
- Con la orden “sin texto” se pueden eliminar elementos innecesarios
Al introducir juntas 17 imágenes de Ugly Sonic, logró una reproducción visual aún más precisa

Relación entre Gemini 2.5 Flash y Nano Banana

Nano Banana es una versión ampliada del codificador multimodal de Gemini 2.5 Flash, y
- cuenta con capacidad de aprendizaje de Markdown y JSON, además de reconocimiento de objetos y generación de máscaras de segmentación
- admite una ventana de contexto de 32,768 tokens, mucho más larga que CLIP (77 tokens) o T5 (512 tokens)
Cumplió perfectamente prompts complejos basados en reglas, por ejemplo con condiciones sobre color, vestimenta, iluminación y composición de tres gatos
- En el mismo prompt, ChatGPT cometió errores de color y composición

Experimentos de generación de código y texto

En el prompt de una “imagen de código Python de Fibonacci hecho con imanes de refrigerador”,
- Nano Banana reprodujo parcialmente la estructura del código y reflejó parte de los colores del resaltado de sintaxis
- ChatGPT también hizo un intento similar, pero la diferencia de calidad fue clara
En el experimento de “mostrar el texto anterior con imanes”, Nano Banana dejó ver parte de su prompt del sistema
- Se confirmó que entre sus reglas internas existe una cláusula de “prohibido usar buzzwords”
- También se observó una mejora en el cumplimiento del prompt al usar mayúsculas (MUST)

Manejo de prompts grandes: entradas HTML y JSON

Nano Banana puede renderizar código HTML/CSS/JS completo para generar la imagen de una página web
- El layout y los colores fueron precisos, aunque hubo algunos errores en texto y proporciones
Con una entrada de descripción de personaje basada en JSON, visualizó un personaje híbrido entre Paladin/Pirate/Barista
- La vestimenta, los accesorios y la pose coincidían en gran medida con los campos del JSON
- Al añadir “condiciones de fotografía realista”, mejoró el fotorrealismo e implementó reflejos y sensación de profundidad

Limitaciones y problemas de Nano Banana

En el prompt “Make me into Studio Ghibli” falló la transferencia de estilo,
- mostrando una resistencia al cambio de estilo debido a su naturaleza autorregresiva
Casi no tiene restricciones de copyright, por lo que puede generar varios personajes de IP distintas en una sola escena
- Por ejemplo: Mario, Mickey Mouse, Pikachu y Optimus Prime apareciendo juntos en un club
Existe la posibilidad de generar contenido NSFW, con una moderación laxa
Persisten limitaciones técnicas como el renderizado imperfecto de texto y la debilidad en transferencia de estilo

Conclusión y relevancia

Nano Banana es un modelo que permite controlar imágenes de alta calidad mediante ingeniería precisa de prompts
Como puede interpretar incluso entradas basadas en HTML, JSON y reglas compuestas, está emergiendo como una nueva plataforma de experimentación para la generación de imágenes con IA
Más allá de la percepción pública centrada en ChatGPT, sirve como caso para comprobar las posibilidades reales y las limitaciones de la generación de imágenes con IA
El autor publicó todos los prompts de los experimentos y el Jupyter Notebook, asegurando reproducibilidad y transparencia
Nano Banana es valorado como un ejemplo que muestra un punto de inflexión en la era de la ingeniería visual centrada en prompts

1 comentarios

GN⁺ 2025-11-14

Opinión de Hacker News

Yo genero decenas de imágenes al día para storyboards
Cada vez es más fácil controlar la salida, y ya puedo mantener consistentes el personaje, la iluminación e incluso la hora del día en cada escena
Estoy usando 7 capas de prompt: entorno, cámara, sujeto, composición, iluminación, color y calidad; quizá es un poco excesivo, pero estoy experimentando
Además, hice una herramienta de edición sencilla que permite dibujar directamente bounding boxes sobre la imagen para hacer cambios, y le envío la imagen a Claude para que genere automáticamente el prompt de edición
Con este proceso pude construir un pipeline de generación de video con GenAI con transiciones naturales entre escenas
- Nuestro equipo también usa nano banana de forma parecida para crear storyboards, y producimos videos de movimiento completo con modelos img2vid
  Estamos tratando de mantener la consistencia de personajes, fondos y estilo, y hay muchas similitudes con tu trabajo
  Como referencia, quizá también te convenga revisar nuestro producto Hypernatural.ai
- En mi caso, al contrario, siento que una vez que el resultado se desvía, es casi imposible volver a la intención original
Me gusta la biblioteca de Python gemimg
Le agregué Gemini CLI y envié un PR; se puede ejecutar así
El resultado está en este comentario
- Tengo una duda para @simonw: ¿cómo hiciste la vista previa del gist de la sesión de terminal de gemini-cli?
  Quisiera saber si lo hiciste directamente con HTML/CSS como en este enlace, o si existe alguna herramienta automatizada tipo amp-code
- Me pregunto si hubo alguna razón para no agregar la entrada project.scripts en pyproject.toml
  Así parecería posible instalar el CLI directamente con uv
- El autor al principio enfatizó el tema open source, así que me pregunto si también cubrirá el ecosistema QwenEdit
  Los modelos chinos de edición se están acercando cada vez más al nivel de NanoBanana, y al ser open source permiten manipulación avanzada de imágenes basada en máscaras y kernels
  También se puede hacer transferencia de estilo con LoRA, y resultan mucho más interesantes que los modelos cerrados de EE. UU.
  Además, parece que cada vez será más fácil extraer los datos de entrenamiento de Nano Banana y destilarlos (distill) en nuevos modelos
Leí con interés el texto de minimaxir
Gracias a la ventana de contexto de 32,768 tokens de Nano Banana, en pipelines complejos de generación de imágenes meto Mistral 7B en medio para producir 4 variantes del prompt
Es cierto que la transferencia de estilo es débil, pero si proporcionas dos imágenes juntas, el resultado mejora un poco
La primera se usa como objetivo de transformación y la segunda como imagen de referencia de estilo
También uso este enfoque en un ejemplo de mi portafolio
- Quizá sea una limitación explícita para bloquear el estilo de Studio Ghibli después de la vieja tendencia de “make me Ghibli”
Encontré un error curioso en la segunda imagen del panqueque de calavera
La fresa está en la cuenca del ojo derecho (lado izquierdo de la imagen), y la mora en el lado opuesto
Parece un problema causado porque la mayoría de las descripciones de imágenes se escriben desde la perspectiva del observador
- Yo también, si fuera humano, habría hecho lo mismo que Nano Banana
  Si el usuario quería poner la fresa en el ojo izquierdo de la calavera, tendría que haber especificado “su ojo izquierdo”
- Creo que mucha gente se confundiría con si “ojo izquierdo” se refiere al sujeto o a la cámara
- A mí también se me pasó ese detalle, pero luego señalé el mismo problema en el JSON del personaje
  Así que empecé a especificar en el prompt que la izquierda y la derecha son desde la perspectiva del personaje, y con eso mejoró la tasa de éxito
- Yo pensé lo mismo
  El autor dijo que Nano Banana realizó correctamente todas las ediciones, pero este punto sí es debatible
  Creo que “ojo derecho” de la calavera debería interpretarse desde la perspectiva de la calavera
Envías la solicitud por Google AI Studio, y para quitar la marca de agua basta con bloquear la solicitud “watermark_4” en las herramientas de desarrollador del navegador
Después de eso, las imágenes generadas ya no tienen marca de agua
Me sorprendió leer la frase “Nano Banana es débil en transferencia de estilo”
Estoy trabajando en un proyecto para visualizar mi barrio como un paisaje del siglo XVIII
Modelé con SketchUp y Twinmotion, pero era difícil lograr imágenes realmente realistas
Probé varios generadores de imágenes con IA, pero Nano Banana fue el primero que aplicó un estilo nuevo manteniendo la consistencia geométrica
Obtuve resultados sorprendentes con prompts sencillos como “convierte esta pintura en una foto”
Eso sí, si pongo directamente la palabra siglo XVIII, a veces se vuelve pictórico, así que lo expreso de forma indirecta, como “foto de una calle histórica preservada”
Sigo combinándolo con modelado manual, pero Nano Banana cambió mi enfoque de modelado
- Pero si le das una imagen artística como referencia de estilo, Nano Banana se sale de su distribución de entrenamiento y no generaliza bien
La expresión “prompt engineered” al final significa escribir directamente lo que quieres ver
- Pero eso sí es una habilidad real
  Muchos problemas surgen porque la gente no puede expresar con claridad lo que quiere
  La ingeniería de prompts es la habilidad de manejar la complejidad de la comunicación, y te hace consciente de la brecha entre las palabras y el significado
- También hay casos en que el modelo no entiende ciertos prompts
- Ahora entendemos la interacción con los LLM como una interfaz de lenguaje natural
  Es una interfaz ambigua, distinta a un lenguaje de programación, y la ingeniería de prompts es una nueva habilidad para manejarla
- Al final, es un proceso de iterar y ajustar prompts para obtener el resultado deseado
- Antes a eso le decían “Google Fu”
Probé pedir una escena de Mi vecino Totoro en versión live action
Como es un personaje difícil de volver realista, como Sonic, tenía curiosidad por el resultado, pero solo salieron imágenes con estilo de arte digital en vez de fotorrealismo
Aunque cambié las palabras clave pasó lo mismo, y en ChatGPT ni siquiera pude probar por el filtro de copyright
Aun así, el intento fue interesante
A veces Nano Banana responde lento a las ediciones
Le pedí que convirtiera una foto de una persona al estilo de animación con plastilina y casi no cambió nada
Pero cuando añadí “hazla 10 años más joven”, de repente se transformó en una figura de plastilina
- Eso era una solicitud de transferencia de estilo, así que, como en el ejemplo de Ghibli, era inevitable que fallara
En mi experiencia, nano banana todavía
- hace ediciones aleatorias en la imagen, o
- cambia la escala, o
- provoca cambios sutiles pero generales en los detalles
  Por ejemplo, puede agregar una chimenea o un garaje a una habitación sin que nadie se lo pida
  Eso ocurre incluso con la temperatura en 0, así que es difícil crear una app confiable
  Me pregunto si alguien ha tenido una mejor experiencia
- Lo de “ALL CAPS” es interesante
  Las mayúsculas podrían tokenizarse distinto y convertirse en una entrada difícil de entender para el modelo
- Estoy desarrollando el editor PixLab, y este sí sigue exactamente tal cual las instrucciones en mayúsculas