Nano Banana permite generar imágenes de IA con gran precisión mediante ingeniería de prompts
(minimaxir.com)- Nano Banana es el modelo Gemini 2.5 Flash Image de Google, un modelo autorregresivo de generación de imágenes que interpreta prompts de texto con gran detalle para implementar con precisión composiciones visuales complejas
- Gracias a su potente codificador de texto, refleja fielmente reglas específicas, códigos de color e incluso entradas basadas en JSON y HTML, con un altísimo nivel de cumplimiento del prompt
- Es más barato que gpt-image-1 de ChatGPT y, mediante la API, los desarrolladores pueden crear directamente apps de generación de imágenes; además, se puede usar fácilmente con el paquete de Python gemimg
- En diversos experimentos, como edición compleja, composición, código y renderizado de páginas web, mostró alta precisión y consistencia, aunque tiene limitaciones en la transferencia de estilo y el renderizado de texto
- Demuestra el potencial del control preciso en la generación de imágenes con IA y está llamando la atención como un nuevo referente para la futura ingeniería visual basada en prompts
El cambio en los modelos de generación de imágenes con IA y la llegada de Nano Banana
- Últimamente han aparecido diversos modelos en el campo de la generación de imágenes con IA, como FLUX.1-dev, Seedream, Ideogram, Qwen-Image e Imagen 4, pero en marzo de 2025 la función gratuita de generación de imágenes de ChatGPT dominó la percepción del público
- Las imágenes de ChatGPT se pueden identificar fácilmente por sus tonos amarillentos y un estilo constante de line art y tipografía
- El modelo base de ChatGPT, gpt-image-1, tiene una arquitectura autorregresiva, genera imágenes por tokens y tarda unos 30 segundos por imagen de alta calidad
- En agosto de 2025 apareció en LMArena un modelo con el nombre clave “** nano-banana**”, y luego Google lo presentó oficialmente como Gemini 2.5 Flash Image
- Genera imágenes con 1,290 tokens y, con el aumento de popularidad de la app Gemini, el nombre “Nano Banana” terminó consolidándose como apodo oficial
Generación de imágenes con Nano Banana y uso de la API
- Con Nano Banana se pueden generar imágenes gratis desde la función “Create Image 🍌” de la app web/móvil de Gemini o desde Google AI Studio
- En AI Studio se pueden ajustar parámetros detallados, como la relación de aspecto
- Las imágenes generadas muestran una marca de agua en la esquina inferior derecha
- Los desarrolladores pueden generar imágenes de forma programática mediante el endpoint gemini-2.5-flash-image de la API de Gemini
- Aproximadamente $0.04 por imagen de 1 MP, más barato que los $0.17 de ChatGPT
- Para reducir la complejidad de usar la API, el paquete de Python gemimg permite generar imágenes con prompts simples
from gemimg import GemImg g = GemImg(api_key="AI...") g.generate("A kitten with prominent purple-and-green fur.")
Prueba de cumplimiento del prompt: panqueques con forma de calavera y edición de imágenes
- Implementó con precisión el prompt de una “imagen de panqueques con forma de calavera cubiertos con arándanos y jarabe de maple”
- Reprodujo fielmente detalles como el flujo del jarabe, la textura de los panqueques y la posición de los arándanos
- Después, sobre la misma imagen, ejecutó cinco órdenes de edición simultáneas (agregar fresas y moras, decorar con menta, cambiar el plato y añadir una persona al fondo)
- Todas las modificaciones se reflejaron correctamente y las partes innecesarias se alteraron al mínimo
Prueba de consistencia de personajes: Ugly Sonic y el apretón de manos con Obama
- Nano Banana puede mantener la consistencia de un personaje específico incluso sin entrenamiento LoRA
- En el prompt “una imagen de Ugly Sonic dándole la mano a Barack Obama”, efectivamente aparecen ambos personajes
- Luego, al añadir la frase “Pulitzer-prize-winning New York Times portada photo”, mejoraron la composición, el color y la calidad de la iluminación
- Con la orden “sin texto” se pueden eliminar elementos innecesarios
- Al introducir juntas 17 imágenes de Ugly Sonic, logró una reproducción visual aún más precisa
Relación entre Gemini 2.5 Flash y Nano Banana
- Nano Banana es una versión ampliada del codificador multimodal de Gemini 2.5 Flash, y
- cuenta con capacidad de aprendizaje de Markdown y JSON, además de reconocimiento de objetos y generación de máscaras de segmentación
- admite una ventana de contexto de 32,768 tokens, mucho más larga que CLIP (77 tokens) o T5 (512 tokens)
- Cumplió perfectamente prompts complejos basados en reglas, por ejemplo con condiciones sobre color, vestimenta, iluminación y composición de tres gatos
- En el mismo prompt, ChatGPT cometió errores de color y composición
Experimentos de generación de código y texto
- En el prompt de una “imagen de código Python de Fibonacci hecho con imanes de refrigerador”,
- Nano Banana reprodujo parcialmente la estructura del código y reflejó parte de los colores del resaltado de sintaxis
- ChatGPT también hizo un intento similar, pero la diferencia de calidad fue clara
- En el experimento de “mostrar el texto anterior con imanes”, Nano Banana dejó ver parte de su prompt del sistema
- Se confirmó que entre sus reglas internas existe una cláusula de “prohibido usar buzzwords”
- También se observó una mejora en el cumplimiento del prompt al usar mayúsculas (MUST)
Manejo de prompts grandes: entradas HTML y JSON
- Nano Banana puede renderizar código HTML/CSS/JS completo para generar la imagen de una página web
- El layout y los colores fueron precisos, aunque hubo algunos errores en texto y proporciones
- Con una entrada de descripción de personaje basada en JSON, visualizó un personaje híbrido entre Paladin/Pirate/Barista
- La vestimenta, los accesorios y la pose coincidían en gran medida con los campos del JSON
- Al añadir “condiciones de fotografía realista”, mejoró el fotorrealismo e implementó reflejos y sensación de profundidad
Limitaciones y problemas de Nano Banana
- En el prompt “Make me into Studio Ghibli” falló la transferencia de estilo,
- mostrando una resistencia al cambio de estilo debido a su naturaleza autorregresiva
- Casi no tiene restricciones de copyright, por lo que puede generar varios personajes de IP distintas en una sola escena
- Por ejemplo: Mario, Mickey Mouse, Pikachu y Optimus Prime apareciendo juntos en un club
- Existe la posibilidad de generar contenido NSFW, con una moderación laxa
- Persisten limitaciones técnicas como el renderizado imperfecto de texto y la debilidad en transferencia de estilo
Conclusión y relevancia
- Nano Banana es un modelo que permite controlar imágenes de alta calidad mediante ingeniería precisa de prompts
- Como puede interpretar incluso entradas basadas en HTML, JSON y reglas compuestas, está emergiendo como una nueva plataforma de experimentación para la generación de imágenes con IA
- Más allá de la percepción pública centrada en ChatGPT, sirve como caso para comprobar las posibilidades reales y las limitaciones de la generación de imágenes con IA
- El autor publicó todos los prompts de los experimentos y el Jupyter Notebook, asegurando reproducibilidad y transparencia
- Nano Banana es valorado como un ejemplo que muestra un punto de inflexión en la era de la ingeniería visual centrada en prompts
1 comentarios
Opinión de Hacker News
Cada vez es más fácil controlar la salida, y ya puedo mantener consistentes el personaje, la iluminación e incluso la hora del día en cada escena
Estoy usando 7 capas de prompt: entorno, cámara, sujeto, composición, iluminación, color y calidad; quizá es un poco excesivo, pero estoy experimentando
Además, hice una herramienta de edición sencilla que permite dibujar directamente bounding boxes sobre la imagen para hacer cambios, y le envío la imagen a Claude para que genere automáticamente el prompt de edición
Con este proceso pude construir un pipeline de generación de video con GenAI con transiciones naturales entre escenas
Estamos tratando de mantener la consistencia de personajes, fondos y estilo, y hay muchas similitudes con tu trabajo
Como referencia, quizá también te convenga revisar nuestro producto Hypernatural.ai
Le agregué Gemini CLI y envié un PR; se puede ejecutar así
El resultado está en este comentario
Quisiera saber si lo hiciste directamente con HTML/CSS como en este enlace, o si existe alguna herramienta automatizada tipo amp-code
Así parecería posible instalar el CLI directamente con uv
Los modelos chinos de edición se están acercando cada vez más al nivel de NanoBanana, y al ser open source permiten manipulación avanzada de imágenes basada en máscaras y kernels
También se puede hacer transferencia de estilo con LoRA, y resultan mucho más interesantes que los modelos cerrados de EE. UU.
Además, parece que cada vez será más fácil extraer los datos de entrenamiento de Nano Banana y destilarlos (distill) en nuevos modelos
Gracias a la ventana de contexto de 32,768 tokens de Nano Banana, en pipelines complejos de generación de imágenes meto Mistral 7B en medio para producir 4 variantes del prompt
Es cierto que la transferencia de estilo es débil, pero si proporcionas dos imágenes juntas, el resultado mejora un poco
La primera se usa como objetivo de transformación y la segunda como imagen de referencia de estilo
También uso este enfoque en un ejemplo de mi portafolio
La fresa está en la cuenca del ojo derecho (lado izquierdo de la imagen), y la mora en el lado opuesto
Parece un problema causado porque la mayoría de las descripciones de imágenes se escriben desde la perspectiva del observador
Si el usuario quería poner la fresa en el ojo izquierdo de la calavera, tendría que haber especificado “su ojo izquierdo”
Así que empecé a especificar en el prompt que la izquierda y la derecha son desde la perspectiva del personaje, y con eso mejoró la tasa de éxito
El autor dijo que Nano Banana realizó correctamente todas las ediciones, pero este punto sí es debatible
Creo que “ojo derecho” de la calavera debería interpretarse desde la perspectiva de la calavera
Después de eso, las imágenes generadas ya no tienen marca de agua
Estoy trabajando en un proyecto para visualizar mi barrio como un paisaje del siglo XVIII
Modelé con SketchUp y Twinmotion, pero era difícil lograr imágenes realmente realistas
Probé varios generadores de imágenes con IA, pero Nano Banana fue el primero que aplicó un estilo nuevo manteniendo la consistencia geométrica
Obtuve resultados sorprendentes con prompts sencillos como “convierte esta pintura en una foto”
Eso sí, si pongo directamente la palabra siglo XVIII, a veces se vuelve pictórico, así que lo expreso de forma indirecta, como “foto de una calle histórica preservada”
Sigo combinándolo con modelado manual, pero Nano Banana cambió mi enfoque de modelado
Muchos problemas surgen porque la gente no puede expresar con claridad lo que quiere
La ingeniería de prompts es la habilidad de manejar la complejidad de la comunicación, y te hace consciente de la brecha entre las palabras y el significado
Es una interfaz ambigua, distinta a un lenguaje de programación, y la ingeniería de prompts es una nueva habilidad para manejarla
Como es un personaje difícil de volver realista, como Sonic, tenía curiosidad por el resultado, pero solo salieron imágenes con estilo de arte digital en vez de fotorrealismo
Aunque cambié las palabras clave pasó lo mismo, y en ChatGPT ni siquiera pude probar por el filtro de copyright
Aun así, el intento fue interesante
Le pedí que convirtiera una foto de una persona al estilo de animación con plastilina y casi no cambió nada
Pero cuando añadí “hazla 10 años más joven”, de repente se transformó en una figura de plastilina
Por ejemplo, puede agregar una chimenea o un garaje a una habitación sin que nadie se lo pida
Eso ocurre incluso con la temperatura en 0, así que es difícil crear una app confiable
Me pregunto si alguien ha tenido una mejor experiencia
Las mayúsculas podrían tokenizarse distinto y convertirse en una entrada difícil de entender para el modelo