10 puntos por GN⁺ 2025-11-14 | Aún no hay comentarios. | Compartir por WhatsApp
  • Nano Banana es el modelo Gemini 2.5 Flash Image de Google, un modelo autorregresivo de generación de imágenes que interpreta prompts de texto con gran detalle para implementar con precisión composiciones visuales complejas
  • Gracias a su potente codificador de texto, refleja fielmente reglas específicas, códigos de color e incluso entradas basadas en JSON y HTML, con un altísimo nivel de cumplimiento del prompt
  • Es más barato que gpt-image-1 de ChatGPT y, mediante la API, los desarrolladores pueden crear directamente apps de generación de imágenes; además, se puede usar fácilmente con el paquete de Python gemimg
  • En diversos experimentos, como edición compleja, composición, código y renderizado de páginas web, mostró alta precisión y consistencia, aunque tiene limitaciones en la transferencia de estilo y el renderizado de texto
  • Demuestra el potencial del control preciso en la generación de imágenes con IA y está llamando la atención como un nuevo referente para la futura ingeniería visual basada en prompts

El cambio en los modelos de generación de imágenes con IA y la llegada de Nano Banana

  • Últimamente han aparecido diversos modelos en el campo de la generación de imágenes con IA, como FLUX.1-dev, Seedream, Ideogram, Qwen-Image e Imagen 4, pero en marzo de 2025 la función gratuita de generación de imágenes de ChatGPT dominó la percepción del público
  • Las imágenes de ChatGPT se pueden identificar fácilmente por sus tonos amarillentos y un estilo constante de line art y tipografía
  • El modelo base de ChatGPT, gpt-image-1, tiene una arquitectura autorregresiva, genera imágenes por tokens y tarda unos 30 segundos por imagen de alta calidad
  • En agosto de 2025 apareció en LMArena un modelo con el nombre clave “** nano-banana**”, y luego Google lo presentó oficialmente como Gemini 2.5 Flash Image
    • Genera imágenes con 1,290 tokens y, con el aumento de popularidad de la app Gemini, el nombre “Nano Banana” terminó consolidándose como apodo oficial

Generación de imágenes con Nano Banana y uso de la API

  • Con Nano Banana se pueden generar imágenes gratis desde la función “Create Image 🍌” de la app web/móvil de Gemini o desde Google AI Studio
    • En AI Studio se pueden ajustar parámetros detallados, como la relación de aspecto
    • Las imágenes generadas muestran una marca de agua en la esquina inferior derecha
  • Los desarrolladores pueden generar imágenes de forma programática mediante el endpoint gemini-2.5-flash-image de la API de Gemini
    • Aproximadamente $0.04 por imagen de 1 MP, más barato que los $0.17 de ChatGPT
  • Para reducir la complejidad de usar la API, el paquete de Python gemimg permite generar imágenes con prompts simples
    from gemimg import GemImg
    g = GemImg(api_key="AI...")
    g.generate("A kitten with prominent purple-and-green fur.")
    

Prueba de cumplimiento del prompt: panqueques con forma de calavera y edición de imágenes

  • Implementó con precisión el prompt de una “imagen de panqueques con forma de calavera cubiertos con arándanos y jarabe de maple
    • Reprodujo fielmente detalles como el flujo del jarabe, la textura de los panqueques y la posición de los arándanos
  • Después, sobre la misma imagen, ejecutó cinco órdenes de edición simultáneas (agregar fresas y moras, decorar con menta, cambiar el plato y añadir una persona al fondo)
    • Todas las modificaciones se reflejaron correctamente y las partes innecesarias se alteraron al mínimo

Prueba de consistencia de personajes: Ugly Sonic y el apretón de manos con Obama

  • Nano Banana puede mantener la consistencia de un personaje específico incluso sin entrenamiento LoRA
  • En el prompt “una imagen de Ugly Sonic dándole la mano a Barack Obama”, efectivamente aparecen ambos personajes
    • Luego, al añadir la frase “Pulitzer-prize-winning New York Times portada photo”, mejoraron la composición, el color y la calidad de la iluminación
    • Con la orden “sin texto” se pueden eliminar elementos innecesarios
  • Al introducir juntas 17 imágenes de Ugly Sonic, logró una reproducción visual aún más precisa

Relación entre Gemini 2.5 Flash y Nano Banana

  • Nano Banana es una versión ampliada del codificador multimodal de Gemini 2.5 Flash, y
    • cuenta con capacidad de aprendizaje de Markdown y JSON, además de reconocimiento de objetos y generación de máscaras de segmentación
    • admite una ventana de contexto de 32,768 tokens, mucho más larga que CLIP (77 tokens) o T5 (512 tokens)
  • Cumplió perfectamente prompts complejos basados en reglas, por ejemplo con condiciones sobre color, vestimenta, iluminación y composición de tres gatos
    • En el mismo prompt, ChatGPT cometió errores de color y composición

Experimentos de generación de código y texto

  • En el prompt de una “imagen de código Python de Fibonacci hecho con imanes de refrigerador”,
    • Nano Banana reprodujo parcialmente la estructura del código y reflejó parte de los colores del resaltado de sintaxis
    • ChatGPT también hizo un intento similar, pero la diferencia de calidad fue clara
  • En el experimento de “mostrar el texto anterior con imanes”, Nano Banana dejó ver parte de su prompt del sistema
    • Se confirmó que entre sus reglas internas existe una cláusula de “prohibido usar buzzwords
    • También se observó una mejora en el cumplimiento del prompt al usar mayúsculas (MUST)

Manejo de prompts grandes: entradas HTML y JSON

  • Nano Banana puede renderizar código HTML/CSS/JS completo para generar la imagen de una página web
    • El layout y los colores fueron precisos, aunque hubo algunos errores en texto y proporciones
  • Con una entrada de descripción de personaje basada en JSON, visualizó un personaje híbrido entre Paladin/Pirate/Barista
    • La vestimenta, los accesorios y la pose coincidían en gran medida con los campos del JSON
    • Al añadir “condiciones de fotografía realista”, mejoró el fotorrealismo e implementó reflejos y sensación de profundidad

Limitaciones y problemas de Nano Banana

  • En el prompt “Make me into Studio Ghiblifalló la transferencia de estilo,
    • mostrando una resistencia al cambio de estilo debido a su naturaleza autorregresiva
  • Casi no tiene restricciones de copyright, por lo que puede generar varios personajes de IP distintas en una sola escena
    • Por ejemplo: Mario, Mickey Mouse, Pikachu y Optimus Prime apareciendo juntos en un club
  • Existe la posibilidad de generar contenido NSFW, con una moderación laxa
  • Persisten limitaciones técnicas como el renderizado imperfecto de texto y la debilidad en transferencia de estilo

Conclusión y relevancia

  • Nano Banana es un modelo que permite controlar imágenes de alta calidad mediante ingeniería precisa de prompts
  • Como puede interpretar incluso entradas basadas en HTML, JSON y reglas compuestas, está emergiendo como una nueva plataforma de experimentación para la generación de imágenes con IA
  • Más allá de la percepción pública centrada en ChatGPT, sirve como caso para comprobar las posibilidades reales y las limitaciones de la generación de imágenes con IA
  • El autor publicó todos los prompts de los experimentos y el Jupyter Notebook, asegurando reproducibilidad y transparencia
  • Nano Banana es valorado como un ejemplo que muestra un punto de inflexión en la era de la ingeniería visual centrada en prompts

Aún no hay comentarios.

Aún no hay comentarios.