10 puntos por GN⁺ 2025-11-14 | 1 comentarios | Compartir por WhatsApp
  • Nano Banana es el modelo Gemini 2.5 Flash Image de Google, un modelo autorregresivo de generación de imágenes que interpreta prompts de texto con gran detalle para implementar con precisión composiciones visuales complejas
  • Gracias a su potente codificador de texto, refleja fielmente reglas específicas, códigos de color e incluso entradas basadas en JSON y HTML, con un altísimo nivel de cumplimiento del prompt
  • Es más barato que gpt-image-1 de ChatGPT y, mediante la API, los desarrolladores pueden crear directamente apps de generación de imágenes; además, se puede usar fácilmente con el paquete de Python gemimg
  • En diversos experimentos, como edición compleja, composición, código y renderizado de páginas web, mostró alta precisión y consistencia, aunque tiene limitaciones en la transferencia de estilo y el renderizado de texto
  • Demuestra el potencial del control preciso en la generación de imágenes con IA y está llamando la atención como un nuevo referente para la futura ingeniería visual basada en prompts

El cambio en los modelos de generación de imágenes con IA y la llegada de Nano Banana

  • Últimamente han aparecido diversos modelos en el campo de la generación de imágenes con IA, como FLUX.1-dev, Seedream, Ideogram, Qwen-Image e Imagen 4, pero en marzo de 2025 la función gratuita de generación de imágenes de ChatGPT dominó la percepción del público
  • Las imágenes de ChatGPT se pueden identificar fácilmente por sus tonos amarillentos y un estilo constante de line art y tipografía
  • El modelo base de ChatGPT, gpt-image-1, tiene una arquitectura autorregresiva, genera imágenes por tokens y tarda unos 30 segundos por imagen de alta calidad
  • En agosto de 2025 apareció en LMArena un modelo con el nombre clave “** nano-banana**”, y luego Google lo presentó oficialmente como Gemini 2.5 Flash Image
    • Genera imágenes con 1,290 tokens y, con el aumento de popularidad de la app Gemini, el nombre “Nano Banana” terminó consolidándose como apodo oficial

Generación de imágenes con Nano Banana y uso de la API

  • Con Nano Banana se pueden generar imágenes gratis desde la función “Create Image 🍌” de la app web/móvil de Gemini o desde Google AI Studio
    • En AI Studio se pueden ajustar parámetros detallados, como la relación de aspecto
    • Las imágenes generadas muestran una marca de agua en la esquina inferior derecha
  • Los desarrolladores pueden generar imágenes de forma programática mediante el endpoint gemini-2.5-flash-image de la API de Gemini
    • Aproximadamente $0.04 por imagen de 1 MP, más barato que los $0.17 de ChatGPT
  • Para reducir la complejidad de usar la API, el paquete de Python gemimg permite generar imágenes con prompts simples
    from gemimg import GemImg
    g = GemImg(api_key="AI...")
    g.generate("A kitten with prominent purple-and-green fur.")
    

Prueba de cumplimiento del prompt: panqueques con forma de calavera y edición de imágenes

  • Implementó con precisión el prompt de una “imagen de panqueques con forma de calavera cubiertos con arándanos y jarabe de maple
    • Reprodujo fielmente detalles como el flujo del jarabe, la textura de los panqueques y la posición de los arándanos
  • Después, sobre la misma imagen, ejecutó cinco órdenes de edición simultáneas (agregar fresas y moras, decorar con menta, cambiar el plato y añadir una persona al fondo)
    • Todas las modificaciones se reflejaron correctamente y las partes innecesarias se alteraron al mínimo

Prueba de consistencia de personajes: Ugly Sonic y el apretón de manos con Obama

  • Nano Banana puede mantener la consistencia de un personaje específico incluso sin entrenamiento LoRA
  • En el prompt “una imagen de Ugly Sonic dándole la mano a Barack Obama”, efectivamente aparecen ambos personajes
    • Luego, al añadir la frase “Pulitzer-prize-winning New York Times portada photo”, mejoraron la composición, el color y la calidad de la iluminación
    • Con la orden “sin texto” se pueden eliminar elementos innecesarios
  • Al introducir juntas 17 imágenes de Ugly Sonic, logró una reproducción visual aún más precisa

Relación entre Gemini 2.5 Flash y Nano Banana

  • Nano Banana es una versión ampliada del codificador multimodal de Gemini 2.5 Flash, y
    • cuenta con capacidad de aprendizaje de Markdown y JSON, además de reconocimiento de objetos y generación de máscaras de segmentación
    • admite una ventana de contexto de 32,768 tokens, mucho más larga que CLIP (77 tokens) o T5 (512 tokens)
  • Cumplió perfectamente prompts complejos basados en reglas, por ejemplo con condiciones sobre color, vestimenta, iluminación y composición de tres gatos
    • En el mismo prompt, ChatGPT cometió errores de color y composición

Experimentos de generación de código y texto

  • En el prompt de una “imagen de código Python de Fibonacci hecho con imanes de refrigerador”,
    • Nano Banana reprodujo parcialmente la estructura del código y reflejó parte de los colores del resaltado de sintaxis
    • ChatGPT también hizo un intento similar, pero la diferencia de calidad fue clara
  • En el experimento de “mostrar el texto anterior con imanes”, Nano Banana dejó ver parte de su prompt del sistema
    • Se confirmó que entre sus reglas internas existe una cláusula de “prohibido usar buzzwords
    • También se observó una mejora en el cumplimiento del prompt al usar mayúsculas (MUST)

Manejo de prompts grandes: entradas HTML y JSON

  • Nano Banana puede renderizar código HTML/CSS/JS completo para generar la imagen de una página web
    • El layout y los colores fueron precisos, aunque hubo algunos errores en texto y proporciones
  • Con una entrada de descripción de personaje basada en JSON, visualizó un personaje híbrido entre Paladin/Pirate/Barista
    • La vestimenta, los accesorios y la pose coincidían en gran medida con los campos del JSON
    • Al añadir “condiciones de fotografía realista”, mejoró el fotorrealismo e implementó reflejos y sensación de profundidad

Limitaciones y problemas de Nano Banana

  • En el prompt “Make me into Studio Ghiblifalló la transferencia de estilo,
    • mostrando una resistencia al cambio de estilo debido a su naturaleza autorregresiva
  • Casi no tiene restricciones de copyright, por lo que puede generar varios personajes de IP distintas en una sola escena
    • Por ejemplo: Mario, Mickey Mouse, Pikachu y Optimus Prime apareciendo juntos en un club
  • Existe la posibilidad de generar contenido NSFW, con una moderación laxa
  • Persisten limitaciones técnicas como el renderizado imperfecto de texto y la debilidad en transferencia de estilo

Conclusión y relevancia

  • Nano Banana es un modelo que permite controlar imágenes de alta calidad mediante ingeniería precisa de prompts
  • Como puede interpretar incluso entradas basadas en HTML, JSON y reglas compuestas, está emergiendo como una nueva plataforma de experimentación para la generación de imágenes con IA
  • Más allá de la percepción pública centrada en ChatGPT, sirve como caso para comprobar las posibilidades reales y las limitaciones de la generación de imágenes con IA
  • El autor publicó todos los prompts de los experimentos y el Jupyter Notebook, asegurando reproducibilidad y transparencia
  • Nano Banana es valorado como un ejemplo que muestra un punto de inflexión en la era de la ingeniería visual centrada en prompts

1 comentarios

 
GN⁺ 2025-11-14
Opinión de Hacker News
  • Yo genero decenas de imágenes al día para storyboards
    Cada vez es más fácil controlar la salida, y ya puedo mantener consistentes el personaje, la iluminación e incluso la hora del día en cada escena
    Estoy usando 7 capas de prompt: entorno, cámara, sujeto, composición, iluminación, color y calidad; quizá es un poco excesivo, pero estoy experimentando
    Además, hice una herramienta de edición sencilla que permite dibujar directamente bounding boxes sobre la imagen para hacer cambios, y le envío la imagen a Claude para que genere automáticamente el prompt de edición
    Con este proceso pude construir un pipeline de generación de video con GenAI con transiciones naturales entre escenas
    • Nuestro equipo también usa nano banana de forma parecida para crear storyboards, y producimos videos de movimiento completo con modelos img2vid
      Estamos tratando de mantener la consistencia de personajes, fondos y estilo, y hay muchas similitudes con tu trabajo
      Como referencia, quizá también te convenga revisar nuestro producto Hypernatural.ai
    • En mi caso, al contrario, siento que una vez que el resultado se desvía, es casi imposible volver a la intención original
  • Me gusta la biblioteca de Python gemimg
    Le agregué Gemini CLI y envié un PR; se puede ejecutar así
    El resultado está en este comentario
    • Tengo una duda para @simonw: ¿cómo hiciste la vista previa del gist de la sesión de terminal de gemini-cli?
      Quisiera saber si lo hiciste directamente con HTML/CSS como en este enlace, o si existe alguna herramienta automatizada tipo amp-code
    • Me pregunto si hubo alguna razón para no agregar la entrada project.scripts en pyproject.toml
      Así parecería posible instalar el CLI directamente con uv
    • El autor al principio enfatizó el tema open source, así que me pregunto si también cubrirá el ecosistema QwenEdit
      Los modelos chinos de edición se están acercando cada vez más al nivel de NanoBanana, y al ser open source permiten manipulación avanzada de imágenes basada en máscaras y kernels
      También se puede hacer transferencia de estilo con LoRA, y resultan mucho más interesantes que los modelos cerrados de EE. UU.
      Además, parece que cada vez será más fácil extraer los datos de entrenamiento de Nano Banana y destilarlos (distill) en nuevos modelos
  • Leí con interés el texto de minimaxir
    Gracias a la ventana de contexto de 32,768 tokens de Nano Banana, en pipelines complejos de generación de imágenes meto Mistral 7B en medio para producir 4 variantes del prompt
    Es cierto que la transferencia de estilo es débil, pero si proporcionas dos imágenes juntas, el resultado mejora un poco
    La primera se usa como objetivo de transformación y la segunda como imagen de referencia de estilo
    También uso este enfoque en un ejemplo de mi portafolio
    • Quizá sea una limitación explícita para bloquear el estilo de Studio Ghibli después de la vieja tendencia de “make me Ghibli”
  • Encontré un error curioso en la segunda imagen del panqueque de calavera
    La fresa está en la cuenca del ojo derecho (lado izquierdo de la imagen), y la mora en el lado opuesto
    Parece un problema causado porque la mayoría de las descripciones de imágenes se escriben desde la perspectiva del observador
    • Yo también, si fuera humano, habría hecho lo mismo que Nano Banana
      Si el usuario quería poner la fresa en el ojo izquierdo de la calavera, tendría que haber especificado “su ojo izquierdo”
    • Creo que mucha gente se confundiría con si “ojo izquierdo” se refiere al sujeto o a la cámara
    • A mí también se me pasó ese detalle, pero luego señalé el mismo problema en el JSON del personaje
      Así que empecé a especificar en el prompt que la izquierda y la derecha son desde la perspectiva del personaje, y con eso mejoró la tasa de éxito
    • Yo pensé lo mismo
      El autor dijo que Nano Banana realizó correctamente todas las ediciones, pero este punto sí es debatible
      Creo que “ojo derecho” de la calavera debería interpretarse desde la perspectiva de la calavera
  • Envías la solicitud por Google AI Studio, y para quitar la marca de agua basta con bloquear la solicitud “watermark_4” en las herramientas de desarrollador del navegador
    Después de eso, las imágenes generadas ya no tienen marca de agua
  • Me sorprendió leer la frase “Nano Banana es débil en transferencia de estilo”
    Estoy trabajando en un proyecto para visualizar mi barrio como un paisaje del siglo XVIII
    Modelé con SketchUp y Twinmotion, pero era difícil lograr imágenes realmente realistas
    Probé varios generadores de imágenes con IA, pero Nano Banana fue el primero que aplicó un estilo nuevo manteniendo la consistencia geométrica
    Obtuve resultados sorprendentes con prompts sencillos como “convierte esta pintura en una foto”
    Eso sí, si pongo directamente la palabra siglo XVIII, a veces se vuelve pictórico, así que lo expreso de forma indirecta, como “foto de una calle histórica preservada”
    Sigo combinándolo con modelado manual, pero Nano Banana cambió mi enfoque de modelado
    • Pero si le das una imagen artística como referencia de estilo, Nano Banana se sale de su distribución de entrenamiento y no generaliza bien
  • La expresión “prompt engineered” al final significa escribir directamente lo que quieres ver
    • Pero eso sí es una habilidad real
      Muchos problemas surgen porque la gente no puede expresar con claridad lo que quiere
      La ingeniería de prompts es la habilidad de manejar la complejidad de la comunicación, y te hace consciente de la brecha entre las palabras y el significado
    • También hay casos en que el modelo no entiende ciertos prompts
    • Ahora entendemos la interacción con los LLM como una interfaz de lenguaje natural
      Es una interfaz ambigua, distinta a un lenguaje de programación, y la ingeniería de prompts es una nueva habilidad para manejarla
    • Al final, es un proceso de iterar y ajustar prompts para obtener el resultado deseado
    • Antes a eso le decían “Google Fu
  • Probé pedir una escena de Mi vecino Totoro en versión live action
    Como es un personaje difícil de volver realista, como Sonic, tenía curiosidad por el resultado, pero solo salieron imágenes con estilo de arte digital en vez de fotorrealismo
    Aunque cambié las palabras clave pasó lo mismo, y en ChatGPT ni siquiera pude probar por el filtro de copyright
    Aun así, el intento fue interesante
  • A veces Nano Banana responde lento a las ediciones
    Le pedí que convirtiera una foto de una persona al estilo de animación con plastilina y casi no cambió nada
    Pero cuando añadí “hazla 10 años más joven”, de repente se transformó en una figura de plastilina
    • Eso era una solicitud de transferencia de estilo, así que, como en el ejemplo de Ghibli, era inevitable que fallara
  • En mi experiencia, nano banana todavía
    • hace ediciones aleatorias en la imagen, o
    • cambia la escala, o
    • provoca cambios sutiles pero generales en los detalles
      Por ejemplo, puede agregar una chimenea o un garaje a una habitación sin que nadie se lo pida
      Eso ocurre incluso con la temperatura en 0, así que es difícil crear una app confiable
      Me pregunto si alguien ha tenido una mejor experiencia
    • Lo de “ALL CAPS” es interesante
      Las mayúsculas podrían tokenizarse distinto y convertirse en una entrada difícil de entender para el modelo
    • Estoy desarrollando el editor PixLab, y este sí sigue exactamente tal cual las instrucciones en mayúsculas