21 puntos por GN⁺ 2025-09-12 | 1 comentarios | Compartir por WhatsApp
  • Una colección open source de ejemplos de diversos trabajos de generación y edición de imágenes con Nano-banana de Google
  • Muestra funciones de transformación creativa y edición de múltiples imágenes usando la tecnología de generación de imágenes de Google
  • Cada caso es un ejemplo de uso real recopilado de comunidades como Twitter/X, Xiaohongshu y otras
  • Ofrece una amplia variedad de ejemplos de transformación experimentales y aplicados al combinar prompts de texto e imágenes de entrada
  • La guía de prompts y de entrada está organizada en documentos para que cualquiera pueda usarla de inmediato

Descripción general

  • Este repositorio es una galería curada que reúne diversas imágenes y ejemplos de prompts creados con la tecnología de generación y edición de imágenes de Nano-banana
  • Muestra las posibilidades ilimitadas de generación y edición de imágenes de Google, ayuda a comprender mejor Nano-banana y permite experimentar el poder de la fusión de múltiples imágenes y de la edición creativa
  • Los casos se recopilan principalmente de Twitter/X, Xiaohongshu y otras plataformas de creadores independientes
  • Se registran la fecha de actualización más reciente del repositorio y el historial de versiones

Menú

Cada caso está compuesto por una combinación de imágenes de entrada y prompts, junto con ejemplos de salida.

Ejemplos de entrada y prompts

  • Entrada: se requieren varios tipos, como imágenes de referencia, imágenes de Google Maps, retratos, bocetos e imágenes de materiales
  • Prompt: incluye solicitudes detalladas en inglés para transformación de imágenes, edición, diseño, corrección de color y más

Estructura representativa de prompts

  • Se puede usar para transformar el estilo de una persona o producto, el peinado, el fondo y más
  • Puede aplicarse a distintos fines, como productos, edificios, personajes, comida, estilo de cómic, foto de identificación, mockups y más
  • La parte entre [corchetes] puede modificarse según el objetivo de uso para dar una guía más precisa

Flujo de ejemplo

  • Subir imagen → ingresar prompt → revisar resultado generado (enlace de imagen)
  • Algunos casos se presentan en tablas de 'entrada/resultado', y otros muestran solo el resultado final

Resumen de los principales casos

  • Transformación de personajes/productos: genera a partir de retratos paquetes con estilo de personaje, figura, LEGO o Gundam
  • Cosplay/diseño: creación de fotos de cosplay basadas en ilustraciones, vistas de personaje en tres ángulos y hojas de expresiones
  • Corrección/restauración de imágenes: restauración de fotos antiguas, eliminación de fondo transparente, mejora de color y brillo, recuperación de ruido
  • Composición/cambio de estilo: tiras de 4 viñetas estilo cómic o en blanco y negro sin diálogo, conversión a estilo cómic, miniaturas, aplicación de materiales/filtros, cambios de peinado/maquillaje
  • Visualización de datos: infografías que resumen blogs/artículos, visualización de calorías e información nutricional
  • Educación/presentaciones: ilustraciones de modelos de órganos, resolución de problemas de matemáticas, incorporación de anotaciones explicativas y más

Guía de prompts y referencias

  • Cada prompt y explicación de caso ofrece guías personalizadas para valores de entrada y [contenido alternativo]
  • Permite aplicaciones como combinar varias imágenes para crear historias, fashion boards o pose sheets
  • También son posibles resultados técnicos como wireframes, hologramas y representaciones 3D

Participación de la comunidad y agradecimientos

  • El material sigue ampliándose gracias a personas de la comunidad de IA que comparten casos reales
  • Se pueden proponer libremente nuevas ideas de uso o creaciones

Importancia y diferenciadores del proyecto

  • Es un repositorio de GitHub que concentra una gran cantidad de ejemplos de aplicación real de algoritmos recientes de generación de imágenes
  • Permite ver de un vistazo las opciones detalladas de los prompts de Nano-banana, los resultados generados y cómo aplicar cada caso
  • Ofrece alto valor de referencia y utilidad práctica para diseñadores, investigadores de IA, desarrolladores y cualquier otra persona
  • Cada ejemplo puede reutilizarse fácilmente según distintos objetivos de edición, generación y transformación de imágenes

1 comentarios

 
GN⁺ 2025-09-12
Comentarios de Hacker News
  • Me impresionó que Nano-Banana muestre resultados realmente sorprendentes. Tengo un sitio web de comparación de modelos de imagen de vanguardia donde el criterio principal es qué tan fielmente salen los resultados con distintos prompts de texto a imagen. Hace poco también agregué un Editing Comparison Showdown para evaluar la capacidad de editar localmente una imagen existente a partir de texto. Actualmente estoy comparando 6 modelos multimodales (Nano-Banana, Kontext Max, Qwen 20b, etc.). Se pueden ver los resultados aquí. Gemini Flash 2.5 va en primer lugar con 7 de 12 puntos, y Kontext tiene 5, lo cual es bastante impresionante considerando que incluso puedes ejecutar el modelo de desarrollo localmente
    • A mí me pasó muchas veces que, aunque le pida a Nano Banana cambiar algo importante de forma precisa, genera la misma imagen. A veces, de manera muy rara, sí da el resultado correcto. Si alguien más ha pasado por esto o sabe cómo resolverlo, me gustaría saberlo
    • Todavía no puede representar bien relojes (por ejemplo, un reloj marcando 1:15 am). Y el texto que genera en imágenes estilo cómic tampoco es 100% preciso
    • Recomiendo agregar gpt-image-1. Estrictamente no es un modelo de edición porque cambia píxeles globalmente, pero cuando se trata de prompts muy complejos y referencias de imagen, se siente más obediente que Nano Banana
  • Me impresiona que este modelo esté limitado solo por la imaginación y que cueste apenas $0.04 por imagen. No aparece en la página, pero este es el modelo de generación de imágenes de Google Gemini (documentación oficial). La colección de ejemplos también está bien. Pero me pareció un poco raro que el segundo ejemplo sea algo inapropiado para un entorno laboral
    • Quiero enfatizar que Nano Banana está especialmente optimizado para la edición de imágenes (más información)
    • Me pregunto si este modelo es realmente un solo modelo o un pipeline de modelos
  • Algunos ejemplos incluyen elementos NSFW. Compartir la URL principal puede ser delicado en gran parte de la industria tech de EE. UU., así que quizá convendría mostrar solo ejemplos individuales seguros. Para dar contexto, la mitad del caso 1 muestra a una mujer estilo anime/cómic con traje de maid posando con la falda levantada y la ropa interior visible. Me parece la parte más problemática entre los ejemplos que un visitante puede ver de inmediato en la primera página
    • De verdad me sorprendió que hayan generado ese ejemplo con ropa interior visible. Cuando yo usé Nano Banana (con el filtro de seguridad en "off"), me rechazó una imagen estilo manga de un casco de samurái maldito y un cadáver tirado en el suelo
    • Lo que más me incomodó fue que la imagen de referencia claramente era arte digital de alta calidad hecho por un artista. Más allá de los temas legales en el mundo de la IA/LLM, me parece éticamente incómodo usar así el trabajo de otra persona en documentación oficial
  • Sinceramente no entiendo por qué la gente está obteniendo buenos resultados. Lo probé aquí seleccionando Nano Banana (gemini-2.5-flash-image-preview) y los resultados fueron basura. Si subo una imagen de referencia de un personaje y una escena y le pido que ponga al personaje en esa escena, simplemente lo recorta y pega aunque el estilo y los colores no coincidan. ChatGPT me da mejores resultados (aunque a veces tampoco se parece, sigue siendo muchísimo mejor que algo hecho en 2 minutos con Paint). ¿Será que estoy usando el modelo equivocado?
    • A mí me pasa exactamente lo mismo. Cuando Nano Banana funciona, funciona muy bien, pero en el 90% de los casos el resultado sale raro o de baja calidad. Se siente como recorte y pegado o paint-over, y hasta rechaza solicitudes razonables por "seguridad" (según mi experiencia, las imágenes con personas reales casi siempre son imposibles). Más que impresionante, me resulta frustrante
    • En mi experiencia, Nano Banana usa copiar y pegar con mucho entusiasmo cuando cree que puede salirse con la suya. Hay que escribir el prompt de forma explícita, diciendo que el personaje debe integrarse naturalmente en la escena. O sea, si lo prompeas bien, es muchísimo mejor que otros modelos, pero el proceso de diseñar el prompt en sí es tedioso y molesto
    • Parece buena idea ir probando pequeñas variaciones del prompt, o pedirle a Gemini 2.5 pro que mejore el prompt y luego pasárselo a Gemini 2.5 Flash, iterando para aprender qué funciona
    • A mí también me da resultados absolutamente basura. Quise subir una foto de mi esposa (32 años) para ver cómo se vería con flequillo, pero casi todo fue rechazado por temas de seguridad. Cuando a veces sí funcionaba, la cara era completamente distinta. Solo una vez lo hizo bien, pero luego no permitió ajustar el flequillo, seguía devolviendo siempre el mismo resultado y entre medio aparecían muchos mensajes de "contenido bloqueado"
  • En lo personal, el rendimiento de este modelo está por debajo de lo que esperaba. Las imágenes de ejemplo parecen bastante seleccionadas. Comparto algunos casos donde falló para mí: no pudo quitar sombras fuertes del rostro en una foto; al pedir colorear una foto antigua en blanco y negro con un estilo nítido de DSLR moderna, apenas volvió los colores algo deslavados; al pedir una cuadrícula 3x3 de peinados, repetía una 2x3 y al final apenas logró 3x3 pero mezclando razas; y también fue incapaz de fusionar una imagen real con una generada (por ejemplo, una imagen de un delfín con tutú se veía como un vulgar copia y pega)
    • El ejemplo de resaltado AR de edificios me pareció genial. Con el mismo prompt, logra resaltar bien el edificio más obvio del skyline, pero si le pides otro edificio falla por completo. En una imagen de Midtown Manhattan le pedí que encontrara y resaltara el Chrysler Building y dijo que "no estaba en la imagen"; con 432 Park Ave apareció un edificio aleatorio en medio de la imagen. En una foto del Museum Campus de Chicago, al pedir un edificio específico, resaltó el Hancock Center aunque ni se veía. Las explicaciones también eran incorrectas, y a veces el texto salía roto
    • Los ejemplos tampoco son perfectos. El prompt de "mi foto a través de las épocas" cambió totalmente la cara pese a pedir "no cambies el rostro"; "OOTD Outfit" usó mal la cámara; "Virtual Makeup Try-On" falló al representar el maquillaje; "Lighting Control" controló fatal la iluminación; y "Design a Chess Set" decía que no necesitaba imagen de entrada, pero en realidad sí la necesitaba. Aun así, puede servir para quienes no usan Photoshop o para sacar un borrador inicial antes de trabajar a mano
    • La verdad, creo que es normal que cualquier demo promocional elija siempre sobre todo los mejores ejemplos
  • Hace poco publiqué un paquete para generar imágenes con Nano Banana fácilmente desde Python (link de github). Mientras lo probaba, noté una tendencia interesante de prompt engineering: a) usar listas en Markdown al estilo LLM y b) reutilizar keywords clásicas de estilo de imágenes de IA como "award-winning" o "DSLR camera" funciona muy bien con Gemini 2.5 Flash Image. Este modelo tiene un codificador de texto y un dataset de entrenamiento más grandes, así que distingue bien qué características tienen realmente esas fórmulas. La documentación para desarrolladores de Google también recomienda usar este tipo de keywords. Además, gracias a su ventana de contexto de 32k, se pueden hacer cosas curiosas como renderizar HTML como imagen o conseguir resultados consistentes con entradas JSON elaboradas
  • Me parece un avance increíble. Hasta hace no mucho, incluso lograr que el mismo personaje saliera varias veces de forma consistente era difícil. Ahora estamos viendo este nivel de combinación y consistencia. La velocidad a la que avanzan los modelos generativos es realmente impresionante. Gracias a quienes crearon esto y a quienes reunieron tantos ejemplos; ayuda muchísimo a entender qué herramienta es en la práctica
  • Hace poco me di cuenta de algo: antes me gustaba pensar que los humanos teníamos algo especial porque podíamos imaginar mentalmente cambios de peinado y ese tipo de cosas. Ahora, al ver que una máquina puede recrear esa capacidad de forma parecida o incluso mejor que mi propia imaginación, me incomoda un poco pensar que quizá mi imaginación tampoco era tan extraordinaria, así como no tengo una fuerza especial para levantar un perchero
    • Yo soy del tipo de persona que no puede formar imágenes mentales de esa manera y siempre piensa de forma intelectual y lógica, así que tu imaginación sigue siendo una capacidad especial. Para la gente normal, realmente se siente como un superpoder. Me gusta comparar la IA con Batman (muy poderoso si tiene dinero y cinturón de utilidades, pero inútil sin eso) y la imaginación humana con Superman (es una capacidad innata que siempre puedes sacar)
    • Creo que es muy especial poder ver una imagen imaginada en la mente y sentir alegría, reír, sorprenderse o impactarse por ella. Los humanos tienen una razón de ser y emociones; puedes mirar un atardecer y pensar en la dispersión de la luz, o simplemente disfrutar del asombro. Cada vez que uno recibe plenamente un instante, se siente como magia. El hecho de que yo pueda responderte y de que Hacker News exista ya parece un milagro
    • Yo tengo afantasía (o sea, incapacidad de imaginar imágenes mentalmente), así que me alegra que ahora todos puedan imaginar en igualdad de condiciones
    • Me pregunto si en el futuro las máquinas podrán crear por sí mismas nuevos estilos artísticos. Por ejemplo, el estilo manga/anime cambia con el tiempo; si los humanos dejaran de impulsar esa evolución, sería interesante ver si las máquinas podrían seguir desarrollándolo. En principio debería ser posible (los humanos también somos máquinas biológicas), pero con la arquitectura actual de la IA me parece algo todavía lejano
    • Siendo justos, esta capacidad del modelo existe gracias a los datos de entrenamiento que nosotros creamos
  • Estoy usando Nano Banana de forma muy útil. Lo ocupo para hacer libros para colorear basados en fotos para mi hijo y los hijos de mis amigos (ejemplos y código). Logra mantener bastante bien la estética de libro para colorear en blanco y negro, mientras conserva algo del detalle de las fotos originales
  • Me incomoda que haya tantos ejemplos de mujeres muy jóvenes sexualizadas. El caso 1/B muestra a un personaje femenino levantándose la falda para exhibir la ropa interior. Es un modelo bastante impresionante, pero siento que este tipo de contenido inmaduro arruina su PR. Según conté, había 26 ejemplos de mujeres jóvenes y 9 de hombres. Por cierto, solo faltó el clásico caso de 'Lena' (referencia a Lenna)
    • A mí también me incomodó al principio. No sé si es porque ambos ya envejecimos, pero me dio exactamente esa impresión
    • Hay que admitir que el impulso detrás del avance tecnológico siempre ha sido el deseo sexual, nos guste o no. VHS, pagos en línea, video en streaming... todo eso al final fue impulsado por esa demanda. También me acordé de la famosa canción "The Internet is for Porn"
    • Si investigas qué esculpían los escultores prehistóricos, te vas a sorprender todavía más. Leí los comentarios antes de revisar el sitio, y como el caso 1 era un niño y el siguiente era una maid sexy, mi primera preocupación fue: "ay no, espero que no hayan combinado esas dos cosas en una sola imagen".