Duelo de edición de imágenes con IA generativa

(genai-showdown.specr.net)

1 puntos por GN⁺ 2025-10-30 | 1 comentarios | Compartir por WhatsApp

Contenido en formato de comparación de resultados entre varias herramientas de edición de imágenes con IA generativa
Estructura orientada a comparar visualmente los resultados de edición generados por cada herramienta a partir de la misma entrada
En la página aparece la frase “Loading editing comparisons...”, lo que indica que la comparación de edición se está cargando
Aparte del título, no se proporcionan nombres concretos de herramientas, criterios de comparación ni descripciones de resultados
En general, parece ser una interfaz para comparar el rendimiento de edición de imágenes con IA, pero el contenido original no incluye detalles

Resumen de la página

El título es “Generative AI Image Editing Showdown”, lo que sugiere una comparación entre varios modelos de edición de imágenes con IA
En el cuerpo solo aparece la frase “Loading editing comparisons...”, por lo que no se incluyen resultados de la comparación ni explicaciones
En el original no hay texto adicional, datos, imágenes, lista de herramientas ni criterios de evaluación

Limitaciones de la información proporcionada

En el original no hay una descripción concreta de los resultados de edición ni del contenido de la comparación
Por lo tanto, no se especifican el objetivo de la comparación, los modelos de IA utilizados ni el método de evaluación
En conjunto, el contenido parece estar en estado de carga, por lo que no se ofrece información sustancial

1 comentarios

GN⁺ 2025-10-30

Opiniones de Hacker News

Todo el mundo está subestimando Gemini 2.5 Flash Image / Nano Banana
Es mucho más potente que otros modelos y cuesta lo mismo por imagen, además de que gracias a su codificador de texto puede manejar prompts mucho más complejos y sutiles
Publiqué ejemplos con el paquete de Python gemimg que hice, y también estoy preparando una entrada de blog con casos más variados
En AI Studio de Google incluso permite generación gratuita con control de proporción
Aun así, fue inesperado que Seedream 4.0 ganara en esta prueba
- La verdad es que Nano Banana sí se volvió bastante viral cuando salió
  Dejando de lado las funciones integradas de ChatGPT o la moda del estilo Ghibli, creo que es uno de los modelos de edición de imágenes más conocidos
- Seedream tuvo ventaja en fidelidad al prompt, pero tiende a provocar ligeros cambios en los gradientes de color
  Para mi uso no es un gran problema, pero para quien necesite consistencia en el color, Nano Banana podría ser mejor
- Como la mitad de las veces que uso Nano Banana, AI Studio dice que falló sin razón
  Ni siquiera eran solicitudes al borde del copyright, pero estos errores son frecuentes
  Aun así, cuando funciona los resultados son muy impresionantes
- Usé Nano Banana para ordenar una foto de mi cocina desordenada y al principio falló por completo
  En el segundo intento primero saqué una lista de objetos desordenados con análisis de imagen, y luego los eliminé con el prompt; el resultado fue mucho mejor
  Al final, volví a sentir la importancia de la ingeniería de prompts
- Gemini es excelente cuando funciona bien, pero a veces da resultados totalmente fuera de lugar y no acierta sin importar qué prompt uses
  Flux es sorprendentemente bueno, pero la mayoría de la gente, incluyéndome, termina usando por defecto modelos familiares como ChatGPT o Gemini
Este tipo de comparaciones son mucho más prácticas que los gráficos de benchmarks
Uso Nano Banana con frecuencia, pero es débil para editar arquitectura exterior o paisajismo
Cosas como banquetas, drenajes o igualación de color son casi imposibles
- Yo hago experimentos con Qwen Image Edit para convertir fotos diurnas en nocturnas, y la mayoría de los modelos falla en la alineación de bordes
  Nano Banana también maneja mal los contornos, así que la foto queda desfasada
Viéndolo desde la perspectiva de quien marcó la referencia en 2022, los demos actuales son impresionantes a un nivel incomparable con la era de SD1·2·3
Parece que ya llegó la época en la que los modelos realmente entienden los prompts y las imágenes
Es un momento en que la creatividad se expande de forma explosiva a medida que la ingeniería sigue avanzando
Cambiar el prompt o la cantidad de intentos, y luego mostrar solo el resultado que más te gustó, diluye la objetividad de la prueba
Hacen falta condiciones unificadas, como 5 generaciones para todos los modelos con el mismo prompt y seed
Por ejemplo, a Gemini 2.5 Flash se le dio demasiada libertad en la prueba de “Girl with Pearl Earring”,
mientras que OpenAI gpt-image-1 fue marcado como fracaso aunque produjo un resultado mucho mejor con menos intentos
- Como referencia, el ejemplo de gpt-image-1 era para la prueba de “You Only Move Twice”
- Mejor aún, si se hiciera una competencia de “la peor imagen”, quedaría más claro qué modelo resulta menos frustrante
En una publicación que subí al blog de Replicate, comparé directamente varios modelos
Entre ellos, Qwen Image Edit fue el más barato y rápido, y además resolvió bien la mayoría de las tareas de edición
Si hiciera una app de edición de imágenes, probablemente elegiría ese modelo
La comparación en sí fue interesante, pero la imagen final de la jirafa no se acortó, solo se dobló el cuerpo
Aun así, terminé eligiendo seguido los resultados de Gemini, y me gustaría que hubiera una evaluación en escala de 10 puntos en vez de pass/fail
- La expresión “jirafa doblada de forma rara” me dio muchísima risa
  Si existiera una exhibición así de verdad, definitivamente iría
Últimamente casi no genero imágenes con IA
Hace como año y medio estaba de moda correr modelos localmente, pero ahora casi todo se ha movido a lo basado en la nube
Aun así, en la edición de fotos reales todavía se siente una textura poco natural en alguna parte
Por ejemplo, el cabello de las personas se ve demasiado brillante, o los árboles parecen de plástico
- El tamaño de los modelos de imagen y sus requisitos de cómputo crecieron tanto que ya es difícil autoalojarlos de forma individual
  Sí se puede correr Flux Kontext localmente, pero hay que generar lento con un modelo cuantizado, así que es ineficiente
  Además, como ya puedes crear imágenes gratis en ChatGPT, hay menos razones para insistir en lo local
  En la prueba del cabello, solo Gemini 2.5 Flash acertó bien con el color y la textura,
  mientras que Seedream 4 tenía el problema de cambiar toda la corrección de color, así que no lo prefiero
Creo que estaría bien incluir también a Reve en la prueba
- Con Nano Banana no pude cambiar bien la dirección de la mirada del personaje, pero Reve dio un resultado perfecto en el primer intento
  Quitó el objeto que sostenía el personaje, hizo que mirara a la cámara y hasta ajustó la postura de forma natural
  Además, los 4 resultados tenían una calidad lo bastante alta como para usarse
  Después leí la presentación del modelo de Reve y decidí registrarme de inmediato
- Gracias por la recomendación, luego lo agregaré a la lista de pruebas
- Gracias por el buen tip
El intento estuvo bien, pero un prompt incorrecto como “la torre del dibujo está inclinada hacia la derecha” solo hace que el modelo la incline todavía más
- Esa frase no era el prompt de entrada real, sino una frase inicial
  Como ajusto el prompt según el modelo, el número de intentos terminó siendo diferente
En general fue una prueba divertida
Hay quienes señalan que los prompts no eran perfectos, pero justo por eso se siente realista, porque están al nivel de lo que probablemente escribiría un usuario común
- Llevo trabajando con prompts desde la época de SD 1.5, así que conozco bien las variaciones de prompt que necesita cada modelo
  Como se explica en el FAQ, pruebo varias versiones del prompt para evitar que el modelo se quede atrapado en palabras específicas
  Por ejemplo, frases imperativas como “Turn on the lights” no son simples instrucciones,
  sino prompts para poner a prueba la capacidad de comprensión de los LLM multimodales
  Ese tipo de frases jamás funcionarían en modelos tradicionales como SDXL

Duelo de edición de imágenes con IA generativa

Resumen de la página

Limitaciones de la información proporcionada

Lecturas relacionadas

1 comentarios

Opiniones de Hacker News