- Contenido en formato de comparación de resultados entre varias herramientas de edición de imágenes con IA generativa
- Estructura orientada a comparar visualmente los resultados de edición generados por cada herramienta a partir de la misma entrada
- En la página aparece la frase “Loading editing comparisons...”, lo que indica que la comparación de edición se está cargando
- Aparte del título, no se proporcionan nombres concretos de herramientas, criterios de comparación ni descripciones de resultados
- En general, parece ser una interfaz para comparar el rendimiento de edición de imágenes con IA, pero el contenido original no incluye detalles
Resumen de la página
- El título es “Generative AI Image Editing Showdown”, lo que sugiere una comparación entre varios modelos de edición de imágenes con IA
- En el cuerpo solo aparece la frase “Loading editing comparisons...”, por lo que no se incluyen resultados de la comparación ni explicaciones
- En el original no hay texto adicional, datos, imágenes, lista de herramientas ni criterios de evaluación
Limitaciones de la información proporcionada
- En el original no hay una descripción concreta de los resultados de edición ni del contenido de la comparación
- Por lo tanto, no se especifican el objetivo de la comparación, los modelos de IA utilizados ni el método de evaluación
- En conjunto, el contenido parece estar en estado de carga, por lo que no se ofrece información sustancial
1 comentarios
Opiniones de Hacker News
Todo el mundo está subestimando Gemini 2.5 Flash Image / Nano Banana
Es mucho más potente que otros modelos y cuesta lo mismo por imagen, además de que gracias a su codificador de texto puede manejar prompts mucho más complejos y sutiles
Publiqué ejemplos con el paquete de Python gemimg que hice, y también estoy preparando una entrada de blog con casos más variados
En AI Studio de Google incluso permite generación gratuita con control de proporción
Aun así, fue inesperado que Seedream 4.0 ganara en esta prueba
Dejando de lado las funciones integradas de ChatGPT o la moda del estilo Ghibli, creo que es uno de los modelos de edición de imágenes más conocidos
Para mi uso no es un gran problema, pero para quien necesite consistencia en el color, Nano Banana podría ser mejor
Ni siquiera eran solicitudes al borde del copyright, pero estos errores son frecuentes
Aun así, cuando funciona los resultados son muy impresionantes
En el segundo intento primero saqué una lista de objetos desordenados con análisis de imagen, y luego los eliminé con el prompt; el resultado fue mucho mejor
Al final, volví a sentir la importancia de la ingeniería de prompts
Flux es sorprendentemente bueno, pero la mayoría de la gente, incluyéndome, termina usando por defecto modelos familiares como ChatGPT o Gemini
Este tipo de comparaciones son mucho más prácticas que los gráficos de benchmarks
Uso Nano Banana con frecuencia, pero es débil para editar arquitectura exterior o paisajismo
Cosas como banquetas, drenajes o igualación de color son casi imposibles
Nano Banana también maneja mal los contornos, así que la foto queda desfasada
Viéndolo desde la perspectiva de quien marcó la referencia en 2022, los demos actuales son impresionantes a un nivel incomparable con la era de SD1·2·3
Parece que ya llegó la época en la que los modelos realmente entienden los prompts y las imágenes
Es un momento en que la creatividad se expande de forma explosiva a medida que la ingeniería sigue avanzando
Cambiar el prompt o la cantidad de intentos, y luego mostrar solo el resultado que más te gustó, diluye la objetividad de la prueba
Hacen falta condiciones unificadas, como 5 generaciones para todos los modelos con el mismo prompt y seed
Por ejemplo, a Gemini 2.5 Flash se le dio demasiada libertad en la prueba de “Girl with Pearl Earring”,
mientras que OpenAI gpt-image-1 fue marcado como fracaso aunque produjo un resultado mucho mejor con menos intentos
En una publicación que subí al blog de Replicate, comparé directamente varios modelos
Entre ellos, Qwen Image Edit fue el más barato y rápido, y además resolvió bien la mayoría de las tareas de edición
Si hiciera una app de edición de imágenes, probablemente elegiría ese modelo
La comparación en sí fue interesante, pero la imagen final de la jirafa no se acortó, solo se dobló el cuerpo
Aun así, terminé eligiendo seguido los resultados de Gemini, y me gustaría que hubiera una evaluación en escala de 10 puntos en vez de pass/fail
Si existiera una exhibición así de verdad, definitivamente iría
Últimamente casi no genero imágenes con IA
Hace como año y medio estaba de moda correr modelos localmente, pero ahora casi todo se ha movido a lo basado en la nube
Aun así, en la edición de fotos reales todavía se siente una textura poco natural en alguna parte
Por ejemplo, el cabello de las personas se ve demasiado brillante, o los árboles parecen de plástico
Sí se puede correr Flux Kontext localmente, pero hay que generar lento con un modelo cuantizado, así que es ineficiente
Además, como ya puedes crear imágenes gratis en ChatGPT, hay menos razones para insistir en lo local
En la prueba del cabello, solo Gemini 2.5 Flash acertó bien con el color y la textura,
mientras que Seedream 4 tenía el problema de cambiar toda la corrección de color, así que no lo prefiero
Creo que estaría bien incluir también a Reve en la prueba
Quitó el objeto que sostenía el personaje, hizo que mirara a la cámara y hasta ajustó la postura de forma natural
Además, los 4 resultados tenían una calidad lo bastante alta como para usarse
Después leí la presentación del modelo de Reve y decidí registrarme de inmediato
El intento estuvo bien, pero un prompt incorrecto como “la torre del dibujo está inclinada hacia la derecha” solo hace que el modelo la incline todavía más
Como ajusto el prompt según el modelo, el número de intentos terminó siendo diferente
En general fue una prueba divertida
Hay quienes señalan que los prompts no eran perfectos, pero justo por eso se siente realista, porque están al nivel de lo que probablemente escribiría un usuario común
Como se explica en el FAQ, pruebo varias versiones del prompt para evitar que el modelo se quede atrapado en palabras específicas
Por ejemplo, frases imperativas como “Turn on the lights” no son simples instrucciones,
sino prompts para poner a prueba la capacidad de comprensión de los LLM multimodales
Ese tipo de frases jamás funcionarían en modelos tradicionales como SDXL