Análisis comparativo del rendimiento de modelos de edición de imágenes con IA de texto a imagen

(genai-showdown.specr.net)

3 puntos por baeba 2025-10-29 | Aún no hay comentarios. | Compartir por WhatsApp

Resumen del análisis comparativo del rendimiento de modelos de edición de imágenes basados en texto

Puntos clave:
- Se evaluó la capacidad de 7 modelos recientes de edición de imágenes basada en texto para realizar 12 tareas de edición.
- Seedream 4 mostró el mejor rendimiento con 9 éxitos de 12, seguido por Gemini 2.5 Flash con 7 éxitos.
- La evaluación se realizó bajo reglas estrictas de edición con un solo prompt (One-shot) y sin enmascarado manual (Non-masked).
- Los modelos mostraron bajas tasas de éxito en instrucciones complejas como intercambiar posiciones espaciales y eliminar selectivamente elementos específicos.

Objetivo de la evaluación: comparar y analizar el rendimiento de varios modelos modernos (SOTA) de edición de imágenes, centrándose en la modificación de imágenes a partir de instrucciones de texto (Text-instructed).
Modelos evaluados (7): Seedream 4, Gemini 2.5 Flash, Qwen-Image-Edit, FLUX.1 Kontext [dev], OpenAI gpt-image-1, OmniGen2 (y 1 modelo adicional fue excluido de la lista).
Tareas de evaluación: se presentaron un total de 12 prompts y desafíos de edición de distintos tipos y niveles de dificultad.
Reglas de la competencia:
- Principio de intento único (Single-attempt): no se permite editar repetidamente la misma imagen usando prompts de corrección sucesivos; el objetivo debe lograrse en un solo intento.
- Edición puramente basada en texto (Purely text-based): la edición de imágenes debe realizarse únicamente mediante instrucciones de texto, por lo que no se permiten funciones como img2img o el enmascarado manual (Manual Masking) para inpainting.

Mejor rendimiento: Seedream 4 mostró el desempeño más destacado con 9 éxitos de 12 tareas.
Segundo mejor rendimiento: Gemini 2.5 Flash quedó en el siguiente lugar con 7 éxitos.
Grupo medio: Qwen-Image-Edit registró 6 éxitos y FLUX.1 Kontext [dev] 5.
Grupo inferior: OpenAI gpt-image-1 logró 4 éxitos y OmniGen2 apenas 1.

'SHRDLU' (intercambio de posición de bloques): los 6 modelos fallaron (0/6). La mayoría solo intercambió el color de los bloques y no su posición; Gemini 2.5 Flash y Seedream 4 también solo cambiaron los colores.
'Enderezar la Torre de Pisa inclinada': 2 éxitos de 6 (2/6). Requiere reconocimiento espacial básico, y los modelos tuvieron dificultades para corregir verticalmente solo un objeto específico mientras preservaban el resto del entorno.

'Cambiar Jaws por Paws y otras ediciones múltiples': 5 éxitos de 6 (5/6). Requiere realizar varios cambios al mismo tiempo; OmniGen2 logró la edición, pero no conservó el estilo estético original.
'Agregar cabello a un hombre con barba': 4 éxitos de 6 (4/6). El resultado de Gemini 2.5 Flash fue aceptable, pero el cabello se veía demasiado puntiagudo, mientras que OpenAI gpt-image-1 alteró toda la imagen.
'Cambiar cartas de hwatu': 3 éxitos de 6 (3/6). En la prueba de capacidad de edición selectiva, que consistía en cambiar solo una carta específica (King of Spades) y dejar intacta otra (Ace of Spades), Qwen-Image-Edit modificó también el Ace of Spades de forma no deseada.

'Acortar el cuello de la jirafa': 1 éxito de 6 (1/6). La mayoría de los modelos no logró acortar el cuello de la jirafa o, en el caso de Qwen-Image-Edit, eliminó por completo todo el cuello, interpretando el prompt de forma anómala.
'Eliminar el dulce marrón de M&M': 1 éxito de 6 (1/6). Tuvieron dificultades para eliminar selectivamente (o cambiar el color de) solo los dulces de un color específico; Gemini 2.5 Flash generó una nueva disposición de dulces.
'Reemplazar el canguro de un letrero viejo por la silueta de un gusano de arena': 1 éxito de 6 (1/6). Mostraron carencias para insertar un nuevo elemento mientras preservaban la textura envejecida del letrero original, como rayones y óxido.

Características de los mejores modelos: Seedream 4 y Gemini 2.5 Flash mostraron un rendimiento sólido en general, pero todavía tienen limitaciones para comprender y reflejar por completo instrucciones de texto complejas y sutiles.
Principales tipos de fallo: los modelos registraron de forma consistente bajas tasas de éxito en tareas que exigen comprensión precisa de relaciones espaciales y edición selectiva y preservación de detalles finos específicos dentro de la imagen.
Direcciones de mejora futura:
- GPT-image-1 mostró con frecuencia una tendencia a modificar toda la imagen de manera no intencional, por lo que necesita mejorar la precisión para localizar el área de edición.
- En algunos modelos como 'FLUX.1 Kontext [dev]' y 'Kontext Max', se observó el resultado inusual de que un modelo más grande rindiera peor que una versión de desarrollo más pequeña, por lo que se requiere analizar cómo influye el tipo de datos de entrenamiento (fotografías vs. ilustraciones) en el rendimiento.
- En tareas difíciles de resolver con un solo prompt (por ejemplo, cambiar el diseño de una carta), es necesario evolucionar el método de prueba hacia un enfoque que acepte múltiples imágenes como entrada para usarlas como referencia.