Showdown de imágenes GenAI

(genai-showdown.specr.net)

1 puntos por GN⁺ 2025-10-28 | 1 comentarios | Compartir por WhatsApp

Proyecto experimental que probó varios modelos de IA generativa de imágenes con el mismo prompt para evaluar precisión, creatividad y consistencia
Participaron 14 modelos en total, incluidos OpenAI 4o, Gemini 2.5 Flash, Imagen 4, Seedream 4, FLUX.1 dev y Midjourney v7
Todos los modelos generaron imágenes sin usar funciones de inpainting ni edición, únicamente a partir de la descripción dada
Cada prueba tuvo un criterio mínimo de aprobación claramente definido, y la tasa de éxito se calculó según si cumplían los elementos visuales requeridos
Los resultados revelan diferencias de rendimiento entre modelos y muestran que entender conceptos complejos o generar estructuras matemáticas sigue siendo difícil

Resumen del experimento

Se trata de un experimento comparativo tipo benchmark que evaluó la capacidad pura de generación de cada modelo con base en reglas estrictas
- Se prohibieron por completo funciones como inpainting, remix o instrucciones posteriores de modificación
- A cada modelo solo se le permitieron unas decenas de intentos por prompt
Los criterios de evaluación se centraron en si se cumplían con precisión las condiciones visuales especificadas

Resultados principales de las pruebas

The Prussian Ring Toss
- Escena de soldados prusianos lanzándose aros a los cascos con pincho entre sí
- 5 de 6 modelos cumplieron las condiciones, con la tasa de éxito más alta
Nine-Pointed Star
- Tarea de generar con precisión una estrella de 9 puntas
- La mayoría de los modelos convergieron en formas pares y fallaron; solo 3 tuvieron éxito
Spheron
- Pintura al óleo de Alejandro Magno luchando mientras monta un juguete ‘Hippity Hop’
- Evalúa la capacidad de combinar contexto histórico con objetos modernos; solo 4 modelos tuvieron éxito
Cubed⁵
- Escena con 5 cubos de vidrio transparente apilados verticalmente en el orden rojo–azul–verde–morado–amarillo
- 5 modelos lo reprodujeron con precisión; la proporción vertical influyó mucho en la calidad del resultado
Cephalopodic Puppet Show
- Escena en la que cada una de las 8 patas de un pulpo lleva un títere de calcetín
- Prueba que requiere comprensión conceptual; solo la mitad cumplió las condiciones

Casos de prueba adicionales

Quantum Entangled Einstein: representación de Einstein y un foco de ideas relacionado con la mecánica cuántica → 3/6 éxitos
The Yarrctic Circle: imagen de un pirata ártico con una prótesis de hielo → 6/6 éxitos
The Labyrinth: generación de un laberinto 2D con entrada, salida y ruta claramente definidas → 1/6 éxitos
A Dicey Situation: implementar en un dado de 20 caras (D20) caras grabadas solo con números primos → 0/6, todos fallaron

Análisis e implicaciones

Más que en el estilo visual simple, los errores son frecuentes en estructuras lógicas y descripciones basadas en reglas
La tasa de fallos es especialmente alta en prompts con condiciones precisas como texto, números, estructuras simétricas y orden de colores
En cambio, en prompts narrativos que exigen emoción o imaginación, muestran una consistencia relativamente mayor
En general, los modelos GenAI siguen mostrando limitaciones para comprender conceptos compuestos y reproducir estructuras con precisión

Resumen

Este experimento es un intento interesante de medir la ‘verdadera capacidad de comprensión’ entre modelos de texto a imagen
Incluso modelos recientes como Midjourney y OpenAI 4o fallaron por completo en algunas escenas lógicas
Los resultados muestran que “entender un texto” y “visualizar con precisión su significado” son problemas distintos
De cara al futuro, el reto clave para el avance de los modelos parece ser mejorar la coherencia entre el contexto lingüístico y la estructura visual

1 comentarios

GN⁺ 2025-10-28

Opiniones en Hacker News

Es realmente irritante usar GPT-4o y que la empresa se comporte como un árbitro moral, rechazando con frecuencia las solicitudes del usuario
Incluso bloquea cosas legales diciendo que “no están permitidas”, lo que se siente como si una empresa estuviera imponiendo la censura de 1964
GPT-5 además empieza cada conversación con frases de adulación como “Qué buena pregunta” o “Qué gran observación”, y eso lo hace aún más insoportable
- La gente criticó a Altman por permitir NSFW en ChatGPT, pero yo creo que esa es la dirección correcta para aflojar la censura corporativa
  Si entrenas datos de preferencias de usuarios con RLHF, el modelo termina desarrollando el efecto secundario de volverse un adulador compulsivo
  Todos los LLM principales están así ahora mismo, pero aun así me parecen mejores que GPT-4o
- Si pruebas modelos chinos, tienen muchas menos restricciones, aunque con algunas excepciones
- Nunca he visto software empresarial que permita NSFW
  ChatGPT es un producto orientado a empresas, así que si pudiera crear imágenes violentas o sexualmente sugerentes, ninguna gran corporación lo compraría
  Lo digo con 100% de certeza por mi experiencia trabajando como comprador de software para empresas Fortune 500
Me pareció raro que el artículo no tuviera fecha, pero revisando Wayback confirmé que la página de text-to-image se añadió en abril y la página de image editing en septiembre
Al no haber fecha, a primera vista parece que ambas se hicieron al mismo tiempo
- Seguro fue porque la gente de SEO los convenció de que los artículos sin fecha posicionan mejor en buscadores
  Ojalá ambos lados de su almohada estén calientes
- Sí, es contenido bastante viejo. En IA hoy en día, con una semana basta para que algo ya se sienta anticuado
Al principio el término “image editing” me confundió
En realidad es una función para generar imágenes nuevas, pero parece que lo usan en el sentido de modificar una imagen existente
Modelos multimodales como Qwen3-VL-30B-A3B sí editan bien imágenes existentes. imagegpt.com también estaba bien, aunque no sé qué modelo usa
- Después de recibir este comentario varias veces, pensé que hay que hacer que la barra de navegación superior destaque más
  Como referencia, Qwen3-VL no es para generar ni editar imágenes, sino un modelo de razonamiento sobre imágenes
  Probablemente hayan usado Qwen-Image-Edit en el backend
- En el sitio que vi, sí parecía que modificaba una imagen existente
  Por ejemplo, si le dabas el prompt “agregar cabello a un hombre calvo”, salía un resultado donde el original estaba modificado
  Técnicamente es un proceso de generar una imagen nueva, pero creo que el concepto se parece a usar Save As en Photoshop
El enlace real es https://genai-showdown.specr.net/image-editing
- Sí, este es el enlace para edición. El otro es para text-to-image
Supongo que internamente los modelos generan varias imágenes y solo muestran el mejor resultado
GPT-4o tiene una temperature baja, así que es más consistente pero menos creativo, mientras que Midjourney usa una temperature más alta para crear fondos y texturas más ricos
El tono sepia de 4o podría ser posprocesamiento
En la práctica, bien podría haber un flujo de trabajo de varias etapas para pulir la imagen final
- Si corres modelos de imagen localmente, te das cuenta de que la mayoría de los modelos alojados no generan varias veces, sino que se ejecutan una sola vez
  Eso sí, los modelos basados en LLM sí usan con frecuencia reescritura de prompts (prompt rewriting)
  El caso de DALL·E 3 está bien explicado en este texto
- Sería más interesante si mostraran cuántos intentos de generación hubo y los resultados para cada prompt
Vi “Alexander the Great on a Hippity Hop” y le di upvote de inmediato
- Yo también me había olvidado por completo de ese juguete, pero al verlo me trajo recuerdos de la infancia
- Aun así, me gusta más la imagen quimera de caballo
Si quieres hacer pruebas comparativas de modelos de imagen, puedes intentarlo gratis en BrandImageGen.com
Estoy esperando feedback de los usuarios registrados
Alguien pregunta dónde está el meme de “no dibujes un elefante verde” y encuentra que fue sugerido en la discusión de GitHub
Publican un artículo con una reseña comparativa de varias herramientas de generación de imágenes
Enlace a Generative AI Review
Gracias a “Editing Showdown” me enteré por primera vez del modelo Seedream
Aun así, no termino de entender bien la estructura en la que, tras varios intentos, otro LLM hace la evaluación. Me pregunto si eso no tendrá una precisión limitada por sí mismo
- En el FAQ dejan claros los criterios de evaluación
  Funciona con un esquema de PASS/FAIL: si no logra generar ni una sola imagen que coincida con el prompt, se considera un fracaso
  La idea es una especie de prueba tipo Pictionary: “¿cualquier persona en la calle podría adivinar el prompt al verla?”
  La evaluación final se decide manualmente con base en criterios claros
- Que un LLM evalúe a otro LLM es el estándar de la industria
  No puedes encerrar a un evaluador humano en una caja para que califique 7600 resultados
  Claro, la evaluación por LLM tampoco es perfecta, pero en términos de comparabilidad y consistencia es mejor que la humana
  Y mientras se use no como objetivo de optimización sino solo como termómetro de rendimiento, no hay gran problema
  Pero si lo conviertes en objetivo de optimización, pueden salir resultados rarísimos como los de GPT-5

Showdown de imágenes GenAI

Resumen del experimento

Resultados principales de las pruebas

Casos de prueba adicionales

Análisis e implicaciones

Resumen

Lecturas relacionadas

1 comentarios

Opiniones en Hacker News