- Proyecto experimental que probó varios modelos de IA generativa de imágenes con el mismo prompt para evaluar precisión, creatividad y consistencia
- Participaron 14 modelos en total, incluidos OpenAI 4o, Gemini 2.5 Flash, Imagen 4, Seedream 4, FLUX.1 dev y Midjourney v7
- Todos los modelos generaron imágenes sin usar funciones de inpainting ni edición, únicamente a partir de la descripción dada
- Cada prueba tuvo un criterio mínimo de aprobación claramente definido, y la tasa de éxito se calculó según si cumplían los elementos visuales requeridos
- Los resultados revelan diferencias de rendimiento entre modelos y muestran que entender conceptos complejos o generar estructuras matemáticas sigue siendo difícil
Resumen del experimento
- Se trata de un experimento comparativo tipo benchmark que evaluó la capacidad pura de generación de cada modelo con base en reglas estrictas
- Se prohibieron por completo funciones como inpainting, remix o instrucciones posteriores de modificación
- A cada modelo solo se le permitieron unas decenas de intentos por prompt
- Los criterios de evaluación se centraron en si se cumplían con precisión las condiciones visuales especificadas
Resultados principales de las pruebas
- The Prussian Ring Toss
- Escena de soldados prusianos lanzándose aros a los cascos con pincho entre sí
- 5 de 6 modelos cumplieron las condiciones, con la tasa de éxito más alta
- Nine-Pointed Star
- Tarea de generar con precisión una estrella de 9 puntas
- La mayoría de los modelos convergieron en formas pares y fallaron; solo 3 tuvieron éxito
- Spheron
- Pintura al óleo de Alejandro Magno luchando mientras monta un juguete ‘Hippity Hop’
- Evalúa la capacidad de combinar contexto histórico con objetos modernos; solo 4 modelos tuvieron éxito
- Cubed⁵
- Escena con 5 cubos de vidrio transparente apilados verticalmente en el orden rojo–azul–verde–morado–amarillo
- 5 modelos lo reprodujeron con precisión; la proporción vertical influyó mucho en la calidad del resultado
- Cephalopodic Puppet Show
- Escena en la que cada una de las 8 patas de un pulpo lleva un títere de calcetín
- Prueba que requiere comprensión conceptual; solo la mitad cumplió las condiciones
Casos de prueba adicionales
- Quantum Entangled Einstein: representación de Einstein y un foco de ideas relacionado con la mecánica cuántica → 3/6 éxitos
- The Yarrctic Circle: imagen de un pirata ártico con una prótesis de hielo → 6/6 éxitos
- The Labyrinth: generación de un laberinto 2D con entrada, salida y ruta claramente definidas → 1/6 éxitos
- A Dicey Situation: implementar en un dado de 20 caras (D20) caras grabadas solo con números primos → 0/6, todos fallaron
Análisis e implicaciones
- Más que en el estilo visual simple, los errores son frecuentes en estructuras lógicas y descripciones basadas en reglas
- La tasa de fallos es especialmente alta en prompts con condiciones precisas como texto, números, estructuras simétricas y orden de colores
- En cambio, en prompts narrativos que exigen emoción o imaginación, muestran una consistencia relativamente mayor
- En general, los modelos GenAI siguen mostrando limitaciones para comprender conceptos compuestos y reproducir estructuras con precisión
Resumen
- Este experimento es un intento interesante de medir la ‘verdadera capacidad de comprensión’ entre modelos de texto a imagen
- Incluso modelos recientes como Midjourney y OpenAI 4o fallaron por completo en algunas escenas lógicas
- Los resultados muestran que “entender un texto” y “visualizar con precisión su significado” son problemas distintos
- De cara al futuro, el reto clave para el avance de los modelos parece ser mejorar la coherencia entre el contexto lingüístico y la estructura visual
1 comentarios
Opiniones en Hacker News
Incluso bloquea cosas legales diciendo que “no están permitidas”, lo que se siente como si una empresa estuviera imponiendo la censura de 1964
GPT-5 además empieza cada conversación con frases de adulación como “Qué buena pregunta” o “Qué gran observación”, y eso lo hace aún más insoportable
Si entrenas datos de preferencias de usuarios con RLHF, el modelo termina desarrollando el efecto secundario de volverse un adulador compulsivo
Todos los LLM principales están así ahora mismo, pero aun así me parecen mejores que GPT-4o
ChatGPT es un producto orientado a empresas, así que si pudiera crear imágenes violentas o sexualmente sugerentes, ninguna gran corporación lo compraría
Lo digo con 100% de certeza por mi experiencia trabajando como comprador de software para empresas Fortune 500
Al no haber fecha, a primera vista parece que ambas se hicieron al mismo tiempo
Ojalá ambos lados de su almohada estén calientes
En realidad es una función para generar imágenes nuevas, pero parece que lo usan en el sentido de modificar una imagen existente
Modelos multimodales como Qwen3-VL-30B-A3B sí editan bien imágenes existentes. imagegpt.com también estaba bien, aunque no sé qué modelo usa
Como referencia, Qwen3-VL no es para generar ni editar imágenes, sino un modelo de razonamiento sobre imágenes
Probablemente hayan usado Qwen-Image-Edit en el backend
Por ejemplo, si le dabas el prompt “agregar cabello a un hombre calvo”, salía un resultado donde el original estaba modificado
Técnicamente es un proceso de generar una imagen nueva, pero creo que el concepto se parece a usar Save As en Photoshop
GPT-4o tiene una temperature baja, así que es más consistente pero menos creativo, mientras que Midjourney usa una temperature más alta para crear fondos y texturas más ricos
El tono sepia de 4o podría ser posprocesamiento
En la práctica, bien podría haber un flujo de trabajo de varias etapas para pulir la imagen final
Eso sí, los modelos basados en LLM sí usan con frecuencia reescritura de prompts (prompt rewriting)
El caso de DALL·E 3 está bien explicado en este texto
Estoy esperando feedback de los usuarios registrados
Enlace a Generative AI Review
Aun así, no termino de entender bien la estructura en la que, tras varios intentos, otro LLM hace la evaluación. Me pregunto si eso no tendrá una precisión limitada por sí mismo
Funciona con un esquema de PASS/FAIL: si no logra generar ni una sola imagen que coincida con el prompt, se considera un fracaso
La idea es una especie de prueba tipo Pictionary: “¿cualquier persona en la calle podría adivinar el prompt al verla?”
La evaluación final se decide manualmente con base en criterios claros
No puedes encerrar a un evaluador humano en una caja para que califique 7600 resultados
Claro, la evaluación por LLM tampoco es perfecta, pero en términos de comparabilidad y consistencia es mejor que la humana
Y mientras se use no como objetivo de optimización sino solo como termómetro de rendimiento, no hay gran problema
Pero si lo conviertes en objetivo de optimización, pueden salir resultados rarísimos como los de GPT-5