1 puntos por GN⁺ 2025-10-28 | 1 comentarios | Compartir por WhatsApp
  • Proyecto experimental que probó varios modelos de IA generativa de imágenes con el mismo prompt para evaluar precisión, creatividad y consistencia
  • Participaron 14 modelos en total, incluidos OpenAI 4o, Gemini 2.5 Flash, Imagen 4, Seedream 4, FLUX.1 dev y Midjourney v7
  • Todos los modelos generaron imágenes sin usar funciones de inpainting ni edición, únicamente a partir de la descripción dada
  • Cada prueba tuvo un criterio mínimo de aprobación claramente definido, y la tasa de éxito se calculó según si cumplían los elementos visuales requeridos
  • Los resultados revelan diferencias de rendimiento entre modelos y muestran que entender conceptos complejos o generar estructuras matemáticas sigue siendo difícil

Resumen del experimento

  • Se trata de un experimento comparativo tipo benchmark que evaluó la capacidad pura de generación de cada modelo con base en reglas estrictas
    • Se prohibieron por completo funciones como inpainting, remix o instrucciones posteriores de modificación
    • A cada modelo solo se le permitieron unas decenas de intentos por prompt
  • Los criterios de evaluación se centraron en si se cumplían con precisión las condiciones visuales especificadas

Resultados principales de las pruebas

  • The Prussian Ring Toss
    • Escena de soldados prusianos lanzándose aros a los cascos con pincho entre sí
    • 5 de 6 modelos cumplieron las condiciones, con la tasa de éxito más alta
  • Nine-Pointed Star
    • Tarea de generar con precisión una estrella de 9 puntas
    • La mayoría de los modelos convergieron en formas pares y fallaron; solo 3 tuvieron éxito
  • Spheron
    • Pintura al óleo de Alejandro Magno luchando mientras monta un juguete ‘Hippity Hop’
    • Evalúa la capacidad de combinar contexto histórico con objetos modernos; solo 4 modelos tuvieron éxito
  • Cubed⁵
    • Escena con 5 cubos de vidrio transparente apilados verticalmente en el orden rojo–azul–verde–morado–amarillo
    • 5 modelos lo reprodujeron con precisión; la proporción vertical influyó mucho en la calidad del resultado
  • Cephalopodic Puppet Show
    • Escena en la que cada una de las 8 patas de un pulpo lleva un títere de calcetín
    • Prueba que requiere comprensión conceptual; solo la mitad cumplió las condiciones

Casos de prueba adicionales

  • Quantum Entangled Einstein: representación de Einstein y un foco de ideas relacionado con la mecánica cuántica → 3/6 éxitos
  • The Yarrctic Circle: imagen de un pirata ártico con una prótesis de hielo → 6/6 éxitos
  • The Labyrinth: generación de un laberinto 2D con entrada, salida y ruta claramente definidas → 1/6 éxitos
  • A Dicey Situation: implementar en un dado de 20 caras (D20) caras grabadas solo con números primos → 0/6, todos fallaron

Análisis e implicaciones

  • Más que en el estilo visual simple, los errores son frecuentes en estructuras lógicas y descripciones basadas en reglas
  • La tasa de fallos es especialmente alta en prompts con condiciones precisas como texto, números, estructuras simétricas y orden de colores
  • En cambio, en prompts narrativos que exigen emoción o imaginación, muestran una consistencia relativamente mayor
  • En general, los modelos GenAI siguen mostrando limitaciones para comprender conceptos compuestos y reproducir estructuras con precisión

Resumen

  • Este experimento es un intento interesante de medir la ‘verdadera capacidad de comprensión’ entre modelos de texto a imagen
  • Incluso modelos recientes como Midjourney y OpenAI 4o fallaron por completo en algunas escenas lógicas
  • Los resultados muestran que “entender un texto” y “visualizar con precisión su significado” son problemas distintos
  • De cara al futuro, el reto clave para el avance de los modelos parece ser mejorar la coherencia entre el contexto lingüístico y la estructura visual

1 comentarios

 
GN⁺ 2025-10-28
Opiniones en Hacker News
  • Es realmente irritante usar GPT-4o y que la empresa se comporte como un árbitro moral, rechazando con frecuencia las solicitudes del usuario
    Incluso bloquea cosas legales diciendo que “no están permitidas”, lo que se siente como si una empresa estuviera imponiendo la censura de 1964
    GPT-5 además empieza cada conversación con frases de adulación como “Qué buena pregunta” o “Qué gran observación”, y eso lo hace aún más insoportable
    • La gente criticó a Altman por permitir NSFW en ChatGPT, pero yo creo que esa es la dirección correcta para aflojar la censura corporativa
      Si entrenas datos de preferencias de usuarios con RLHF, el modelo termina desarrollando el efecto secundario de volverse un adulador compulsivo
      Todos los LLM principales están así ahora mismo, pero aun así me parecen mejores que GPT-4o
    • Si pruebas modelos chinos, tienen muchas menos restricciones, aunque con algunas excepciones
    • Nunca he visto software empresarial que permita NSFW
      ChatGPT es un producto orientado a empresas, así que si pudiera crear imágenes violentas o sexualmente sugerentes, ninguna gran corporación lo compraría
      Lo digo con 100% de certeza por mi experiencia trabajando como comprador de software para empresas Fortune 500
  • Me pareció raro que el artículo no tuviera fecha, pero revisando Wayback confirmé que la página de text-to-image se añadió en abril y la página de image editing en septiembre
    Al no haber fecha, a primera vista parece que ambas se hicieron al mismo tiempo
    • Seguro fue porque la gente de SEO los convenció de que los artículos sin fecha posicionan mejor en buscadores
      Ojalá ambos lados de su almohada estén calientes
    • Sí, es contenido bastante viejo. En IA hoy en día, con una semana basta para que algo ya se sienta anticuado
  • Al principio el término “image editing” me confundió
    En realidad es una función para generar imágenes nuevas, pero parece que lo usan en el sentido de modificar una imagen existente
    Modelos multimodales como Qwen3-VL-30B-A3B sí editan bien imágenes existentes. imagegpt.com también estaba bien, aunque no sé qué modelo usa
    • Después de recibir este comentario varias veces, pensé que hay que hacer que la barra de navegación superior destaque más
      Como referencia, Qwen3-VL no es para generar ni editar imágenes, sino un modelo de razonamiento sobre imágenes
      Probablemente hayan usado Qwen-Image-Edit en el backend
    • En el sitio que vi, sí parecía que modificaba una imagen existente
      Por ejemplo, si le dabas el prompt “agregar cabello a un hombre calvo”, salía un resultado donde el original estaba modificado
      Técnicamente es un proceso de generar una imagen nueva, pero creo que el concepto se parece a usar Save As en Photoshop
  • El enlace real es https://genai-showdown.specr.net/image-editing
    • Sí, este es el enlace para edición. El otro es para text-to-image
  • Supongo que internamente los modelos generan varias imágenes y solo muestran el mejor resultado
    GPT-4o tiene una temperature baja, así que es más consistente pero menos creativo, mientras que Midjourney usa una temperature más alta para crear fondos y texturas más ricos
    El tono sepia de 4o podría ser posprocesamiento
    En la práctica, bien podría haber un flujo de trabajo de varias etapas para pulir la imagen final
    • Si corres modelos de imagen localmente, te das cuenta de que la mayoría de los modelos alojados no generan varias veces, sino que se ejecutan una sola vez
      Eso sí, los modelos basados en LLM sí usan con frecuencia reescritura de prompts (prompt rewriting)
      El caso de DALL·E 3 está bien explicado en este texto
    • Sería más interesante si mostraran cuántos intentos de generación hubo y los resultados para cada prompt
  • Vi “Alexander the Great on a Hippity Hop” y le di upvote de inmediato
    • Yo también me había olvidado por completo de ese juguete, pero al verlo me trajo recuerdos de la infancia
    • Aun así, me gusta más la imagen quimera de caballo
  • Si quieres hacer pruebas comparativas de modelos de imagen, puedes intentarlo gratis en BrandImageGen.com
    Estoy esperando feedback de los usuarios registrados
  • Alguien pregunta dónde está el meme de “no dibujes un elefante verde” y encuentra que fue sugerido en la discusión de GitHub
  • Publican un artículo con una reseña comparativa de varias herramientas de generación de imágenes
    Enlace a Generative AI Review
  • Gracias a “Editing Showdown” me enteré por primera vez del modelo Seedream
    Aun así, no termino de entender bien la estructura en la que, tras varios intentos, otro LLM hace la evaluación. Me pregunto si eso no tendrá una precisión limitada por sí mismo
    • En el FAQ dejan claros los criterios de evaluación
      Funciona con un esquema de PASS/FAIL: si no logra generar ni una sola imagen que coincida con el prompt, se considera un fracaso
      La idea es una especie de prueba tipo Pictionary: “¿cualquier persona en la calle podría adivinar el prompt al verla?”
      La evaluación final se decide manualmente con base en criterios claros
    • Que un LLM evalúe a otro LLM es el estándar de la industria
      No puedes encerrar a un evaluador humano en una caja para que califique 7600 resultados
      Claro, la evaluación por LLM tampoco es perfecta, pero en términos de comparabilidad y consistencia es mejor que la humana
      Y mientras se use no como objetivo de optimización sino solo como termómetro de rendimiento, no hay gran problema
      Pero si lo conviertes en objetivo de optimización, pueden salir resultados rarísimos como los de GPT-5