1 puntos por GN⁺ 2025-10-30 | 1 comentarios | Compartir por WhatsApp
  • Contenido en formato de comparación de resultados entre varias herramientas de edición de imágenes con IA generativa
  • Estructura orientada a comparar visualmente los resultados de edición generados por cada herramienta a partir de la misma entrada
  • En la página aparece la frase “Loading editing comparisons...”, lo que indica que la comparación de edición se está cargando
  • Aparte del título, no se proporcionan nombres concretos de herramientas, criterios de comparación ni descripciones de resultados
  • En general, parece ser una interfaz para comparar el rendimiento de edición de imágenes con IA, pero el contenido original no incluye detalles

Resumen de la página

  • El título es “Generative AI Image Editing Showdown”, lo que sugiere una comparación entre varios modelos de edición de imágenes con IA
  • En el cuerpo solo aparece la frase “Loading editing comparisons...”, por lo que no se incluyen resultados de la comparación ni explicaciones
  • En el original no hay texto adicional, datos, imágenes, lista de herramientas ni criterios de evaluación

Limitaciones de la información proporcionada

  • En el original no hay una descripción concreta de los resultados de edición ni del contenido de la comparación
  • Por lo tanto, no se especifican el objetivo de la comparación, los modelos de IA utilizados ni el método de evaluación
  • En conjunto, el contenido parece estar en estado de carga, por lo que no se ofrece información sustancial

1 comentarios

 
GN⁺ 2025-10-30
Opiniones de Hacker News
  • Todo el mundo está subestimando Gemini 2.5 Flash Image / Nano Banana
    Es mucho más potente que otros modelos y cuesta lo mismo por imagen, además de que gracias a su codificador de texto puede manejar prompts mucho más complejos y sutiles
    Publiqué ejemplos con el paquete de Python gemimg que hice, y también estoy preparando una entrada de blog con casos más variados
    En AI Studio de Google incluso permite generación gratuita con control de proporción
    Aun así, fue inesperado que Seedream 4.0 ganara en esta prueba

    • La verdad es que Nano Banana sí se volvió bastante viral cuando salió
      Dejando de lado las funciones integradas de ChatGPT o la moda del estilo Ghibli, creo que es uno de los modelos de edición de imágenes más conocidos
    • Seedream tuvo ventaja en fidelidad al prompt, pero tiende a provocar ligeros cambios en los gradientes de color
      Para mi uso no es un gran problema, pero para quien necesite consistencia en el color, Nano Banana podría ser mejor
    • Como la mitad de las veces que uso Nano Banana, AI Studio dice que falló sin razón
      Ni siquiera eran solicitudes al borde del copyright, pero estos errores son frecuentes
      Aun así, cuando funciona los resultados son muy impresionantes
    • Usé Nano Banana para ordenar una foto de mi cocina desordenada y al principio falló por completo
      En el segundo intento primero saqué una lista de objetos desordenados con análisis de imagen, y luego los eliminé con el prompt; el resultado fue mucho mejor
      Al final, volví a sentir la importancia de la ingeniería de prompts
    • Gemini es excelente cuando funciona bien, pero a veces da resultados totalmente fuera de lugar y no acierta sin importar qué prompt uses
      Flux es sorprendentemente bueno, pero la mayoría de la gente, incluyéndome, termina usando por defecto modelos familiares como ChatGPT o Gemini
  • Este tipo de comparaciones son mucho más prácticas que los gráficos de benchmarks
    Uso Nano Banana con frecuencia, pero es débil para editar arquitectura exterior o paisajismo
    Cosas como banquetas, drenajes o igualación de color son casi imposibles

    • Yo hago experimentos con Qwen Image Edit para convertir fotos diurnas en nocturnas, y la mayoría de los modelos falla en la alineación de bordes
      Nano Banana también maneja mal los contornos, así que la foto queda desfasada
  • Viéndolo desde la perspectiva de quien marcó la referencia en 2022, los demos actuales son impresionantes a un nivel incomparable con la era de SD1·2·3
    Parece que ya llegó la época en la que los modelos realmente entienden los prompts y las imágenes
    Es un momento en que la creatividad se expande de forma explosiva a medida que la ingeniería sigue avanzando

  • Cambiar el prompt o la cantidad de intentos, y luego mostrar solo el resultado que más te gustó, diluye la objetividad de la prueba
    Hacen falta condiciones unificadas, como 5 generaciones para todos los modelos con el mismo prompt y seed
    Por ejemplo, a Gemini 2.5 Flash se le dio demasiada libertad en la prueba de “Girl with Pearl Earring”,
    mientras que OpenAI gpt-image-1 fue marcado como fracaso aunque produjo un resultado mucho mejor con menos intentos

    • Como referencia, el ejemplo de gpt-image-1 era para la prueba de “You Only Move Twice”
    • Mejor aún, si se hiciera una competencia de “la peor imagen”, quedaría más claro qué modelo resulta menos frustrante
  • En una publicación que subí al blog de Replicate, comparé directamente varios modelos
    Entre ellos, Qwen Image Edit fue el más barato y rápido, y además resolvió bien la mayoría de las tareas de edición
    Si hiciera una app de edición de imágenes, probablemente elegiría ese modelo

  • La comparación en sí fue interesante, pero la imagen final de la jirafa no se acortó, solo se dobló el cuerpo
    Aun así, terminé eligiendo seguido los resultados de Gemini, y me gustaría que hubiera una evaluación en escala de 10 puntos en vez de pass/fail

    • La expresión “jirafa doblada de forma rara” me dio muchísima risa
      Si existiera una exhibición así de verdad, definitivamente iría
  • Últimamente casi no genero imágenes con IA
    Hace como año y medio estaba de moda correr modelos localmente, pero ahora casi todo se ha movido a lo basado en la nube
    Aun así, en la edición de fotos reales todavía se siente una textura poco natural en alguna parte
    Por ejemplo, el cabello de las personas se ve demasiado brillante, o los árboles parecen de plástico

    • El tamaño de los modelos de imagen y sus requisitos de cómputo crecieron tanto que ya es difícil autoalojarlos de forma individual
      Sí se puede correr Flux Kontext localmente, pero hay que generar lento con un modelo cuantizado, así que es ineficiente
      Además, como ya puedes crear imágenes gratis en ChatGPT, hay menos razones para insistir en lo local
      En la prueba del cabello, solo Gemini 2.5 Flash acertó bien con el color y la textura,
      mientras que Seedream 4 tenía el problema de cambiar toda la corrección de color, así que no lo prefiero
  • Creo que estaría bien incluir también a Reve en la prueba

    • Con Nano Banana no pude cambiar bien la dirección de la mirada del personaje, pero Reve dio un resultado perfecto en el primer intento
      Quitó el objeto que sostenía el personaje, hizo que mirara a la cámara y hasta ajustó la postura de forma natural
      Además, los 4 resultados tenían una calidad lo bastante alta como para usarse
      Después leí la presentación del modelo de Reve y decidí registrarme de inmediato
    • Gracias por la recomendación, luego lo agregaré a la lista de pruebas
    • Gracias por el buen tip
  • El intento estuvo bien, pero un prompt incorrecto como “la torre del dibujo está inclinada hacia la derecha” solo hace que el modelo la incline todavía más

    • Esa frase no era el prompt de entrada real, sino una frase inicial
      Como ajusto el prompt según el modelo, el número de intentos terminó siendo diferente
  • En general fue una prueba divertida
    Hay quienes señalan que los prompts no eran perfectos, pero justo por eso se siente realista, porque están al nivel de lo que probablemente escribiría un usuario común

    • Llevo trabajando con prompts desde la época de SD 1.5, así que conozco bien las variaciones de prompt que necesita cada modelo
      Como se explica en el FAQ, pruebo varias versiones del prompt para evitar que el modelo se quede atrapado en palabras específicas
      Por ejemplo, frases imperativas como “Turn on the lights” no son simples instrucciones,
      sino prompts para poner a prueba la capacidad de comprensión de los LLM multimodales
      Ese tipo de frases jamás funcionarían en modelos tradicionales como SDXL