1 puntos por GN⁺ 2025-08-05 | 1 comentarios | Compartir por WhatsApp
  • Qwen-Image es un modelo base de generación de imágenes MMDiT de 20B parámetros especializado en renderizado de texto nativo y edición precisa de imágenes
  • Logra alta precisión y una calidad visual elevada en la representación de caracteres complejos de varios idiomas, incluyendo alfabetos y caracteres chinos
  • Alcanza el mejor rendimiento de su categoría en diversos benchmarks públicos (GenEval, DPG, OneIG-Bench, entre otros) y también destaca en capacidad de generación de texto
  • En demos reales implementa con precisión layouts complejos y estilos diversos como multilingüe, pósters, PPT e ilustraciones
  • Soporta funciones de edición como transformación de estilo, agregar/eliminar objetos, descripción detallada y cambio de pose, con enfoque en la expansión del ecosistema de código abierto

Introducción y características principales

  • Qwen-Image es un modelo base de generación de imágenes MMDiT de 20B parámetros especializado en renderizado de texto complejo y edición precisa de imágenes
  • Es posible probar el modelo más reciente en Qwen Chat

Características principales

  • Renderizado de texto superior: maneja diseños de múltiples líneas, comprensión semántica a nivel de párrafo y representación detallada
    • Soporta con alta fidelidad tanto sistemas alfabéticos como sistemas de caracteres logográficos (como los chinos)
  • Edición de imágenes consistente: gracias al entrenamiento multitarea mejorado, conserva tanto precisión semántica como realismo visual
  • Sólido rendimiento en benchmarks: logra el mejor desempeño de su categoría en tareas de generación y edición en diversos benchmarks públicos
  • En el área de generación y edición de texto registra buenos resultados en LongText-Bench, ChineseWord, TextCraft, entre otros
  • Puede usarse ampliamente en usos creativos como creación, diseño y narración

Rendimiento y benchmarks

  • Qwen-Image logra rendimiento SOTA (estado del arte) en benchmarks como GenEval, DPG y OneIG-Bench (generación general de imágenes), GEdit, ImgEdit y GSO (edición), entre otros
  • En particular, supera ampliamente al mejor modelo anterior en tareas como la generación de texto en chino
  • Combinando una amplia capacidad general con renderizado de texto preciso, se posiciona como un modelo líder en generación de imágenes

Ejemplos de demo

Expresión de texto en chino

  • Basado en prompts de ejemplo, representa con precisión, además del estilo de animación de Miyazaki, textos reales como “云存储”, “云计算”, “云模型” y caracteres chinos poco comunes como “千问”
  • También reproduce de forma natural la pose y expresión de los personaje y la sensación de profundidad de la escena

Expresión paralela compleja de caracteres chinos

  • Representa con detalle fino elementos elegantes como pareados, caligrafía y motivos de porcelana azul y blanca
  • Genera de forma impecable tipografías, diseño y dibujos (por ejemplo, 岳阳楼) de manera muy realista

Texto en inglés y líneas múltiples

  • Refleja con detalle el texto en diversas ubicaciones como estanterías de librería, señalización y pósters
  • Desde “New Arrivals This Week” hasta frases cortas en cubiertas de libros, reproduce fuentes y layouts con aspecto realista

Infografía compleja en inglés

  • Separa y coloca con precisión cada submódulo, incluyendo icono + título + párrafo explicativo
  • Una infografía compleja centrada en “Habits for Emotional Wellbeing” también se completa con un arte natural y una composición equilibrada

Texto pequeño/largo

  • Implementa texto manuscrito largo con detalle incluso en áreas de menos de 1/10 dentro de la imagen
  • También reproduce con precisión grandes volúmenes de frases, incluyendo escritura manual, layout y saltos de línea

Mezcla multilingüe

  • Renderiza simultáneamente escritura manual en inglés y chino dentro de una sola imagen
  • Puede generar texto de forma natural según el cambio de idioma del prompt

Generación de pósters

  • En pósters de cine, combina libremente elementos de texto y visuales (subtítulo secundario, reparto, director, información de lanzamiento, etc.) en estilos como Sci-Fi y diseño gráfico

Ejemplo de PPT en coreano

  • Genera con coherencia un estilo moderno de PPT de IA/empresa (logo de Alibaba, título principal, subtítulo, disposición de imágenes de obras de arte, tipografía caligráfica y descripciones detalladas)

Generación y edición general de imágenes

  • Soporta varios estilos artísticos como fotorealista, impresionista, animé y minimalista, ofreciendo una alta versatilidad de creación
  • Soporta comandos de edición práctica de imagen como transformación de estilo, agregar/eliminar objetos, mejora de detalles, edición de texto, ajuste de pose humana y otros

Conclusión

  • Qwen-Image busca expandir el horizonte de la generación de imágenes, reducir la barrera técnica de producción de contenido visual y fomentar su uso creativo
  • Se centra en la colaboración comunitaria, apertura y construcción de un ecosistema de IA generativa sostenible
  • Prevé mejorar las capacidades y expandir el ecosistema abierto incorporando el uso real y la retroalimentación de los usuarios

1 comentarios

 
GN⁺ 2025-08-05
Opinión de Hacker News
  • No entiendo por qué esto no se volvió un tema más grande; es el primer modelo de código abierto que supera a gpt-image-1 en todos los aspectos y además va más allá de Flux Kontext en edición. Es bastante impresionante.
    • Jugué un poco con este modelo por aproximadamente una hora. En general es realmente bueno, pero según mis pruebas iniciales, en cumplimiento de prompts bastante complejos rinde claramente menos que gpt-image-1 (o Imagen 3/4). La tasa de éxito fue de alrededor de ~50%, mientras que gpt-image-1 estuvo en ~75%. No pudo con cosas como el laberinto o la ecuación de Schrödinger. Lo probé en el sitio de genai showdown.
    • Solo con sus páginas no está claro, pero el modelo de edición aún no se ha publicado oficialmente. Ver el enlace al comentario en GitHub.
    • En mi opinión, puede hacer claramente más cosas que gpt-image-1: además de la transferencia de estilo, agregar/eliminar objetos, edición de texto y manipulación de poses de personas, también trae detección de objetos, segmentación semántica, estimación de profundidad/bordes, superresolución y síntesis de nuevas vistas (NVS), o sea generar imágenes desde un punto de vista distinto a partir de una imagen base. Es una verdadera fiesta de funciones. En los resultados iniciales, gpt-image-1 parece verse un poco mejor en nitidez y definición. Sinceramente, me da la sensación de que OpenAI podría estar aplicando algún tipo de máscara de nitidez/unscharp como postproceso. También se aprecia una nitidez extraña y uniforme en zonas borrosas, e incluso a veces suena excesivo. Aun así, en general este modelo se ve casi al mismo nivel. Pensé que la tecnología propietaria de generación de imágenes de OpenAI mantendría la ventaja este año, y esto es sorprendente. Por cierto, solo han pasado 4 días desde que Flux Krea se hizo público. Si este modelo resulta realmente parecido en calidad a gpt-image-1, sería un cambio increíble.
    • Creo que el hecho de que requiera 40 GB de VRAM es lo que está enfriando un poco el entusiasmo popular. De hecho, los modelos LLM ya tienen bastante madura la distribución en múltiples GPU, pero en los modelos de imagen, aunque usen formato GGUF, no sé por qué el avance en esta área va más lento. Cuanto más crecen los modelos de imagen, más probable es que se implemente ejecución distribuida.
    • Apenas han pasado unas horas y el demo sigue fallando seguido, así que creo que hace falta más tiempo para que la gente lo pruebe bien. La aparición de GGUF cuantizado y flujos de trabajo de Comfy también será un factor importante. Porque la mayoría de los usuarios querrá ejecutarlo en local. Sin embargo, es bastante grande comparado con otros modelos. Curiosamente, el principal punto de comparación es más bien entre modelos de Alibaba que contra Flux. Por ejemplo, Wan 2.2 ya es muy popular para generación de imágenes, así que muchos me gustaría saber cuánto salto da Qwen-Image respecto de Wan 2.2. El mejor momento para evaluar en serio un nuevo modelo de imágenes suele ser, más o menos, una semana después del lanzamiento: en ese momento los usuarios ya lo han probado mucho y se ordenan pros y contras desde una perspectiva de terceros. Este modelo también tiene mucha expectativa.
  • Buen lanzamiento. Lo añadí al sitio de genai showdown. En general, tiene un puntaje de alrededor de 40% y además considero que es un buen modelo, sobre todo porque es un modelo SOTA que se puede ejecutar en GPU de consumo (más aún la versión cuantizada). En seguimiento preciso de prompts de txt2img, sí está claramente por debajo de gpt-image-1 de OpenAI. Pero, como se mencionó también en este hilo, este modelo destaca porque puede hacer muchas tareas de edición también. También se puede ver en genai showdown.
    • También creo que no es apropiado comparar Imagen 3 y 4 juntas, ya que son modelos claramente distintos.
  • Puede parecer obvio para quienes hacen esto seguido, pero me da curiosidad la especificación de hardware para poder ejecutarlo. Lo probé en una máquina con Linux con GPU de 16 GB y 64 GB de RAM. En esa PC, SD funciona sin problemas. Pero con Qwen-image, ya sea en GPU o CPU, apareció error de falta de memoria. Me pregunto si eso significa que falta bastante, si alcanza con duplicarla, si hay que subirla por decenas de veces o si realmente se necesita un hardware extremo.
    • Puede parecer obvio para quienes hacen esto seguido, pero la verdad no es tan obvio. El cálculo de consumo de VRAM en VLM/LLM es casi un terreno de magia negra. Hay online unas 10 calculadoras de este tipo, pero ninguna da resultados correctos. Intervienen muchas variables: cuantización, caché KV, activación, capas, etc. Es una parte bastante tediosa. En fin, en este modelo se necesita más de 40 GB de VRAM. La RAM del sistema normal suele ser insuficiente (salvo en Apple Silicon con RAM unificada). Incluso en Apple Silicon, el ancho de banda de memoria es más bajo y, por eso, la inferencia va mucho más lenta frente a GPU/TPU.

    • El tamaño del archivo del modelo debe ser bastante parecido. En la carpeta de transformers vi unos 9 archivos de 5 GB, así que conviene calcular cerca de 45 GB de VRAM para GPU. Normalmente, en poco tiempo saldrá una versión más liviana cuantizada (aceptando pérdida de calidad).
    • Qwen-Image requiere mínimo 24 GB de VRAM en modelo completo. Sin embargo, la versión cuantizada de 4 bits puede ejecutarse incluso con ~8 GB de VRAM con librerías como AutoGPTQ.
    • La versión cuantizada de 4 bits seguramente tardará unos días en publicarse. Tiene 20B de parámetros.
    • En entornos de inferencia de producción funciona bien con 1xH100.
  • A diferencia de otros modelos de generación de imágenes, es sorprendente que, como con 4o image gen, no altere toda la imagen innecesariamente. En 4o, si intentas cambiar solo la ropa, muchas veces también cambia la cara; este modelo parece dejar trazas artificiales de IA solo en la parte que necesita edición.
    • Por eso Flux Kontext causó tanto revuelo: fue innovador al dar poder de inpainting img2img sin necesidad de hacer masking manual. Ver el blog sobre edición.
    • En 4o también puedes seleccionar solo la zona que quieres editar y dejar el resto igual.
  • Los modelos de código abierto de China últimamente están saliendo brutalmente buenos. Cada vez que aparece una noticia así, uno se llena de esperanza.
  • ¿Alguien sabe cómo entrenan realmente el renderizado de texto en un modelo así? Todos los modelos que he probado (incluyendo OpenAI y Flux) comparten el mismo problema: el texto no se ve natural y las sombras o reflejos del texto en la imagen quedan raros y fuera de lugar respecto a la escena original. Tal vez todos estén usando un truco parecido.
    • Está explicado en la página 14 del informe técnico. Dicen que generan datos sintéticos superponiendo texto sobre las imágenes. Parece que entrenan como si solo pegaran texto sin considerar las condiciones de iluminación originales. Garbage in, garbage out. Espero que en el futuro haya un método de síntesis de texto más realista y que, entrenando con eso, termine surgiendo un modelo que renderice texto de forma natural.
  • Les recomiendo revisar también la sección 3.2 de Data Filtering del paper. Ver el PDF original del paper.
    • Lo interesante es que no se mencionan ni se muestran ejemplos de idiomas aparte de inglés y chino.
  • Me interesa cuál sería la especificación mínima de GPU razonable para obtener resultados decentes al alojarlo y usarlo.
  • La conversación está corta.
  • Me pregunto qué tan estricta es la censura.
    • Cada vez que sale un modelo nuevo, ese es siempre el punto que más intriga a la comunidad, y la realidad es que ninguna organización quiere enfrentarse a ese lado incómodo de la naturaleza humana. Al mismo tiempo, en la sociedad y empresas de EE. UU. parece imperar una especie de cautela y puritanismo.