Qwen-Image-2.0: infografías de nivel profesional y fotorrealismo sofisticado

(qwen.ai)

10 puntos por GN⁺ 2026-02-11 | 1 comentarios | Compartir por WhatsApp

Como modelo de generación de imágenes de nueva generación, implementa una arquitectura unificada que integra generación y edición de texto e imágenes
Admite instrucciones de 1k tokens, lo que permite generar directamente infografías complejas como PPT, pósters y cómics
Logra al mismo tiempo una representación realista y detallada basada en resolución 2K y un renderizado preciso de texto
Con un modelo más ligero, acelera la inferencia y registra un rendimiento sobresaliente tanto en benchmarks de texto a imagen como de imagen a imagen
Maximiza la eficiencia en la creación de contenido visual profesional con cinco características clave: precisión (准), complejidad (多), estética (美), realismo (真) y alineación (齐)

Descripción general de Qwen-Image-2.0

Qwen-Image-2.0 es un modelo base de generación de imágenes de nueva generación que adopta una arquitectura unificada con integración de renderizado de texto y edición de imágenes
- Procesa instrucciones de 1k tokens para generar directamente infografías profesionales como PPT, pósters y cómics
- Expresa escenas realistas y detalladas de personas, naturaleza y arquitectura en resolución 2K
- Realiza generación y edición de imágenes en un solo modo gracias a la integración de comprensión y generación de texto
- Garantiza una alta velocidad de inferencia con una arquitectura de modelo liviana
En las pruebas ciegas de AI Arena, registró un rendimiento sobresaliente tanto en tareas de texto a imagen como de imagen a imagen

Evolución del modelo

La serie Qwen-Image ha evolucionado en paralelo por una línea de generación y una línea de edición
- En agosto de 2025, Qwen-Image reforzó la precisión del renderizado de texto
- En diciembre de 2025, Qwen-Image-2512 mejoró el detalle y el fotorrealismo
- En la línea de edición, pasó de edición de una sola imagen (agosto) → edición de múltiples imágenes (septiembre) → mejora de consistencia (diciembre)
Qwen-Image-2.0 combina ambas líneas en un único modelo unificado, logrando resultados sobresalientes tanto en generación como en edición

Precisión (准) y complejidad (多)

El modelo implementa con exactitud composiciones complejas de “imagen dentro de imagen”, aumentando la eficiencia en la creación de PPT
- Como ejemplo, genera una escena compuesta con dos imágenes de la misma persona colocadas en disposición vertical, manteniendo la consistencia visual
A través de instrucciones de 1k tokens, renderiza por completo infografías de estructura multinivel, como un reporte de pruebas A/B
- Puede generar material visual al nivel de un informe profesional, con elementos complejos como tablas, gráficos, cifras y anotaciones
Aprovechando el conocimiento del mundo de los LLM, puede expandir automáticamente solicitudes simples en prompts descriptivos detallados
- Ejemplo: la solicitud “póster de viaje de dos días a Hangzhou” se transforma en una composición detallada de estilo, fondo y texto

Estética (美)

Logra una armonía formal entre texto e imagen
- Reproduce con precisión el estilo tradicional chino de caligrafía y pintura en composiciones donde poesía y pintura se integran
- Expresa con precisión diversos estilos tipográficos, como 瘦金体 y Sojache
Como ejemplo, puede recrear casi a la perfección una pintura en tinta con poemas de la dinastía Song o la «兰亭序» de Wang Xizhi en Sojache

Realismo (真)

Refuerza la sensación de realidad mediante una representación precisa de reflejos ópticos, materiales y perspectiva
- Ejemplo: renderiza con precisión texto sobre materiales distintos como pizarras de vidrio, ropa y portadas de revistas
Implementa una expresión integrada de iluminación, textura y materiales al nivel de un póster cinematográfico
- Ejemplo: en el póster de «千灯问心», el metal, la lluvia y la textura de la tela se fusionan de manera natural

Alineación (齐)

Ajusta automáticamente alineación y distribución en estructuras con múltiples textos, como calendarios, cómics e infografías
- Ejemplo: alinea correctamente dentro de la cuadrícula las fechas, el calendario lunar y las anotaciones de febrero de 2026
- Centra el texto en los globos de diálogo de los cómics para lograr un flujo conversacional natural
- En una infografía de OKR, alinea automáticamente bloques de texto y flechas, y los diferencia por color

Mejora del fotorrealismo

Distingue más de 23 tonos de verde para expresar el realismo ecológico de un bosque de verano
- Describe con detalle la textura de las hojas, los reflejos, la humedad e incluso las partículas en el aire
Reproduce con precisión la musculatura, las expresiones y las texturas de humanos y animales
- Ejemplo: en una escena donde un caballo pisa a una persona, representa incluso la tensión muscular, la textura de la piel y las partículas de polvo

Funciones de edición de imágenes

Como modelo Omni que integra generación y edición, las mejoras del lado de generación se reflejan directamente en la edición
- Permite insertar poesía y texto sobre imágenes existentes
- Puede fusionar personas de dos imágenes manteniendo una coincidencia natural de iluminación y sombras
- También permite edición mixta de fotos reales y personajes de caricatura
Ejemplo: ofrece resultados de integración natural en casos como fotos compuestas de dos personas o inserción de personajes sobre fotos urbanas

Imagen de cabecera del blog “Qwen Street”

Con un paisaje invernal de una calle de Beijing de fondo, dos tiendas simbolizan las funciones clave de Qwen-Image-2.0
- Letrero de la tienda de caligrafía a la izquierda: “文字渲染”, y en el interior “专业幻灯片中英文海报高级信息图”
- Letrero de la florería a la derecha: “真实质感”, con el rótulo “2k resolution” sobre la puerta
- Pizarra que sostiene el muñeco de nieve en el centro: “Qwen-Image-2.0 正式发布”
- En la calle aparece un repartidor con la frase “更小模型，更快速度”

Conclusión

Qwen-Image-2.0 es un modelo unificado de generación de imágenes que reúne precisión, complejidad, estética, realismo y alineación
Difumina la frontera entre texto e imagen y mejora considerablemente el nivel de automatización en la creación de infografías profesionales y contenido visual
Para uso en investigación o creación, se recomienda citar Qwen-Image Technical Report (arXiv:2508.02324)

1 comentarios

GN⁺ 2026-02-11

Comentarios en Hacker News

Ha habido muchas opiniones de que el ejemplo de “hombre montando un caballo (horse riding man)” es demasiado grotesco, así que quiero explicar el contexto.
Este meme se originó a partir de un incidente en el que el famoso presentador chino Kevin Tsai (蔡康永) llevó en una premiación un atuendo con un caballo pegado a la espalda.
En ese momento quedó envuelto en rumores con un hombre llamado ‘Ma Qiren (马启仁)’, y ese nombre suena igual en chino que ‘persona montando un caballo (马骑人)’.
El incidente se difundió por internet y se volvió meme, así que el ejemplo de “horse riding man” no salió completamente de la nada.
Aun así, la imagen sigue dando una atmósfera inquietante y extraña.
Enlace a la foto
- Es un contexto interesante. Este tipo de prompt también sirve para poner a prueba el espacio latente (latent space) de un generador de imágenes.
  Normalmente es más fácil al revés, con ‘una persona montando un caballo’, pero ‘un caballo montando a una persona’ es un embedding más difícil.
  Al ver el prompt traducido, también había un matiz satírico de “el Año del Caballo conquista a un ingeniero blanco”.
  No quiero ver cómo dibujaría esto SD1.5.
- Según el artículo, el nombre real es 马启仁 y no 马骑人.
  O sea, el nombre suena como ‘persona montando un caballo’, pero no es una traducción literal.
- En el mundo de la generación de imágenes también existe el problema de “astronauta montando un caballo (astronaut riding a horse)”.
  Artículo relacionado: Horse Rides Astronaut Redux
- Me pregunto si en China, igual que en Estados Unidos, existe rechazo hacia la generación de imágenes con IA.
  Por ejemplo, creo que las empresas estadounidenses temerían una reacción negativa si usaran estas imágenes en calendarios o materiales promocionales.
  Imagen de ejemplo
- Otra influencia podría ser el famoso problema de DALL‑E 2.
  Podía generar bien una imagen de ‘un astronauta montando un caballo’, pero seguía fallando al intentar hacer ‘un caballo montando a un astronauta’.
  Ese problema persistió incluso en modelos más recientes, y es probable que el equipo de Qwen Image tuviera presente este benchmark difícil.
  Al final, ‘astronauta = persona’, así que esta prueba termina conectándose con el meme chino.
Ordeno algunas ideas.
1️⃣ Viendo el patrón de lanzamientos anteriores, es muy probable que haya open weights en 3 a 4 semanas.
2️⃣ Parece que apuntan a un modelo que pueda correr incluso en GPUs modestas, como Z‑Image Turbo (6B) y Flux.2 Klein (9B).
3️⃣ Como es un modelo único que integra generación y edición de imágenes, no hace falta separar Qwen‑Image y Qwen‑Edit.
4️⃣ En mi GenAI Showdown, Qwen‑Image fue el mejor modelo local en edición y también estuvo entre los mejores en generación.
Cuando salga una versión local, pienso agregarla al sitio.
- Para explicarlo a gente no tan técnica: si haces bien la cuantización (quantization), un LLM puede correr con alrededor de 1 byte por parámetro.
  Si es un modelo de 20B, con 20GB de RAM basta, y en ese tamaño incluso puede funcionar con iGPU.
  Una configuración con 128GB de RAM unificada también se puede conseguir por unos 2200 dólares.
  Es una configuración mucho más barata que comprar una GPU aparte.
- Técnicamente, Qwen 2512 tenía 19B parámetros y ocupaba 40GB en FP16; en FP8 cabía en una 3090.
  Usaba su propio VAE, pero tenía problemas de artefactos de alta frecuencia.
  El nuevo Qwen 2 se redujo a 7B parámetros y quedó mucho más ligero, además de actualizarse a Qwen 3 VL.
  Ahora evolucionó a un modelo Omni que combina Image y Edit.
  Z‑Image, Klein y Qwen están compitiendo al mismo tiempo por ocupar el lugar de “SDXL2”.
  Si liberan los open weights, se va a poner realmente interesante.
Hubo un momento, aunque breve, en el que Midjourney se sintió como la cima de la generación de imágenes.
- ¿Ya no sigue siendo así? Muchos creadores que conozco todavía prefieren Midjourney por su estética subjetiva.
- Me pregunto qué habrá pasado con Midjourney ahora.
- La comoditización de la generación de imágenes va demasiado rápido.
  Cada 3 o 4 meses cambia el SOTA, y la innovación del trimestre pasado se convierte en un producto de API.
  Ahora el cuello de botella ya no es el modelo, sino la persona que maneja el prompt.
  En generación de código se ve el mismo patrón.
El contenido del prompt “horse riding man” es realmente impactante.
Está compuesto por descripciones extremadamente realistas, como una pradera desolada, polvo y una escena donde un caballo marrón aplasta a un hombre.
En conjunto, es una imagen que expresa una tensión primitiva y el choque de fuerzas biológicas.
- Como referencia para la gente confundida, existe una “escultura de un caballo pisoteando a un xiongnu” de la dinastía Han.
  Enlace relacionado
Hace poco probé modelos locales con LMStudio en Linux y fue realmente fácil.
Pero como no soporta generación de imágenes, me da curiosidad qué herramientas usa la gente para correr en Linux modelos de diffusion como Qwen.
- En la práctica, la mayoría de quienes usan esta clase de modelos utilizan ComfyUI.
  La comunidad se encarga de todo: cuantización, conversión al formato gguf y optimización de velocidad.
- Como todo cambia demasiado rápido, yo termino armando mi propio servidor HTTP en Python para enrutar cada implementación mediante una interfaz JSON.
  Uso sobre todo diffusers; será más lento, pero adopta rápido las arquitecturas nuevas.
- ComfyUI es lo mejor para Stable Diffusion.
- De verdad te recomendaría probarlo. Últimamente se volvió mucho más amigable gracias a la función de plantillas.
- Si estás en plataforma AMD, Lemonade soporta generación de imágenes desde la versión 9.2.
  Sitio / Notas de lanzamiento
La tipografía vertical (Vertical Typography) en chino se sintió un poco rara.
Para que se vea natural habría que usar signos de puntuación verticales, por ejemplo ︒.
Yo hago infografías con IA generativa todos los días, pero siendo sincero, el 99% son malísimas.
LinkedIn está lleno de ese tipo de imágenes.
- Pero bueno, LinkedIn ya era malo de por sí, así que tampoco es que haya empeorado.
- Las infografías y presentaciones siguen siendo una función exclusiva de NanoBananaPro.
- La calidad de una infografía al final depende de la capacidad de quien la crea.
  Casi nadie sabe hacer o explicar una buena infografía.
- Igual que los diagramas ASCII inútiles en GitHub, estas visualizaciones no son más que ruido cognitivo.
  Para otro ejemplo, ver el hilo de Gas Town
Por desgracia, parece que esta vez no habrá publicación de open weights.
- Aun así, hace apenas como un mes también lanzaron un modelo de imágenes con open weights, así que todavía es posible.
  La última publicación fue por diciembre de 2025.
Me gustó su ejemplo de paneles de cómic, así que lo probé directamente en Qwen Chat.
Si usas el mismo prompt del blog funciona bien, pero si cambias un poco la entrada, se descompone la cantidad de paneles o los diálogos en inglés pasan a chino.
O sea, todavía es una función con poca consistencia.
La “imagen de aplicación ecuestre” me pareció interesante.
- Pero sí me sorprendió un poco que usaran como demo “una escena donde un caballo se lanza sobre una persona”.
  Aunque bueno, cada quien sus gustos.

Qwen-Image-2.0: infografías de nivel profesional y fotorrealismo sofisticado

Descripción general de Qwen-Image-2.0

Evolución del modelo

Precisión (准) y complejidad (多)

Estética (美)

Realismo (真)

Alineación (齐)

Mejora del fotorrealismo

Funciones de edición de imágenes

Imagen de cabecera del blog “Qwen Street”

Conclusión

Lecturas relacionadas

1 comentarios

Comentarios en Hacker News