1 puntos por GN⁺ 2025-08-05 | Aún no hay comentarios. | Compartir por WhatsApp
  • Qwen-Image es un modelo base de generación de imágenes MMDiT de 20B parámetros especializado en renderizado de texto nativo y edición precisa de imágenes
  • Logra alta precisión y una calidad visual elevada en la representación de caracteres complejos de varios idiomas, incluyendo alfabetos y caracteres chinos
  • Alcanza el mejor rendimiento de su categoría en diversos benchmarks públicos (GenEval, DPG, OneIG-Bench, entre otros) y también destaca en capacidad de generación de texto
  • En demos reales implementa con precisión layouts complejos y estilos diversos como multilingüe, pósters, PPT e ilustraciones
  • Soporta funciones de edición como transformación de estilo, agregar/eliminar objetos, descripción detallada y cambio de pose, con enfoque en la expansión del ecosistema de código abierto

Introducción y características principales

  • Qwen-Image es un modelo base de generación de imágenes MMDiT de 20B parámetros especializado en renderizado de texto complejo y edición precisa de imágenes
  • Es posible probar el modelo más reciente en Qwen Chat

Características principales

  • Renderizado de texto superior: maneja diseños de múltiples líneas, comprensión semántica a nivel de párrafo y representación detallada
    • Soporta con alta fidelidad tanto sistemas alfabéticos como sistemas de caracteres logográficos (como los chinos)
  • Edición de imágenes consistente: gracias al entrenamiento multitarea mejorado, conserva tanto precisión semántica como realismo visual
  • Sólido rendimiento en benchmarks: logra el mejor desempeño de su categoría en tareas de generación y edición en diversos benchmarks públicos
  • En el área de generación y edición de texto registra buenos resultados en LongText-Bench, ChineseWord, TextCraft, entre otros
  • Puede usarse ampliamente en usos creativos como creación, diseño y narración

Rendimiento y benchmarks

  • Qwen-Image logra rendimiento SOTA (estado del arte) en benchmarks como GenEval, DPG y OneIG-Bench (generación general de imágenes), GEdit, ImgEdit y GSO (edición), entre otros
  • En particular, supera ampliamente al mejor modelo anterior en tareas como la generación de texto en chino
  • Combinando una amplia capacidad general con renderizado de texto preciso, se posiciona como un modelo líder en generación de imágenes

Ejemplos de demo

Expresión de texto en chino

  • Basado en prompts de ejemplo, representa con precisión, además del estilo de animación de Miyazaki, textos reales como “云存储”, “云计算”, “云模型” y caracteres chinos poco comunes como “千问”
  • También reproduce de forma natural la pose y expresión de los personaje y la sensación de profundidad de la escena

Expresión paralela compleja de caracteres chinos

  • Representa con detalle fino elementos elegantes como pareados, caligrafía y motivos de porcelana azul y blanca
  • Genera de forma impecable tipografías, diseño y dibujos (por ejemplo, 岳阳楼) de manera muy realista

Texto en inglés y líneas múltiples

  • Refleja con detalle el texto en diversas ubicaciones como estanterías de librería, señalización y pósters
  • Desde “New Arrivals This Week” hasta frases cortas en cubiertas de libros, reproduce fuentes y layouts con aspecto realista

Infografía compleja en inglés

  • Separa y coloca con precisión cada submódulo, incluyendo icono + título + párrafo explicativo
  • Una infografía compleja centrada en “Habits for Emotional Wellbeing” también se completa con un arte natural y una composición equilibrada

Texto pequeño/largo

  • Implementa texto manuscrito largo con detalle incluso en áreas de menos de 1/10 dentro de la imagen
  • También reproduce con precisión grandes volúmenes de frases, incluyendo escritura manual, layout y saltos de línea

Mezcla multilingüe

  • Renderiza simultáneamente escritura manual en inglés y chino dentro de una sola imagen
  • Puede generar texto de forma natural según el cambio de idioma del prompt

Generación de pósters

  • En pósters de cine, combina libremente elementos de texto y visuales (subtítulo secundario, reparto, director, información de lanzamiento, etc.) en estilos como Sci-Fi y diseño gráfico

Ejemplo de PPT en coreano

  • Genera con coherencia un estilo moderno de PPT de IA/empresa (logo de Alibaba, título principal, subtítulo, disposición de imágenes de obras de arte, tipografía caligráfica y descripciones detalladas)

Generación y edición general de imágenes

  • Soporta varios estilos artísticos como fotorealista, impresionista, animé y minimalista, ofreciendo una alta versatilidad de creación
  • Soporta comandos de edición práctica de imagen como transformación de estilo, agregar/eliminar objetos, mejora de detalles, edición de texto, ajuste de pose humana y otros

Conclusión

  • Qwen-Image busca expandir el horizonte de la generación de imágenes, reducir la barrera técnica de producción de contenido visual y fomentar su uso creativo
  • Se centra en la colaboración comunitaria, apertura y construcción de un ecosistema de IA generativa sostenible
  • Prevé mejorar las capacidades y expandir el ecosistema abierto incorporando el uso real y la retroalimentación de los usuarios

Aún no hay comentarios.

Aún no hay comentarios.