Qwen-Image-Edit - Presentan un modelo especializado en edición de imágenes

(huggingface.co)

18 puntos por GN⁺ 2025-08-21 | Aún no hay comentarios. | Compartir por WhatsApp

Qwen-Image-Edit es un modelo extendido especializado en edición de imágenes basado en Qwen-Image
Tiene una arquitectura que envía la imagen de entrada simultáneamente a Qwen2.5-VL y al VAE Encoder, lo que permite tanto edición semántica como de apariencia
Su función de edición de texto es potente, ya que permite modificar directamente texto en chino e inglés manteniendo la fuente, el tamaño y el estilo
Ha alcanzado un rendimiento de última generación (SOTA) en diversos benchmarks, consolidándose como un sólido modelo base para edición de imágenes
Se publica como open source bajo licencia Apache 2.0, por lo que desarrolladores e investigadores pueden usarlo libremente

Introducción

Qwen-Image-Edit es un modelo que amplía la capacidad de renderizado de texto de Qwen-Image para dar soporte a la edición de imágenes
Su arquitectura envía la entrada de imagen al mismo tiempo al control semántico (Qwen2.5-VL) y al control de apariencia (VAE Encoder)
Se caracteriza por admitir tanto edición precisa de texto como edición semántica y de apariencia

Edición semántica y de apariencia: admite cambios semánticos como agregar, eliminar o rotar objetos y transformar estilos, así como edición de apariencia para modificar solo áreas específicas
Edición precisa de texto: permite modificar directamente texto en inglés y chino conservando la tipografía y el estilo originales
Ventaja de rendimiento: logra rendimiento de última generación en múltiples benchmarks públicos

Se puede usar mediante la librería diffusers de Hugging Face
En el código de ejemplo, se cambia el color de un conejo a morado y el fondo a luz de flash
Puede ejecutarse eficientemente con aceleración CUDA y soporte para torch.bfloat16

Edición semántica: permite crear IP de personajes, rotar objetos (90°, 180°) y transformar estilos (por ejemplo, estilo Ghibli)
Edición de apariencia: realiza con precisión tareas como añadir letreros, eliminar cabello, cambiar el color de un texto específico, sustituir el fondo o cambiar la ropa
Edición de texto: permite corregir con precisión tanto texto grande como pequeño en pósters en inglés y chino
Cadena de edición continua: demuestra un caso en el que se corrigen paso a paso errores de caracteres en una obra de caligrafía hasta obtener una versión final completa

Expansión de IP de marca: se presenta un caso de creación de emoticonos MBTI basados en un personaje de capibara
Arte y creación: se abre la posibilidad de crear avatares virtuales mediante diversas transformaciones de estilo en retratos
Uso industrial: admite edición detallada, como generar de forma natural incluso efectos de reflexión al insertar señalización

Se publica bajo licencia Apache 2.0, por lo que puede usarse, modificarse y distribuirse libremente