- Qwen-Image-Edit es un modelo extendido especializado en edición de imágenes basado en Qwen-Image
- Tiene una arquitectura que envía la imagen de entrada simultáneamente a Qwen2.5-VL y al VAE Encoder, lo que permite tanto edición semántica como de apariencia
- Su función de edición de texto es potente, ya que permite modificar directamente texto en chino e inglés manteniendo la fuente, el tamaño y el estilo
- Ha alcanzado un rendimiento de última generación (SOTA) en diversos benchmarks, consolidándose como un sólido modelo base para edición de imágenes
- Se publica como open source bajo licencia Apache 2.0, por lo que desarrolladores e investigadores pueden usarlo libremente
Introducción
- Qwen-Image-Edit es un modelo que amplía la capacidad de renderizado de texto de Qwen-Image para dar soporte a la edición de imágenes
- Su arquitectura envía la entrada de imagen al mismo tiempo al control semántico (Qwen2.5-VL) y al control de apariencia (VAE Encoder)
- Se caracteriza por admitir tanto edición precisa de texto como edición semántica y de apariencia
Funciones principales
- Edición semántica y de apariencia: admite cambios semánticos como agregar, eliminar o rotar objetos y transformar estilos, así como edición de apariencia para modificar solo áreas específicas
- Edición precisa de texto: permite modificar directamente texto en inglés y chino conservando la tipografía y el estilo originales
- Ventaja de rendimiento: logra rendimiento de última generación en múltiples benchmarks públicos
Inicio rápido
- Se puede usar mediante la librería
diffusers de Hugging Face
- En el código de ejemplo, se cambia el color de un conejo a morado y el fondo a luz de flash
- Puede ejecutarse eficientemente con aceleración CUDA y soporte para
torch.bfloat16
Casos de demostración (Showcase)
- Edición semántica: permite crear IP de personajes, rotar objetos (90°, 180°) y transformar estilos (por ejemplo, estilo Ghibli)
- Edición de apariencia: realiza con precisión tareas como añadir letreros, eliminar cabello, cambiar el color de un texto específico, sustituir el fondo o cambiar la ropa
- Edición de texto: permite corregir con precisión tanto texto grande como pequeño en pósters en inglés y chino
- Cadena de edición continua: demuestra un caso en el que se corrigen paso a paso errores de caracteres en una obra de caligrafía hasta obtener una versión final completa
Escenarios de aplicación
- Expansión de IP de marca: se presenta un caso de creación de emoticonos MBTI basados en un personaje de capibara
- Arte y creación: se abre la posibilidad de crear avatares virtuales mediante diversas transformaciones de estilo en retratos
- Uso industrial: admite edición detallada, como generar de forma natural incluso efectos de reflexión al insertar señalización
Licencia
- Se publica bajo licencia Apache 2.0, por lo que puede usarse, modificarse y distribuirse libremente
Aún no hay comentarios.