18 puntos por GN⁺ 2025-08-21 | Aún no hay comentarios. | Compartir por WhatsApp
  • Qwen-Image-Edit es un modelo extendido especializado en edición de imágenes basado en Qwen-Image
  • Tiene una arquitectura que envía la imagen de entrada simultáneamente a Qwen2.5-VL y al VAE Encoder, lo que permite tanto edición semántica como de apariencia
  • Su función de edición de texto es potente, ya que permite modificar directamente texto en chino e inglés manteniendo la fuente, el tamaño y el estilo
  • Ha alcanzado un rendimiento de última generación (SOTA) en diversos benchmarks, consolidándose como un sólido modelo base para edición de imágenes
  • Se publica como open source bajo licencia Apache 2.0, por lo que desarrolladores e investigadores pueden usarlo libremente

Introducción

  • Qwen-Image-Edit es un modelo que amplía la capacidad de renderizado de texto de Qwen-Image para dar soporte a la edición de imágenes
  • Su arquitectura envía la entrada de imagen al mismo tiempo al control semántico (Qwen2.5-VL) y al control de apariencia (VAE Encoder)
  • Se caracteriza por admitir tanto edición precisa de texto como edición semántica y de apariencia

Funciones principales

  • Edición semántica y de apariencia: admite cambios semánticos como agregar, eliminar o rotar objetos y transformar estilos, así como edición de apariencia para modificar solo áreas específicas
  • Edición precisa de texto: permite modificar directamente texto en inglés y chino conservando la tipografía y el estilo originales
  • Ventaja de rendimiento: logra rendimiento de última generación en múltiples benchmarks públicos

Inicio rápido

  • Se puede usar mediante la librería diffusers de Hugging Face
  • En el código de ejemplo, se cambia el color de un conejo a morado y el fondo a luz de flash
  • Puede ejecutarse eficientemente con aceleración CUDA y soporte para torch.bfloat16

Casos de demostración (Showcase)

  • Edición semántica: permite crear IP de personajes, rotar objetos (90°, 180°) y transformar estilos (por ejemplo, estilo Ghibli)
  • Edición de apariencia: realiza con precisión tareas como añadir letreros, eliminar cabello, cambiar el color de un texto específico, sustituir el fondo o cambiar la ropa
  • Edición de texto: permite corregir con precisión tanto texto grande como pequeño en pósters en inglés y chino
  • Cadena de edición continua: demuestra un caso en el que se corrigen paso a paso errores de caracteres en una obra de caligrafía hasta obtener una versión final completa

Escenarios de aplicación

  • Expansión de IP de marca: se presenta un caso de creación de emoticonos MBTI basados en un personaje de capibara
  • Arte y creación: se abre la posibilidad de crear avatares virtuales mediante diversas transformaciones de estilo en retratos
  • Uso industrial: admite edición detallada, como generar de forma natural incluso efectos de reflexión al insertar señalización

Licencia

  • Se publica bajo licencia Apache 2.0, por lo que puede usarse, modificarse y distribuirse libremente

Aún no hay comentarios.

Aún no hay comentarios.