- Modelo de generación de imágenes de Alibaba con rendimiento de nivel Nano Banana Pro, open source bajo licencia Apache 2.0
- Modelo eficiente de generación de imágenes de 6B parámetros basado en un Single-Stream Diffusion Transformer
- Está compuesto por tres versiones, y Z-Image-Turbo alcanza una calidad comparable a la de modelos competidores con solo 8 pasos de inferencia, además de funcionar en entornos con 16 GB de VRAM
- Z-Image-Edit ofrece funciones de edición de imágenes basadas en instrucciones en lenguaje natural, y Z-Image-Base se publicará como modelo base para fine-tuning de la comunidad
- El modelo adopta la arquitectura S3-DiT para integrar tokens de texto, visuales y VAE en una sola secuencia, maximizando la eficiencia de parámetros
- Mediante los algoritmos Decoupled-DMD y DMDR, genera imágenes de alta calidad incluso con pocos pasos, y registra un rendimiento de primer nivel entre los modelos open source
Resumen de Z-Image
- Z-Image es un modelo fundacional de generación de imágenes que combina eficiencia y rendimiento, y utiliza una arquitectura de transformador de difusión de flujo único
- Está basado en 6 mil millones de parámetros y ofrece tres variantes: Z-Image-Turbo, Z-Image-Base y Z-Image-Edit
- Z-Image-Turbo: genera imágenes de alta calidad con solo 8 evaluaciones de función (NFE), con latencia de inferencia menor a 1 segundo en una GPU H800
- Z-Image-Base: modelo base no destilado, compatible con fine-tuning y desarrollo personalizado impulsados por la comunidad
- Z-Image-Edit: versión especializada en edición de imágenes, con funciones de transformación de imágenes basadas en lenguaje natural
Funciones principales y rendimiento
- Z-Image-Turbo realiza con precisión imágenes fotorrealistas y renderizado de texto bilingüe en inglés y chino
- A través de la función Prompt Enhancer, refuerza la capacidad descriptiva basada en razonamiento y conocimiento del mundo
- Z-Image-Edit admite transformaciones creativas de imágenes y comprensión precisa de instrucciones
- En la evaluación de preferencia humana basada en Elo de Alibaba AI Arena, registró un rendimiento de primer nivel entre los modelos open source
Arquitectura del modelo (S3-DiT)
- Adopta la estructura Scalable Single-Stream DiT (S3-DiT)
- Combina tokens de texto, tokens semánticos visuales y tokens VAE de imagen en una sola secuencia
- Maximiza la eficiencia de parámetros frente a las arquitecturas tradicionales de doble flujo
- Esta estructura permite el aprendizaje de representaciones unificadas de texto e imagen
Algoritmos clave
-
Decoupled-DMD
- Decoupled-DMD es el algoritmo central de destilación que hace posible la inferencia en 8 pasos de Z-Image
- Separa el DMD (Distribution Matching Distillation) existente en dos mecanismos: CFG Augmentation (CA) y Distribution Matching (DM)
- CA actúa como el motor principal del proceso de destilación
- DM cumple una función de regularización para mantener la estabilidad y la calidad de la salida
- Al separar y optimizar ambos mecanismos, logra generación de imágenes de alto rendimiento incluso con pocos pasos
-
DMDR
- DMDR (Distribution Matching Distillation with Reinforcement Learning) es una técnica de posprocesamiento que combina DMD con aprendizaje por refuerzo (RL)
- RL maximiza el rendimiento de DMD, y DMD regulariza a RL en una estructura complementaria
- Con esto, mejora la coherencia semántica, la calidad estética y la consistencia estructural, además de reforzar la capacidad de representar detalles de alta frecuencia
Soporte para comunidad y ecosistema
- Cache-DiT: soporte de aceleración de inferencia mediante DBCache, Context Parallelism y Tensor Parallelism
- stable-diffusion.cpp: motor basado en C++ que permite ejecutar Z-Image incluso en entornos con 4 GB de VRAM
- LeMiCa: ofrece aceleración de inferencia a nivel de timestep sin entrenamiento
- ComfyUI ZImageLatent: proporciona una interfaz latent sencilla para la resolución oficial
Resumen
- Z-Image es un modelo open source de generación de imágenes de alto rendimiento que combina una arquitectura eficiente (S3-DiT) con técnicas innovadoras de destilación (Decoupled-DMD, DMDR)
- Z-Image-Turbo logra al mismo tiempo inferencia rápida y alta calidad, y puede ejecutarse incluso en GPUs de consumo
- Z-Image-Edit admite edición precisa de imágenes basada en lenguaje natural
- En Alibaba AI Arena, registró una puntuación de preferencia humana de primer nivel entre los modelos open source
- El ecosistema de Z-Image se está expandiendo como una plataforma de modelos generativos de propósito general al integrarse con diversos proyectos de la comunidad
3 comentarios
La generación de imágenes local realmente llevaba mucho tiempo estancada en SDXL, así que tengo expectativas porque parece que salió un buen modelo base.
Sobre todo, cuando Stable Diffusion se hizo famoso, la censura se volvió tan fuerte que era difícil incluso entrenar, así que el hecho de que también no tenga censura es realmente impresionante.
Lo probé por curiosidad. Como no tiene censura, parece que podría convertirse en un arma afilada...
Comentarios en Hacker News
La semana pasada probé Z-Image Turbo
gitub), así que lleva a un sitio malicioso y conviene tener cuidadoEs un avance sorprendente que se logren estos resultados con 6B parámetros
Hace poco hablaron de este modelo en el pódcast Pretrained
Si uno ve el PDF oficial de la demo, hay casi 50 fotos de mujeres solas y solo 2 fotos de hombres solos
Cuando lo probé yo mismo, me decepcionó
Z-Image está siendo visto como el verdadero sucesor de Stable Diffusion 1.5
Lo probé en un Framework Desktop, pero ComfyUI provocaba un error del kernel amdgpu alrededor de los 40 pasos, así que terminé escribiendo mi propio código para esquivarlo
Sorprende que quepa tanto conocimiento del mundo en 16GiB
Pero este modelo también está afectado por la censura china
Como principiante en IA, tenía curiosidad por saber si podía correrlo en una MacBook de 24GB