Z-Image - un potente y eficiente modelo de generación de imágenes

(github.com/Tongyi-MAI)

23 puntos por GN⁺ 2025-12-08 | 3 comentarios | Compartir por WhatsApp

Modelo de generación de imágenes de Alibaba con rendimiento de nivel Nano Banana Pro, open source bajo licencia Apache 2.0
Modelo eficiente de generación de imágenes de 6B parámetros basado en un Single-Stream Diffusion Transformer
Está compuesto por tres versiones, y Z-Image-Turbo alcanza una calidad comparable a la de modelos competidores con solo 8 pasos de inferencia, además de funcionar en entornos con 16 GB de VRAM
Z-Image-Edit ofrece funciones de edición de imágenes basadas en instrucciones en lenguaje natural, y Z-Image-Base se publicará como modelo base para fine-tuning de la comunidad
El modelo adopta la arquitectura S3-DiT para integrar tokens de texto, visuales y VAE en una sola secuencia, maximizando la eficiencia de parámetros
Mediante los algoritmos Decoupled-DMD y DMDR, genera imágenes de alta calidad incluso con pocos pasos, y registra un rendimiento de primer nivel entre los modelos open source

Resumen de Z-Image

Z-Image es un modelo fundacional de generación de imágenes que combina eficiencia y rendimiento, y utiliza una arquitectura de transformador de difusión de flujo único
Está basado en 6 mil millones de parámetros y ofrece tres variantes: Z-Image-Turbo, Z-Image-Base y Z-Image-Edit
- Z-Image-Turbo: genera imágenes de alta calidad con solo 8 evaluaciones de función (NFE), con latencia de inferencia menor a 1 segundo en una GPU H800
- Z-Image-Base: modelo base no destilado, compatible con fine-tuning y desarrollo personalizado impulsados por la comunidad
- Z-Image-Edit: versión especializada en edición de imágenes, con funciones de transformación de imágenes basadas en lenguaje natural

Funciones principales y rendimiento

Z-Image-Turbo realiza con precisión imágenes fotorrealistas y renderizado de texto bilingüe en inglés y chino
A través de la función Prompt Enhancer, refuerza la capacidad descriptiva basada en razonamiento y conocimiento del mundo
Z-Image-Edit admite transformaciones creativas de imágenes y comprensión precisa de instrucciones
En la evaluación de preferencia humana basada en Elo de Alibaba AI Arena, registró un rendimiento de primer nivel entre los modelos open source

Arquitectura del modelo (S3-DiT)

Adopta la estructura Scalable Single-Stream DiT (S3-DiT)
- Combina tokens de texto, tokens semánticos visuales y tokens VAE de imagen en una sola secuencia
- Maximiza la eficiencia de parámetros frente a las arquitecturas tradicionales de doble flujo
Esta estructura permite el aprendizaje de representaciones unificadas de texto e imagen

Algoritmos clave

Decoupled-DMD
- Decoupled-DMD es el algoritmo central de destilación que hace posible la inferencia en 8 pasos de Z-Image
- Separa el DMD (Distribution Matching Distillation) existente en dos mecanismos: CFG Augmentation (CA) y Distribution Matching (DM)
  - CA actúa como el motor principal del proceso de destilación
  - DM cumple una función de regularización para mantener la estabilidad y la calidad de la salida
- Al separar y optimizar ambos mecanismos, logra generación de imágenes de alto rendimiento incluso con pocos pasos
DMDR
- DMDR (Distribution Matching Distillation with Reinforcement Learning) es una técnica de posprocesamiento que combina DMD con aprendizaje por refuerzo (RL)
- RL maximiza el rendimiento de DMD, y DMD regulariza a RL en una estructura complementaria
- Con esto, mejora la coherencia semántica, la calidad estética y la consistencia estructural, además de reforzar la capacidad de representar detalles de alta frecuencia

Soporte para comunidad y ecosistema

Cache-DiT: soporte de aceleración de inferencia mediante DBCache, Context Parallelism y Tensor Parallelism
stable-diffusion.cpp: motor basado en C++ que permite ejecutar Z-Image incluso en entornos con 4 GB de VRAM
LeMiCa: ofrece aceleración de inferencia a nivel de timestep sin entrenamiento
ComfyUI ZImageLatent: proporciona una interfaz latent sencilla para la resolución oficial

Resumen

Z-Image es un modelo open source de generación de imágenes de alto rendimiento que combina una arquitectura eficiente (S3-DiT) con técnicas innovadoras de destilación (Decoupled-DMD, DMDR)
Z-Image-Turbo logra al mismo tiempo inferencia rápida y alta calidad, y puede ejecutarse incluso en GPUs de consumo
Z-Image-Edit admite edición precisa de imágenes basada en lenguaje natural
En Alibaba AI Arena, registró una puntuación de preferencia humana de primer nivel entre los modelos open source
El ecosistema de Z-Image se está expandiendo como una plataforma de modelos generativos de propósito general al integrarse con diversos proyectos de la comunidad

3 comentarios

crawler 2025-12-09

La generación de imágenes local realmente llevaba mucho tiempo estancada en SDXL, así que tengo expectativas porque parece que salió un buen modelo base.
Sobre todo, cuando Stable Diffusion se hizo famoso, la censura se volvió tan fuerte que era difícil incluso entrenar, así que el hecho de que también no tenga censura es realmente impresionante.

wedding 2025-12-08

Lo probé por curiosidad. Como no tiene censura, parece que podría convertirse en un arma afilada...

GN⁺ 2025-12-08

Comentarios en Hacker News

La semana pasada probé Z-Image Turbo
- Es muy rápido, unos 3 segundos en una RTX 4090, y resulta sorprendente su capacidad para mantener la consistencia de la imagen incluso en resoluciones de 1536x1024 a 2048x2048
- La precisión es impresionante para un modelo de 6B parámetros
- Es especialmente efectivo al hacer posprocesado (refiner) de los resultados de Qwen-Image 20b. Qwen entiende muy bien los prompts, pero sus imágenes tienden a verse suaves y borrosas
- Muestras de prueba
- Son 3 segundos en una RTX 4090, pero en una M1 Ultra tarda 8 segundos por paso, y con 9 pasos por defecto se va a más de 1 minuto
- Ahí se nota cuánto se ha quedado atrás Apple Silicon en el procesamiento de modelos no lingüísticos
- En fal.ai puede generar en menos de 1 segundo. Si se combina con LoRA, se pueden crear imágenes personalizadas en menos de 3 segundos
- Incluso comparado con seedream, nanobanana y otros, entra fácilmente en el top 5 por su poderosa combinación de velocidad y calidad
- Aun así, durante las pruebas solo pasó 2 de 4 casos; por ejemplo, la barra de kitkat salió con una forma y un logo totalmente distintos, y DNA armor solo se representó como un material metálico cualquiera
- Hay un error tipográfico en el enlace de GitHub (gitub), así que lleva a un sitio malicioso y conviene tener cuidado
- China está sosteniendo de facto el ecosistema de IA de pesos abiertos. Si en el futuro sigue existiendo un mercado de GPUs de consumo, probablemente será gracias a China
Es un avance sorprendente que se logren estos resultados con 6B parámetros
- La comunidad adoptó este modelo muy rápido, y Flux(2) ya está casi olvidado
- Z-Image está ganando más popularidad por ser un modelo sin censura. En cambio, BFL, la empresa detrás de Flux 2, dedicó gran parte de su comunicado a enfatizar la “seguridad” (o sea, la censura)
- Pero esa “seguridad” en realidad tenía más que ver con las políticas del servicio en línea que con el modelo en sí. En la práctica, se puede generar sin restricciones
- Mencionar la “seguridad” es básicamente una forma de decirle a los inversionistas: no los vamos a meter en problemas
- La expresión “lobotomizing” resulta interesante. Me pregunto qué significa aplicar eso a un modelo de generación de imágenes
- Pero si este modelo es chino, quizá no pueda generar imágenes de Xi Jinping
Hace poco hablaron de este modelo en el pódcast Pretrained
- Tiene una arquitectura eficiente que reutiliza backbones existentes para codificación de texto y tokens semánticos
- Fue entrenado con datos de captions sintéticos de distintas longitudes, lo que mejora su comprensión del texto
- Incluir texto OCR dentro de las imágenes en el entrenamiento mejora la calidad de generación de texto. Nano Banana Pro ha mejorado de forma similar
Si uno ve el PDF oficial de la demo, hay casi 50 fotos de mujeres solas y solo 2 fotos de hombres solos
- Queda muy claro cuál es el mercado objetivo que imaginan los desarrolladores
- De hecho, si miras sitios como civitai, la mayoría de las imágenes generadas por usuarios y los LoRA reflejan ese mercado
- Al final, esta tecnología está impulsada por los deseos de los hombres jóvenes
- Por la reacción de la comunidad de r/stablediffusion, Flux 2 parece prácticamente muerto. Tiene mucho más conocimiento, pero Z-Image es más popular
- Curiosamente, uno de los modelos masculinos es Tony Leung tal cual, sin modificaciones
- Al estar en un estado sin censura, el modelo parece encajar mejor con ese mercado
Cuando lo probé yo mismo, me decepcionó
- A simple vista se ve bien, pero en la práctica su capacidad para seguir prompts era floja, y frases como “most cultures” terminaban convertidas en imágenes estilo caricatura
Z-Image está siendo visto como el verdadero sucesor de Stable Diffusion 1.5
- Mejoró en calidad, escalabilidad y posibilidad de correr localmente, y su ecosistema se está formando con rapidez
- Aun así, me pregunto si no se están olvidando de SDXL. Salió hace apenas dos años y medio
Lo probé en un Framework Desktop, pero ComfyUI provocaba un error del kernel amdgpu alrededor de los 40 pasos, así que terminé escribiendo mi propio código para esquivarlo
- Obtuve resultados decentes con LoRA, y hasta con solo 8 pasos (15 a 20 segundos) ya se pueden generar imágenes bastante buenas
- También hice un nodo de mejora de prompts basado en llama.cpp para subir la calidad
Sorprende que quepa tanto conocimiento del mundo en 16GiB
- Todavía está en una etapa temprana, pero en adelante la IA local será más personalizada y hackeable
- Creo que viene un futuro centrado en modelos inteligentes como Nano Banana
- Para aprovecharlos de verdad, debería ser posible inyectar capas de control directamente en el modelo
- Espero que algún día un modelo del nivel de Nano Banana Pro también pueda correr localmente
Pero este modelo también está afectado por la censura china
- Si le pides “Tank Man” o “Lady Liberty Hong Kong”, solo devuelve la frase “Maybe Not Safe”
Como principiante en IA, tenía curiosidad por saber si podía correrlo en una MacBook de 24GB
- En la práctica, en una MacBook Pro con M5 tardó 399 segundos en generar una imagen, y durante ese tiempo el sistema se congeló
- En replicate.com sale una imagen en 1.5 segundos y cuesta alrededor de 1 dólar por cada 1000 imágenes, así que es mucho más eficiente
- La conclusión es que correrlo localmente en Mac es ineficiente
- Si eres principiante, ComfyUI para macOS es lo más fácil. Si cargas el workflow de Z-Image, instala automáticamente el modelo y lo ejecuta
- También se puede ejecutar en Linux, Windows y Mac con koboldcpp. Basta con cargar el archivo de configuración y usarlo directamente desde el servidor local (http://localhost:5001/sdui)