Publicado el artículo de investigación de Stable Diffusion 3

xguru · 2024-03-06T10:46:01+09:00

Se publicó un artículo de investigación que explora en profundidad la tecnología que impulsa Stable Diffusion 3 SD3 supera a los sistemas de generación de texto a imagen más avanzados, como DALL·E 3, Midjourney v6 e Ideogram v1, en tipografía y adherencia al prompt, con base en evaluaciones de preferencia humana La nueva arquitectura Multimodal Diffusion Transformer (MMDiT) mejora la comprensión de texto y la capacidad ortográfica frente a versiones anteriores de SD3 al usar conjuntos de pesos separados para las representaciones de imagen y lenguaje Rendimiento Se evaluó el rendimiento comparando las imágenes generadas por Stable Diffusion 3 con varios modelos abiertos como SDXL, SDXL Turbo, Stable Cascade, Playground v2.5 y Pixart-α, así como con sistemas de código cerrado como DALL·E 3, Midjourney v6 e Ideogram v1, basándose en retroalimentación humana Los resultados de las pruebas muestran que Stable Diffusion 3 iguala o supera a los sistemas de generación de texto a imagen más avanzados actuales en todas las áreas mencionadas En pruebas iniciales de inferencia no optimizada, el modelo SD3 más grande tiene 8B parámetros, cabe en los 24GB de VRAM de una RTX 4090 y tarda 34 segundos en generar una imagen de resolución 1024x1024 usando 50 pasos de muestreo En el lanzamiento inicial habrá varias variantes de Stable Diffusion 3, desde modelos de 800m hasta 8B parámetros, reduciendo aún más las barreras de hardware Detalles de la arquitectura Para la generación de texto a imagen, el modelo debe considerar ambas modalidades: texto e imagen Esta nueva arquitectura se llama MMDiT, en referencia a su capacidad para procesar distintas modalidades Al igual que en versiones anteriores de Stable Diffusion, se usan modelos preentrenados para obtener representaciones adecuadas de texto e imagen Como las incrustaciones de texto e imagen son conceptualmente muy diferentes, se usan conjuntos de pesos separados para ambas modalidades Con este enfoque, la información puede fluir entre los tokens de imagen y texto, mejorando la comprensión general y la tipografía de los resultados Esta arquitectura puede ampliarse fácilmente a multimodalidades como video Mejora de Rectified Flows mediante Reweighting Stable Diffusion 3 usa durante el entrenamiento la formulación Rectified Flow (RF), que conecta datos y ruido mediante una trayectoria lineal Esto crea una ruta de inferencia más recta, lo que permite muestrear con menos pasos Además, se introdujo un nuevo calendario de muestreo de trayectorias en el proceso de entrenamiento, dando más peso a la parte intermedia de la trayectoria Al comparar este enfoque con otras trayectorias de difusión, se observó que la formulación RF anterior mejoraba el rendimiento en regímenes de muestreo de pocos pasos, pero su rendimiento relativo disminuía con más pasos En cambio, la variante RF reponderada mejora el rendimiento de forma consistente Escalado del modelo Rectified Flow Transformer Se realizó un estudio de escalado para síntesis de texto a imagen usando la formulación Rectified Flow reponderada y la base MMDiT Se observó una reducción suave de la pérdida de validación tanto con el tamaño del modelo como con las etapas de entrenamiento Para probar si esto se traduce en mejoras significativas en la salida del modelo, se evaluaron la métrica automática de alineación de imágenes (GenEval) y la puntuación de preferencia humana (ELO) Los resultados muestran una fuerte correlación entre estas métricas y la pérdida de validación La tendencia de escalado no muestra señales de saturación, lo que da una perspectiva optimista de que el rendimiento del modelo podrá seguir mejorando en el futuro Codificador de texto flexible Para la inferencia, al eliminar el codificador de texto T5 de 4.7B parámetros, que consume mucha memoria, se pueden reducir significativamente los requisitos de memoria de SD3 con una pérdida de rendimiento mínima Eliminar este codificador de texto no afecta la estética visual (tasa de victorias tras eliminarlo: 50%), y solo reduce ligeramente la adherencia al texto (tasa de victorias: 46%) Sin embargo, se recomienda incluir T5 para aprovechar toda la capacidad de SD3 al generar texto

(stability.ai)

13 puntos por xguru 2024-03-06 | 1 comentarios | Compartir por WhatsApp

Se publicó un artículo de investigación que explora en profundidad la tecnología que impulsa Stable Diffusion 3
SD3 supera a los sistemas de generación de texto a imagen más avanzados, como DALL·E 3, Midjourney v6 e Ideogram v1, en tipografía y adherencia al prompt, con base en evaluaciones de preferencia humana
La nueva arquitectura Multimodal Diffusion Transformer (MMDiT) mejora la comprensión de texto y la capacidad ortográfica frente a versiones anteriores de SD3 al usar conjuntos de pesos separados para las representaciones de imagen y lenguaje

Rendimiento

Se evaluó el rendimiento comparando las imágenes generadas por Stable Diffusion 3 con varios modelos abiertos como SDXL, SDXL Turbo, Stable Cascade, Playground v2.5 y Pixart-α, así como con sistemas de código cerrado como DALL·E 3, Midjourney v6 e Ideogram v1, basándose en retroalimentación humana
Los resultados de las pruebas muestran que Stable Diffusion 3 iguala o supera a los sistemas de generación de texto a imagen más avanzados actuales en todas las áreas mencionadas
En pruebas iniciales de inferencia no optimizada, el modelo SD3 más grande tiene 8B parámetros, cabe en los 24GB de VRAM de una RTX 4090 y tarda 34 segundos en generar una imagen de resolución 1024x1024 usando 50 pasos de muestreo
En el lanzamiento inicial habrá varias variantes de Stable Diffusion 3, desde modelos de 800m hasta 8B parámetros, reduciendo aún más las barreras de hardware

Detalles de la arquitectura

Para la generación de texto a imagen, el modelo debe considerar ambas modalidades: texto e imagen
Esta nueva arquitectura se llama MMDiT, en referencia a su capacidad para procesar distintas modalidades
Al igual que en versiones anteriores de Stable Diffusion, se usan modelos preentrenados para obtener representaciones adecuadas de texto e imagen
Como las incrustaciones de texto e imagen son conceptualmente muy diferentes, se usan conjuntos de pesos separados para ambas modalidades
Con este enfoque, la información puede fluir entre los tokens de imagen y texto, mejorando la comprensión general y la tipografía de los resultados
Esta arquitectura puede ampliarse fácilmente a multimodalidades como video

Mejora de Rectified Flows mediante Reweighting

Stable Diffusion 3 usa durante el entrenamiento la formulación Rectified Flow (RF), que conecta datos y ruido mediante una trayectoria lineal
Esto crea una ruta de inferencia más recta, lo que permite muestrear con menos pasos
Además, se introdujo un nuevo calendario de muestreo de trayectorias en el proceso de entrenamiento, dando más peso a la parte intermedia de la trayectoria
Al comparar este enfoque con otras trayectorias de difusión, se observó que la formulación RF anterior mejoraba el rendimiento en regímenes de muestreo de pocos pasos, pero su rendimiento relativo disminuía con más pasos
En cambio, la variante RF reponderada mejora el rendimiento de forma consistente

Escalado del modelo Rectified Flow Transformer

Se realizó un estudio de escalado para síntesis de texto a imagen usando la formulación Rectified Flow reponderada y la base MMDiT
Se observó una reducción suave de la pérdida de validación tanto con el tamaño del modelo como con las etapas de entrenamiento
Para probar si esto se traduce en mejoras significativas en la salida del modelo, se evaluaron la métrica automática de alineación de imágenes (GenEval) y la puntuación de preferencia humana (ELO)
Los resultados muestran una fuerte correlación entre estas métricas y la pérdida de validación
La tendencia de escalado no muestra señales de saturación, lo que da una perspectiva optimista de que el rendimiento del modelo podrá seguir mejorando en el futuro

Codificador de texto flexible

Para la inferencia, al eliminar el codificador de texto T5 de 4.7B parámetros, que consume mucha memoria, se pueden reducir significativamente los requisitos de memoria de SD3 con una pérdida de rendimiento mínima
Eliminar este codificador de texto no afecta la estética visual (tasa de victorias tras eliminarlo: 50%), y solo reduce ligeramente la adherencia al texto (tasa de victorias: 46%)
Sin embargo, se recomienda incluir T5 para aprovechar toda la capacidad de SD3 al generar texto

1 comentarios

xguru 2024-03-06

Opiniones de Hacker News

El compromiso de Stability AI con el código abierto es muy interesante, y ojalá puedan seguir operando el mayor tiempo posible.
- Me pregunto si Stable Diffusion 3 todavía usa el CLIP de OpenAI para la tokenización y las incrustaciones de texto.
- Simplemente asumo que mejoraron esa parte de la arquitectura del modelo para que se ajuste mejor a los prompts de texto e imagen.
El renderizado de texto de Stable Diffusion 3 es impresionante, pero el texto siempre tiene esa sensación característica de estar demasiado procesado.
- El color del texto siempre está elevado a un solo valor, así que parece como si simplemente se hubiera añadido texto de forma amateur a una imagen de alta calidad.
Pregunta sobre si SD3 se puede descargar.
- Ejecuté versiones iniciales de SD en local y eran muy buenas.
- Me pregunto si, al igual que muchos LLM donde el self-hosting parecía prometedor, esto también terminó cambiándose a SaaS.
Es muy interesante que los generadores de imágenes por fin estén empezando a implementar correctamente la ortografía.
- Se destacó la capacidad ortográfica de DALL-E 3, pero al probar Bing noté que le falta consistencia.
- Me gustaría leer una explicación menos técnica sobre los desafíos de implementar correctamente la ortografía y por qué ocurre.
- Me pregunto si SD3 puede limpiar o corregir problemas de texto en imágenes antiguas.
El anuncio de SD3 es muy interesante.
- El paper contiene muchos más detalles que el blog.
- El punto principal del paper es que tiene una arquitectura que puede incluir un codificador de texto más expresivo, y eso ayuda con escenas complejas.
- En términos de entrenamiento, todavía no han llegado al límite de este stack, así que espero que SD3.1 mejore aún más, y supongo que SD4 podría añadir más codificación de front-end para procesar video.
La mejora en el renderizado de texto de SD3 está bien, pero generar manos y dedos sigue siendo difícil.
- Las imágenes de ejemplo no incluyen manos humanas, excepto el mago pixelado, y las manos del mono se ven algo raras.
Esta arquitectura es lo suficientemente flexible como para escalarse fácilmente a video.
- Espero que se convierta en otro bloque “fundacional”, como los bloques transformer de LLaMA.
- Es lo bastante general como para integrar la codificación de texto/la condición de timestep en el bloque de varias maneras.
- Casi no queda nada por hacer aparte de experimentar con la codificación posicional (¿2D RoPE?).
- Escalar los transformers y enfocarse en cuantización/optimización para que este stack pueda correr bien en todas partes.
Muchas empresas que en algún momento estuvieron comprometidas con lo “abierto”, o que antes eran abiertas, se están volviendo cada vez más cerradas.
- Se agradece que Stability AI publique estos papers de investigación.
En contraste con Stability AI, OpenAI es el laboratorio de investigación en IA más cerrado.
- Incluso Deep Mind publica más papers.
- Me pregunto si hay alguien dentro de OpenAI que diga públicamente: “¡Estamos aquí por el dinero!”.
- La carta que SamA escribió recientemente sobre el juicio de Elon es tan veraz como cuando Putin dice que invade Ucrania para ‘desnazificarla’.