- Se publicó un artículo de investigación que explora en profundidad la tecnología que impulsa Stable Diffusion 3
- SD3 supera a los sistemas de generación de texto a imagen más avanzados, como DALL·E 3, Midjourney v6 e Ideogram v1, en tipografía y adherencia al prompt, con base en evaluaciones de preferencia humana
- La nueva arquitectura Multimodal Diffusion Transformer (MMDiT) mejora la comprensión de texto y la capacidad ortográfica frente a versiones anteriores de SD3 al usar conjuntos de pesos separados para las representaciones de imagen y lenguaje
Rendimiento
- Se evaluó el rendimiento comparando las imágenes generadas por Stable Diffusion 3 con varios modelos abiertos como SDXL, SDXL Turbo, Stable Cascade, Playground v2.5 y Pixart-α, así como con sistemas de código cerrado como DALL·E 3, Midjourney v6 e Ideogram v1, basándose en retroalimentación humana
- Los resultados de las pruebas muestran que Stable Diffusion 3 iguala o supera a los sistemas de generación de texto a imagen más avanzados actuales en todas las áreas mencionadas
- En pruebas iniciales de inferencia no optimizada, el modelo SD3 más grande tiene 8B parámetros, cabe en los 24GB de VRAM de una RTX 4090 y tarda 34 segundos en generar una imagen de resolución 1024x1024 usando 50 pasos de muestreo
- En el lanzamiento inicial habrá varias variantes de Stable Diffusion 3, desde modelos de 800m hasta 8B parámetros, reduciendo aún más las barreras de hardware
Detalles de la arquitectura
- Para la generación de texto a imagen, el modelo debe considerar ambas modalidades: texto e imagen
- Esta nueva arquitectura se llama MMDiT, en referencia a su capacidad para procesar distintas modalidades
- Al igual que en versiones anteriores de Stable Diffusion, se usan modelos preentrenados para obtener representaciones adecuadas de texto e imagen
- Como las incrustaciones de texto e imagen son conceptualmente muy diferentes, se usan conjuntos de pesos separados para ambas modalidades
- Con este enfoque, la información puede fluir entre los tokens de imagen y texto, mejorando la comprensión general y la tipografía de los resultados
- Esta arquitectura puede ampliarse fácilmente a multimodalidades como video
Mejora de Rectified Flows mediante Reweighting
- Stable Diffusion 3 usa durante el entrenamiento la formulación Rectified Flow (RF), que conecta datos y ruido mediante una trayectoria lineal
- Esto crea una ruta de inferencia más recta, lo que permite muestrear con menos pasos
- Además, se introdujo un nuevo calendario de muestreo de trayectorias en el proceso de entrenamiento, dando más peso a la parte intermedia de la trayectoria
- Al comparar este enfoque con otras trayectorias de difusión, se observó que la formulación RF anterior mejoraba el rendimiento en regímenes de muestreo de pocos pasos, pero su rendimiento relativo disminuía con más pasos
- En cambio, la variante RF reponderada mejora el rendimiento de forma consistente
Escalado del modelo Rectified Flow Transformer
- Se realizó un estudio de escalado para síntesis de texto a imagen usando la formulación Rectified Flow reponderada y la base MMDiT
- Se observó una reducción suave de la pérdida de validación tanto con el tamaño del modelo como con las etapas de entrenamiento
- Para probar si esto se traduce en mejoras significativas en la salida del modelo, se evaluaron la métrica automática de alineación de imágenes (GenEval) y la puntuación de preferencia humana (ELO)
- Los resultados muestran una fuerte correlación entre estas métricas y la pérdida de validación
- La tendencia de escalado no muestra señales de saturación, lo que da una perspectiva optimista de que el rendimiento del modelo podrá seguir mejorando en el futuro
Codificador de texto flexible
- Para la inferencia, al eliminar el codificador de texto T5 de 4.7B parámetros, que consume mucha memoria, se pueden reducir significativamente los requisitos de memoria de SD3 con una pérdida de rendimiento mínima
- Eliminar este codificador de texto no afecta la estética visual (tasa de victorias tras eliminarlo: 50%), y solo reduce ligeramente la adherencia al texto (tasa de victorias: 46%)
- Sin embargo, se recomienda incluir T5 para aprovechar toda la capacidad de SD3 al generar texto
1 comentarios
Opiniones de Hacker News
El compromiso de Stability AI con el código abierto es muy interesante, y ojalá puedan seguir operando el mayor tiempo posible.
El renderizado de texto de Stable Diffusion 3 es impresionante, pero el texto siempre tiene esa sensación característica de estar demasiado procesado.
Pregunta sobre si SD3 se puede descargar.
Es muy interesante que los generadores de imágenes por fin estén empezando a implementar correctamente la ortografía.
El anuncio de SD3 es muy interesante.
La mejora en el renderizado de texto de SD3 está bien, pero generar manos y dedos sigue siendo difícil.
Esta arquitectura es lo suficientemente flexible como para escalarse fácilmente a video.
Muchas empresas que en algún momento estuvieron comprometidas con lo “abierto”, o que antes eran abiertas, se están volviendo cada vez más cerradas.
En contraste con Stability AI, OpenAI es el laboratorio de investigación en IA más cerrado.