Stable Diffusion - open source de Text-To-Image similar a DALL-E

xguru · 2022-08-16T10:07:51+09:00

Modelo Latent Diffusion entrenado con imágenes de 512x512 de la base de datos LAION-5B Usa el codificador de texto CLIP ViT-L/14, similar a Imagen de Google Es liviano, por lo que puede funcionar incluso con una sola GPU con más de 10 GB de VRAM Colaboración y patrocinio de investigadores de Stability AI y LAION

(github.com/CompVis)

11 puntos por xguru 2022-08-16 | 1 comentarios | Compartir por WhatsApp

Modelo Latent Diffusion entrenado con imágenes de 512x512 de la base de datos LAION-5B
Usa el codificador de texto CLIP ViT-L/14, similar a Imagen de Google
Es liviano, por lo que puede funcionar incluso con una sola GPU con más de 10 GB de VRAM
Colaboración y patrocinio de investigadores de Stability AI y LAION

1 comentarios

xguru 2022-08-16

Dicen que en áreas como las ilustraciones de arte moderno, los resultados son incluso mejores que los de DALL-E 2 o MidJourney.
Según comentan en el Discord de desarrolladores, también funciona en Macs con M1.
Por ahora, como tiene pocas limitaciones de hardware, parece que su gran ventaja será que cualquiera puede usarlo fácilmente.
Por supuesto, aunque es open source, por ahora solo se puede acceder con fines académicos.

Operar directamente un generador de imágenes con IA tipo DALL-E
Imagen - el modelo de difusión text-to-image de Google
LAION-400M - conjunto de datos de 400 millones de pares imagen-texto

Stable Diffusion - open source de Text-To-Image similar a DALL-E

Lecturas relacionadas

1 comentarios