SnapFusion - modelo de difusión de texto a imagen que puede generarse en 2 segundos en dispositivos móviles
(snap-research.github.io)- Logrado mediante una arquitectura de red eficiente y mejoras en la destilación por etapas
- Presenta un UNet eficiente que identifica la redundancia del modelo original y reduce el cómputo del decodificador de imágenes mediante destilación de datos
- En experimentos con MS-COCO, el modelo SnapFusion con solo 8 pasos de eliminación de ruido logró mejores puntajes FID y CLIP que Stable Diffusion v.15 con 50 pasos
1 comentarios
Es un artículo publicado por Snapchat, pero como el código todavía no se ha publicado... hay comentarios discutiendo si de verdad es posible. https://news.ycombinator.com/item?id=36304716
Por lo pronto, el video de demostración sí está corriendo en modo avión.