SnapFusion - modelo de difusión de texto a imagen que puede generarse en 2 segundos en dispositivos móviles

xguru · 2023-06-14T11:17:02+09:00

Logrado mediante una arquitectura de red eficiente y mejoras en la destilación por etapas Presenta un UNet eficiente que identifica la redundancia del modelo original y reduce el cómputo del decodificador de imágenes mediante destilación de datos En experimentos con MS-COCO, el modelo SnapFusion con solo 8 pasos de eliminación de ruido logró mejores puntajes FID y CLIP que Stable Diffusion v.15 con 50 pasos

(snap-research.github.io)

9 puntos por xguru 2023-06-14 | 1 comentarios | Compartir por WhatsApp

Logrado mediante una arquitectura de red eficiente y mejoras en la destilación por etapas
Presenta un UNet eficiente que identifica la redundancia del modelo original y reduce el cómputo del decodificador de imágenes mediante destilación de datos
En experimentos con MS-COCO, el modelo SnapFusion con solo 8 pasos de eliminación de ruido logró mejores puntajes FID y CLIP que Stable Diffusion v.15 con 50 pasos

1 comentarios

xguru 2023-06-14

Es un artículo publicado por Snapchat, pero como el código todavía no se ha publicado... hay comentarios discutiendo si de verdad es posible. https://news.ycombinator.com/item?id=36304716
Por lo pronto, el video de demostración sí está corriendo en modo avión.

SnapFusion - modelo de difusión de texto a imagen que puede generarse en 2 segundos en dispositivos móviles

Lecturas relacionadas

1 comentarios