- Los modelos de difusión han traído una revolución a la generación de imágenes, audio y video
- Sin embargo, como requieren un proceso de generación iterativo, son lentos y difíciles de aplicar en tiempo real
- Los modelos de consistencia pueden generar resultados de gran calidad en solo 1 o 2 pasos, sin entrenamiento adversarial
- La calidad también mejora si se hace muestreo varias veces con este modelo
- También permiten edición de datos zero-shot, inpainting de imágenes, colorización, super-resolution y más, sin entrenamiento especial
- Pueden entrenarse extrayendo un modelo de difusión preentrenado o como un modelo generativo independiente
1 comentarios
El artículo se publicó antes: Consistency Models https://arxiv.org/abs/2303.01469
En el primer artículo sobre modelos de difusión, la generación se hacía pasando por 1000 pasos, y ahora, con los avances continuos, eso ha bajado a menos de 50 pasos,
y a finales del año pasado también se habló de Distilled StableDiffusion2, que reduce esto a entre 1 y 4 pasos, pero el artículo todavía no se ha publicado.
https://twitter.com/EMostaque/status/1598131202044866560