- LDM aprende un Diffusion Model en un espacio latente comprimido de baja dimensión, lo que permite sintetizar imágenes de alta resolución sin requerir muchos recursos de cómputo
- Un paper de NVIDIA que aplica este LDM a video de alta resolución
- Preentrena el LDM solo para imágenes, introduce la dimensión temporal y ajusta finamente la secuencia de imágenes codificadas para convertir el generador de imágenes en un generador de video
- Alinea un upsampler de modelo de difusión para convertirlo en un modelo de video de ultra alta resolución con consistencia temporal
Aún no hay comentarios.