9 puntos por xguru 2022-10-07 | 1 comentarios | Compartir por WhatsApp
  • Un "Text-conditional Video Generation System" que recibe texto y crea videos usando un Video Diffusion Model
  • Su característica es que genera videos de baja resolución a partir de texto (24x48 píxeles, 16 fotogramas, 3 fps) y luego los reescala superponiendo en cascada 7 modelos de difusión
  • La salida final es de 1280x768 a 24 fps. Puede generar un video de 5.3 segundos de duración
  • Paper: Imagen Video : High Definition Video Generation with Diffusion Models