5 puntos por xguru 2023-12-22 | Aún no hay comentarios. | Compartir por WhatsApp
  • Recientemente han aparecido modelos de generación de video que muestran una calidad de imagen sorprendente, pero su limitación actual es la falta de capacidad para generar movimientos consistentes y de gran escala
  • VideoPoet es un LLM capaz de realizar diversas tareas de generación de video, como texto-a-video, imagen-a-video, estilización de video, video inpainting y outpainting, y generación de video-a-audio
    • A diferencia de otros modelos, no depende de componentes separados especializados en cada tarea, sino que integra cada función dentro de un único LLM
    • Convierte imágenes en movimiento y edita video para realizar inpainting u outpainting
  • VideoPoet entrena un modelo de lenguaje autorregresivo usando varios tokenizadores para aprender las modalidades de video, imagen, audio y texto
  • En el caso de texto-a-video, la salida de video tiene longitud variable y puede aplicar distintos movimientos y estilos según el contenido del texto
  • En el caso de imagen-a-video, anima la imagen de entrada con movimiento junto con el prompt
  • En la estilización de video, predice información de Optical Flow y Depth, y luego la ingresa en VideoPoet junto con texto adicional
  • VideoPoet también puede generar audio, lo que permite producir video y audio dentro de un solo modelo
  • Según los resultados de evaluación de generación, en promedio las personas consideraron que VideoPoet sigue mejor los prompts y genera movimientos más interesantes
  • VideoPoet demuestra la competitividad de los LLM para generar movimientos interesantes y de alta calidad dentro del video

Aún no hay comentarios.

Aún no hay comentarios.