- Recientemente han aparecido modelos de generación de video que muestran una calidad de imagen sorprendente, pero su limitación actual es la falta de capacidad para generar movimientos consistentes y de gran escala
- VideoPoet es un LLM capaz de realizar diversas tareas de generación de video, como texto-a-video, imagen-a-video, estilización de video, video inpainting y outpainting, y generación de video-a-audio
- A diferencia de otros modelos, no depende de componentes separados especializados en cada tarea, sino que integra cada función dentro de un único LLM
- Convierte imágenes en movimiento y edita video para realizar inpainting u outpainting
- VideoPoet entrena un modelo de lenguaje autorregresivo usando varios tokenizadores para aprender las modalidades de video, imagen, audio y texto
- En el caso de texto-a-video, la salida de video tiene longitud variable y puede aplicar distintos movimientos y estilos según el contenido del texto
- En el caso de imagen-a-video, anima la imagen de entrada con movimiento junto con el prompt
- En la estilización de video, predice información de Optical Flow y Depth, y luego la ingresa en VideoPoet junto con texto adicional
- VideoPoet también puede generar audio, lo que permite producir video y audio dentro de un solo modelo
- Según los resultados de evaluación de generación, en promedio las personas consideraron que VideoPoet sigue mejor los prompts y genera movimientos más interesantes
- VideoPoet demuestra la competitividad de los LLM para generar movimientos interesantes y de alta calidad dentro del video
Aún no hay comentarios.