VideoPoet - el LLM de Google especializado en generación de video Zero-Shot

xguru · 2023-12-22T10:15:01+09:00

Recientemente han aparecido modelos de generación de video que muestran una calidad de imagen sorprendente, pero su limitación actual es la falta de capacidad para generar movimientos consistentes y de gran escala VideoPoet es un LLM capaz de realizar diversas tareas de generación de video, como texto-a-video, imagen-a-video, estilización de video, video inpainting y outpainting, y generación de video-a-audio A diferencia de otros modelos, no depende de componentes separados especializados en cada tarea, sino que integra cada función dentro de un único LLM Convierte imágenes en movimiento y edita video para realizar inpainting u outpainting VideoPoet entrena un modelo de lenguaje autorregresivo usando varios tokenizadores para aprender las modalidades de video, imagen, audio y texto En el caso de texto-a-video, la salida de video tiene longitud variable y puede aplicar distintos movimientos y estilos según el contenido del texto En el caso de imagen-a-video, anima la imagen de entrada con movimiento junto con el prompt En la estilización de video, predice información de Optical Flow y Depth, y luego la ingresa en VideoPoet junto con texto adicional VideoPoet también puede generar audio, lo que permite producir video y audio dentro de un solo modelo Según los resultados de evaluación de generación, en promedio las personas consideraron que VideoPoet sigue mejor los prompts y genera movimientos más interesantes VideoPoet demuestra la competitividad de los LLM para generar movimientos interesantes y de alta calidad dentro del video

(blog.research.google)

5 puntos por xguru 2023-12-22 | Aún no hay comentarios. | Compartir por WhatsApp

Recientemente han aparecido modelos de generación de video que muestran una calidad de imagen sorprendente, pero su limitación actual es la falta de capacidad para generar movimientos consistentes y de gran escala
VideoPoet es un LLM capaz de realizar diversas tareas de generación de video, como texto-a-video, imagen-a-video, estilización de video, video inpainting y outpainting, y generación de video-a-audio
- A diferencia de otros modelos, no depende de componentes separados especializados en cada tarea, sino que integra cada función dentro de un único LLM
- Convierte imágenes en movimiento y edita video para realizar inpainting u outpainting
VideoPoet entrena un modelo de lenguaje autorregresivo usando varios tokenizadores para aprender las modalidades de video, imagen, audio y texto
En el caso de texto-a-video, la salida de video tiene longitud variable y puede aplicar distintos movimientos y estilos según el contenido del texto
En el caso de imagen-a-video, anima la imagen de entrada con movimiento junto con el prompt
En la estilización de video, predice información de Optical Flow y Depth, y luego la ingresa en VideoPoet junto con texto adicional
VideoPoet también puede generar audio, lo que permite producir video y audio dentro de un solo modelo
Según los resultados de evaluación de generación, en promedio las personas consideraron que VideoPoet sigue mejor los prompts y genera movimientos más interesantes
VideoPoet demuestra la competitividad de los LLM para generar movimientos interesantes y de alta calidad dentro del video

VideoPoet - el LLM de Google especializado en generación de video Zero-Shot

Lecturas relacionadas

Aún no hay comentarios.