Técnica consistente y controlable de síntesis de imagen a video para animación de personajes
- La animación de personajes tiene como objetivo generar videos de personajes a partir de imágenes estáticas mediante señales de movimiento.
- Los modelos de difusión dominan la investigación en generación visual gracias a su gran capacidad generativa, pero en el campo de imagen a video, especialmente en la animación de personajes, mantener los detalles con consistencia temporal sigue siendo un gran desafío.
- En este artículo se propone un nuevo framework para animación de personajes que aprovecha las ventajas de los modelos de difusión, y se diseña
ReferenceNet para conservar las complejas características de apariencia de la imagen de referencia, integrando detalles mediante atención espacial.
Metodología
- El método propuesto, en términos generales, usa
Pose Guider para codificar inicialmente la secuencia de poses, la fusiona con ruido multi-frame y luego Denoising UNet realiza el proceso de desruido para generar el video.
- Los bloques de cálculo de
Denoising UNet están compuestos por atención espacial, atención cruzada y atención temporal, y la integración de la imagen de referencia incluye dos aspectos.
- Primero, las características detalladas extraídas mediante
ReferenceNet se usan en la atención espacial y, segundo, las características semánticas extraídas mediante el codificador de imágenes CLIP se usan en la atención cruzada.
- La atención temporal opera en la dimensión temporal y, finalmente, el decodificador VAE decodifica el resultado en un clip de video.
Animación de diversos personajes
- Se pueden animar distintos tipos de personajes, incluidos humanos, anime/cómic y personajes humanoides.
- La síntesis de videos de moda busca convertir fotos de moda en videos animados realistas, y los experimentos se realizaron usando los mismos datos de entrenamiento en el dataset UBC Fashion Video.
- La generación de baile humano se enfoca en animar imágenes en escenarios reales de baile, y los experimentos se realizaron usando los mismos datos de entrenamiento en el dataset de TikTok.
Opinión de GN⁺
- Esta investigación representa un avance importante en el campo de la animación de personajes y presenta un nuevo método para generar video a partir de imágenes usando modelos de difusión.
- Una tecnología capaz de controlar con precisión el movimiento del personaje mientras conserva las características detalladas de la imagen de referencia podría tener un gran impacto en la industria de la animación y los efectos visuales.
- Este artículo ofrece información interesante sobre un enfoque innovador para la animación de personajes y sobre cómo puede aplicarse a diversos personajes y escenarios.
3 comentarios
Si pienso en las animaciones cuyo estilo de dibujo se desmorona por retrasos en el calendario, quizá el resultado de esto hasta podría ser mejor. Aun así, supongo que en cierta medida sí haría falta intervención humana en el proceso de posproducción.
Y el resultado está increíble. El área de video también está avanzando rapidísimo.
Comentarios de Hacker News
Asombro por ver por primera vez a una IA generar movimientos humanos convincentes
Sorpresa de que en unos años esta tecnología pueda generalizarse más allá de los personajes jóvenes femeninos tradicionalmente atractivos
Cuestionamiento de la práctica de publicar resultados de investigación en GitHub sin liberar el código
Expectativa por una herramienta o cadena de herramientas para convertir un manga favorito en animación
Imaginan que en pocos años habrá sitios como YouTube donde todo el video se genere en tiempo real
Crítica a que la selección de imágenes de prueba es inapropiada
Sospecha de que las muestras fueron seleccionadas a conveniencia y de que el sistema está sobreajustado al conjunto de datos, por lo que no se generalizará a otras cosas
Se imaginan cómo sería esta tecnología combinada con modelado 3D y VR
Se cuestiona por qué todo en este campo tiende a lo sexual