Animate Anyone: tecnología de síntesis de imagen a video para animación de personajes

(humanaigc.github.io)

15 puntos por GN⁺ 2023-12-02 | 3 comentarios | Compartir por WhatsApp

Técnica consistente y controlable de síntesis de imagen a video para animación de personajes

La animación de personajes tiene como objetivo generar videos de personajes a partir de imágenes estáticas mediante señales de movimiento.
Los modelos de difusión dominan la investigación en generación visual gracias a su gran capacidad generativa, pero en el campo de imagen a video, especialmente en la animación de personajes, mantener los detalles con consistencia temporal sigue siendo un gran desafío.
En este artículo se propone un nuevo framework para animación de personajes que aprovecha las ventajas de los modelos de difusión, y se diseña ReferenceNet para conservar las complejas características de apariencia de la imagen de referencia, integrando detalles mediante atención espacial.

Metodología

El método propuesto, en términos generales, usa Pose Guider para codificar inicialmente la secuencia de poses, la fusiona con ruido multi-frame y luego Denoising UNet realiza el proceso de desruido para generar el video.
Los bloques de cálculo de Denoising UNet están compuestos por atención espacial, atención cruzada y atención temporal, y la integración de la imagen de referencia incluye dos aspectos.
Primero, las características detalladas extraídas mediante ReferenceNet se usan en la atención espacial y, segundo, las características semánticas extraídas mediante el codificador de imágenes CLIP se usan en la atención cruzada.
La atención temporal opera en la dimensión temporal y, finalmente, el decodificador VAE decodifica el resultado en un clip de video.

Animación de diversos personajes

Se pueden animar distintos tipos de personajes, incluidos humanos, anime/cómic y personajes humanoides.
La síntesis de videos de moda busca convertir fotos de moda en videos animados realistas, y los experimentos se realizaron usando los mismos datos de entrenamiento en el dataset UBC Fashion Video.
La generación de baile humano se enfoca en animar imágenes en escenarios reales de baile, y los experimentos se realizaron usando los mismos datos de entrenamiento en el dataset de TikTok.

Opinión de GN⁺

Esta investigación representa un avance importante en el campo de la animación de personajes y presenta un nuevo método para generar video a partir de imágenes usando modelos de difusión.
Una tecnología capaz de controlar con precisión el movimiento del personaje mientras conserva las características detalladas de la imagen de referencia podría tener un gran impacto en la industria de la animación y los efectos visuales.
Este artículo ofrece información interesante sobre un enfoque innovador para la animación de personajes y sobre cómo puede aplicarse a diversos personajes y escenarios.

3 comentarios

laeyoung 2023-12-04

Si pienso en las animaciones cuyo estilo de dibujo se desmorona por retrasos en el calendario, quizá el resultado de esto hasta podría ser mejor. Aun así, supongo que en cierta medida sí haría falta intervención humana en el proceso de posproducción.

xguru 2023-12-02

Y el resultado está increíble. El área de video también está avanzando rapidísimo.

GN⁺ 2023-12-02

Comentarios de Hacker News

Asombro por ver por primera vez a una IA generar movimientos humanos convincentes
- Es probable que la estructura real del movimiento provenga de captura de movimiento
- Curiosidad sobre el nivel actual de la tecnología para generar esqueletos de movimiento, algo importante para los videojuegos
- Se menciona Rock, Paper, Scissors de Corridor Crew como el anterior nivel más alto en animación de personajes con IA
- Se espera que la barrera de entrada para producir animación baje muchísimo
- Aumenta el factor escalofriante de las novias de IA
Sorpresa de que en unos años esta tecnología pueda generalizarse más allá de los personajes jóvenes femeninos tradicionalmente atractivos
Cuestionamiento de la práctica de publicar resultados de investigación en GitHub sin liberar el código
- Esta tendencia parece extraña
Expectativa por una herramienta o cadena de herramientas para convertir un manga favorito en animación
- Esperanza de poder pasar la temporada 1 u OVA sin esperar el lanzamiento oficial y así ver la temporada 2
Imaginan que en pocos años habrá sitios como YouTube donde todo el video se genere en tiempo real
- Se espera que todo, desde reparar electrónicos hasta aprender ciencia, se adapte al nivel de aprendizaje y a los intereses del usuario
Crítica a que la selección de imágenes de prueba es inapropiada
- Se argumenta que deberían usarse conjuntos de datos diversos y estandarizados
- Se cita una crítica al uso de imágenes sexuales en clases de procesamiento de imágenes
Sospecha de que las muestras fueron seleccionadas a conveniencia y de que el sistema está sobreajustado al conjunto de datos, por lo que no se generalizará a otras cosas
- La ausencia de casos fallidos es una señal de alerta
- Incluso en su forma actual podría ser útil, y para construir un sistema más general principalmente hace falta recopilar datos de entrenamiento adecuados
Se imaginan cómo sería esta tecnología combinada con modelado 3D y VR
- Pornografía en VR, videojuegos con personajes dinámicos de IA, y actores fallecidos y figuras históricas revividos para cine y educación
- Disminuye el miedo a los asilos del futuro
Se cuestiona por qué todo en este campo tiende a lo sexual
- Puede ser problemático, pero también hay una actitud de bienvenida cuando la gente muestra sus intenciones con honestidad