VASA-1: generar en tiempo real un rostro parlante con una sola foto y audio

(microsoft.com)

4 puntos por GN⁺ 2024-04-20 | 2 comentarios | Compartir por WhatsApp

Microsoft Research presentó un nuevo proyecto llamado VASA-1
Es una tecnología que genera videos realistas de un rostro parlante a partir de una sola foto de una persona y audio ingresado en tiempo real
Los labios y las expresiones faciales se mueven de forma natural siguiendo la voz, con un nivel de realismo que hace muy difícil distinguirlo de una persona real hablando
Utiliza un modelo de difusión que acepta señales opcionales como condición (dirección principal de la mirada, distancia de la cabeza, desplazamiento emocional, etc.), y presenta resultados de generación según la dirección principal de la mirada (frente, izquierda, derecha, arriba), la escala de distancia de la cabeza y el desplazamiento emocional (neutral, felicidad, enojo, sorpresa)
En modo de procesamiento por lotes offline, genera fotogramas de video de 512x512 a 45 cuadros por segundo
En modo de streaming en línea, soporta hasta 40 cuadros por segundo y solo requiere una latencia anticipada de 170 ms (en una PC de escritorio con una GPU NVIDIA RTX 4090)

La opinión de GN⁺

Si esta tecnología se vuelve práctica, podría aplicarse en diversos campos como humanos virtuales, avatares de IA y metaverso. En particular, parece probable que haya mucha demanda en la industria del entretenimiento, como videojuegos, cine y animación
Por otro lado, también preocupa su uso indebido para crear noticias falsas o videos deepfake con el rostro de celebridades. Harán falta medidas técnicas e institucionales para prevenir usos maliciosos
Entre tecnologías similares está Audio2Face, presentada por NVIDIA. Mientras que estas suelen estar limitadas a generar principalmente rostros de personas específicas entrenadas de antemano, VASA-1 se diferencia por poder generar también rostros nuevos en tiempo real
Según el equipo de desarrollo, VASA-1 aún está en una etapa inicial y planean seguir mejorando la calidad de imagen y la estabilidad. Aunque la comercialización aún tomaría tiempo, se espera que algún día lleguemos a encontrarnos con este tipo de humanos artificiales en la vida cotidiana

2 comentarios

tomriddle7 2024-04-22

En el episodio 1394 de Quisiera saber eso mostraron un caso en el que usaron una foto y audio para hacerse pasar por una celebridad y sacarle dinero a alguien, así que preocupa que esto pueda usarse con esos fines.

GN⁺ 2024-04-20

Opiniones de Hacker News

Resumen:

VASA-1 de Microsoft puede crear deepfakes con una sola foto y una pista de audio. Parece que la tecnología de deepfakes será cada vez más rápida, mejor, más fácil y más barata.
Mientras tanto, las compañías de tarjetas de crédito han adoptado la autenticación por voz, pero no parecen darse cuenta de que cualquiera puede obtener un clip corto de audio en redes sociales y clonar una voz. Las empresas están atrasadas para estos tiempos.
VASA-1 no es tan bueno como EMO. Tiene movimientos corporales que se ven falsos y muchas partes donde el lip sync no funciona bien. El movimiento de los ojos y los movimientos generales de la cabeza y el cuerpo no se ven naturales.
El único propósito de esta tecnología parece ser que los espías abusen de otras personas. ¿Vamos a tener que autenticarnos en todas las llamadas y videoconferencias de ahora en adelante?
Este artículo menciona que usa Diffusion Transformers. La implementación open source es la de PyTorch de Facebook Research, pero tiene una licencia no comercial. Me pregunto si existe algún equivalente con licencia MIT o Apache.
Necesitamos algún tipo de sistema de gobernanza que garantice la autenticidad de lo que vemos. Pero no es un problema fácil, por ejemplo porque las firmas se rompen cuando se manipulan fotos o videos.
Esta es una tecnología absolutamente demencial, y va a seguir mejorando. Pensé que los deepfakes todavía estaban lejos, pero parece que habrá que ser más cuidadosos en línea.
¡Un avance tecnológico fantástico para la interferencia electoral!

VASA-1: generar en tiempo real un rostro parlante con una sola foto y audio

La opinión de GN⁺

Lecturas relacionadas

2 comentarios

Opiniones de Hacker News