- Microsoft Research presentó un nuevo proyecto llamado VASA-1
- Es una tecnología que genera videos realistas de un rostro parlante a partir de una sola foto de una persona y audio ingresado en tiempo real
- Los labios y las expresiones faciales se mueven de forma natural siguiendo la voz, con un nivel de realismo que hace muy difícil distinguirlo de una persona real hablando
- Utiliza un modelo de difusión que acepta señales opcionales como condición (dirección principal de la mirada, distancia de la cabeza, desplazamiento emocional, etc.), y presenta resultados de generación según la dirección principal de la mirada (frente, izquierda, derecha, arriba), la escala de distancia de la cabeza y el desplazamiento emocional (neutral, felicidad, enojo, sorpresa)
- En modo de procesamiento por lotes offline, genera fotogramas de video de 512x512 a 45 cuadros por segundo
- En modo de streaming en línea, soporta hasta 40 cuadros por segundo y solo requiere una latencia anticipada de 170 ms (en una PC de escritorio con una GPU NVIDIA RTX 4090)
La opinión de GN⁺
- Si esta tecnología se vuelve práctica, podría aplicarse en diversos campos como humanos virtuales, avatares de IA y metaverso. En particular, parece probable que haya mucha demanda en la industria del entretenimiento, como videojuegos, cine y animación
- Por otro lado, también preocupa su uso indebido para crear noticias falsas o videos deepfake con el rostro de celebridades. Harán falta medidas técnicas e institucionales para prevenir usos maliciosos
- Entre tecnologías similares está Audio2Face, presentada por NVIDIA. Mientras que estas suelen estar limitadas a generar principalmente rostros de personas específicas entrenadas de antemano, VASA-1 se diferencia por poder generar también rostros nuevos en tiempo real
- Según el equipo de desarrollo, VASA-1 aún está en una etapa inicial y planean seguir mejorando la calidad de imagen y la estabilidad. Aunque la comercialización aún tomaría tiempo, se espera que algún día lleguemos a encontrarnos con este tipo de humanos artificiales en la vida cotidiana
2 comentarios
En el episodio 1394 de Quisiera saber eso mostraron un caso en el que usaron una foto y audio para hacerse pasar por una celebridad y sacarle dinero a alguien, así que preocupa que esto pueda usarse con esos fines.
Opiniones de Hacker News
Resumen: