Open source que clona voz en tiempo real usando solo 5 segundos de la voz de una persona
(github.com)Implementación del paper Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis (SV2TTS).
Implementación del paper Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis (SV2TTS).
2 comentarios
Si las tecnologías de síntesis facial y de voz siguen avanzando, creo que al final cambiará el significado que tienen la apariencia y la voz de una persona. Ya no será posible identificar a alguien únicamente por lo externo o por lo material. Parece que llegará una época en la que nos enfocaremos más en la mente y la esencia humanas.
Video demo en YouTube: https://www.youtube.com/watch?v=-O_hYhToKoA