VALL-E - El modelo de lenguaje de Microsoft para la síntesis de voz
(valle-demo.github.io)- Modelo de Text-to-Speech basado en Transformer
- Puede sintetizar con cualquier voz con solo 3 segundos de esa voz
- Mucho más natural y más parecido al hablante que los TTS Zero-shot más recientes, y además preserva la emoción del hablante y el entorno acústico
- El pipeline anterior era phoneme (fonema) → mel-spectrogram → waveform, pero
VALL-E usa phoneme → discrete code → waveform - Puede combinarse con diversas aplicaciones de síntesis de voz y con modelos de IA como GPT-3
3 comentarios
Parece que, con el avance del aprendizaje automático, también ha bajado la barrera de entrada para la tecnología TTS. Si buscas en repositorios de código abierto, incluso puedes grabar tu propia voz y crear un TTS casero con tu propia voz.
Ahora las ondas de voz ya no podrán identificar a una persona como si fueran una huella digital. -_-;
Creo haber escuchado que en algún lugar, al hacer escuchas, usan servidores a gran escala con patrones de voz de una persona específica para que reaccionen a ciertas palabras clave de esa voz...
Si ya se puede sintetizar a este nivel, entonces esos sistemas ahora sí quedaron completamente obsoletos...