VALL-E - El modelo de lenguaje de Microsoft para la síntesis de voz

xguru · 2023-01-10T10:24:40+09:00

Modelo de Text-to-Speech basado en Transformer Puede sintetizar con cualquier voz con solo 3 segundos de esa voz Mucho más natural y más parecido al hablante que los TTS Zero-shot más recientes, y además preserva la emoción del hablante y el entorno acústico El pipeline anterior era phoneme (fonema) → mel-spectrogram → waveform, pero VALL-E usa phoneme → discrete code → waveform Puede combinarse con diversas aplicaciones de síntesis de voz y con modelos de IA como GPT-3

(valle-demo.github.io)

17 puntos por xguru 2023-01-10 | 3 comentarios | Compartir por WhatsApp

Modelo de Text-to-Speech basado en Transformer
Puede sintetizar con cualquier voz con solo 3 segundos de esa voz
Mucho más natural y más parecido al hablante que los TTS Zero-shot más recientes, y además preserva la emoción del hablante y el entorno acústico
El pipeline anterior era phoneme (fonema) → mel-spectrogram → waveform, pero
VALL-E usa phoneme → discrete code → waveform
Puede combinarse con diversas aplicaciones de síntesis de voz y con modelos de IA como GPT-3

3 comentarios

openmind 2023-01-10

Parece que, con el avance del aprendizaje automático, también ha bajado la barrera de entrada para la tecnología TTS. Si buscas en repositorios de código abierto, incluso puedes grabar tu propia voz y crear un TTS casero con tu propia voz.

jjpark78 2023-01-10

Ahora las ondas de voz ya no podrán identificar a una persona como si fueran una huella digital. -_-;

Creo haber escuchado que en algún lugar, al hacer escuchas, usan servidores a gran escala con patrones de voz de una persona específica para que reaccionen a ciertas palabras clave de esa voz...

Si ya se puede sintetizar a este nivel, entonces esos sistemas ahora sí quedaron completamente obsoletos...

xguru 2023-01-10

VALL-E - El modelo de lenguaje de Microsoft para la síntesis de voz

Lecturas relacionadas

3 comentarios