WhisperX - ASR basado en Whisper con mayor precisión en las marcas de tiempo

xguru · 2022-12-31T10:49:01+09:00

OpenAI Whisper genera transcripciones muy precisas, pero las marcas de tiempo no son a nivel de palabra sino a nivel de enunciado (utterance), por lo que pueden tener una imprecisión de algunos segundos Mejora las marcas de tiempo del modelo Whisper usando ASR basado en fonemas, como Wav2vec2.0, y alineación forzada (forced alignment) Los idiomas base disponibles son {en, fr, de, es, it, ja, zh, nl}. Para idiomas adicionales, hay que buscarlos en Huggingface Model Hub y probarlos

(github.com/m-bain)

5 puntos por xguru 2022-12-31 | Aún no hay comentarios. | Compartir por WhatsApp

OpenAI Whisper genera transcripciones muy precisas, pero las marcas de tiempo no son a nivel de palabra sino a nivel de enunciado (utterance), por lo que pueden tener una imprecisión de algunos segundos
Mejora las marcas de tiempo del modelo Whisper usando ASR basado en fonemas, como Wav2vec2.0, y alineación forzada (forced alignment)
Los idiomas base disponibles son {en, fr, de, es, it, ja, zh, nl}. Para idiomas adicionales, hay que buscarlos en Huggingface Model Hub y probarlos

WhisperX - ASR basado en Whisper con mayor precisión en las marcas de tiempo

Lecturas relacionadas

Aún no hay comentarios.