WhisperX - ASR basado en Whisper con mayor precisión en las marcas de tiempo
(github.com/m-bain)- OpenAI Whisper genera transcripciones muy precisas, pero las marcas de tiempo no son a nivel de palabra sino a nivel de enunciado (utterance), por lo que pueden tener una imprecisión de algunos segundos
- Mejora las marcas de tiempo del modelo Whisper usando ASR basado en fonemas, como Wav2vec2.0, y alineación forzada (forced alignment)
- Los idiomas base disponibles son {en, fr, de, es, it, ja, zh, nl}. Para idiomas adicionales, hay que buscarlos en Huggingface Model Hub y probarlos
Aún no hay comentarios.