5 puntos por xguru 2022-12-31 | Aún no hay comentarios. | Compartir por WhatsApp
  • OpenAI Whisper genera transcripciones muy precisas, pero las marcas de tiempo no son a nivel de palabra sino a nivel de enunciado (utterance), por lo que pueden tener una imprecisión de algunos segundos
  • Mejora las marcas de tiempo del modelo Whisper usando ASR basado en fonemas, como Wav2vec2.0, y alineación forzada (forced alignment)
  • Los idiomas base disponibles son {en, fr, de, es, it, ja, zh, nl}. Para idiomas adicionales, hay que buscarlos en Huggingface Model Hub y probarlos

Aún no hay comentarios.

Aún no hay comentarios.