wav2vec-U: reconocimiento de voz de alto rendimiento sin necesidad de supervisión

xguru · 2021-05-24T09:20:05+09:00

Framework de reconocimiento de voz creado por el equipo de Facebook AI Soporta el reconocimiento en varios idiomas sin datos de voz transcritos → Rendimiento similar al de un modelo supervisado entrenado con alrededor de 1000 horas de voz → Probado en idiomas como suajili y tártaro, donde no abundan los datos de voz transcritos Método que aprende la estructura del audio no etiquetado → Divide las grabaciones de voz en unidades de habla que corresponden de forma flexible a cada sonido → cat incluye tres sonidos: /K/, /AE/, /T/ → Entrenado con una GAN compuesta por un generator y un discriminator Código y paper publicados

(ai.facebook.com)

4 puntos por xguru 2021-05-24 | Aún no hay comentarios. | Compartir por WhatsApp

Framework de reconocimiento de voz creado por el equipo de Facebook AI
Soporta el reconocimiento en varios idiomas sin datos de voz transcritos

→ Rendimiento similar al de un modelo supervisado entrenado con alrededor de 1000 horas de voz

→ Probado en idiomas como suajili y tártaro, donde no abundan los datos de voz transcritos

Método que aprende la estructura del audio no etiquetado

→ Divide las grabaciones de voz en unidades de habla que corresponden de forma flexible a cada sonido

→ cat incluye tres sonidos: /K/, /AE/, /T/

→ Entrenado con una GAN compuesta por un generator y un discriminator

Código y paper publicados

wav2vec-U: reconocimiento de voz de alto rendimiento sin necesidad de supervisión

Lecturas relacionadas

Aún no hay comentarios.