-
Framework de reconocimiento de voz creado por el equipo de Facebook AI
-
Soporta el reconocimiento en varios idiomas sin datos de voz transcritos
→ Rendimiento similar al de un modelo supervisado entrenado con alrededor de 1000 horas de voz
→ Probado en idiomas como suajili y tártaro, donde no abundan los datos de voz transcritos
- Método que aprende la estructura del audio no etiquetado
→ Divide las grabaciones de voz en unidades de habla que corresponden de forma flexible a cada sonido
→ cat incluye tres sonidos: /K/, /AE/, /T/
→ Entrenado con una GAN compuesta por un generator y un discriminator
- Código y paper publicados
Aún no hay comentarios.