- Sigue en marcha la "Iniciativa de 1,000 idiomas" iniciada en noviembre del año pasado (crear modelos de aprendizaje automático compatibles con 1,000 idiomas)
- Actualmente, USM fue entrenado con 2B (2 mil millones) de parámetros, más de 300 idiomas, 12 millones de horas de voz y 28 mil millones de oraciones
- Se usa en YouTube para generar subtítulos. Además de inglés y chino, también admite idiomas como amárico, cebuano, asamés y azerbaiyano
- Dos desafíos importantes para alcanzar el objetivo
- Los métodos existentes de aprendizaje supervisado tienen poca escalabilidad
- Crear modelos de forma eficiente para aumentar la cantidad de idiomas
- Enfoque: Self-supervised learning with fine-tuning (aprendizaje autosupervisado con ajuste fino)
- Publicación del paper y de la API (solo investigadores pueden solicitar acceso)
1 comentarios
Creo que es una buena tecnología para que las lenguas y los dialectos que están desapareciendo puedan seguir usándose también por las generaciones futuras.