Google Universal Speech Model - un modelo para el reconocimiento de voz en todos los idiomas
(sites.research.google)- Modelo de 2 mil millones de parámetros, entrenado con 12 millones de horas de audio, 28 mil millones de oraciones y 300 idiomas
- Puede realizar reconocimiento de voz en todo tipo de idiomas, desde los más conocidos hasta los hablados por minorías
- Incluso en idiomas hablados por menos de 20 millones de personas, donde es difícil encontrar datos de entrenamiento
- Según los resultados de evaluación con videos de YouTube, mostró una menor tasa de error por palabra que Whisper (OpenAI)
1 comentarios
Whisper - Sistema de reconocimiento de voz multilingüe (ASR) que OpenAI publicó como código abierto
OpenAI publica el modelo Whisper v2
Aunque dicen que el rendimiento es bueno, solo publicaron el paper y la API. Parece que Whisper, que sí fue liberado como código abierto, sigue siendo más útil por ahora.