Google Universal Speech Model - un modelo para el reconocimiento de voz en todos los idiomas

xguru · 2023-03-31T10:02:02+09:00

Modelo de 2 mil millones de parámetros, entrenado con 12 millones de horas de audio, 28 mil millones de oraciones y 300 idiomas Puede realizar reconocimiento de voz en todo tipo de idiomas, desde los más conocidos hasta los hablados por minorías Incluso en idiomas hablados por menos de 20 millones de personas, donde es difícil encontrar datos de entrenamiento Según los resultados de evaluación con videos de YouTube, mostró una menor tasa de error por palabra que Whisper (OpenAI)

(sites.research.google)

17 puntos por xguru 2023-03-31 | 1 comentarios | Compartir por WhatsApp

Modelo de 2 mil millones de parámetros, entrenado con 12 millones de horas de audio, 28 mil millones de oraciones y 300 idiomas
Puede realizar reconocimiento de voz en todo tipo de idiomas, desde los más conocidos hasta los hablados por minorías
- Incluso en idiomas hablados por menos de 20 millones de personas, donde es difícil encontrar datos de entrenamiento
Según los resultados de evaluación con videos de YouTube, mostró una menor tasa de error por palabra que Whisper (OpenAI)

1 comentarios

xguru 2023-03-31

Whisper - Sistema de reconocimiento de voz multilingüe (ASR) que OpenAI publicó como código abierto
OpenAI publica el modelo Whisper v2

Aunque dicen que el rendimiento es bueno, solo publicaron el paper y la API. Parece que Whisper, que sí fue liberado como código abierto, sigue siendo más útil por ahora.

Google Universal Speech Model - un modelo para el reconocimiento de voz en todos los idiomas

Lecturas relacionadas

1 comentarios