MMS - El proyecto de tecnología de voz para más de 1000 idiomas presentado por Meta

xguru · 2023-05-24T09:45:01+09:00

Massively Multilingual Speech Un proyecto para crear un único modelo de voz compatible con miles de idiomas, yendo más allá de los modelos de reconocimiento de voz existentes que solo soportan alrededor de 100 idiomas, con la mira puesta en los más de 7000 idiomas que se usan en la Tierra Ofrece más de 1100 modelos multilingües de reconocimiento automático de voz (ASR) y síntesis de voz (TTS), más de 4000 modelos de identificación de idioma (LID) y más de 1400 modelos de preentrenamiento por idioma Su objetivo es permitir que las personas accedan y utilicen información en el idioma que deseen directamente en sus dispositivos Como parte del proyecto, se construyó un conjunto de datos de lectura del Nuevo Testamento con un promedio de 32 horas por cada uno de 1100 idiomas, y se amplió la cantidad de idiomas disponibles a 4000 usando grabaciones sin etiquetar de diversos documentos cristianos Archivos de modelos descargables Modelos preentrenados: MMS-300M (3.5GB) y MMS-1B (10GB) Publicación de modelos ASR de reconocimiento de voz y diccionarios: MMS-1B:FL102 (102 idiomas, 4.5GB), MMS-1B:L1107 (1107 idiomas, 13GB), MMS-1B-all (1162 idiomas, 13.7GB) Modelos TTS de síntesis de voz: archivos de generador y vocabulary para cada uno de los 1107 idiomas Modelos LID de identificación de idioma: 126, 256, 512, 1024, 2048 y 4017 modelos, junto con diccionarios

(github.com/facebookresearch)

16 puntos por xguru 2023-05-24 | 3 comentarios | Compartir por WhatsApp

Massively Multilingual Speech
Un proyecto para crear un único modelo de voz compatible con miles de idiomas, yendo más allá de los modelos de reconocimiento de voz existentes que solo soportan alrededor de 100 idiomas, con la mira puesta en los más de 7000 idiomas que se usan en la Tierra
Ofrece más de 1100 modelos multilingües de reconocimiento automático de voz (ASR) y síntesis de voz (TTS), más de 4000 modelos de identificación de idioma (LID) y más de 1400 modelos de preentrenamiento por idioma
Su objetivo es permitir que las personas accedan y utilicen información en el idioma que deseen directamente en sus dispositivos
Como parte del proyecto, se construyó un conjunto de datos de lectura del Nuevo Testamento con un promedio de 32 horas por cada uno de 1100 idiomas, y se amplió la cantidad de idiomas disponibles a 4000 usando grabaciones sin etiquetar de diversos documentos cristianos

Archivos de modelos descargables

Modelos preentrenados: MMS-300M (3.5GB) y MMS-1B (10GB)
Publicación de modelos ASR de reconocimiento de voz y diccionarios: MMS-1B:FL102 (102 idiomas, 4.5GB), MMS-1B:L1107 (1107 idiomas, 13GB), MMS-1B-all (1162 idiomas, 13.7GB)
Modelos TTS de síntesis de voz: archivos de generador y vocabulary para cada uno de los 1107 idiomas
Modelos LID de identificación de idioma: 126, 256, 512, 1024, 2048 y 4017 modelos, junto con diccionarios

3 comentarios

kuroneko 2023-05-24

Últimamente están saliendo muchos modelos de reconocimiento de voz y de TTS.
Parece que no falta mucho para que el rendimiento en este campo mejore muchísimo.

Pero entonces, ¿si uno es cristiano subirá la tasa de reconocimiento de voz? 🤔

koyokr 2023-05-24

jajaja

cosine20 2023-05-24

......

MMS - El proyecto de tecnología de voz para más de 1000 idiomas presentado por Meta

Archivos de modelos descargables

Lecturas relacionadas

3 comentarios