MetaVoice-1B - modelo Text-To-Speech de 1.2 mil millones de parámetros

xguru · 2024-02-10T10:16:01+09:00

Modelo TTS (texto a voz) de 1.2 mil millones de parámetros, entrenado con 100 mil horas de audio Ritmo y entonación de habla emocional (inglés) Soporta clonación de voz mediante ajuste fino (en el caso de hablantes de India, tuvo éxito con solo alrededor de 1 minuto de datos de voz) Para voces de EE. UU./Reino Unido, permite clonación Zero-Shot con solo 30 segundos de audio de referencia Soporta síntesis de voz larga Se puede usar sin restricciones bajo licencia Apache 2.0

(github.com/metavoiceio)

12 puntos por xguru 2024-02-10 | Aún no hay comentarios. | Compartir por WhatsApp

Modelo TTS (texto a voz) de 1.2 mil millones de parámetros, entrenado con 100 mil horas de audio
Ritmo y entonación de habla emocional (inglés)
Soporta clonación de voz mediante ajuste fino (en el caso de hablantes de India, tuvo éxito con solo alrededor de 1 minuto de datos de voz)
Para voces de EE. UU./Reino Unido, permite clonación Zero-Shot con solo 30 segundos de audio de referencia
Soporta síntesis de voz larga
Se puede usar sin restricciones bajo licencia Apache 2.0

MetaVoice-1B - modelo Text-To-Speech de 1.2 mil millones de parámetros

Lecturas relacionadas

Aún no hay comentarios.