MetaVoice-1B - modelo Text-To-Speech de 1.2 mil millones de parámetros
(github.com/metavoiceio)- Modelo TTS (texto a voz) de 1.2 mil millones de parámetros, entrenado con 100 mil horas de audio
- Ritmo y entonación de habla emocional (inglés)
- Soporta clonación de voz mediante ajuste fino (en el caso de hablantes de India, tuvo éxito con solo alrededor de 1 minuto de datos de voz)
- Para voces de EE. UU./Reino Unido, permite clonación Zero-Shot con solo 30 segundos de audio de referencia
- Soporta síntesis de voz larga
- Se puede usar sin restricciones bajo licencia Apache 2.0
Aún no hay comentarios.