12 puntos por xguru 2024-02-10 | Aún no hay comentarios. | Compartir por WhatsApp
  • Modelo TTS (texto a voz) de 1.2 mil millones de parámetros, entrenado con 100 mil horas de audio
  • Ritmo y entonación de habla emocional (inglés)
  • Soporta clonación de voz mediante ajuste fino (en el caso de hablantes de India, tuvo éxito con solo alrededor de 1 minuto de datos de voz)
  • Para voces de EE. UU./Reino Unido, permite clonación Zero-Shot con solo 30 segundos de audio de referencia
  • Soporta síntesis de voz larga
  • Se puede usar sin restricciones bajo licencia Apache 2.0

Aún no hay comentarios.

Aún no hay comentarios.