24 puntos por xguru 2025-02-14 | 2 comentarios | Compartir por WhatsApp
  • Modelo Open Weight de Text-To-Speech entrenado con más de 200,000 horas de datos de voz multilingües
  • Calidad de voz "igual o superior" a servicios comerciales de TTS y "ofrece una expresividad natural"
  • Salida de voz de alta calidad con una frecuencia de muestreo de 44 kHz
  • Compatible con clonación de voz: puede replicar con precisión el estilo de un hablante específico usando solo unos segundos de voz de referencia
  • Varias funciones de ajuste: permite controlar la velocidad de habla, el tono, la calidad de voz y las emociones (alegría, miedo, tristeza, enojo, etc.)

Funciones principales

  • Zero-shot TTS y clonación de voz
    • Al ingresar texto y una muestra de voz del hablante de 10 a 30 segundos, permite generar de inmediato voz sintética de alta calidad
  • Compatibilidad con entrada de prefijo de audio
    • Al agregar un prefijo de audio junto con el texto, permite una coincidencia de hablante más precisa
    • Es eficaz para implementar estilos vocales específicos, como voz susurrada
  • Soporte multilingüe
    • Compatible con inglés, japonés, chino, francés y alemán
  • Control de emociones y calidad de voz
    • Ajuste de emociones: permite expresar alegría, enojo, tristeza, miedo, etc.
    • Ajuste detallado de la voz: permite modificar velocidad, tono, frecuencia máxima y calidad de audio
  • Alto rendimiento
    • Puede ejecutarse a aproximadamente el doble de la velocidad en tiempo real en una RTX 4090
  • Compatibilidad con Gradio WebUI
    • Ofrece una interfaz web sencilla para que cualquiera pueda generar voz fácilmente
  • Instalación y despliegue sencillos
    • Permite instalar y desplegar fácilmente con Docker

2 comentarios

 
mindok 2025-02-14

Es una lástima que no tenga coreano...

 
marantz 2025-02-19

También funciona bien en coreano. Aunque se siente un poco raro.