- Modelo Open Weight de Text-To-Speech entrenado con más de 200,000 horas de datos de voz multilingües
- Calidad de voz "igual o superior" a servicios comerciales de TTS y "ofrece una expresividad natural"
- Salida de voz de alta calidad con una frecuencia de muestreo de 44 kHz
- Compatible con clonación de voz: puede replicar con precisión el estilo de un hablante específico usando solo unos segundos de voz de referencia
- Varias funciones de ajuste: permite controlar la velocidad de habla, el tono, la calidad de voz y las emociones (alegría, miedo, tristeza, enojo, etc.)
Funciones principales
- Zero-shot TTS y clonación de voz
- Al ingresar texto y una muestra de voz del hablante de 10 a 30 segundos, permite generar de inmediato voz sintética de alta calidad
- Compatibilidad con entrada de prefijo de audio
- Al agregar un prefijo de audio junto con el texto, permite una coincidencia de hablante más precisa
- Es eficaz para implementar estilos vocales específicos, como voz susurrada
- Soporte multilingüe
- Compatible con inglés, japonés, chino, francés y alemán
- Control de emociones y calidad de voz
- Ajuste de emociones: permite expresar alegría, enojo, tristeza, miedo, etc.
- Ajuste detallado de la voz: permite modificar velocidad, tono, frecuencia máxima y calidad de audio
- Alto rendimiento
- Puede ejecutarse a aproximadamente el doble de la velocidad en tiempo real en una RTX 4090
- Compatibilidad con Gradio WebUI
- Ofrece una interfaz web sencilla para que cualquiera pueda generar voz fácilmente
- Instalación y despliegue sencillos
- Permite instalar y desplegar fácilmente con Docker
2 comentarios
Es una lástima que no tenga coreano...
También funciona bien en coreano. Aunque se siente un poco raro.