Zonos - modelo de síntesis de voz open weight de alta calidad

xguru · 2025-02-14T10:23:01+09:00

Modelo Open Weight de Text-To-Speech entrenado con más de 200,000 horas de datos de voz multilingües Calidad de voz "igual o superior" a servicios comerciales de TTS y "ofrece una expresividad natural" Salida de voz de alta calidad con una frecuencia de muestreo de 44 kHz Compatible con clonación de voz: puede replicar con precisión el estilo de un hablante específico usando solo unos segundos de voz de referencia Varias funciones de ajuste: permite controlar la velocidad de habla, el tono, la calidad de voz y las emociones (alegría, miedo, tristeza, enojo, etc.) Funciones principales Zero-shot TTS y clonación de voz Al ingresar texto y una muestra de voz del hablante de 10 a 30 segundos, permite generar de inmediato voz sintética de alta calidad Compatibilidad con entrada de prefijo de audio Al agregar un prefijo de audio junto con el texto, permite una coincidencia de hablante más precisa Es eficaz para implementar estilos vocales específicos, como voz susurrada Soporte multilingüe Compatible con inglés, japonés, chino, francés y alemán Control de emociones y calidad de voz Ajuste de emociones: permite expresar alegría, enojo, tristeza, miedo, etc. Ajuste detallado de la voz: permite modificar velocidad, tono, frecuencia máxima y calidad de audio Alto rendimiento Puede ejecutarse a aproximadamente el doble de la velocidad en tiempo real en una RTX 4090 Compatibilidad con Gradio WebUI Ofrece una interfaz web sencilla para que cualquiera pueda generar voz fácilmente Instalación y despliegue sencillos Permite instalar y desplegar fácilmente con Docker

(github.com/Zyphra)

24 puntos por xguru 2025-02-14 | 2 comentarios | Compartir por WhatsApp

Modelo Open Weight de Text-To-Speech entrenado con más de 200,000 horas de datos de voz multilingües
Calidad de voz "igual o superior" a servicios comerciales de TTS y "ofrece una expresividad natural"
Salida de voz de alta calidad con una frecuencia de muestreo de 44 kHz
Compatible con clonación de voz: puede replicar con precisión el estilo de un hablante específico usando solo unos segundos de voz de referencia
Varias funciones de ajuste: permite controlar la velocidad de habla, el tono, la calidad de voz y las emociones (alegría, miedo, tristeza, enojo, etc.)

Funciones principales

Zero-shot TTS y clonación de voz
- Al ingresar texto y una muestra de voz del hablante de 10 a 30 segundos, permite generar de inmediato voz sintética de alta calidad
Compatibilidad con entrada de prefijo de audio
- Al agregar un prefijo de audio junto con el texto, permite una coincidencia de hablante más precisa
- Es eficaz para implementar estilos vocales específicos, como voz susurrada
Soporte multilingüe
- Compatible con inglés, japonés, chino, francés y alemán
Control de emociones y calidad de voz
- Ajuste de emociones: permite expresar alegría, enojo, tristeza, miedo, etc.
- Ajuste detallado de la voz: permite modificar velocidad, tono, frecuencia máxima y calidad de audio
Alto rendimiento
- Puede ejecutarse a aproximadamente el doble de la velocidad en tiempo real en una RTX 4090
Compatibilidad con Gradio WebUI
- Ofrece una interfaz web sencilla para que cualquiera pueda generar voz fácilmente
Instalación y despliegue sencillos
- Permite instalar y desplegar fácilmente con Docker

2 comentarios

mindok 2025-02-14

Es una lástima que no tenga coreano...

marantz 2025-02-19

También funciona bien en coreano. Aunque se siente un poco raro.

Zonos - modelo de síntesis de voz open weight de alta calidad

Funciones principales

Lecturas relacionadas

2 comentarios