VoxCPM2 - síntesis de voz multilingüe de código abierto con clonación de voz similar a la real

(github.com/OpenBMB)

43 puntos por xguru 15 일 전 | 2 comentarios | Compartir por WhatsApp

Soporta 30 idiomas, incluido coreano; puede sintetizar directamente con solo ingresar texto, sin necesidad de especificar etiquetas de idioma
Sin muestras de locutores, basta con anteponer al texto una descripción en lenguaje natural como (Young female voice, warm and gentle) (género, edad, tono, emoción, velocidad) para generar de inmediato el personaje de voz deseado
Sistema TTS basado en difusión autorregresiva que genera directamente representaciones continuas de voz sin pasar por tokenización discreta; el modelo de 2B parámetros fue entrenado con más de 2 millones de horas de datos multilingües
Soporta Controllable Voice Cloning, que permite clonar el timbre desde un clip corto de referencia mientras se ajustan por separado emoción, velocidad y estilo (slightly faster, cheerful tone)
Modo Ultimate Cloning que, si se le entrega audio de referencia + transcripción, reproduce por completo timbre, ritmo, emoción y estilo, sin necesidad de posprocesamiento adicional
Incluso con entrada de referencia a 16kHz, genera directamente salida de nivel estudio a 48kHz mediante AudioVAE V2 con codificación/decodificación asimétrica. No se requieren upsamplers externos ni construir pipelines de posprocesamiento
En una RTX 4090, RTF (Real-Time Factor) de aproximadamente 0.3, y alrededor de 0.13 con aceleración Nano-vLLM, por lo que puede usarse para streaming en tiempo real
Puede ejecutarse con alrededor de 8GB de VRAM, por lo que también es viable en GPUs del nivel RTX 3070~4060
En Seed-TTS-eval, está entre los mejores modelos open source en similitud de hablante (SIM), y presenta una tasa de error promedio de 1.68% en benchmarks internos de ASR para 30 idiomas
Con solo 5 a 10 minutos de audio, se puede adaptar a un hablante o dominio específico mediante fine-tuning con LoRA, y también ofrece entrenamiento e inferencia con WebUI mediante lora_ft_webui.py
Basado en el backbone MiniCPM-4, con un pipeline de 4 etapas: LocEnc → TSLM → RALM → LocDiT
Incluye múltiples opciones de inferencia incluso en entornos sin GPU, como inferencia por CPU con GGML/GGUF (VoxCPM.cpp), conversión a ONNX, backend de Apple Neural Engine, reimplementación en Rust y nodos para ComfyUI
Licencia Apache-2.0, sin restricciones para uso comercial, implementación en Python

2 comentarios

cr543l 14 일 전

También pude usarlo en una 3060; la calidad fue excelente.

crawler 14 일 전

Ah, con OpenBMB me preguntaba de dónde me sonaba, y resulta que era donde hicieron el modelo MiniCPM-o.
El modelo MiniCPM-o es un modelo omni como GPT-4o, y el rendimiento era bastante bueno.

Video demo de MiniCPM-o, échenle un vistazo,

Como fue un modelo que me dejó bastante satisfecho, también tengo expectativas por este nuevo modelo de clonación de voz.

VoxCPM2 - síntesis de voz multilingüe de código abierto con clonación de voz similar a la real

Lecturas relacionadas

2 comentarios