- Soporta 30 idiomas, incluido coreano; puede sintetizar directamente con solo ingresar texto, sin necesidad de especificar etiquetas de idioma
- Sin muestras de locutores, basta con anteponer al texto una descripción en lenguaje natural como
(Young female voice, warm and gentle) (género, edad, tono, emoción, velocidad) para generar de inmediato el personaje de voz deseado
- Sistema TTS basado en difusión autorregresiva que genera directamente representaciones continuas de voz sin pasar por tokenización discreta; el modelo de 2B parámetros fue entrenado con más de 2 millones de horas de datos multilingües
- Soporta Controllable Voice Cloning, que permite clonar el timbre desde un clip corto de referencia mientras se ajustan por separado emoción, velocidad y estilo
(slightly faster, cheerful tone)
- Modo Ultimate Cloning que, si se le entrega audio de referencia + transcripción, reproduce por completo timbre, ritmo, emoción y estilo, sin necesidad de posprocesamiento adicional
- Incluso con entrada de referencia a 16kHz, genera directamente salida de nivel estudio a 48kHz mediante AudioVAE V2 con codificación/decodificación asimétrica. No se requieren upsamplers externos ni construir pipelines de posprocesamiento
- En una RTX 4090, RTF (Real-Time Factor) de aproximadamente 0.3, y alrededor de 0.13 con aceleración Nano-vLLM, por lo que puede usarse para streaming en tiempo real
- Puede ejecutarse con alrededor de 8GB de VRAM, por lo que también es viable en GPUs del nivel RTX 3070~4060
- En Seed-TTS-eval, está entre los mejores modelos open source en similitud de hablante (SIM), y presenta una tasa de error promedio de 1.68% en benchmarks internos de ASR para 30 idiomas
- Con solo 5 a 10 minutos de audio, se puede adaptar a un hablante o dominio específico mediante fine-tuning con LoRA, y también ofrece entrenamiento e inferencia con WebUI mediante
lora_ft_webui.py
- Basado en el backbone MiniCPM-4, con un pipeline de 4 etapas: LocEnc → TSLM → RALM → LocDiT
- Incluye múltiples opciones de inferencia incluso en entornos sin GPU, como inferencia por CPU con GGML/GGUF (VoxCPM.cpp), conversión a ONNX, backend de Apple Neural Engine, reimplementación en Rust y nodos para ComfyUI
- Licencia Apache-2.0, sin restricciones para uso comercial, implementación en Python
2 comentarios
También pude usarlo en una 3060; la calidad fue excelente.
Ah, con OpenBMB me preguntaba de dónde me sonaba, y resulta que era donde hicieron el modelo MiniCPM-o.
El modelo MiniCPM-o es un modelo omni como GPT-4o, y el rendimiento era bastante bueno.
Video demo de MiniCPM-o, échenle un vistazo,
Como fue un modelo que me dejó bastante satisfecho, también tengo expectativas por este nuevo modelo de clonación de voz.