- Qwen3-TTS es una serie de modelos multilingües de generación de voz que admite clonación de voz, diseño de voz, generación de voz humana de ultra alta calidad y control basado en lenguaje natural
- Soporta 10 idiomas principales y varios dialectos, entre ellos chino, inglés, japonés y coreano, y se ofrece en dos tamaños de modelo: 1.7B y 0.6B
- A través del codificador Qwen3-TTS-Tokenizer-12Hz, desarrollado internamente, comprime de forma eficiente la señal de voz y preserva por completo la información no verbal y el entorno acústico
- Con una arquitectura de streaming Dual-Track, genera el primer paquete de audio inmediatamente después de ingresar 1 carácter y logra síntesis en tiempo real con 97 ms de latencia
- Al liberarse como código abierto, desarrolladores y empresas pueden aprovechar directamente tecnología de generación de voz de alta calidad
Resumen de Qwen3-TTS
- Qwen3-TTS es una serie de modelos de generación de voz de alto rendimiento desarrollada por Qwen, que integra funciones de diseño, clonación, generación y control de voz
- Permite controlar timbre, emoción e entonación mediante instrucciones en lenguaje natural
- Se puede acceder a través de la Qwen API y GitHub
- Basado en el codificador de múltiples codebooks Qwen3-TTS-Tokenizer-12Hz, logra restauración de voz rápida y de alta fidelidad, además de compresión eficiente
- Ofrece salida de voz en tiempo real a nivel de carácter mediante streaming bidireccional Dual-Track
Configuración del modelo
- El modelo completo se ofrece en dos tamaños: 1.7B y 0.6B
- 1.7B: ofrece el mejor rendimiento y funciones de control precisas
- 0.6B: equilibrio entre rendimiento y eficiencia
- Ambos modelos admiten chino, inglés, japonés, coreano, alemán, francés, ruso, portugués, español e italiano
- Permite clonación rápida de voz con 3 segundos de entrada de audio, y también puede utilizarse para fine-tuning (FT)
Principales características técnicas
- Alta capacidad expresiva de voz
- Qwen3-TTS-Tokenizer-12Hz realiza modelado semántico de alta dimensión y compresión de la señal acústica
- Preserva información no verbal y sonidos ambientales, y su estructura ligera non-DiT permite restauración rápida
- Arquitectura end-to-end de múltiples codebooks
- Elimina los cuellos de botella de información y la acumulación de errores del enfoque tradicional LM+DiT
- Mejora la generalidad del modelo, la eficiencia de generación y el límite de rendimiento
- Síntesis en streaming de ultra baja latencia
- La estructura híbrida Dual-Track admite simultáneamente streaming y no streaming
- Genera la primera salida de audio tras ingresar 1 carácter y logra 97 ms de latencia
- Comprensión inteligente de texto y control de voz
- Controla atributos multidimensionales como timbre, emoción y prosodia a partir de instrucciones en lenguaje natural
- Ajusta automáticamente tono y ritmo según el significado del texto
Evaluación del rendimiento del modelo
- Diseño de voz: en el benchmark InstructTTS-Eval logra mejor seguimiento de instrucciones y expresividad que MiniMax-Voice-Design
- Control de voz: en generalización multilingüe de un solo hablante registra WER 2.34% y una puntuación de control de estilo de 75.4%
- Incluso en síntesis continua de 10 minutos mantiene WER de 2.36% en chino y 2.81% en inglés
- Clonación de voz: en Seed-tts-eval es más estable que MiniMax y SeedTTS
- Promedio en 10 idiomas de WER 1.835% y similitud de hablante de 0.789, superando a CosyVoice3
Rendimiento del Tokenizer
- Alcanza estado del arte en el conjunto LibriSpeech test-clean
- PESQ: banda ancha 3.21, banda estrecha 3.68
- STOI: 0.96, UTMOS: 4.16
- Con similitud de hablante de 0.95, logra una preservación de información del hablante casi sin pérdidas
Diseño de voz y muestras
- Permite generar timbres personalizados a partir de descripciones en lenguaje natural
- Control detallado de atributos como género, edad, emoción y entonación
- Ejemplos: voz masculina autoritaria, voz femenina emotiva, timbres según la edad, etc.
- La función Timbre Reuse permite guardar y reutilizar timbres generados
- Puede utilizarse en diálogos con múltiples hablantes o narraciones largas
CustomVoice y control de timbre
- Incluso después de fine-tuning por hablante, permite mantener el timbre objetivo y hablar en varios idiomas
- Admite tanto control de un solo atributo como de múltiples atributos
- Ej.: tristeza, enojo, susurro, forma de hablar lenta y otros ajustes emocionales detallados
- Ofrece 9 conjuntos públicos de timbres
- Incluyen chino, inglés, japonés, coreano y dialectos
- Ej.: Serena, Uncle Fu, Vivian, Ryan, Sohee, entre otros
Voice Clone y clonación multilingüe
- Realiza clonación de voz de alta velocidad con 3 segundos de entrada de audio
- Además de clonación en chino e inglés, admite clonación cruzada entre idiomas
- Ej.: puede hablar en varios idiomas como japonés y coreano
- Tiene robustez frente al ruido en el texto
- Pronuncia con precisión incluso oraciones que incluyen símbolos complejos, pinyin y caracteres especiales
Restauración de audio basada en Tokenizer
- Puede restaurar diversos elementos acústicos como dialectos, canto, sonidos no verbales y ruido de fondo
- Demuestra una calidad de reconstrucción de alta fidelidad frente al original
3 comentarios
Vaya, incluso corre en una laptop.
Yo también estoy usando muchísimo modelos basados en Qwen en local últimamente.
Al principio pensé que era porque era un modelo de Alibaba, pero me sorprende cómo siguen mejorándolo y expandiéndolo de forma continua.
Comentarios en Hacker News
Lo probé en macOS usando mlx-audio. Fue posible gracias al tuit de Prince Canuma
El script que usé está aquí
Si lo ejecutas con
uv, al principio descarga el modelo de 4.5 GB. Un comando de ejemplo es esteuv run https://tools.simonwillison.net/python/q3_tts.py 'I am a pirate, give me your gold!' -i 'gruff voice' -o pirate.wavSi quieres probar directamente el clonado de voz, se puede en la demo de Hugging Face
Ve a la pestaña "Voice Clone", pega un texto de ejemplo, graba tu voz con el micrófono y luego escribe otro texto para generar una versión leída con tu propia voz
Compartí las muestras de audio que generé aquí
Es un modelo interesante. Probé el modelo 0.6B en una GPU 1080, y podía generar en bloques de 200 caracteres sin OOM. Intenté hacer un audiolibro del Tao Te Ching, pero el resultado cambiaba cada vez, casi como una ruleta mágica. Algunas partes salían claras y en otras se reía o gemía, así que la emoción era muy inconsistente. La voz Ryan fue la más estable, y Eric sonaba como un acento chino exagerado. Si la emoción hubiera sido constante, habría sido el mejor TTS que he usado hasta ahora
Me gustaría pedirle al equipo de Qwen que saque un modelo que supere la capacidad de programación de Opus 4.5. Me gustan sus modelos, pero no me gustan el liderazgo cerrado de esa empresa ni lo divisiva que es en lo político
Hacía tiempo que una tecnología no me parecía tan escalofriantemente avanzada. Llevo usando TTS con IA desde 2018, pero este modelo es el primero que me hace pensar que será posible restaurar viejos radiodramas. Por ejemplo, parece que podría reconstruir por contexto partes de diálogos perdidas por daños en la cinta. Tal vez incluso se puedan recuperar decenas de horas de audio de actores como Bob Bailey
Me pregunto si alguien lo ha probado en Mac. La guía de instalación asume GPU NVIDIA (CUDA, FlashAttention), así que no sé si funcionará con el backend PyTorch Metal/MPS
--no-flash-attn. Yo también lo hago así en WindowsEl último ejemplo de Age Control estaba configurado con “acento estadounidense”, pero a mis oídos sonaba como un australiano imitando un acento estadounidense
Parece realmente ideal para producir audiolibros. Los TTS de IA anteriores todavía se quedaban cortos en naturalidad
La industria del doblaje/actuación de voz ya se está cocinando a fuego lento. Algunas demos mostraban voces mucho más pulidas que las de actores de voz indie
Me preocupa que algún día estafen a mi abuela con esto