La familia Qwen3-TTS se libera como código abierto: ofrece diseño, clonación y generación de voz

(qwen.ai)

31 puntos por GN⁺ 2026-01-23 | 3 comentarios | Compartir por WhatsApp

Qwen3-TTS es una serie de modelos multilingües de generación de voz que admite clonación de voz, diseño de voz, generación de voz humana de ultra alta calidad y control basado en lenguaje natural
Soporta 10 idiomas principales y varios dialectos, entre ellos chino, inglés, japonés y coreano, y se ofrece en dos tamaños de modelo: 1.7B y 0.6B
A través del codificador Qwen3-TTS-Tokenizer-12Hz, desarrollado internamente, comprime de forma eficiente la señal de voz y preserva por completo la información no verbal y el entorno acústico
Con una arquitectura de streaming Dual-Track, genera el primer paquete de audio inmediatamente después de ingresar 1 carácter y logra síntesis en tiempo real con 97 ms de latencia
Al liberarse como código abierto, desarrolladores y empresas pueden aprovechar directamente tecnología de generación de voz de alta calidad

Resumen de Qwen3-TTS

Qwen3-TTS es una serie de modelos de generación de voz de alto rendimiento desarrollada por Qwen, que integra funciones de diseño, clonación, generación y control de voz
- Permite controlar timbre, emoción e entonación mediante instrucciones en lenguaje natural
- Se puede acceder a través de la Qwen API y GitHub
Basado en el codificador de múltiples codebooks Qwen3-TTS-Tokenizer-12Hz, logra restauración de voz rápida y de alta fidelidad, además de compresión eficiente
Ofrece salida de voz en tiempo real a nivel de carácter mediante streaming bidireccional Dual-Track

Configuración del modelo

El modelo completo se ofrece en dos tamaños: 1.7B y 0.6B
- 1.7B: ofrece el mejor rendimiento y funciones de control precisas
- 0.6B: equilibrio entre rendimiento y eficiencia
Ambos modelos admiten chino, inglés, japonés, coreano, alemán, francés, ruso, portugués, español e italiano
Permite clonación rápida de voz con 3 segundos de entrada de audio, y también puede utilizarse para fine-tuning (FT)

Principales características técnicas

Alta capacidad expresiva de voz
- Qwen3-TTS-Tokenizer-12Hz realiza modelado semántico de alta dimensión y compresión de la señal acústica
- Preserva información no verbal y sonidos ambientales, y su estructura ligera non-DiT permite restauración rápida
Arquitectura end-to-end de múltiples codebooks
- Elimina los cuellos de botella de información y la acumulación de errores del enfoque tradicional LM+DiT
- Mejora la generalidad del modelo, la eficiencia de generación y el límite de rendimiento
Síntesis en streaming de ultra baja latencia
- La estructura híbrida Dual-Track admite simultáneamente streaming y no streaming
- Genera la primera salida de audio tras ingresar 1 carácter y logra 97 ms de latencia
Comprensión inteligente de texto y control de voz
- Controla atributos multidimensionales como timbre, emoción y prosodia a partir de instrucciones en lenguaje natural
- Ajusta automáticamente tono y ritmo según el significado del texto

Evaluación del rendimiento del modelo

Diseño de voz: en el benchmark InstructTTS-Eval logra mejor seguimiento de instrucciones y expresividad que MiniMax-Voice-Design
Control de voz: en generalización multilingüe de un solo hablante registra WER 2.34% y una puntuación de control de estilo de 75.4%
- Incluso en síntesis continua de 10 minutos mantiene WER de 2.36% en chino y 2.81% en inglés
Clonación de voz: en Seed-tts-eval es más estable que MiniMax y SeedTTS
- Promedio en 10 idiomas de WER 1.835% y similitud de hablante de 0.789, superando a CosyVoice3

Rendimiento del Tokenizer

Alcanza estado del arte en el conjunto LibriSpeech test-clean
- PESQ: banda ancha 3.21, banda estrecha 3.68
- STOI: 0.96, UTMOS: 4.16
- Con similitud de hablante de 0.95, logra una preservación de información del hablante casi sin pérdidas

Diseño de voz y muestras

Permite generar timbres personalizados a partir de descripciones en lenguaje natural
- Control detallado de atributos como género, edad, emoción y entonación
- Ejemplos: voz masculina autoritaria, voz femenina emotiva, timbres según la edad, etc.
La función Timbre Reuse permite guardar y reutilizar timbres generados
- Puede utilizarse en diálogos con múltiples hablantes o narraciones largas

CustomVoice y control de timbre

Incluso después de fine-tuning por hablante, permite mantener el timbre objetivo y hablar en varios idiomas
Admite tanto control de un solo atributo como de múltiples atributos
- Ej.: tristeza, enojo, susurro, forma de hablar lenta y otros ajustes emocionales detallados
Ofrece 9 conjuntos públicos de timbres
- Incluyen chino, inglés, japonés, coreano y dialectos
- Ej.: Serena, Uncle Fu, Vivian, Ryan, Sohee, entre otros

Voice Clone y clonación multilingüe

Realiza clonación de voz de alta velocidad con 3 segundos de entrada de audio
- Además de clonación en chino e inglés, admite clonación cruzada entre idiomas
- Ej.: puede hablar en varios idiomas como japonés y coreano
Tiene robustez frente al ruido en el texto
- Pronuncia con precisión incluso oraciones que incluyen símbolos complejos, pinyin y caracteres especiales

Restauración de audio basada en Tokenizer

Puede restaurar diversos elementos acústicos como dialectos, canto, sonidos no verbales y ruido de fondo
Demuestra una calidad de reconstrucción de alta fidelidad frente al original

3 comentarios

sudosudo 2026-01-24

Vaya, incluso corre en una laptop.

xguru 2026-01-23

Yo también estoy usando muchísimo modelos basados en Qwen en local últimamente.
Al principio pensé que era porque era un modelo de Alibaba, pero me sorprende cómo siguen mejorándolo y expandiéndolo de forma continua.

GN⁺ 2026-01-23

Comentarios en Hacker News

Lo probé en macOS usando mlx-audio. Fue posible gracias al tuit de Prince Canuma
El script que usé está aquí
Si lo ejecutas con uv, al principio descarga el modelo de 4.5 GB. Un comando de ejemplo es este
uv run https://tools.simonwillison.net/python/q3_tts.py 'I am a pirate, give me your gold!' -i 'gruff voice' -o pirate.wav
- Está realmente genial. Otra victoria más para uv
Si quieres probar directamente el clonado de voz, se puede en la demo de Hugging Face
Ve a la pestaña "Voice Clone", pega un texto de ejemplo, graba tu voz con el micrófono y luego escribe otro texto para generar una versión leída con tu propia voz
Compartí las muestras de audio que generé aquí
- Siendo sincero, se siente un poco aterrador. Junto con z-image-turbo, ahora hay que asumir que todo lo que aparece en pantalla puede ser falso. Hemos entrado en una era en la que no se puede confiar en nada sin verificación criptográfica
- La demo de HF estaba saturada, pero en local funcionó bien. El modelo 1.7B capta bien el tono del hablante, pero le faltan variaciones de entonación, así que suena monótono. Supongo que es porque en la demo no exponen los controles de expresividad. Aun así, el manejo del ruido fue mucho mejor que en 0.6B. Sin FlashAttention iba lento, como a 0.3x en una GPU 5090, pero la calidad fue impresionante
- Es una tecnología asombrosa. Mi voz clonada realmente sonaba como yo. Parece que habrá muchos usos buenos y malos: desde que una abuela fallecida le lea cuentos a sus nietos, hasta estafas o producción automatizada de podcasts
- Solo con la grabación publicada es difícil evaluar el rendimiento del clonado. También tendría que estar la muestra de la voz original
- Lo probé por diversión. Si grabara unos minutos de mi voz, quizá algún día podría hacer un audiolibro en el que yo mismo me lea a mí mismo
Es un modelo interesante. Probé el modelo 0.6B en una GPU 1080, y podía generar en bloques de 200 caracteres sin OOM. Intenté hacer un audiolibro del Tao Te Ching, pero el resultado cambiaba cada vez, casi como una ruleta mágica. Algunas partes salían claras y en otras se reía o gemía, así que la emoción era muy inconsistente. La voz Ryan fue la más estable, y Eric sonaba como un acento chino exagerado. Si la emoción hubiera sido constante, habría sido el mejor TTS que he usado hasta ahora
- ¿Probaste especificar la emoción directamente? Si lo dejas vacío, quizá se configure con emoción aleatoria (rng)
- Me da curiosidad el RTF (factor de tiempo real) en una 1080. Estoy comprobando si el modelo 0.6B puede hacer inferencia en tiempo real en dispositivos edge
Me gustaría pedirle al equipo de Qwen que saque un modelo que supere la capacidad de programación de Opus 4.5. Me gustan sus modelos, pero no me gustan el liderazgo cerrado de esa empresa ni lo divisiva que es en lo político
- Quizá era el comentario que estaban esperando
- Yo tengo el mismo problema (soy danés). Hice pruebas con Open Code y Minimax m2.1 (10 dólares al mes), y funcionaron bastante bien. GLM 4.7 también es excelente. Hay una comparación más detallada en este artículo. No hace falta enviarle dinero a una empresa que no te gusta
- Me da curiosidad qué significa exactamente eso de “políticamente divisiva”
- Estoy obteniendo buenos resultados con GLM 4.7. Tengo dos cuentas max corriendo 24/7, y parte de la revisión de código la hago con Claude. Si el costo es un problema, GLM 4.7 es una buena opción
- Me gustaría preguntar si ya probaste el recién salido GLM 4.7
Hacía tiempo que una tecnología no me parecía tan escalofriantemente avanzada. Llevo usando TTS con IA desde 2018, pero este modelo es el primero que me hace pensar que será posible restaurar viejos radiodramas. Por ejemplo, parece que podría reconstruir por contexto partes de diálogos perdidas por daños en la cinta. Tal vez incluso se puedan recuperar decenas de horas de audio de actores como Bob Bailey
- Las muestras que escuché sonaban como doblaje de anime al estilo Miyazaki. Me pregunto si lo habrán entrenado con datos así
- Yo también estoy planeando un proyecto para restaurar episodios de radio de “Have Gun - Will Travel”. Sería increíble si pudiera reconstruir partes difíciles de entender por daños en la cinta o interferencia de efectos de sonido. Aunque claro, el potencial de abuso también es grande
Me pregunto si alguien lo ha probado en Mac. La guía de instalación asume GPU NVIDIA (CUDA, FlashAttention), así que no sé si funcionará con el backend PyTorch Metal/MPS
- Se puede ejecutar sin FlashAttention con la opción --no-flash-attn. Yo también lo hago así en Windows
- Recomiendo usar modal para alquilar un entorno Metal
- Por la dependencia de FlashAttention, por ahora no es posible. Ojalá alguien haga un port para Metal
El último ejemplo de Age Control estaba configurado con “acento estadounidense”, pero a mis oídos sonaba como un australiano imitando un acento estadounidense
Parece realmente ideal para producir audiolibros. Los TTS de IA anteriores todavía se quedaban cortos en naturalidad
La industria del doblaje/actuación de voz ya se está cocinando a fuego lento. Algunas demos mostraban voces mucho más pulidas que las de actores de voz indie
Me preocupa que algún día estafen a mi abuela con esto
- Hasta ahora, eso parece ser el caso de uso principal
- Pero las abuelas de hoy son de la generación de QVC y los videntes por teléfono, así que quizá ya no sea tan fácil engañarlas con algo así