Pocket TTS: TTS de alta calidad que le da voz al CPU

(kyutai.org)

18 puntos por GN⁺ 2026-01-16 | 4 comentarios | Compartir por WhatsApp

Pocket TTS, con 100 millones de parámetros, es un modelo ligero de texto a voz con clonación de voz, capaz de ejecutarse en tiempo real incluso en el CPU de una laptop común
Reduce la brecha de rendimiento entre los TTS basados en LLM grandes (más de 1,000 millones de parámetros) y los Kokoro TTS pequeños (82 millones de parámetros), logrando a la vez alta calidad y eficiencia
Con solo una muestra de voz de unos 5 segundos, replica con precisión el timbre, la emoción, la entonación y las condiciones acústicas del hablante
Usa una arquitectura basada en Continuous Audio Language Model para predecir vectores latentes continuos en lugar de tokens discretos, reduciendo el tamaño del modelo sin degradar la calidad
Se publica como open source bajo licencia MIT, marcando un nuevo estándar para la tecnología TTS ligera que logra síntesis de voz de alta calidad incluso en entornos CPU

Resumen de Pocket TTS

Pocket TTS es un modelo de texto a voz de 100 millones de parámetros que admite clonación de voz (voice cloning)
- Puede ejecutarse en tiempo real incluso en el CPU de una laptop
- Se puede ejecutar localmente con los comandos uvx pocket-tts serve o uvx pocket-tts generate
Fue desarrollado por Kyutai y publicado como open source bajo licencia MIT
- Los datos de entrenamiento usan solo datasets públicos de voz en inglés
- Se menciona la posibilidad de ampliarlo con datos privados adicionales

Comparación con modelos TTS existentes

La tecnología TTS actual se divide en dos categorías
- Modelos grandes basados en LLM: por ejemplo, Kyutai TTS 1.6B (aprox. 1.6 mil millones de parámetros)
  - Pueden modelar distintas voces, emociones y condiciones acústicas, pero requieren GPU
- Modelos pequeños especializados: por ejemplo, Kokoro TTS (82 millones de parámetros)
  - Son eficientes al usar un conjunto fijo de voces y pipelines manuales, pero tienen flexibilidad limitada
Pocket TTS ocupa un punto intermedio entre ambos enfoques y permite síntesis de voz de alta calidad incluso en CPU

Evaluación de rendimiento

Se evaluó con el conjunto Librispeech test-clean
- El audio de entrada se limpió con Adobe Enhance Speech para asegurar calidad de 24 kHz
Comparativas: F5-TTS, DSM, Chatterbox Turbo, Kokoro TTS
Métricas de evaluación:
- Word Error Rate (WER)
- Calidad de audio (ELO)
- Similitud del hablante (ELO)
Resumen de resultados:
- Pocket TTS obtuvo el WER más bajo con 1.84
- La calidad de audio fue superior a la de F5-TTS y DSM
- La similitud del hablante estuvo al nivel de la voz de referencia
- Fue el único modelo capaz de ejecutarse más rápido que en tiempo real sobre CPU

Modelo	Cantidad de parámetros	WER ↓	Calidad de audio (ELO) ↑	Similitud del hablante (ELO) ↑	Ejecución en tiempo real en CPU
F5-TTS	336M	2.21	1949 ± 27	1946 ± 26	✗
Kyutai TTS 1.6B	750M	1.84	1959 ± 25	2037 ± 21	✗
Chatterbox Turbo	350M	3.24	2055 ± 23	2012 ± 22	✗
Kokoro	82M	1.93	sin clonación de voz	sin clonación de voz	✓
Pocket TTS	100M	1.84	2016 ± 25	1898 ± 26	✓

En pruebas con CPU Intel Core Ultra 7 165H y Apple M3, solo Pocket TTS y Kokoro pudieron sintetizar en tiempo real

Arquitectura

Pocket TTS está diseñado con base en la investigación de Continuous Audio Language Model
- Los métodos previos predecían tokens de audio discretos, mientras que Pocket TTS predice directamente vectores latentes continuos (latent)
- Esto permite eliminar el cuello de botella del RQ-transformer y aligerar el modelo

Neural Audio Codec

Diseñado sobre el códec Mimi
- Mimi comprime en tokens discretos, pero Pocket TTS usa representaciones latentes continuas
- Aplica entrenamiento VAE normalizado con distribución normal
- WavLM se destila hacia representaciones internas mediante pérdida de similitud coseno
- Se elimina la etapa RVQ y se aplica la pérdida de destilación a toda la representación latente

Generative Model

Basado en el framework Masked Autoregressive (MAR)
- Está compuesto por un backbone Causal Transformer y un sampler MLP
- Usa la pérdida Lagrangian Self-Distillation (LSD) para implementar muestreo de 1 paso
- En inferencia, los vectores latentes predichos se realimentan de forma autorregresiva

Condicionamiento de voz y texto

La entrada del modelo combina un prompt de voz (unos segundos) y texto
- La voz se incrusta con el codificador del códec, y el texto con el tokenizador SentencePiece

Configuración del tamaño del modelo

Modelo generativo (Transformer + MLP): 90 millones de parámetros
Decodificador del códec: 10 millones de parámetros
Codificador del códec: 18 millones de parámetros (se usa solo una vez al codificar la muestra de voz)

Datos de entrenamiento

Está compuesto por datasets públicos de voz en inglés, con un total de 88,000 horas
- AMI, EARNINGS22, GIGASpeech, SPGISpeech, TED-LIUM, VoxPopuli, LibriHeavy, Emilia

Principales contribuciones técnicas

Head Batch Multiplier

Para aliviar el cuello de botella computacional del Transformer, reutiliza varias veces el vector z
- Para cada secuencia de entrada, z se calcula una vez y se reutiliza en 8 cálculos de pérdida
- Esto mejora la eficiencia y también ayuda a la estabilidad del entrenamiento

Gaussian Temperature Sampling

Aplica control de temperatura de muestreo también en el espacio continuo
- Mejora la calidad al reducir la varianza del ruido gaussiano
- Se observaron buenos resultados con temperatura 0.7

Latent Classifier-Free Guidance (Latent CFG)

Aplica CFG tradicional al nivel de variables latentes (z)
- Mejora la calidad combinando linealmente salidas condicionadas y no condicionadas
- Usa α=1.5
- Un concepto similar también aparece en la investigación de SoundReactor

Distillation

Usa un modelo CFG como modelo maestro para destilarlo en un modelo estudiante ligero
- Fija la cabeza MLP del modelo maestro, y el estudiante aprende z con pérdida L2
- Permite reducir de un modelo maestro de 24 capas a un estudiante de 6 capas

Conclusión

Pocket TTS es un modelo TTS ligero capaz de ofrecer síntesis de voz de alta calidad en tiempo real incluso en CPU
Combina una arquitectura basada en espacio latente continuo, técnicas de entrenamiento eficientes y clonación de voz
Al publicarse como open source bajo licencia MIT, ofrece reproducibilidad y extensibilidad para desarrolladores e investigadores

4 comentarios

xguru 2026-01-16

No parece haber muchos modelos TTS abiertos con soporte para coreano.
Hace tiempo se decía que Kokoro-82M, que se publicó anteriormente, soportaba coreano, pero escuché que la calidad no parecía ser muy buena.
Buscando un poco, parece que si lo haces con GPT-Sovits o con algo como Edge-TTS, sale bastante decente.

Últimamente, mientras hago vibe coding, siento que si lo conecto con Whisper podría salir algo interesante, pero no se me ocurre ninguna idea jaja

ng0301 2026-01-18

Hace poco en Supertonic sacaron un modelo que incluso funciona con coreano, échenle un vistazo.

¡También hice una librería de un clic!

https://www.npmjs.com/package/easy-supertonic-tts

bichi 2026-01-19

Está genial, pero creo que estaría bien incluir también la dirección de los recursos de destino mientras lo haces. No puedo simplemente instalar todo así nomás, jaja.

GN⁺ 2026-01-16

Opiniones en Hacker News

Me da muchísima alegría que mi publicación haya despertado tanto interés
Formo parte de un equipo en París que desarrolla soluciones de voz de nivel empresarial basadas en la investigación de Kyutai
Si estás construyendo algo en este campo, me gustaría compartir los próximos modelos y funciones
Estaría genial que me contactaras al correo que aparece en mi perfil
- Es un trabajo impresionante. Me parece un logro que lleva los límites hasta el punto de poder correr localmente incluso en dispositivos de uso diario
Mientras leía el caso de estudio largo, me di cuenta de que necesitaba una extensión de navegador, así que armé yo mismo una interfaz para el navegador
El resultado es Pocket Reader
Me pareció interesante, así que de inmediato lo convertí en un servidor MCP para que Claude me avise cuando termine una tarea
speak_when_done
- macOS ya trae integrada una función de TTS bastante natural
  Yo también hice una herramienta parecida que ejecutaba el comando say como proceso en segundo plano, pero me costó configurar una voz buena de forma consistente
  Parece que esa voz natural está escondida en algún lado
- Yo también hice algo parecido recientemente con piper-tts
  speak-mcp
- Yo también configuré Pushover por la misma razón para recibir notificaciones en el teléfono
  Ahora también voy a probar tu servidor
Esta vez la calidad del código es realmente buena
Normalmente los codebases de modelos nuevos están llenos de volcados innecesarios de dependencias, pero esta vez también está muy bien hecho desde el punto de vista de ingeniería de software
¡Gracias por compartirlo! Soy fan de Kokoro, así que construí mi propio asistente de voz local
proyecto ova
Definitivamente también voy a probar Pocket TTS
- Siento que el rendimiento de TTS es mucho mejor en Kokoro
  Eso sí, como Pocket TTS es cerrado, no se puede verificar si tiene clonación de voz
- ¡Buenísimo el repositorio! Yo también lo voy a probar
  ¿De casualidad está basado en mlx o en Hugging Face transformers?
Me pregunto si este proyecto podría distribuirse como un binario estático pequeño
Ahora mismo las dependencias son bastante grandes
- El issue relacionado se puede seguir aquí
Me gusta mucho
Pero dice que tiene licencia MIT, aunque en el README hay una sección aparte de Uso prohibido (Prohibited Use), así que me confunde si no termina siendo software no libre
- Según entiendo, el código es MIT, pero el modelo tiene una licencia aparte
  Igual que las imágenes o los sonidos, los modelos de ML quizá no se consideren software
  La tarjeta del modelo en Hugging Face también tiene la misma cláusula de prohibición
- La licencia MIT dice que “se puede usar sin restricciones”
  Por eso, los puntos prohibidos del README podrían entrar en conflicto legalmente
- La cláusula de prohibición parece más bien del tipo “no lo uses para cometer delitos”, así que su eficacia legal sería mínima
- Si dice “puedes usarlo, pero no para estas cosas”, entonces no queda claro si realmente estarías violando la licencia
- La cláusula de prohibición se siente como un adorno formal innecesario
Probé uvx pocket-tts serve en una Mac M1
Como prueba, le hice leer el primer párrafo de Historia de dos ciudades, y la voz de Javert tenía un problema de saltarse frases en medio
Por ejemplo, se omitían fragmentos como “it was the age of foolishness”
Eso le quita confianza
Reporté el issue relacionado aquí
- En mis pruebas también se omitió la parte de “we had everything before us”. Definitivamente no es una buena señal
- Yo también vi lo mismo. Había distorsión en la salida, como frases omitidas o el orden de las palabras alterado (Win10 RTX 5070 Ti)
- Con la voz Eponine también se omite “we had nothing before us” y no dice la última frase. Parece que internamente algo anda mal
No había usado muchos modelos de voz hasta ahora, pero gracias a Pocket TTS conocí unmute.sh
Es de código abierto y parece hecho por la misma empresa
Estos modelos parecen perfectamente utilizables a bajo costo incluso en un homelab
Los modelos open source han subido tanto de nivel que ya hay uno para casi cualquier uso
El único campo donde de verdad sigue habiendo una barrera de entrada parece ser el de los modelos de programación
También sería interesante ver si Deepseek 4 puede superar a Claude Sonnet
Lo integré en mi plugin de Codex para que lea un resumen al final de cada turno, y funciona sorprendentemente bien
En mi MacBook corre mucho más fluido que Samantha
agentify-sh/speak