18 puntos por GN⁺ 2026-01-16 | 4 comentarios | Compartir por WhatsApp
  • Pocket TTS, con 100 millones de parámetros, es un modelo ligero de texto a voz con clonación de voz, capaz de ejecutarse en tiempo real incluso en el CPU de una laptop común
  • Reduce la brecha de rendimiento entre los TTS basados en LLM grandes (más de 1,000 millones de parámetros) y los Kokoro TTS pequeños (82 millones de parámetros), logrando a la vez alta calidad y eficiencia
  • Con solo una muestra de voz de unos 5 segundos, replica con precisión el timbre, la emoción, la entonación y las condiciones acústicas del hablante
  • Usa una arquitectura basada en Continuous Audio Language Model para predecir vectores latentes continuos en lugar de tokens discretos, reduciendo el tamaño del modelo sin degradar la calidad
  • Se publica como open source bajo licencia MIT, marcando un nuevo estándar para la tecnología TTS ligera que logra síntesis de voz de alta calidad incluso en entornos CPU

Resumen de Pocket TTS

  • Pocket TTS es un modelo de texto a voz de 100 millones de parámetros que admite clonación de voz (voice cloning)
    • Puede ejecutarse en tiempo real incluso en el CPU de una laptop
    • Se puede ejecutar localmente con los comandos uvx pocket-tts serve o uvx pocket-tts generate
  • Fue desarrollado por Kyutai y publicado como open source bajo licencia MIT
    • Los datos de entrenamiento usan solo datasets públicos de voz en inglés
    • Se menciona la posibilidad de ampliarlo con datos privados adicionales

Comparación con modelos TTS existentes

  • La tecnología TTS actual se divide en dos categorías
    • Modelos grandes basados en LLM: por ejemplo, Kyutai TTS 1.6B (aprox. 1.6 mil millones de parámetros)
      • Pueden modelar distintas voces, emociones y condiciones acústicas, pero requieren GPU
    • Modelos pequeños especializados: por ejemplo, Kokoro TTS (82 millones de parámetros)
      • Son eficientes al usar un conjunto fijo de voces y pipelines manuales, pero tienen flexibilidad limitada
  • Pocket TTS ocupa un punto intermedio entre ambos enfoques y permite síntesis de voz de alta calidad incluso en CPU

Evaluación de rendimiento

  • Se evaluó con el conjunto Librispeech test-clean
    • El audio de entrada se limpió con Adobe Enhance Speech para asegurar calidad de 24 kHz
  • Comparativas: F5-TTS, DSM, Chatterbox Turbo, Kokoro TTS
  • Métricas de evaluación:
    • Word Error Rate (WER)
    • Calidad de audio (ELO)
    • Similitud del hablante (ELO)
  • Resumen de resultados:
    • Pocket TTS obtuvo el WER más bajo con 1.84
    • La calidad de audio fue superior a la de F5-TTS y DSM
    • La similitud del hablante estuvo al nivel de la voz de referencia
    • Fue el único modelo capaz de ejecutarse más rápido que en tiempo real sobre CPU
Modelo Cantidad de parámetros WER ↓ Calidad de audio (ELO) ↑ Similitud del hablante (ELO) ↑ Ejecución en tiempo real en CPU
F5-TTS 336M 2.21 1949 ± 27 1946 ± 26
Kyutai TTS 1.6B 750M 1.84 1959 ± 25 2037 ± 21
Chatterbox Turbo 350M 3.24 2055 ± 23 2012 ± 22
Kokoro 82M 1.93 sin clonación de voz sin clonación de voz
Pocket TTS 100M 1.84 2016 ± 25 1898 ± 26
  • En pruebas con CPU Intel Core Ultra 7 165H y Apple M3, solo Pocket TTS y Kokoro pudieron sintetizar en tiempo real

Arquitectura

  • Pocket TTS está diseñado con base en la investigación de Continuous Audio Language Model
    • Los métodos previos predecían tokens de audio discretos, mientras que Pocket TTS predice directamente vectores latentes continuos (latent)
    • Esto permite eliminar el cuello de botella del RQ-transformer y aligerar el modelo

Neural Audio Codec

  • Diseñado sobre el códec Mimi
    • Mimi comprime en tokens discretos, pero Pocket TTS usa representaciones latentes continuas
    • Aplica entrenamiento VAE normalizado con distribución normal
    • WavLM se destila hacia representaciones internas mediante pérdida de similitud coseno
    • Se elimina la etapa RVQ y se aplica la pérdida de destilación a toda la representación latente

Generative Model

  • Basado en el framework Masked Autoregressive (MAR)
    • Está compuesto por un backbone Causal Transformer y un sampler MLP
    • Usa la pérdida Lagrangian Self-Distillation (LSD) para implementar muestreo de 1 paso
    • En inferencia, los vectores latentes predichos se realimentan de forma autorregresiva

Condicionamiento de voz y texto

  • La entrada del modelo combina un prompt de voz (unos segundos) y texto
    • La voz se incrusta con el codificador del códec, y el texto con el tokenizador SentencePiece

Configuración del tamaño del modelo

  • Modelo generativo (Transformer + MLP): 90 millones de parámetros
  • Decodificador del códec: 10 millones de parámetros
  • Codificador del códec: 18 millones de parámetros (se usa solo una vez al codificar la muestra de voz)

Datos de entrenamiento

  • Está compuesto por datasets públicos de voz en inglés, con un total de 88,000 horas
    • AMI, EARNINGS22, GIGASpeech, SPGISpeech, TED-LIUM, VoxPopuli, LibriHeavy, Emilia

Principales contribuciones técnicas

Head Batch Multiplier

  • Para aliviar el cuello de botella computacional del Transformer, reutiliza varias veces el vector z
    • Para cada secuencia de entrada, z se calcula una vez y se reutiliza en 8 cálculos de pérdida
    • Esto mejora la eficiencia y también ayuda a la estabilidad del entrenamiento

Gaussian Temperature Sampling

  • Aplica control de temperatura de muestreo también en el espacio continuo
    • Mejora la calidad al reducir la varianza del ruido gaussiano
    • Se observaron buenos resultados con temperatura 0.7

Latent Classifier-Free Guidance (Latent CFG)

  • Aplica CFG tradicional al nivel de variables latentes (z)
    • Mejora la calidad combinando linealmente salidas condicionadas y no condicionadas
    • Usa α=1.5
    • Un concepto similar también aparece en la investigación de SoundReactor

Distillation

  • Usa un modelo CFG como modelo maestro para destilarlo en un modelo estudiante ligero
    • Fija la cabeza MLP del modelo maestro, y el estudiante aprende z con pérdida L2
    • Permite reducir de un modelo maestro de 24 capas a un estudiante de 6 capas

Conclusión

  • Pocket TTS es un modelo TTS ligero capaz de ofrecer síntesis de voz de alta calidad en tiempo real incluso en CPU
  • Combina una arquitectura basada en espacio latente continuo, técnicas de entrenamiento eficientes y clonación de voz
  • Al publicarse como open source bajo licencia MIT, ofrece reproducibilidad y extensibilidad para desarrolladores e investigadores

4 comentarios

 
xguru 2026-01-16

No parece haber muchos modelos TTS abiertos con soporte para coreano.
Hace tiempo se decía que Kokoro-82M, que se publicó anteriormente, soportaba coreano, pero escuché que la calidad no parecía ser muy buena.
Buscando un poco, parece que si lo haces con GPT-Sovits o con algo como Edge-TTS, sale bastante decente.

Últimamente, mientras hago vibe coding, siento que si lo conecto con Whisper podría salir algo interesante, pero no se me ocurre ninguna idea jaja

 
ng0301 2026-01-18

Hace poco en Supertonic sacaron un modelo que incluso funciona con coreano, échenle un vistazo.

¡También hice una librería de un clic!

https://www.npmjs.com/package/easy-supertonic-tts

 
bichi 2026-01-19

Está genial, pero creo que estaría bien incluir también la dirección de los recursos de destino mientras lo haces. No puedo simplemente instalar todo así nomás, jaja.

 
GN⁺ 2026-01-16
Opiniones en Hacker News
  • Me da muchísima alegría que mi publicación haya despertado tanto interés
    Formo parte de un equipo en París que desarrolla soluciones de voz de nivel empresarial basadas en la investigación de Kyutai
    Si estás construyendo algo en este campo, me gustaría compartir los próximos modelos y funciones
    Estaría genial que me contactaras al correo que aparece en mi perfil

    • Es un trabajo impresionante. Me parece un logro que lleva los límites hasta el punto de poder correr localmente incluso en dispositivos de uso diario
  • Mientras leía el caso de estudio largo, me di cuenta de que necesitaba una extensión de navegador, así que armé yo mismo una interfaz para el navegador
    El resultado es Pocket Reader

  • Me pareció interesante, así que de inmediato lo convertí en un servidor MCP para que Claude me avise cuando termine una tarea
    speak_when_done

    • macOS ya trae integrada una función de TTS bastante natural
      Yo también hice una herramienta parecida que ejecutaba el comando say como proceso en segundo plano, pero me costó configurar una voz buena de forma consistente
      Parece que esa voz natural está escondida en algún lado
    • Yo también hice algo parecido recientemente con piper-tts
      speak-mcp
    • Yo también configuré Pushover por la misma razón para recibir notificaciones en el teléfono
      Ahora también voy a probar tu servidor
  • Esta vez la calidad del código es realmente buena
    Normalmente los codebases de modelos nuevos están llenos de volcados innecesarios de dependencias, pero esta vez también está muy bien hecho desde el punto de vista de ingeniería de software

  • ¡Gracias por compartirlo! Soy fan de Kokoro, así que construí mi propio asistente de voz local
    proyecto ova
    Definitivamente también voy a probar Pocket TTS

    • Siento que el rendimiento de TTS es mucho mejor en Kokoro
      Eso sí, como Pocket TTS es cerrado, no se puede verificar si tiene clonación de voz
    • ¡Buenísimo el repositorio! Yo también lo voy a probar
      ¿De casualidad está basado en mlx o en Hugging Face transformers?
  • Me pregunto si este proyecto podría distribuirse como un binario estático pequeño
    Ahora mismo las dependencias son bastante grandes

    • El issue relacionado se puede seguir aquí
  • Me gusta mucho
    Pero dice que tiene licencia MIT, aunque en el README hay una sección aparte de Uso prohibido (Prohibited Use), así que me confunde si no termina siendo software no libre

    • Según entiendo, el código es MIT, pero el modelo tiene una licencia aparte
      Igual que las imágenes o los sonidos, los modelos de ML quizá no se consideren software
      La tarjeta del modelo en Hugging Face también tiene la misma cláusula de prohibición
    • La licencia MIT dice que “se puede usar sin restricciones”
      Por eso, los puntos prohibidos del README podrían entrar en conflicto legalmente
    • La cláusula de prohibición parece más bien del tipo “no lo uses para cometer delitos”, así que su eficacia legal sería mínima
    • Si dice “puedes usarlo, pero no para estas cosas”, entonces no queda claro si realmente estarías violando la licencia
    • La cláusula de prohibición se siente como un adorno formal innecesario
  • Probé uvx pocket-tts serve en una Mac M1
    Como prueba, le hice leer el primer párrafo de Historia de dos ciudades, y la voz de Javert tenía un problema de saltarse frases en medio
    Por ejemplo, se omitían fragmentos como “it was the age of foolishness”
    Eso le quita confianza
    Reporté el issue relacionado aquí

    • En mis pruebas también se omitió la parte de “we had everything before us”. Definitivamente no es una buena señal
    • Yo también vi lo mismo. Había distorsión en la salida, como frases omitidas o el orden de las palabras alterado (Win10 RTX 5070 Ti)
    • Con la voz Eponine también se omite “we had nothing before us” y no dice la última frase. Parece que internamente algo anda mal
  • No había usado muchos modelos de voz hasta ahora, pero gracias a Pocket TTS conocí unmute.sh
    Es de código abierto y parece hecho por la misma empresa
    Estos modelos parecen perfectamente utilizables a bajo costo incluso en un homelab
    Los modelos open source han subido tanto de nivel que ya hay uno para casi cualquier uso
    El único campo donde de verdad sigue habiendo una barrera de entrada parece ser el de los modelos de programación
    También sería interesante ver si Deepseek 4 puede superar a Claude Sonnet

  • Lo integré en mi plugin de Codex para que lea un resumen al final de cada turno, y funciona sorprendentemente bien
    En mi MacBook corre mucho más fluido que Samantha
    agentify-sh/speak