- Chatterbox es el más reciente modelo open source de TTS (síntesis de voz) lanzado por Resemble AI
- En evaluaciones comparativas frente a su competidor ElevenLabs, mostró resultados consistentemente preferidos
- Incorpora funciones propias como el control de exageración emocional, lo que permite diversas expresiones de voz
- Fue entrenado con una base Llama de 500 millones de parámetros y 500 mil horas de datos depurados
- Todas las voces generadas incluyen watermarking Perth integrado para ayudar a prevenir uso no autorizado y manipulación
Introducción e importancia de Chatterbox TTS
- Chatterbox es un modelo open source de TTS (texto a voz) de nivel listo para producción desarrollado por Resemble AI
- Usa licencia MIT, por lo que puede aprovecharse libremente, y se publicaron resultados que demuestran calidad superior incluso frente a modelos comerciales de código cerrado (por ejemplo, ElevenLabs)
- Puede aplicarse a toda clase de creación de contenido, como videos, memes, videojuegos y agentes de IA, y es el primer TTS open source en ofrecer control de exageración emocional
- Puede probarse y usarse en la práctica mediante una app de Hugging Face Gradio o su propia API; para escalado grande o alta precisión, ofrece una API comercial (latencia ultrabaja por debajo de 200 ms)
Características principales
- TTS zero-shot de última generación: puede expresar diversos estilos de hablante sin datos adicionales
- Backbone Llama de 0.5B: aplica la arquitectura de los modelos grandes de lenguaje a la síntesis de voz
- Ajuste de exageración/intensidad emocional: ofrece funciones para controlar con precisión la intensidad de la personalidad y emoción de cada hablante
- Alignment-informed inference: refleja información de alineación entre fonemas y audio para lograr calidad de generación ultraestable
- 0.5M horas de datos depurados: fue entrenado con un dataset de voz masivo y de alta calidad
- Watermarking integrado: usa el watermarking Perth (Perceptual Threshold) de Resemble AI para rastrear contenido generado y evitar uso no autorizado
- Script de conversión de voz: incluye una función de voice conversion fácil de usar
- Validación de rendimiento: obtuvo evaluaciones superiores frente a ElevenLabs
Consejos de uso
- TTS general / agentes de voz: con los valores por defecto (Exaggeration=0.5, cfg_weight=0.5) se logra una calidad equilibrada en la mayoría de los casos
- Si el estilo del hablante es rápido, ajustar cfg_weight cerca de 0.3 puede dar una velocidad más natural
- Síntesis de voz emotiva o dramática: subir Exaggeration a 0.7 o más y reducir cfg_weight refuerza el efecto dramático del habla
- Cuanto mayor sea la intensidad emocional (exaggeration), más rápida se vuelve la locución; si se baja cfg_weight, es posible ajustar una locución más lenta y clara
Idiomas compatibles
- Actualmente solo admite inglés
Open source de referencia/dependencias
- Refleja diversas tecnologías recientes de modelos de voz y lenguaje, como Cosyvoice, Real-Time-Voice-Cloning, HiFT-GAN, Llama 3 y S3Tokenizer
Watermarking Perth integrado
- Watermarking Perth (Perceptual Threshold): inserta en todas las voces generadas una marca de agua neuronal sin degradación de la calidad de audio
- La marca de agua se mantiene incluso tras compresión MP3, edición de audio y procesamiento
- Permite detección automática con una precisión cercana al 100%, además de rastreo del original, prevención de manipulación y uso responsable de la IA
Ejemplo de extracción de marca de agua
- Es posible verificar si la marca de agua está incluida mediante un script aparte
- Usando el paquete de Python perth y librosa, se puede extraer del audio el valor de la marca de agua (0 o 1)
Comunidad
- Hay una comunidad oficial en Discord activa, a la que cualquiera puede unirse y colaborar
Descargo de responsabilidad
- Este modelo prohíbe el uso con fines maliciosos, y los prompts solo aprovechan datos publicados en internet
1 comentarios
Opiniones de Hacker News
La promocionan como
imperceptible neural watermarks, así que supuestamente sobrevive a la compresión MP3, la edición de audio y toda clase de alteraciones, con una precisión de detección cercana al 100%Pero da curiosidad si no sería fácil desactivar la marca de agua simplemente comentando la llamada a la función
apply_watermarkentts.pyUno pensaría que una marca de agua así tendría como objetivo estar oculta dentro del propio modelo para que no se pueda quitar tan fácilmente
Si a un modelo open source le agregan la marca de agua como una etapa separada de posprocesamiento, entonces queda la duda de para qué molestarse en ponerla
Igual que el content filter del Stable Diffusion original
También podría haber la intención de evitar la contaminación de datos de entrenamiento
--no-watermarkAl final, parece que lo pusieron como una “función” para quienes quieran incluirlo dentro de un producto más grande
Los líderes del mercado TTS ya están bastante claros, y Resemble, PlayHT y otras solo pueden aspirar a algo de cuota si les entregan a los desarrolladores el peso del modelo y el código fuente
El watermarking tiene una pinta muy CYA frente a las críticas por mal uso en medios
Si no cubren ese frente, los medios y el bloque anti-IA (como 404Media) van a levantar el tema del abuso
Lo correcto sería publicar el código fuente, los pesos, y además ofrecer API/opciones de fine-tuning por separado
Como referencia, artículo de 404Media
Si el audio de demo no está demasiado escogido a dedo, me parece un lanzamiento realmente bueno
Lo digo siempre, pero en la práctica sigo notando en experimentos que el verdadero límite de la IA de voz no es tanto la calidad TTS sino el reconocimiento de voz (transcripción)
A menos que algo haya cambiado hace poco, sigue siendo el cuello de botella
Todavía no he probado pasarle al LLM varias versiones de una transcripción o niveles de confianza, pero me da la impresión de que podría sacarles buen provecho
También es gracioso que la frase venga de Pulp Fiction
Las demos de siempre son tan aburridas y correctitas que ya cansan
En la comunidad indie de TTS se usa mucho el Navy Seals copypasta, pero que una empresa de servicios como Resemble meta algo así se siente fresco
Wiki de Copypasta, ejemplo del Navy Seal copypasta
Metí mi acento australiano y salió con un acento británico muy marcado, además con una pronunciación RP súper suave
Suena muy natural, pero definitivamente no se siente como si reprodujera mi acento
Para uso real muchas veces lo importante es una voz clara y natural, así que para eso encaja perfecto
Entre los modelos “open” mejores están:
En la práctica, solo Seed-VC tiene código de entrenamiento/fine-tuning, pero todos rinden mejor que Chatterbox en zero-shot
En particular, MegaTTS3 de ByteDance está a un nivel que fuera de ElevenLabs casi nadie puede seguir
ByteDance domina por dinero, personal y datos
Si el objetivo es la reproducción de voz zero-shot sin fine-tuning, esos modelos son una mejor opción
También adjuntan el enlace a un modelo desplegable
Aún están trabajando en soporte de streaming
Pero incluso con acentos bastante comunes mete rastros de otros acentos inesperados, por ejemplo una grabación escocesa con acento australiano
También falla con el acento de Yorkshire
Así que en estado base requiere hardware de consumo relativamente potente
Pero parece tener bastante margen para optimizarse más adelante
Enlace al issue
Si el modelo vale la pena, seguro alguien encontrará la forma de hacerlo correr con menos VRAM
De hecho, lo probé en una Nvidia 2060 vieja y el pico de VRAM fue de unos 5 GB
Puede correr gratis, pero el costo real podría quitarle sentido al self-hosting
Quería saber si hacía falta una GPU cara o si corría hasta en una laptop de hace 12 años
Lista de problemas que me encontré:
uvuv pipsolo buscaba en el repositorio de pytorchpip install chatterbox-ttstiene un bug en modo CPU onlyprotobuf-compileren DebianCada vez que intento correr un proyecto de Python ajeno termino repitiendo este mismo viacrucis, y ya cansa
SparkTTS ofrece un poco más de parámetros y en el código de GitHub se ve que podría haber control emocional más fino
En mi caso, sí he logrado acercarme al concepto que buscaba forzando bastante la prosodia y la tonalidad desde el texto en algunos modelos
Aun así, sigue siendo mucho más engorroso que el diseño emocional intuitivo de Elevenlabs
Aun así, sorprende bastante que llegue a ese nivel con una muestra tan corta
Además, si el sample wave one-shot tiene ruido mezclado, Chatterbox a veces te regala al final sonidos rarísimos imposibles de identificar
Sobre todo si lee algo como la Divina Comedia de Dante: experiencia de “sonidos del infierno”
(La única duda es si Amazon avisará ese hecho o no)
herramienta de conversión a audiobook audiblez
Ahora, un año después, seguro ha mejorado aún más