3 puntos por GN⁺ 2025-06-12 | 1 comentarios | Compartir por WhatsApp
  • Chatterbox es el más reciente modelo open source de TTS (síntesis de voz) lanzado por Resemble AI
  • En evaluaciones comparativas frente a su competidor ElevenLabs, mostró resultados consistentemente preferidos
  • Incorpora funciones propias como el control de exageración emocional, lo que permite diversas expresiones de voz
  • Fue entrenado con una base Llama de 500 millones de parámetros y 500 mil horas de datos depurados
  • Todas las voces generadas incluyen watermarking Perth integrado para ayudar a prevenir uso no autorizado y manipulación

Introducción e importancia de Chatterbox TTS

  • Chatterbox es un modelo open source de TTS (texto a voz) de nivel listo para producción desarrollado por Resemble AI
  • Usa licencia MIT, por lo que puede aprovecharse libremente, y se publicaron resultados que demuestran calidad superior incluso frente a modelos comerciales de código cerrado (por ejemplo, ElevenLabs)
  • Puede aplicarse a toda clase de creación de contenido, como videos, memes, videojuegos y agentes de IA, y es el primer TTS open source en ofrecer control de exageración emocional
  • Puede probarse y usarse en la práctica mediante una app de Hugging Face Gradio o su propia API; para escalado grande o alta precisión, ofrece una API comercial (latencia ultrabaja por debajo de 200 ms)

Características principales

  • TTS zero-shot de última generación: puede expresar diversos estilos de hablante sin datos adicionales
  • Backbone Llama de 0.5B: aplica la arquitectura de los modelos grandes de lenguaje a la síntesis de voz
  • Ajuste de exageración/intensidad emocional: ofrece funciones para controlar con precisión la intensidad de la personalidad y emoción de cada hablante
  • Alignment-informed inference: refleja información de alineación entre fonemas y audio para lograr calidad de generación ultraestable
  • 0.5M horas de datos depurados: fue entrenado con un dataset de voz masivo y de alta calidad
  • Watermarking integrado: usa el watermarking Perth (Perceptual Threshold) de Resemble AI para rastrear contenido generado y evitar uso no autorizado
  • Script de conversión de voz: incluye una función de voice conversion fácil de usar
  • Validación de rendimiento: obtuvo evaluaciones superiores frente a ElevenLabs

Consejos de uso

  • TTS general / agentes de voz: con los valores por defecto (Exaggeration=0.5, cfg_weight=0.5) se logra una calidad equilibrada en la mayoría de los casos
    • Si el estilo del hablante es rápido, ajustar cfg_weight cerca de 0.3 puede dar una velocidad más natural
  • Síntesis de voz emotiva o dramática: subir Exaggeration a 0.7 o más y reducir cfg_weight refuerza el efecto dramático del habla
    • Cuanto mayor sea la intensidad emocional (exaggeration), más rápida se vuelve la locución; si se baja cfg_weight, es posible ajustar una locución más lenta y clara

Idiomas compatibles

  • Actualmente solo admite inglés

Open source de referencia/dependencias

  • Refleja diversas tecnologías recientes de modelos de voz y lenguaje, como Cosyvoice, Real-Time-Voice-Cloning, HiFT-GAN, Llama 3 y S3Tokenizer

Watermarking Perth integrado

  • Watermarking Perth (Perceptual Threshold): inserta en todas las voces generadas una marca de agua neuronal sin degradación de la calidad de audio
  • La marca de agua se mantiene incluso tras compresión MP3, edición de audio y procesamiento
  • Permite detección automática con una precisión cercana al 100%, además de rastreo del original, prevención de manipulación y uso responsable de la IA

Ejemplo de extracción de marca de agua

  • Es posible verificar si la marca de agua está incluida mediante un script aparte
  • Usando el paquete de Python perth y librosa, se puede extraer del audio el valor de la marca de agua (0 o 1)

Comunidad

  • Hay una comunidad oficial en Discord activa, a la que cualquiera puede unirse y colaborar

Descargo de responsabilidad

  • Este modelo prohíbe el uso con fines maliciosos, y los prompts solo aprovechan datos publicados en internet

1 comentarios

 
GN⁺ 2025-06-12
Opiniones de Hacker News
  • Veo el aviso de que todos los archivos de audio generados con Chatterbox incluyen la marca de agua Perth (Perceptual Threshold) de Resemble AI
    La promocionan como imperceptible neural watermarks, así que supuestamente sobrevive a la compresión MP3, la edición de audio y toda clase de alteraciones, con una precisión de detección cercana al 100%
    Pero da curiosidad si no sería fácil desactivar la marca de agua simplemente comentando la llamada a la función apply_watermark en tts.py
    Uno pensaría que una marca de agua así tendría como objetivo estar oculta dentro del propio modelo para que no se pueda quitar tan fácilmente
    Si a un modelo open source le agregan la marca de agua como una etapa separada de posprocesamiento, entonces queda la duda de para qué molestarse en ponerla
  • Supongo que esto es una especie de gesto de CYA (Cover Your Ass, protegerse)
    Igual que el content filter del Stable Diffusion original
    También podría haber la intención de evitar la contaminación de datos de entrenamiento
  • Incluso el parser ya incluye una bandera --no-watermark
    Al final, parece que lo pusieron como una “función” para quienes quieran incluirlo dentro de un producto más grande
  • Las empresas que no sean OpenAI, Google o ElevenLabs se van a volver totalmente irrelevantes si no apuestan de verdad por el open source
    Los líderes del mercado TTS ya están bastante claros, y Resemble, PlayHT y otras solo pueden aspirar a algo de cuota si les entregan a los desarrolladores el peso del modelo y el código fuente
    El watermarking tiene una pinta muy CYA frente a las críticas por mal uso en medios
    Si no cubren ese frente, los medios y el bloque anti-IA (como 404Media) van a levantar el tema del abuso
    Lo correcto sería publicar el código fuente, los pesos, y además ofrecer API/opciones de fine-tuning por separado
    Como referencia, artículo de 404Media
  • La página de demo está aquí
    Si el audio de demo no está demasiado escogido a dedo, me parece un lanzamiento realmente bueno
    Lo digo siempre, pero en la práctica sigo notando en experimentos que el verdadero límite de la IA de voz no es tanto la calidad TTS sino el reconocimiento de voz (transcripción)
    A menos que algo haya cambiado hace poco, sigue siendo el cuello de botella
  • Por mi experiencia reciente, los LLM ya son bastante buenos para leer y aprovechar incluso errores de transcripción
    Todavía no he probado pasarle al LLM varias versiones de una transcripción o niveles de confianza, pero me da la impresión de que podría sacarles buen provecho
  • De hecho usé Speechmatics y la calidad de transcripción me pareció bastante útil
  • Probándolo directamente en la demo de Huggingface, la expresión emocional no se sintió tan natural como en la demo de la página, y sí da un poco la impresión de ejemplos seleccionados
  • Me pregunto si no se podrá superar el problema de transcripción con datos sintéticos
  • Me gustó mucho que en la demo metieran groserías directamente
    También es gracioso que la frase venga de Pulp Fiction
    Las demos de siempre son tan aburridas y correctitas que ya cansan
    En la comunidad indie de TTS se usa mucho el Navy Seals copypasta, pero que una empresa de servicios como Resemble meta algo así se siente fresco
    Wiki de Copypasta, ejemplo del Navy Seal copypasta
  • Se puede probar gratis aquí
  • Fue divertido probarlo
    Metí mi acento australiano y salió con un acento británico muy marcado, además con una pronunciación RP súper suave
    Suena muy natural, pero definitivamente no se siente como si reprodujera mi acento
    Para uso real muchas veces lo importante es una voz clara y natural, así que para eso encaja perfecto
  • Por desgracia, no publicaron el código de entrenamiento ni de fine-tuning, así que no llega al nivel de “completamente abierto” de Flux o Stable Diffusion
    Entre los modelos “open” mejores están:
    • Zeroshot TTS: MaskGCT, MegaTTS3
    • Zeroshot VC: Seed-VC, MegaTTS3
      En la práctica, solo Seed-VC tiene código de entrenamiento/fine-tuning, pero todos rinden mejor que Chatterbox en zero-shot
      En particular, MegaTTS3 de ByteDance está a un nivel que fuera de ElevenLabs casi nadie puede seguir
      ByteDance domina por dinero, personal y datos
      Si el objetivo es la reproducción de voz zero-shot sin fine-tuning, esos modelos son una mejor opción
  • También publicaron como open source un ejemplo de implementación de una API TTS lista para producción
    También adjuntan el enlace a un modelo desplegable
  • Comparten un ejemplo de código de inferencia y clonación de voz
    Aún están trabajando en soporte de streaming
  • Creo que funciona de maravilla con acentos muy comunes
    Pero incluso con acentos bastante comunes mete rastros de otros acentos inesperados, por ejemplo una grabación escocesa con acento australiano
    También falla con el acento de Yorkshire
  • Metí acento escocés y hasta mi propio acento australiano terminó convertido en RP británico
  • Hay quien opina que eso tiene más que ver con las particularidades del acento escocés que con el modelo
  • Me lo creo; suena como un actor aprendiendo acento británico
  • Pregunta sobre hardware: curiosidad por saber si corre con especificaciones mínimas
  • Según la página de issues de GitHub, todavía no está muy bien optimizado
    Así que en estado base requiere hardware de consumo relativamente potente
    Pero parece tener bastante margen para optimizarse más adelante
    Enlace al issue
  • Según este issue, necesita entre 6 y 7 GB de VRAM
    Si el modelo vale la pena, seguro alguien encontrará la forma de hacerlo correr con menos VRAM
    De hecho, lo probé en una Nvidia 2060 vieja y el pico de VRAM fue de unos 5 GB
  • Esta no es para nada una pregunta menor; al contrario, es de las mejores preguntas
    Puede correr gratis, pero el costo real podría quitarle sentido al self-hosting
  • Yo también tenía la misma duda y me puse a investigar
    Quería saber si hacía falta una GPU cara o si corría hasta en una laptop de hace 12 años
  • Quise compartir mi experiencia ejecutándolo en una CPU vieja, pero pasé más de 30 minutos solo instalando y peleándome con errores
    Lista de problemas que me encontré:
    • Python 3.13 no es compatible y tuve que reconfigurar un entorno virtual 3.12 con uv
    • no reconocía numpy 1.26.4, y uv pip solo buscaba en el repositorio de pytorch
    • la versión de pip install chatterbox-tts tiene un bug en modo CPU only
    • la versión main por defecto necesita protobuf-compiler en Debian
    • un error desconocido de CMake quejándose de que faltan los headers de desarrollo de Python
      Cada vez que intento correr un proyecto de Python ajeno termino repitiendo este mismo viacrucis, y ya cansa
  • Me pareció interesante la exageración emocional, pero todavía no encuentro un servicio que te deje “esculpir” el color de voz deseado solo con descripciones de texto, como Elevenlabs
    SparkTTS ofrece un poco más de parámetros y en el código de GitHub se ve que podría haber control emocional más fino
    En mi caso, sí he logrado acercarme al concepto que buscaba forzando bastante la prosodia y la tonalidad desde el texto en algunos modelos
    Aun así, sigue siendo mucho más engorroso que el diseño emocional intuitivo de Elevenlabs
  • Impresiones tras probar la demo con un fragmento de mi propia voz
    • La salida sí capturó algo del tono de mi voz, pero no se parecía muchísimo
      Aun así, sorprende bastante que llegue a ese nivel con una muestra tan corta
    • Si subía un poco los valores de CFG/pace, el audio se volvía inmediatamente ininteligible
    • Mi acento es australiano, pero la salida iba cambiando entre británico y estadounidense
    • La exageración emocional fue divertida, aunque la emoción resultante variaba cada vez
  • Me pregunto si un modelo TTS así puede narrar un libro entero de forma convincente, o si después de unos cuantos párrafos se rompe la consistencia de la voz
  • La mayoría de los sistemas TTS se vienen abajo con textos largos, así que en la práctica conviene cortar por párrafos, narrar por partes y luego volver a unirlas
    Además, si el sample wave one-shot tiene ruido mezclado, Chatterbox a veces te regala al final sonidos rarísimos imposibles de identificar
    Sobre todo si lee algo como la Divina Comedia de Dante: experiencia de “sonidos del infierno”
  • Cuando la calidad llegue a ser lo bastante buena, seguramente Audible se va a llenar de audiolibros con narración por IA
    (La única duda es si Amazon avisará ese hecho o no)
  • Yo mismo generé un libro en formato epub como audiolibro y con esta herramienta obtuve resultados nada malos
    herramienta de conversión a audiobook audiblez
  • Estoy haciendo consultoría para una empresa de este sector, y puedo afirmar sin duda que la tecnología actual ya sirve para lectura de libros
  • Hace un año le sintetizé por diversión a un amigo un audiolibro de terapia de Carl Rogers en estilo Attenbrough, y ya entonces la calidad era bastante buena
    Ahora, un año después, seguro ha mejorado aún más