Superar el valle inquietante de la voz conversacional

(sesame.com)

5 puntos por GN⁺ 2025-03-03 | Aún no hay comentarios. | Compartir por WhatsApp

Para los asistentes de voz digitales de uso prolongado, es más importante la presencia de voz (voice presence) —que refleje emoción, ritmo y contexto— que una voz sintética limpia; para ello, Sesame propone el Conversational Speech Model
CSM es un transformer multimodal end-to-end que procesa texto y voz en conjunto, y está diseñado para generar emisiones más naturales y consistentes aprovechando el historial conversacional
El modelo maneja directamente tokens RVQ, pero se divide entre un backbone encargado del codebook 0 y un pequeño decodificador de audio que reconstruye los demás codebooks, buscando equilibrar latencia y capacidad expresiva
Se entrenaron tres tamaños —Tiny, Small y Medium— con unas 1 millón de horas de datos públicos de audio, mayormente en inglés, y además de WER y similitud de hablante se añadieron evaluaciones de pronunciación de homógrafos y consistencia de pronunciación
Cuando no había contexto, la diferencia de preferencia entre CSM-Medium y voz real no era clara, pero al dar contexto conversacional se prefirieron las grabaciones reales por ofrecer continuaciones más adecuadas, lo que muestra que aún queda una brecha en la prosodia conversacional

Presencia de voz y objetivo

El objetivo de Sesame es implementar una presencia de voz que haga que la voz realmente se sienta comprendida y valiosa
Los asistentes de voz digitales actuales suelen quedarse en un tono neutral, por lo que, una vez pasada la novedad inicial, es difícil que sigan usándose en la vida cotidiana
Los componentes necesarios se resumen en cuatro
- Inteligencia emocional: leer el contexto emocional y responder a él
- Dinámica conversacional: manejar tiempos naturales, pausas, interrupciones y énfasis
- Conciencia de contexto: ajustar tono y estilo según la situación
- Personalidad consistente: mantener una presencia confiable y apropiada
El acompañante del demo actual está optimizado para enfatizar cercanía y expresividad, mientras que personalidad, memoria, expresividad y adecuación todavía están en mejora

Planteamiento del problema en Conversational Speech Model

El TTS tradicional genera voz directamente desde texto, pero le falta la conciencia de contexto necesaria para una conversación natural
Aunque los modelos recientes pueden crear voces parecidas a las humanas, hay muchas formas de decir una misma frase y solo algunas encajan con una situación específica
Sin contexto adicional como tono, ritmo o historial conversacional, al modelo le cuesta elegir la forma de emisión más apropiada
CSM aborda este problema mediante aprendizaje multimodal end-to-end, haciendo que el transformer use el historial conversacional para generar voz más natural y consistente
Tiene dos características principales
- Funciona como un modelo de una sola etapa para mejorar eficiencia y expresividad
- En un contexto donde las evaluaciones públicas generales ya están saturadas, usa un conjunto de evaluaciones aparte para medir avances en capacidades de contexto

Tokens de audio y diseño RVQ

Para modelar audio con un transformer, la forma de onda continua se convierte en una secuencia discreta de tokens de audio
Los enfoques modernos suelen usar dos tipos de tokens
- Tokens semánticos: comprimen significado y rasgos fonémicos, sacrificando representación de alta fidelidad
- Tokens acústicos: contienen información acústica detallada, permiten reconstrucción de alta fidelidad y preservan características como identidad del hablante y timbre
El enfoque común modela primero los tokens semánticos y luego genera el audio con métodos basados en RVQ o difusión
Este enfoque de dos etapas permite una síntesis estructurada, pero crea un cuello de botella en el que los tokens semánticos deben capturar también suficiente prosodia
Los enfoques basados en RVQ deben manejar dependencias secuenciales entre codebooks dentro de un mismo frame
- El delay pattern desplaza gradualmente los codebooks superiores para condicionarlos sobre los codebooks inferiores del mismo frame
- Si el tokenizer RVQ tiene N codebooks, se necesitan N pasos del backbone antes de decodificar el primer fragmento de audio, lo que empeora el time-to-first-audio
- Esto sirve para usos offline como audiolibros, pero en escenarios en tiempo real la latencia se vuelve un problema

Arquitectura de CSM y método de inferencia

CSM es un modelo multimodal de texto y voz que maneja directamente tokens RVQ
Su estructura se divide en dos transformers autorregresivos
- El primer backbone multimodal recibe texto y audio como entradas intercaladas y modela el codebook 0
- El segundo decodificador de audio usa una linear head separada por cada codebook para modelar los N−1 codebooks restantes y reconstruir la voz
El decodificador es mucho más pequeño que el backbone, lo que permite generación de baja latencia y al mismo tiempo mantiene el modelo end-to-end
La inferencia sigue este flujo
- Los tokens de texto y audio se ingresan secuencialmente al backbone
- El backbone predice el nivel del codebook 0
- El decodificador, condicionado en el nivel 0, muestrea los niveles del 1 al N−1
- Los tokens de audio reconstruidos se vuelven a ingresar de forma autorregresiva al backbone para el siguiente paso
- Cuando aparece el símbolo EOT de audio, termina la generación, y en la siguiente solicitud el audio intermedio, como una emisión del usuario, se representa con tokens de audio y de transcripción de texto
Ambos transformers son variantes de la arquitectura Llama, y los tokens de texto se generan con el tokenizer de Llama
El audio se procesa con Mimi, un tokenizer split-RVQ, que a 12.5 Hz genera por frame 1 codebook semántico y N−1 codebooks acústicos
Las muestras de entrenamiento siguen un patrón intercalado de texto y audio, y la identidad del hablante se codifica directamente dentro de la representación textual

Eficiencia de entrenamiento y datos

Durante el entrenamiento, el decodificador de audio procesa de forma autorregresiva un tamaño de lote efectivo de B×S y N codebooks, lo que genera una gran carga de memoria
Esa carga ralentiza el entrenamiento incluso en modelos pequeños y dificulta escalar el modelo y hacer experimentación rápida
Sesame usa compute amortization para reducir el cuello de botella manteniendo la fidelidad de todos los codebooks RVQ
- El decodificador de audio se entrena solo con un subconjunto aleatorio de 1/16 de los frames de audio
- El codebook 0 se entrena en todos los frames
- Con este método, no se observó una diferencia perceptible en la pérdida del decodificador de audio durante el entrenamiento
El dataset se construyó transcribiendo, separando hablantes, segmentando y filtrando audio público
Tras el filtrado, los datos suman aproximadamente 1 millón de horas y consisten mayormente en audio en inglés
Se entrenaron tres tamaños de modelo
- Tiny: backbone de 1B, decodificador de 100M
- Small: backbone de 3B, decodificador de 250M
- Medium: backbone de 8B, decodificador de 300M
Cada modelo se entrenó durante 5 épocas con longitud de secuencia de 2048, equivalente a unos 2 minutos de audio

Muestras y sistema de evaluación

Las muestras incluyen elementos paralingüísticos, palabras extranjeras, expresividad contextual, corrección de pronunciación y conversaciones con varios hablantes
El conjunto de evaluación mide cuatro aspectos
- Fidelidad al texto
- Uso del contexto
- Prosodia
- Latencia
La evaluación objetiva incluye WER, nuevas pruebas de pronunciación, similitud de hablante y otros indicadores
La evaluación subjetiva consiste en una prueba humana Comparative Mean Opinion Score (CMOS) con el dataset Expresso
En benchmarks tradicionales como WER y speaker similarity, los modelos más recientes, incluido CSM, ya alcanzan un nivel casi humano y están cerca de la saturación

Evaluación de pronunciación y comprensión de contexto

Se introdujo un nuevo benchmark basado en transcripción de voz para evaluar mejor la pronunciación y la comprensión de contexto
La distinción de homógrafos evalúa si se pronuncian correctamente palabras que se escriben igual pero suenan distinto
- Un ejemplo es distinguir si “lead” corresponde al metal /lɛd/ o al verbo /liːd/
La consistencia de pronunciación en continuación de habla evalúa si una palabra con varias variantes de pronunciación se mantiene consistente en voz de múltiples turnos
- Un ejemplo es “route”, que puede pronunciarse /raʊt/ o /ruːt/
La evaluación de precisión en homógrafos se realizó con 200 muestras de voz que incluían dos variantes para cinco palabras: lead, bass, tear, wound y row
La evaluación de consistencia de pronunciación se realizó con 200 muestras de voz que incluían 10 palabras: aunt, data, envelope, mobile, route, vase, either, adult, often y caramel
La evaluación usa wav2vec2-lv-60-espeak-cv-ft
Los resultados generados por Play.ht, Elevenlabs y OpenAI se produjeron con la configuración predeterminada y la voz predeterminada de la documentación de cada API
En general, el rendimiento mejora a medida que crece el tamaño del modelo, lo que respalda la hipótesis de que el escalado ayuda a una síntesis de voz más realista

Resultados de evaluación humana

Para evaluar la naturalidad y la adecuación prosódica de CSM-Medium, se realizaron dos estudios CMOS con el dataset Expresso
Los evaluadores escucharon un par formado por audio generado por el modelo y una grabación humana real, y calificaron la muestra generada en una escala de preferencia de 7 puntos respecto de la referencia
En el primer estudio se presentaron la muestra generada y la humana sin contexto, y se pidió elegir “cuál se siente más como voz humana”
En el segundo estudio se proporcionaron además los 90 segundos previos de contexto de audio y texto, y se pidió elegir “cuál se siente como la continuación más adecuada de la conversación”
Participaron 80 personas pagadas, y cada una evaluó en promedio 15 ejemplos
Cuando no había contexto, los evaluadores no mostraron una preferencia clara entre la voz generada y la voz real, lo que sugiere que la evaluación de naturalidad ya está en un estado de saturación
Cuando se incluía contexto, los evaluadores prefirieron de forma consistente la grabación original, lo que muestra que todavía queda una brecha con la prosodia humana en la generación de voz conversacional

Plan de publicación y limitaciones

Sesame planea publicar como código abierto los componentes clave de la investigación, y el modelo se ofrecerá bajo licencia Apache 2.0
Se pueden seguir actualizaciones y contribuciones en el repositorio de GitHub SesameAILabs/csm
Actualmente, CSM se entrena principalmente con datos en inglés
- Debido a contaminación de datos, aparecen algunas capacidades multilingües, pero todavía no funcionan bien
- Tampoco aprovecha la información contenida en los pesos de modelos de lenguaje preentrenados
Durante los próximos meses planean ampliar el tamaño del modelo, aumentar la escala del dataset y extender el soporte a más de 20 idiomas
También explorarán formas de aprovechar modelos de lenguaje preentrenados, con la meta de un gran modelo multimodal con conocimiento profundo de voz y texto
CSM genera prosodia conversacional de alta calidad, pero solo modela el texto y el contenido de voz de la conversación; no puede modelar la estructura de la conversación en sí
La conversación humana es un proceso complejo que incluye toma de turnos, pausas y control de velocidad, por lo que la conversación con IA del futuro se acercará más a modelos fully duplex que aprendan implícitamente estas dinámicas a partir de los datos
Los modelos fully duplex requerirán cambios fundamentales en toda la pila, desde la curación de datos hasta las metodologías de postentrenamiento

Superar el valle inquietante de la voz conversacional

Presencia de voz y objetivo

Planteamiento del problema en Conversational Speech Model

Tokens de audio y diseño RVQ

Arquitectura de CSM y método de inferencia

Eficiencia de entrenamiento y datos

Muestras y sistema de evaluación

Evaluación de pronunciación y comprensión de contexto

Resultados de evaluación humana

Plan de publicación y limitaciones

Lecturas relacionadas

Aún no hay comentarios.