5 puntos por GN⁺ 2025-03-03 | Aún no hay comentarios. | Compartir por WhatsApp
  • Para los asistentes de voz digitales de uso prolongado, es más importante la presencia de voz (voice presence) —que refleje emoción, ritmo y contexto— que una voz sintética limpia; para ello, Sesame propone el Conversational Speech Model
  • CSM es un transformer multimodal end-to-end que procesa texto y voz en conjunto, y está diseñado para generar emisiones más naturales y consistentes aprovechando el historial conversacional
  • El modelo maneja directamente tokens RVQ, pero se divide entre un backbone encargado del codebook 0 y un pequeño decodificador de audio que reconstruye los demás codebooks, buscando equilibrar latencia y capacidad expresiva
  • Se entrenaron tres tamaños —Tiny, Small y Medium— con unas 1 millón de horas de datos públicos de audio, mayormente en inglés, y además de WER y similitud de hablante se añadieron evaluaciones de pronunciación de homógrafos y consistencia de pronunciación
  • Cuando no había contexto, la diferencia de preferencia entre CSM-Medium y voz real no era clara, pero al dar contexto conversacional se prefirieron las grabaciones reales por ofrecer continuaciones más adecuadas, lo que muestra que aún queda una brecha en la prosodia conversacional

Presencia de voz y objetivo

  • El objetivo de Sesame es implementar una presencia de voz que haga que la voz realmente se sienta comprendida y valiosa
  • Los asistentes de voz digitales actuales suelen quedarse en un tono neutral, por lo que, una vez pasada la novedad inicial, es difícil que sigan usándose en la vida cotidiana
  • Los componentes necesarios se resumen en cuatro
    • Inteligencia emocional: leer el contexto emocional y responder a él
    • Dinámica conversacional: manejar tiempos naturales, pausas, interrupciones y énfasis
    • Conciencia de contexto: ajustar tono y estilo según la situación
    • Personalidad consistente: mantener una presencia confiable y apropiada
  • El acompañante del demo actual está optimizado para enfatizar cercanía y expresividad, mientras que personalidad, memoria, expresividad y adecuación todavía están en mejora

Planteamiento del problema en Conversational Speech Model

  • El TTS tradicional genera voz directamente desde texto, pero le falta la conciencia de contexto necesaria para una conversación natural
  • Aunque los modelos recientes pueden crear voces parecidas a las humanas, hay muchas formas de decir una misma frase y solo algunas encajan con una situación específica
  • Sin contexto adicional como tono, ritmo o historial conversacional, al modelo le cuesta elegir la forma de emisión más apropiada
  • CSM aborda este problema mediante aprendizaje multimodal end-to-end, haciendo que el transformer use el historial conversacional para generar voz más natural y consistente
  • Tiene dos características principales
    • Funciona como un modelo de una sola etapa para mejorar eficiencia y expresividad
    • En un contexto donde las evaluaciones públicas generales ya están saturadas, usa un conjunto de evaluaciones aparte para medir avances en capacidades de contexto

Tokens de audio y diseño RVQ

  • Para modelar audio con un transformer, la forma de onda continua se convierte en una secuencia discreta de tokens de audio
  • Los enfoques modernos suelen usar dos tipos de tokens
    • Tokens semánticos: comprimen significado y rasgos fonémicos, sacrificando representación de alta fidelidad
    • Tokens acústicos: contienen información acústica detallada, permiten reconstrucción de alta fidelidad y preservan características como identidad del hablante y timbre
  • El enfoque común modela primero los tokens semánticos y luego genera el audio con métodos basados en RVQ o difusión
  • Este enfoque de dos etapas permite una síntesis estructurada, pero crea un cuello de botella en el que los tokens semánticos deben capturar también suficiente prosodia
  • Los enfoques basados en RVQ deben manejar dependencias secuenciales entre codebooks dentro de un mismo frame
    • El delay pattern desplaza gradualmente los codebooks superiores para condicionarlos sobre los codebooks inferiores del mismo frame
    • Si el tokenizer RVQ tiene N codebooks, se necesitan N pasos del backbone antes de decodificar el primer fragmento de audio, lo que empeora el time-to-first-audio
    • Esto sirve para usos offline como audiolibros, pero en escenarios en tiempo real la latencia se vuelve un problema

Arquitectura de CSM y método de inferencia

  • CSM es un modelo multimodal de texto y voz que maneja directamente tokens RVQ
  • Su estructura se divide en dos transformers autorregresivos
    • El primer backbone multimodal recibe texto y audio como entradas intercaladas y modela el codebook 0
    • El segundo decodificador de audio usa una linear head separada por cada codebook para modelar los N−1 codebooks restantes y reconstruir la voz
  • El decodificador es mucho más pequeño que el backbone, lo que permite generación de baja latencia y al mismo tiempo mantiene el modelo end-to-end
  • La inferencia sigue este flujo
    • Los tokens de texto y audio se ingresan secuencialmente al backbone
    • El backbone predice el nivel del codebook 0
    • El decodificador, condicionado en el nivel 0, muestrea los niveles del 1 al N−1
    • Los tokens de audio reconstruidos se vuelven a ingresar de forma autorregresiva al backbone para el siguiente paso
    • Cuando aparece el símbolo EOT de audio, termina la generación, y en la siguiente solicitud el audio intermedio, como una emisión del usuario, se representa con tokens de audio y de transcripción de texto
  • Ambos transformers son variantes de la arquitectura Llama, y los tokens de texto se generan con el tokenizer de Llama
  • El audio se procesa con Mimi, un tokenizer split-RVQ, que a 12.5 Hz genera por frame 1 codebook semántico y N−1 codebooks acústicos
  • Las muestras de entrenamiento siguen un patrón intercalado de texto y audio, y la identidad del hablante se codifica directamente dentro de la representación textual

Eficiencia de entrenamiento y datos

  • Durante el entrenamiento, el decodificador de audio procesa de forma autorregresiva un tamaño de lote efectivo de B×S y N codebooks, lo que genera una gran carga de memoria
  • Esa carga ralentiza el entrenamiento incluso en modelos pequeños y dificulta escalar el modelo y hacer experimentación rápida
  • Sesame usa compute amortization para reducir el cuello de botella manteniendo la fidelidad de todos los codebooks RVQ
    • El decodificador de audio se entrena solo con un subconjunto aleatorio de 1/16 de los frames de audio
    • El codebook 0 se entrena en todos los frames
    • Con este método, no se observó una diferencia perceptible en la pérdida del decodificador de audio durante el entrenamiento
  • El dataset se construyó transcribiendo, separando hablantes, segmentando y filtrando audio público
  • Tras el filtrado, los datos suman aproximadamente 1 millón de horas y consisten mayormente en audio en inglés
  • Se entrenaron tres tamaños de modelo
    • Tiny: backbone de 1B, decodificador de 100M
    • Small: backbone de 3B, decodificador de 250M
    • Medium: backbone de 8B, decodificador de 300M
  • Cada modelo se entrenó durante 5 épocas con longitud de secuencia de 2048, equivalente a unos 2 minutos de audio

Muestras y sistema de evaluación

  • Las muestras incluyen elementos paralingüísticos, palabras extranjeras, expresividad contextual, corrección de pronunciación y conversaciones con varios hablantes
  • El conjunto de evaluación mide cuatro aspectos
    • Fidelidad al texto
    • Uso del contexto
    • Prosodia
    • Latencia
  • La evaluación objetiva incluye WER, nuevas pruebas de pronunciación, similitud de hablante y otros indicadores
  • La evaluación subjetiva consiste en una prueba humana Comparative Mean Opinion Score (CMOS) con el dataset Expresso
  • En benchmarks tradicionales como WER y speaker similarity, los modelos más recientes, incluido CSM, ya alcanzan un nivel casi humano y están cerca de la saturación

Evaluación de pronunciación y comprensión de contexto

  • Se introdujo un nuevo benchmark basado en transcripción de voz para evaluar mejor la pronunciación y la comprensión de contexto
  • La distinción de homógrafos evalúa si se pronuncian correctamente palabras que se escriben igual pero suenan distinto
    • Un ejemplo es distinguir si “lead” corresponde al metal /lɛd/ o al verbo /liːd/
  • La consistencia de pronunciación en continuación de habla evalúa si una palabra con varias variantes de pronunciación se mantiene consistente en voz de múltiples turnos
    • Un ejemplo es “route”, que puede pronunciarse /raʊt/ o /ruːt/
  • La evaluación de precisión en homógrafos se realizó con 200 muestras de voz que incluían dos variantes para cinco palabras: lead, bass, tear, wound y row
  • La evaluación de consistencia de pronunciación se realizó con 200 muestras de voz que incluían 10 palabras: aunt, data, envelope, mobile, route, vase, either, adult, often y caramel
  • La evaluación usa wav2vec2-lv-60-espeak-cv-ft
  • Los resultados generados por Play.ht, Elevenlabs y OpenAI se produjeron con la configuración predeterminada y la voz predeterminada de la documentación de cada API
  • En general, el rendimiento mejora a medida que crece el tamaño del modelo, lo que respalda la hipótesis de que el escalado ayuda a una síntesis de voz más realista

Resultados de evaluación humana

  • Para evaluar la naturalidad y la adecuación prosódica de CSM-Medium, se realizaron dos estudios CMOS con el dataset Expresso
  • Los evaluadores escucharon un par formado por audio generado por el modelo y una grabación humana real, y calificaron la muestra generada en una escala de preferencia de 7 puntos respecto de la referencia
  • En el primer estudio se presentaron la muestra generada y la humana sin contexto, y se pidió elegir “cuál se siente más como voz humana”
  • En el segundo estudio se proporcionaron además los 90 segundos previos de contexto de audio y texto, y se pidió elegir “cuál se siente como la continuación más adecuada de la conversación”
  • Participaron 80 personas pagadas, y cada una evaluó en promedio 15 ejemplos
  • Cuando no había contexto, los evaluadores no mostraron una preferencia clara entre la voz generada y la voz real, lo que sugiere que la evaluación de naturalidad ya está en un estado de saturación
  • Cuando se incluía contexto, los evaluadores prefirieron de forma consistente la grabación original, lo que muestra que todavía queda una brecha con la prosodia humana en la generación de voz conversacional

Plan de publicación y limitaciones

  • Sesame planea publicar como código abierto los componentes clave de la investigación, y el modelo se ofrecerá bajo licencia Apache 2.0
  • Se pueden seguir actualizaciones y contribuciones en el repositorio de GitHub SesameAILabs/csm
  • Actualmente, CSM se entrena principalmente con datos en inglés
    • Debido a contaminación de datos, aparecen algunas capacidades multilingües, pero todavía no funcionan bien
    • Tampoco aprovecha la información contenida en los pesos de modelos de lenguaje preentrenados
  • Durante los próximos meses planean ampliar el tamaño del modelo, aumentar la escala del dataset y extender el soporte a más de 20 idiomas
  • También explorarán formas de aprovechar modelos de lenguaje preentrenados, con la meta de un gran modelo multimodal con conocimiento profundo de voz y texto
  • CSM genera prosodia conversacional de alta calidad, pero solo modela el texto y el contenido de voz de la conversación; no puede modelar la estructura de la conversación en sí
  • La conversación humana es un proceso complejo que incluye toma de turnos, pausas y control de velocidad, por lo que la conversación con IA del futuro se acercará más a modelos fully duplex que aprendan implícitamente estas dinámicas a partir de los datos
  • Los modelos fully duplex requerirán cambios fundamentales en toda la pila, desde la curación de datos hasta las metodologías de postentrenamiento

Aún no hay comentarios.

Aún no hay comentarios.