- La voz humana es el medio más íntimo para transmitir significado profundo mediante variaciones diversas como tono, pitch, ritmo y emoción
- Los asistentes de voz digitales actuales carecen de estos elementos emocionales, lo que limita una colaboración efectiva con los usuarios
- Una voz carente de emoción puede parecer novedosa al principio, pero con el tiempo puede resultar decepcionante y fatigante
- El objetivo de Sesame es que un compañero conversacional vaya más allá de simplemente procesar solicitudes y pueda sostener conversaciones genuinas que construyan confianza y seguridad
- Con ello, busca aprovechar al máximo el potencial de la voz para convertirla en la interfaz definitiva de instrucción y comprensión
Elementos clave
- Inteligencia emocional: capacidad de leer y responder al contexto emocional
- Dinámica conversacional: flujo de conversación que incluye timing natural, pausas, interrupciones y énfasis
- Conciencia situacional: capacidad de ajustar el tono y el estilo según la situación
- Personalidad consistente: mantener una presencia coherente, confiable y adecuada
Aún no hemos llegado ahí
- Darle presencia vocal a un compañero digital es un reto difícil, pero seguimos avanzando de forma constante en aspectos como personalidad, memoria, expresividad y adecuación
- La demo de abajo muestra parte del trabajo de generación de voz conversacional optimizado para cercanía y expresividad
Generar voz conversacional
- Para crear un compañero de IA verdaderamente interactivo, no basta con generar audio de alta calidad; también debe comprender y adaptarse al contexto en tiempo real
- Los modelos tradicionales de texto a voz (TTS) generan voz directamente a partir del texto, pero carecen de la conciencia contextual necesaria para una conversación natural
- Los modelos recientes generan voces similares a las humanas, pero enfrentan el problema de 'one-to-many', donde una misma oración puede expresarse de muchas maneras distintas
- Sin contexto adicional (tono, ritmo, historial de la conversación, etc.), el modelo no tiene suficiente información para elegir la mejor opción
- Capturar estos matices requiere razonamiento sobre múltiples aspectos del lenguaje y la prosodia
Modelo de Voz Conversacional (Conversational Speech Model, CSM)
- Para resolver este problema, se introduce el Modelo de Voz Conversacional (CSM), que lo define como una tarea de aprendizaje multimodal end-to-end usando transformers
- Aprovecha el historial de la conversación para generar una voz más natural y consistente
- CSM funciona como un modelo de una sola etapa, mejorando la eficiencia y la expresividad
- Cuenta con una suite de evaluación para medir el progreso en capacidades contextuales, considerando que las evaluaciones públicas comunes ya están saturadas
Antecedentes
- Una forma de modelar audio con transformers consiste en convertir formas de onda continuas en secuencias discretas de tokens de audio mediante un tokenizador
- La mayoría de los enfoques modernos dependen de dos tipos de tokens de audio:
- Tokens semánticos: representación comprimida e invariante al hablante de características semánticas y fonéticas, que captura rasgos principales del habla a cambio de sacrificar fidelidad de representación
- Tokens acústicos: codificación de detalles acústicos finos que permite reconstrucción de audio de alta fidelidad, generada con Residual Vector Quantization (RVQ). A diferencia de los tokens semánticos, conservan características naturales de la voz como la identidad única del hablante y el timbre
Experimentos
- Dataset: se usó un dataset de audio, disponible públicamente, de alrededor de un millón de horas y compuesto principalmente por inglés
- Tamaño del modelo: se entrenaron tres tamaños de modelo, distinguidos por el tamaño del backbone y del decoder:
- Tiny: 1 mil millones de backbone, 100 millones de decoder
- Small: 3 mil millones de backbone, 250 millones de decoder
- Medium: 8 mil millones de backbone, 300 millones de decoder
- Cada modelo se entrenó durante 5 épocas con una longitud de secuencia de 2048 (~2 minutos de audio)
Evaluación
- El rendimiento del modelo se evaluó en cuatro aspectos principales: fidelidad al texto, uso del contexto, prosodia y latencia
- Los benchmarks objetivos incluyeron nuevas pruebas como tasa de error de palabras (WER) y desambiguación de homófonos
- La evaluación subjetiva se apoyó en estudios humanos de puntaje medio de opinión comparativo (CMOS) usando el dataset Expresso
Limitaciones y trabajo futuro
- CSM actualmente fue entrenado principalmente con datos en inglés, y aunque muestra algunas capacidades multilingües debido a contaminación del dataset, su rendimiento todavía no es bueno
- No aprovecha la información presente en los pesos de modelos de lenguaje preentrenados
1 comentarios
Opiniones en Hacker News
Brendan de Sesame dice que la retroalimentación es acertada y reconoce que todavía hay mucho por mejorar. Es inspirador, pero aún faltan muchas etapas para ofrecer una experiencia verdaderamente lograda. Por ahora estamos apenas al inicio del avance, pero mantiene una perspectiva positiva
Un usuario probó la demo, pero decidió no hablar. La experiencia le pareció extraña e inquietante, y el entusiasmo artificial le resultó molesto
Otro usuario menciona que la capacidad de respuesta y la personalidad de este modelo son sorprendentes. Le impresionó que recordara conversaciones anteriores y diera la bienvenida
Se cuestiona por qué haría falta una voz emocional
Un usuario jugó con la AI junto a su hija de 4 años y le preocupa que la niña haya formado un vínculo emocional con la AI
Otro usuario siente que la voz suena humana, pero que el ritmo del habla es poco natural
Se menciona que esta tecnología es tan buena que podría cautivar a la gente. Sostiene que se necesita un modelo personal
Se menciona que podría ser revolucionario para aprender inglés
Se plantea una predicción apocalíptica en la que la AI podría llamar por teléfono con una voz perfecta y cautivar a las personas
Un usuario conversó durante 13 minutos hasta que falló, pero volvió unos minutos después y habló durante 30 minutos; sintió que se acercaba al nivel de Samantha de la película 'Her'