- Un nuevo modelo de síntesis de voz TTS diseñado para generar voz conversacional natural de varios hablantes y de larga duración a partir de texto
- Fue concebido para resolver los problemas de escalabilidad, consistencia entre hablantes y transiciones naturales de turno que limitaban a los sistemas existentes
- Puede sintetizar audio de hasta 90 minutos y hasta 4 hablantes al mismo tiempo, superando a los modelos previos limitados a 1 o 2 personas
- La clave es el uso de un tokenizador de voz continuo de tasa de cuadros ultrabaja de 7.5 Hz (Acoustic/Semantic), que procesa secuencias largas de audio de forma eficiente mientras mantiene la calidad sonora
- Aprovecha el enfoque Next-Token Diffusion para modelar datos continuos de manera eficiente, e introduce para ello un nuevo tokenizador de voz continuo que ofrece una tasa de compresión 80 veces mayor que Encodec
Introducción
- En los últimos años, la tecnología TTS ha logrado sintetizar con alta calidad enunciados breves de un solo hablante, pero la síntesis de conversaciones largas y con múltiples hablantes sigue siendo un reto
- Los métodos existentes simplemente encadenan intervenciones, lo que genera transiciones poco naturales
- Es difícil producir turnos conversacionales naturales y generación con conciencia de contexto
- Objetivo: habilitar la síntesis de voz conversacional larga y con múltiples hablantes para casos como podcasts
- Para resolverlo, VibeVoice combina un tokenizador de voz de tasa de cuadros ultrabaja (7.5 Hz) con una arquitectura Diffusion basada en LLM
- Como resultado, puede sintetizar de forma estable audio multihablante de hasta 90 minutos
Innovación técnica
- Tokenizador de voz continuo (7.5 Hz):
- Usa en paralelo tokenizadores Acoustic y Semantic
- Logra eficiencia en el procesamiento de secuencias largas y al mismo tiempo mantiene la fidelidad del audio
- Framework de next-token diffusion:
- El LLM entiende el contexto del texto y el flujo de la conversación
- La cabeza de Diffusion genera detalles acústicos de alta resolución
- Resultado: una síntesis de voz mucho más natural y parecida a la humana que antes
Rendimiento
- Puede sintetizar audio de hasta 90 minutos
- Soporta hasta 4 hablantes (superando el límite de 1 o 2 de los modelos anteriores)
- Ofrece voz expresiva y consistente en diversos escenarios de conversación
Resultados experimentales
Síntesis de conversaciones largas (Podcast)
- Evaluado con un dataset de conversaciones de 1 hora
- Se midieron WER (tasa de error de palabras), SIM (similitud de hablante) y evaluación subjetiva (MOS)
- VIBEVOICE-7B registró el mejor desempeño con Realism 3.71, Richness 3.81, Preference 3.75
- Superó a modelos recientes como Gemini 2.5 Pro y ElevenLabs v3
Conclusión y limitaciones
- VibeVoice es un framework TTS de próxima generación que permite sintetizar conversaciones naturales de hasta 90 minutos y 4 hablantes
- Supera tanto en calidad subjetiva como objetiva a modelos open source y comerciales existentes
- Limitaciones:
- En idiomas distintos del inglés y el chino pueden aparecer resultados inesperados
- No soporta audio no vocal (sonido de fondo, música)
- No soporta habla simultánea (Overlapping Speech)
- Existe riesgo de uso indebido para deepfakes y desinformación
- Por lo tanto, por ahora está destinado solo a investigación y desarrollo, y no se recomienda su uso comercial
Aún no hay comentarios.