VibeVoice - El modelo de síntesis de voz open source de próxima generación de Microsoft
(microsoft.github.io)- Un nuevo modelo de síntesis de voz TTS diseñado para generar voz conversacional natural de varios hablantes y de larga duración a partir de texto
- Fue concebido para resolver los problemas de escalabilidad, consistencia entre hablantes y transiciones naturales de turno que limitaban a los sistemas existentes
- Puede sintetizar audio de hasta 90 minutos y hasta 4 hablantes al mismo tiempo, superando a los modelos previos limitados a 1 o 2 personas
- La clave es el uso de un tokenizador de voz continuo de tasa de cuadros ultrabaja de 7.5 Hz (Acoustic/Semantic), que procesa secuencias largas de audio de forma eficiente mientras mantiene la calidad sonora
- Aprovecha el enfoque Next-Token Diffusion para modelar datos continuos de manera eficiente, e introduce para ello un nuevo tokenizador de voz continuo que ofrece una tasa de compresión 80 veces mayor que Encodec
Introducción
- En los últimos años, la tecnología TTS ha logrado sintetizar con alta calidad enunciados breves de un solo hablante, pero la síntesis de conversaciones largas y con múltiples hablantes sigue siendo un reto
- Los métodos existentes simplemente encadenan intervenciones, lo que genera transiciones poco naturales
- Es difícil producir turnos conversacionales naturales y generación con conciencia de contexto
- Objetivo: habilitar la síntesis de voz conversacional larga y con múltiples hablantes para casos como podcasts
- Para resolverlo, VibeVoice combina un tokenizador de voz de tasa de cuadros ultrabaja (7.5 Hz) con una arquitectura Diffusion basada en LLM
- Como resultado, puede sintetizar de forma estable audio multihablante de hasta 90 minutos
Innovación técnica
- Tokenizador de voz continuo (7.5 Hz):
- Usa en paralelo tokenizadores Acoustic y Semantic
- Logra eficiencia en el procesamiento de secuencias largas y al mismo tiempo mantiene la fidelidad del audio
- Framework de next-token diffusion:
- El LLM entiende el contexto del texto y el flujo de la conversación
- La cabeza de Diffusion genera detalles acústicos de alta resolución
- Resultado: una síntesis de voz mucho más natural y parecida a la humana que antes
Rendimiento
- Puede sintetizar audio de hasta 90 minutos
- Soporta hasta 4 hablantes (superando el límite de 1 o 2 de los modelos anteriores)
- Ofrece voz expresiva y consistente en diversos escenarios de conversación
Resultados experimentales
Síntesis de conversaciones largas (Podcast)
- Evaluado con un dataset de conversaciones de 1 hora
- Se midieron WER (tasa de error de palabras), SIM (similitud de hablante) y evaluación subjetiva (MOS)
- VIBEVOICE-7B registró el mejor desempeño con Realism 3.71, Richness 3.81, Preference 3.75
- Superó a modelos recientes como Gemini 2.5 Pro y ElevenLabs v3
Conclusión y limitaciones
- VibeVoice es un framework TTS de próxima generación que permite sintetizar conversaciones naturales de hasta 90 minutos y 4 hablantes
- Supera tanto en calidad subjetiva como objetiva a modelos open source y comerciales existentes
- Limitaciones:
- En idiomas distintos del inglés y el chino pueden aparecer resultados inesperados
- No soporta audio no vocal (sonido de fondo, música)
- No soporta habla simultánea (Overlapping Speech)
- Existe riesgo de uso indebido para deepfakes y desinformación
- Por lo tanto, por ahora está destinado solo a investigación y desarrollo, y no se recomienda su uso comercial
1 comentarios
Opiniones en Hacker News
voices, funciona realmente biensaw-tooth). Los modelos básicos o las técnicas de menor nivel parecen muestrear menos, así que queda una especie de pulso de audio o vibración que produce esa sensación mecánica y temblorosa. En los modelos mejores, la onda cambia de forma más suave. Referencia sobre formas de ondatorch.float32tardó 832 segundos en generar 66 segundos de audio. Cuando lo cambié atorch.bfloat16, aparecieron ruidos extraños en el audio. Hasta ahora, el modelo TTS más usable que he encontrado cuando falta GPU ha sido Kokoro. Además, como alguien mencionó en este hilo, por ahora no existe una función para controlar con precisión la salida del TTS añadiendo anotaciones separadas al texto. Creo que una dirección futura para que estos modelos mejoren sería agregar una etapa intermedia que genere anotaciones a partir del texto y luego las pase al TTS. Eso permitiría que el usuario controle el resultado con mucho más detalle