VibeVoice - El modelo de síntesis de voz open source de próxima generación de Microsoft

(microsoft.github.io)

5 puntos por GN⁺ 2025-09-04 | 1 comentarios | Compartir por WhatsApp

Un nuevo modelo de síntesis de voz TTS diseñado para generar voz conversacional natural de varios hablantes y de larga duración a partir de texto
Fue concebido para resolver los problemas de escalabilidad, consistencia entre hablantes y transiciones naturales de turno que limitaban a los sistemas existentes
Puede sintetizar audio de hasta 90 minutos y hasta 4 hablantes al mismo tiempo, superando a los modelos previos limitados a 1 o 2 personas
La clave es el uso de un tokenizador de voz continuo de tasa de cuadros ultrabaja de 7.5 Hz (Acoustic/Semantic), que procesa secuencias largas de audio de forma eficiente mientras mantiene la calidad sonora
Aprovecha el enfoque Next-Token Diffusion para modelar datos continuos de manera eficiente, e introduce para ello un nuevo tokenizador de voz continuo que ofrece una tasa de compresión 80 veces mayor que Encodec

Introducción

En los últimos años, la tecnología TTS ha logrado sintetizar con alta calidad enunciados breves de un solo hablante, pero la síntesis de conversaciones largas y con múltiples hablantes sigue siendo un reto
- Los métodos existentes simplemente encadenan intervenciones, lo que genera transiciones poco naturales
- Es difícil producir turnos conversacionales naturales y generación con conciencia de contexto
Objetivo: habilitar la síntesis de voz conversacional larga y con múltiples hablantes para casos como podcasts
Para resolverlo, VibeVoice combina un tokenizador de voz de tasa de cuadros ultrabaja (7.5 Hz) con una arquitectura Diffusion basada en LLM
Como resultado, puede sintetizar de forma estable audio multihablante de hasta 90 minutos

Innovación técnica

Tokenizador de voz continuo (7.5 Hz):
- Usa en paralelo tokenizadores Acoustic y Semantic
- Logra eficiencia en el procesamiento de secuencias largas y al mismo tiempo mantiene la fidelidad del audio
Framework de next-token diffusion:
- El LLM entiende el contexto del texto y el flujo de la conversación
- La cabeza de Diffusion genera detalles acústicos de alta resolución
Resultado: una síntesis de voz mucho más natural y parecida a la humana que antes

Rendimiento

Puede sintetizar audio de hasta 90 minutos
Soporta hasta 4 hablantes (superando el límite de 1 o 2 de los modelos anteriores)
Ofrece voz expresiva y consistente en diversos escenarios de conversación

Resultados experimentales

Síntesis de conversaciones largas (Podcast)

Evaluado con un dataset de conversaciones de 1 hora
Se midieron WER (tasa de error de palabras), SIM (similitud de hablante) y evaluación subjetiva (MOS)
VIBEVOICE-7B registró el mejor desempeño con Realism 3.71, Richness 3.81, Preference 3.75
Superó a modelos recientes como Gemini 2.5 Pro y ElevenLabs v3

Conclusión y limitaciones

VibeVoice es un framework TTS de próxima generación que permite sintetizar conversaciones naturales de hasta 90 minutos y 4 hablantes
Supera tanto en calidad subjetiva como objetiva a modelos open source y comerciales existentes
Limitaciones:
- En idiomas distintos del inglés y el chino pueden aparecer resultados inesperados
- No soporta audio no vocal (sonido de fondo, música)
- No soporta habla simultánea (Overlapping Speech)
- Existe riesgo de uso indebido para deepfakes y desinformación
Por lo tanto, por ahora está destinado solo a investigación y desarrollo, y no se recomienda su uso comercial

1 comentarios

GN⁺ 2025-09-04

Opiniones en Hacker News

Vi varios comentarios elogiando este modelo de voz por ser realmente realista, así que entré a la página con muchas expectativas, pero al escucharlo me dejó una impresión totalmente distinta. La calidad del audio en sí estaba bien, pero la entonación sonaba rara en la mayoría de las frases y se sentía claramente mecánica. Comparado con el TTS de hace unos años, es bastante impresionante, pero frente a las voces de IA actuales no me pareció nada tan impactante. En particular, siento que incluso las voces de IA que se oyen a menudo en YouTube Shorts son tan buenas como la mayoría de las muestras de este sitio. Lo único que sí me impresionó fueron las muestras en inglés y chino (probablemente mandarín), donde cambia entre ambos idiomas de forma muy natural. Pero como no estoy familiarizado con el chino, no puedo evaluar bien la pronunciación, y quizá el cambio se siente más fácil porque se distingue claramente si son caracteres chinos o alfabeto. Supongo que si fueran dos idiomas con el mismo sistema de escritura, tal vez no sonaría tan natural. Por último, la muestra de canto fue bastante difícil de escuchar y me dio mucha curiosidad por qué decidieron incluir algo así
- El comentario del equipo de desarrollo sobre el canto y la música de fondo se siente algo extraño. Me dio mucho la impresión de que, como no encontraron a tiempo una forma de eliminar la música de fondo antes del cierre del paper, simplemente intentaron venderlo como una “característica”. No parece que realmente lo hayan agregado porque lo consideraran un diferenciador
- Si alguien puede recomendar un modelo TTS mejor que este, me gustaría saberlo. Siempre hay gente que exagera los avances y también gente que los minimiza, pero no creo que ninguno de los dos bandos impida el progreso. De todos los modelos que he escuchado hasta ahora, este me pareció el mejor, aunque quizá haya alguno mejor que yo no conozca
- Este modelo sí es bastante bueno, pero no es el mejor entre los gratuitos. Chatterbox se siente más realista, mucho menos mecánico y con una entonación más natural (aunque no es perfecto)
- Sentí que la voz femenina era mucho más natural y convincente que la masculina. En comparación, la voz masculina no parece mucho mejor que un TTS de hace 10 años
- La verdadera fortaleza de este modelo es el clonado de voz. Si pones una muestra de tu voz en la carpeta voices, funciona realmente bien
Ojalá dentro de Microsoft de verdad le pongan Microsoft VibeCode a su agente open source de codificación. O si no, podrían llamarlo “Lo” y usarlo junto con Phi. Así podrían hacer vibe code con “Lo Phi”. Información sobre el modelo de lenguaje Phi 4 de Microsoft
- Viendo el historial de marketing de Microsoft, creo que al final terminará con un nombre obvio como "Microsoft Copilot Code Generator for VSCode" o, de la nada, algo como "Zunega"
- Idea genial
VibeVoice-Large es el primer TTS local que soporta la pronunciación del finés de forma realmente natural y casi sin acento. Lo probé ayer personalmente y me impresionó especialmente que también pudiera clonar la voz e incluso las emociones
Técnicamente tiene una calidad bastante alta, pero especialmente en las voces masculinas da de inmediato la impresión de ser una voz generada por IA. No sé expresarlo bien porque no tengo mucho conocimiento de audio
- Yo tampoco soy ingeniero de audio, pero esta voz de IA me suena como una forma de onda de “diente de sierra” (saw-tooth). Los modelos básicos o las técnicas de menor nivel parecen muestrear menos, así que queda una especie de pulso de audio o vibración que produce esa sensación mecánica y temblorosa. En los modelos mejores, la onda cambia de forma más suave. Referencia sobre formas de onda
- Yo lo describiría como un timbre cortado en bloques; si uno visualizara el sonido, parecería que a la forma de onda le faltan puntas y queda una resonancia como de caja metálica
- Al escucharlo yo mismo, entendí a qué se referían. Hay partes donde la voz suena inestable o como si tuviera una compresión mp3 muy agresiva
La voz masculina se siente mucho más artificial que la femenina, hasta el punto de sonar casi robótica. Viendo que la mayoría de las muestras oficiales empiezan con voz femenina, parece que el equipo también está al tanto de este problema
- Yo sentí algo parecido. La voz masculina definitivamente suena más artificial
Me pregunto si existe alguna lista o ranking popular y actualizado de modelos TTS open-weight. En realidad me interesa más STT (ASR), pero las opciones son demasiado pocas
- Se puede ver en la lista de modelos TTS de huggingface. Que un modelo aparezca en tendencias significa que al menos vale la pena revisarlo. Como los criterios de evaluación son muy subjetivos, lo más importante es escucharlos uno mismo. Si un modelo ni siquiera aparece en tendencias en HF, es bastante probable que no sea tan bueno
- Los TTS que podrían considerarse de los mejores son: VibeVoice, Chatterbox, Dia, Higgs, F5 TTS, Kokoro, Cosy Voice y XTTS-2
- Si haces clic en leaderboard en el menú hamburguesa, sale la página de ranking: TTS-AGI/TTS-Arena-V2
- Está buenísimo
Para usuarios con GPU poco potente, este modelo es difícil de usar. En una GPU 1080 vieja no pude hacerlo correr bien, y al ejecutarlo en CPU con torch.float32 tardó 832 segundos en generar 66 segundos de audio. Cuando lo cambié a torch.bfloat16, aparecieron ruidos extraños en el audio. Hasta ahora, el modelo TTS más usable que he encontrado cuando falta GPU ha sido Kokoro. Además, como alguien mencionó en este hilo, por ahora no existe una función para controlar con precisión la salida del TTS añadiendo anotaciones separadas al texto. Creo que una dirección futura para que estos modelos mejoren sería agregar una etapa intermedia que genere anotaciones a partir del texto y luego las pase al TTS. Eso permitiría que el usuario controle el resultado con mucho más detalle
- Me parece una exageración total. macOS ya ofrece desde hace mucho tiempo un TTS inmediato y de bastante buena calidad, sin necesidad de estos modelos pesados. No hay nada de latencia. Siento que todo este furor por la “IA” está realmente pasado de vueltas
Dicen que es open source, pero me pregunto por qué no publican también los datos de entrenamiento
- La mayoría de los datos recolectados por scraping tienen muchos riesgos legales relacionados con copyright, términos de uso, privacidad y otros temas, así que para una empresa comercial no es muy sensato abrirlo todo por completo
La conversación de muestra de Spontaneous Emotion suena como si el equipo estuviera usando un LLM para desahogar emociones. Habría sido mejor omitir la muestra de canto. El modelo todavía no sirve en absoluto para cantar
- Gracias a esa canción, volví a buscarla para escucharla otra vez. Es una canción realmente excelente para provocar emoción. A los robots todavía les falta mucho para cantar
En este momento, los dos modelos TTS que suelen considerarse los mejores son HiggsAudio y VibeVoice. Personalmente, Higgs me pareció muy superior a Vibe tanto en velocidad como en calidad de audio. Sobre la expresividad no estoy tan seguro, pero igual recomiendo probarlo sin falta

VibeVoice - El modelo de síntesis de voz open source de próxima generación de Microsoft

Introducción

Innovación técnica

Rendimiento

Resultados experimentales

Síntesis de conversaciones largas (Podcast)

Conclusión y limitaciones

Lecturas relacionadas

1 comentarios

Opiniones en Hacker News