5 puntos por GN⁺ 2025-09-04 | Aún no hay comentarios. | Compartir por WhatsApp
  • Un nuevo modelo de síntesis de voz TTS diseñado para generar voz conversacional natural de varios hablantes y de larga duración a partir de texto
  • Fue concebido para resolver los problemas de escalabilidad, consistencia entre hablantes y transiciones naturales de turno que limitaban a los sistemas existentes
  • Puede sintetizar audio de hasta 90 minutos y hasta 4 hablantes al mismo tiempo, superando a los modelos previos limitados a 1 o 2 personas
  • La clave es el uso de un tokenizador de voz continuo de tasa de cuadros ultrabaja de 7.5 Hz (Acoustic/Semantic), que procesa secuencias largas de audio de forma eficiente mientras mantiene la calidad sonora
  • Aprovecha el enfoque Next-Token Diffusion para modelar datos continuos de manera eficiente, e introduce para ello un nuevo tokenizador de voz continuo que ofrece una tasa de compresión 80 veces mayor que Encodec

Introducción

  • En los últimos años, la tecnología TTS ha logrado sintetizar con alta calidad enunciados breves de un solo hablante, pero la síntesis de conversaciones largas y con múltiples hablantes sigue siendo un reto
    • Los métodos existentes simplemente encadenan intervenciones, lo que genera transiciones poco naturales
    • Es difícil producir turnos conversacionales naturales y generación con conciencia de contexto
  • Objetivo: habilitar la síntesis de voz conversacional larga y con múltiples hablantes para casos como podcasts
  • Para resolverlo, VibeVoice combina un tokenizador de voz de tasa de cuadros ultrabaja (7.5 Hz) con una arquitectura Diffusion basada en LLM
  • Como resultado, puede sintetizar de forma estable audio multihablante de hasta 90 minutos

Innovación técnica

  • Tokenizador de voz continuo (7.5 Hz):
    • Usa en paralelo tokenizadores Acoustic y Semantic
    • Logra eficiencia en el procesamiento de secuencias largas y al mismo tiempo mantiene la fidelidad del audio
  • Framework de next-token diffusion:
    • El LLM entiende el contexto del texto y el flujo de la conversación
    • La cabeza de Diffusion genera detalles acústicos de alta resolución
  • Resultado: una síntesis de voz mucho más natural y parecida a la humana que antes

Rendimiento

  • Puede sintetizar audio de hasta 90 minutos
  • Soporta hasta 4 hablantes (superando el límite de 1 o 2 de los modelos anteriores)
  • Ofrece voz expresiva y consistente en diversos escenarios de conversación

Resultados experimentales

Síntesis de conversaciones largas (Podcast)

  • Evaluado con un dataset de conversaciones de 1 hora
  • Se midieron WER (tasa de error de palabras), SIM (similitud de hablante) y evaluación subjetiva (MOS)
  • VIBEVOICE-7B registró el mejor desempeño con Realism 3.71, Richness 3.81, Preference 3.75
  • Superó a modelos recientes como Gemini 2.5 Pro y ElevenLabs v3

Conclusión y limitaciones

  • VibeVoice es un framework TTS de próxima generación que permite sintetizar conversaciones naturales de hasta 90 minutos y 4 hablantes
  • Supera tanto en calidad subjetiva como objetiva a modelos open source y comerciales existentes
  • Limitaciones:
    • En idiomas distintos del inglés y el chino pueden aparecer resultados inesperados
    • No soporta audio no vocal (sonido de fondo, música)
    • No soporta habla simultánea (Overlapping Speech)
    • Existe riesgo de uso indebido para deepfakes y desinformación
  • Por lo tanto, por ahora está destinado solo a investigación y desarrollo, y no se recomienda su uso comercial

Aún no hay comentarios.

Aún no hay comentarios.