36 puntos por xguru 21 일 전 | 1 comentarios | Compartir por WhatsApp
  • Familia de modelos de IA de voz de código abierto publicada por Microsoft, que incluye tanto TTS (texto→voz) como ASR (voz→texto)
  • El ASR es similar a OpenAI Whisper, pero con la función de separación de hablantes (speaker diarization) integrada en el propio modelo
  • La innovación clave es un tokenizador continuo de voz con tasa de cuadros ultrabaja de 7.5Hz, que mejora drásticamente la eficiencia computacional en secuencias largas sin sacrificar la calidad del audio
  • Adopta el framework de next-token diffusion: el LLM entiende el contexto del texto y la cabeza de difusión genera detalles acústicos de alta calidad
  • VibeVoice-ASR (7B): procesa hasta 60 minutos de audio en una sola pasada y entrega una salida estructurada de hablante (Who), marca de tiempo (When) y contenido (What)
    • La función de hotwords personalizadas por el usuario mejora la precisión de reconocimiento de términos especializados de dominio
    • Modelo multilingüe con soporte nativo para más de 50 idiomas
    • Integrado en Hugging Face Transformers desde marzo de 2026
    • Soporte para inferencia con vLLM para un rendimiento más rápido y publicación del código de fine-tuning
  • VibeVoice-TTS (1.5B): genera hasta 90 minutos de voz conversacional en una sola pasada, con soporte para hasta 4 hablantes a la vez
    • Genera voz natural y expresiva que captura matices emocionales y dinámicas conversacionales, además de soporte multilingüe
    • Fue publicado el 25 de agosto de 2025, pero luego se detectaron casos de uso distintos a la intención original, por lo que el código TTS fue eliminado del repositorio el 5 de septiembre de 2025
  • VibeVoice-Realtime (0.5B): TTS en tiempo real de hasta 10 minutos, con la primera salida de voz en aproximadamente 300 milisegundos
    • Modelo ligero de conversión de texto a voz en tiempo real de 0.5B parámetros, amigable para despliegue
    • Soporte para entrada de texto en streaming
    • Publicado el 3 de diciembre de 2025, y posteriormente el 16 de diciembre se añadieron de forma experimental voces multilingües en 9 idiomas (DE, FR, IT, JP, KR, NL, PL, PT, ES) y 11 voces de estilo inglés
    • Se añadió soporte para Apple Silicon (MPS) en la demo ASR de Gradio, mejorando la usabilidad en Mac
  • Al estar basado en el modelo base (Qwen2.5 1.5B), puede heredar sesgos y errores, y requiere precaución ante el posible uso malicioso para deepfakes
  • Licencia MIT

1 comentarios

 
xguru 21 일 전

VibeVoice - el modelo de síntesis de voz open source de próxima generación de Microsoft
En GeekNews se publicó apenas al inicio, pero por algún problema parece que el código de VibeVoice-TTS fue retirado.
Da la impresión de que para TTS solo se puede usar VibeVoice-Realtime.
En estos últimos días parece que VibeVoice-ASR se está volviendo popular otra vez y lo he estado viendo por todos lados.

https://simonwillison.net/2026/Apr/27/vibevoice/
Simon Willison probó el ASR, y en Mac se puede ejecutar con un solo comando usando uv y mlx-audio.
También dicen que procesó una hora de audio en aproximadamente 8 minutos 45 segundos en una MacBook Pro M5 Max de 128 GB.
Se podría ver como Whisper que separa bien a los hablantes