- Familia de modelos de IA de voz de código abierto publicada por Microsoft, que incluye tanto TTS (texto→voz) como ASR (voz→texto)
- El ASR es similar a OpenAI Whisper, pero con la función de separación de hablantes (speaker diarization) integrada en el propio modelo
- La innovación clave es un tokenizador continuo de voz con tasa de cuadros ultrabaja de 7.5Hz, que mejora drásticamente la eficiencia computacional en secuencias largas sin sacrificar la calidad del audio
- Adopta el framework de next-token diffusion: el LLM entiende el contexto del texto y la cabeza de difusión genera detalles acústicos de alta calidad
- VibeVoice-ASR (7B): procesa hasta 60 minutos de audio en una sola pasada y entrega una salida estructurada de hablante (Who), marca de tiempo (When) y contenido (What)
- La función de hotwords personalizadas por el usuario mejora la precisión de reconocimiento de términos especializados de dominio
- Modelo multilingüe con soporte nativo para más de 50 idiomas
- Integrado en Hugging Face Transformers desde marzo de 2026
- Soporte para inferencia con vLLM para un rendimiento más rápido y publicación del código de fine-tuning
- VibeVoice-TTS (1.5B): genera hasta 90 minutos de voz conversacional en una sola pasada, con soporte para hasta 4 hablantes a la vez
- Genera voz natural y expresiva que captura matices emocionales y dinámicas conversacionales, además de soporte multilingüe
- Fue publicado el 25 de agosto de 2025, pero luego se detectaron casos de uso distintos a la intención original, por lo que el código TTS fue eliminado del repositorio el 5 de septiembre de 2025
- VibeVoice-Realtime (0.5B): TTS en tiempo real de hasta 10 minutos, con la primera salida de voz en aproximadamente 300 milisegundos
- Modelo ligero de conversión de texto a voz en tiempo real de 0.5B parámetros, amigable para despliegue
- Soporte para entrada de texto en streaming
- Publicado el 3 de diciembre de 2025, y posteriormente el 16 de diciembre se añadieron de forma experimental voces multilingües en 9 idiomas (DE, FR, IT, JP, KR, NL, PL, PT, ES) y 11 voces de estilo inglés
- Se añadió soporte para Apple Silicon (MPS) en la demo ASR de Gradio, mejorando la usabilidad en Mac
- Al estar basado en el modelo base (Qwen2.5 1.5B), puede heredar sesgos y errores, y requiere precaución ante el posible uso malicioso para deepfakes
- Licencia MIT
1 comentarios
VibeVoice - el modelo de síntesis de voz open source de próxima generación de Microsoft
En GeekNews se publicó apenas al inicio, pero por algún problema parece que el código de VibeVoice-TTS fue retirado.
Da la impresión de que para TTS solo se puede usar VibeVoice-Realtime.
En estos últimos días parece que VibeVoice-ASR se está volviendo popular otra vez y lo he estado viendo por todos lados.
https://simonwillison.net/2026/Apr/27/vibevoice/
Simon Willison probó el ASR, y en Mac se puede ejecutar con un solo comando usando
uvy mlx-audio.También dicen que procesó una hora de audio en aproximadamente 8 minutos 45 segundos en una MacBook Pro M5 Max de 128 GB.
Se podría ver como
Whisper que separa bien a los hablantes