25 puntos por xguru 1 일 전 | 1 comentarios | Compartir por WhatsApp
  • Familia de modelos open source de IA de voz publicada por Microsoft, que incluye tanto TTS (texto→voz) como ASR (voz→texto)
  • El ASR es similar a Open AI Whisper, pero con la función de separación de hablantes (speaker diarization) integrada en el propio modelo
  • La innovación clave es un tokenizador continuo de voz de tasa de cuadros ultrabaja de 7.5 Hz, que mejora drásticamente la eficiencia computacional en secuencias largas mientras mantiene la calidad del audio
  • Adopta el framework de next-token diffusion: el LLM entiende el contexto del texto y el diffusion head genera detalles acústicos de alta calidad
  • VibeVoice-ASR (7B): procesa hasta 60 minutos de audio en una sola pasada, con salida estructurada de hablante (Who), marca de tiempo (When) y contenido (What)
    • La función de hotwords personalizadas por el usuario mejora la precisión de reconocimiento de términos especializados por dominio
    • Modelo multilingüe con soporte nativo para más de 50 idiomas
    • Integración en Hugging Face Transformers a partir de marzo de 2026
    • Soporte para inferencia con vLLM para una inferencia más rápida y publicación del código de fine-tuning
  • VibeVoice-TTS (1.5B): genera hasta 90 minutos de voz conversacional en una sola pasada, con soporte para hasta 4 hablantes a la vez
    • Genera voz natural y expresiva, capaz de capturar matices emocionales y dinámicas conversacionales, con soporte multilingüe
    • Fue publicado el 25 de agosto de 2025, pero después se detectaron casos de uso no alineados con la intención original, por lo que el código de TTS fue eliminado del repositorio el 5 de septiembre de 2025
  • VibeVoice-Realtime (0.5B): TTS en tiempo real de hasta 10 minutos, con la primera salida de voz en aproximadamente 300 milisegundos
    • Modelo ligero de conversión de texto a voz en tiempo real de 0.5B parámetros, amigable para despliegue
    • Soporte para entrada de texto en streaming
    • Publicado el 3 de diciembre de 2025; posteriormente, el 16 de diciembre, se añadieron experimentalmente voces multilingües en 9 idiomas (DE, FR, IT, JP, KR, NL, PL, PT, ES) y 11 voces de estilo inglés
    • Se añadió soporte para Apple Silicon(MPS) al demo ASR de Gradio, mejorando la usabilidad en Mac
  • Al estar basado en el modelo base (Qwen2.5 1.5B), puede heredar sesgos y errores, y requiere precaución ante posibles usos maliciosos como deepfakes
  • Licencia MIT

1 comentarios

 
xguru 1 일 전

VibeVoice - el modelo de síntesis de voz open source de próxima generación de Microsoft
En GeekNews se publicó desde muy temprano, pero por un problema parece que eliminaron el código de VibeVoice-TTS.
Parece que para TTS solo se puede usar VibeVoice-Realtime por ahora.
En estos últimos días lo he visto por todos lados, quizá porque VibeVoice-ASR se volvió popular otra vez.

https://simonwillison.net/2026/Apr/27/vibevoice/
Simon Willison lo probó, y en Mac se puede ejecutar con un solo comando usando uv y mlx-audio,
y procesó 1 hora de audio en aproximadamente 8 minutos 45 segundos en una MacBook Pro M5 Max de 128 GB.
Se podría ver como Whisper que separa bien a los hablantes