VibeVoice - modelo de IA de voz de frontera de código abierto

xguru · 2026-04-28T13:09:54+09:00

Familia de modelos de IA de voz de código abierto publicada por Microsoft, que incluye tanto TTS (texto→voz) como ASR (voz→texto) El ASR es similar a OpenAI Whisper, pero con la función de separación de hablantes (speaker diarization) integrada en el propio modelo La innovación clave es un tokenizador continuo de voz con tasa de cuadros ultrabaja de 7.5Hz, que mejora drásticamente la eficiencia computacional en secuencias largas sin sacrificar la calidad del audio Adopta el framework de next-token diffusion: el LLM entiende el contexto del texto y la cabeza de difusión genera detalles acústicos de alta calidad VibeVoice-ASR (7B): procesa hasta 60 minutos de audio en una sola pasada y entrega una salida estructurada de hablante (Who), marca de tiempo (When) y contenido (What) La función de hotwords personalizadas por el usuario mejora la precisión de reconocimiento de términos especializados de dominio Modelo multilingüe con soporte nativo para más de 50 idiomas Integrado en Hugging Face Transformers desde marzo de 2026 Soporte para inferencia con vLLM para un rendimiento más rápido y publicación del código de fine-tuning VibeVoice-TTS (1.5B): genera hasta 90 minutos de voz conversacional en una sola pasada, con soporte para hasta 4 hablantes a la vez Genera voz natural y expresiva que captura matices emocionales y dinámicas conversacionales, además de soporte multilingüe Fue publicado el 25 de agosto de 2025, pero luego se detectaron casos de uso distintos a la intención original, por lo que el código TTS fue eliminado del repositorio el 5 de septiembre de 2025 VibeVoice-Realtime (0.5B): TTS en tiempo real de hasta 10 minutos, con la primera salida de voz en aproximadamente 300 milisegundos Modelo ligero de conversión de texto a voz en tiempo real de 0.5B parámetros, amigable para despliegue Soporte para entrada de texto en streaming Publicado el 3 de diciembre de 2025, y posteriormente el 16 de diciembre se añadieron de forma experimental voces multilingües en 9 idiomas (DE, FR, IT, JP, KR, NL, PL, PT, ES) y 11 voces de estilo inglés Se añadió soporte para Apple Silicon (MPS) en la demo ASR de Gradio, mejorando la usabilidad en Mac Al estar basado en el modelo base (Qwen2.5 1.5B), puede heredar sesgos y errores, y requiere precaución ante el posible uso malicioso para deepfakes Licencia MIT

Familia de modelos de IA de voz de código abierto publicada por Microsoft, que incluye tanto TTS (texto→voz) como ASR (voz→texto)
El ASR es similar a OpenAI Whisper, pero con la función de separación de hablantes (speaker diarization) integrada en el propio modelo
La innovación clave es un tokenizador continuo de voz con tasa de cuadros ultrabaja de 7.5Hz, que mejora drásticamente la eficiencia computacional en secuencias largas sin sacrificar la calidad del audio
Adopta el framework de next-token diffusion: el LLM entiende el contexto del texto y la cabeza de difusión genera detalles acústicos de alta calidad
VibeVoice-ASR (7B): procesa hasta 60 minutos de audio en una sola pasada y entrega una salida estructurada de hablante (Who), marca de tiempo (When) y contenido (What)
- La función de hotwords personalizadas por el usuario mejora la precisión de reconocimiento de términos especializados de dominio
- Modelo multilingüe con soporte nativo para más de 50 idiomas
- Integrado en Hugging Face Transformers desde marzo de 2026
- Soporte para inferencia con vLLM para un rendimiento más rápido y publicación del código de fine-tuning
VibeVoice-TTS (1.5B): genera hasta 90 minutos de voz conversacional en una sola pasada, con soporte para hasta 4 hablantes a la vez
- Genera voz natural y expresiva que captura matices emocionales y dinámicas conversacionales, además de soporte multilingüe
- Fue publicado el 25 de agosto de 2025, pero luego se detectaron casos de uso distintos a la intención original, por lo que el código TTS fue eliminado del repositorio el 5 de septiembre de 2025
VibeVoice-Realtime (0.5B): TTS en tiempo real de hasta 10 minutos, con la primera salida de voz en aproximadamente 300 milisegundos
- Modelo ligero de conversión de texto a voz en tiempo real de 0.5B parámetros, amigable para despliegue
- Soporte para entrada de texto en streaming
- Publicado el 3 de diciembre de 2025, y posteriormente el 16 de diciembre se añadieron de forma experimental voces multilingües en 9 idiomas (DE, FR, IT, JP, KR, NL, PL, PT, ES) y 11 voces de estilo inglés
- Se añadió soporte para Apple Silicon (MPS) en la demo ASR de Gradio, mejorando la usabilidad en Mac
Al estar basado en el modelo base (Qwen2.5 1.5B), puede heredar sesgos y errores, y requiere precaución ante el posible uso malicioso para deepfakes
Licencia MIT

VibeVoice - modelo de IA de voz de frontera de código abierto

Lecturas relacionadas

1 comentarios