VibeVoice - IA de voz open source de frontera
(github.com/microsoft)- Está compuesto por una familia de modelos de IA de voz que incluye TTS y ASR, y aborda tanto la generación de voz de larga duración como el reconocimiento de voz de larga duración
- La arquitectura central combina un tokenizador continuo de voz de ultra baja tasa de cuadros de 7.5 Hz con next-token diffusion, buscando calidad de audio y eficiencia computacional al procesar secuencias largas
- Para comprender el contexto textual y el flujo conversacional usa un LLM, y para generar detalles acústicos de alta fidelidad incorpora una diffusion head
- VibeVoice-ASR procesa audio de hasta 60 minutos en una sola pasada y genera transcripciones estructuradas que incluyen información del hablante, marcas de tiempo y contenido de las intervenciones
- El modelo ASR admite más de 50 idiomas y puede recibir hotwords personalizadas o información de contexto para mejorar la precisión de reconocimiento especializada por dominio
- Del lado de ASR se publicaron el código de finetuning y el soporte de inferencia con vLLM, y también puede usarse directamente desde la biblioteca Hugging Face Transformers
- VibeVoice-TTS sintetiza voz de hasta 90 minutos en una sola pasada y admite hasta 4 hablantes dentro de una misma conversación
- TTS pone énfasis en la voz conversacional expresiva y la consistencia del hablante, y admite inglés, chino y otros idiomas
- Según el anuncio del repositorio, el código de VibeVoice-TTS fue eliminado, indicando que se retiró del repositorio tras detectarse usos que no coincidían con la intención declarada tras su publicación
- VibeVoice-Realtime-0.5B es un modelo TTS en tiempo real de escala 0.5B, compatible con entrada de texto en streaming, una latencia hasta el primer audio audible de alrededor de 300 ms y generación de voz larga de aproximadamente 10 minutos
- Al modelo Realtime se le agregaron hablantes experimentales multilingües en 9 idiomas y 11 voces de estilo inglés, y se indica que seguirán ampliando la variedad de tipos de hablantes
- Las vías de distribución están organizadas principalmente en pesos en Hugging Face, Playground y Colab, lo que permite probarlo rápidamente
- Este repositorio se presenta como de uso exclusivo para investigación y desarrollo, y no se recomienda usarlo en producción ni en entornos reales sin pruebas y desarrollo adicionales
- El modelo puede heredar los sesgos y errores de Qwen2.5 1.5b, su modelo base, y debido a los riesgos de deepfakes, suplantación y difusión de desinformación, se recomienda un uso legal y responsable, además de divulgar cuando el contenido haya sido generado por IA
1 comentarios
Comentarios en Hacker News
Esto ni siquiera es un modelo nuevo, y en STT tiene muchas alucinaciones, la inferencia es pesada y lenta, y el rendimiento multilingüe tampoco es gran cosa
No sé sobre otras funciones, aquí estoy hablando puramente de speech to text
Pero en general da la impresión de haber sido entrenado con datos muy ruidosos, usa más memoria y tampoco es rápido
Me refiero a la versión 7B
vibevoice-community, que apareció por poco tiempo y luego la bajaron; ahora sigo usando chatterbox turbo y a veces qwen TTSEn Twitter también no se habla de otra cosa
Lo usé unos días y, para empezar, no había documentación del modelo 1.5B, y el modelo realtime 0.5B era malísimo
Convertía el texto línea por línea, metía música aleatoriamente y ni siquiera podía manejar bien caracteres especiales como
…Sinceramente, bastante decepcionante
Ya hasta le quité la estrella al repo y mejor lo voy a pasar por alto
Creo que ya deberíamos dejar de llamar open source a este tipo de modelos
En realidad son solo open weight; el código de entrenamiento es propietario y nunca se ha publicado
https://github.com/microsoft/VibeVoice/issues/102
Perdón, Stallman
Cuando un proyecto dice que es open source, lo más importante para mí es qué puedo hacer realmente con él
La distinción entre open source vs open weight ya parece haber entrado en la misma categoría que hacker/cracker o la discusión sobre cómo se pronuncia GIF
Solo significa que no tienes acceso; la licencia en sí seguiría siendo MIT
Aun así, coincido completamente en que Microsoft está exagerando la apertura aquí, y tampoco es algo sorprendente
Los datos de entrenamiento cerrados también me molestan, pero a mí me molestan más las licencias restrictivas
En esta categoría, Voxtral me parece mucho mejor
Además, es lo suficientemente pequeño como para correr en webGPU
https://huggingface.co/spaces/mistralai/Voxtral-Realtime-WebGPU
Kevin Beaumont publicó algo interesante sobre este repo/producto/autor
https://cyberplace.social/@GossiTheDog/116454846703138243
Me parece que este es el proyecto que Microsoft publicó y luego retiró rápidamente por razones de seguridad/protección
Me pregunto qué cambió desde entonces
El modelo TTS original ya no está en este repo, aunque todavía se puede encontrar en otros lugares
En cambio, los modelos de SST/ASR, long form TTS y streaming TTS son más nuevos
Porque este proyecto abarca varias áreas a la vez, incluyendo todo lo que acabo de mencionar
Es interesante ver que una empresa como Microsoft esté oficializando vibe como término de producto de IA
Mi speech-swift también se enfoca en procesamiento de voz on-device, como VibeVoice
Pero lo hice para ejecutar ASR, TTS y VAD aprovechando la capacidad de Apple Silicon sin depender de la nube
El ASR soporta 52 idiomas y su real-time factor es 0.06
https://soniqo.audio/benchmarks
Me gustó la publicación de Simon de anoche
https://simonwillison.net/2026/Apr/27/vibevoice/
Es un terreno parecido al de whisper; aparte de eso también hay modelos separados de long-form TTS y streaming TTS
Me pregunto por qué será
Elegí Microsoft Sam como la voz predeterminada de mi computadora
Sususususususu
Vaya, por fin salió un producto de IA de Microsoft que no se llama Copilot