VibeVoice - IA de voz open source de frontera

(github.com/microsoft)

1 puntos por GN⁺ 11 시간 전 | 1 comentarios | Compartir por WhatsApp

Está compuesto por una familia de modelos de IA de voz que incluye TTS y ASR, y aborda tanto la generación de voz de larga duración como el reconocimiento de voz de larga duración
La arquitectura central combina un tokenizador continuo de voz de ultra baja tasa de cuadros de 7.5 Hz con next-token diffusion, buscando calidad de audio y eficiencia computacional al procesar secuencias largas
Para comprender el contexto textual y el flujo conversacional usa un LLM, y para generar detalles acústicos de alta fidelidad incorpora una diffusion head
VibeVoice-ASR procesa audio de hasta 60 minutos en una sola pasada y genera transcripciones estructuradas que incluyen información del hablante, marcas de tiempo y contenido de las intervenciones
El modelo ASR admite más de 50 idiomas y puede recibir hotwords personalizadas o información de contexto para mejorar la precisión de reconocimiento especializada por dominio
Del lado de ASR se publicaron el código de finetuning y el soporte de inferencia con vLLM, y también puede usarse directamente desde la biblioteca Hugging Face Transformers
VibeVoice-TTS sintetiza voz de hasta 90 minutos en una sola pasada y admite hasta 4 hablantes dentro de una misma conversación
TTS pone énfasis en la voz conversacional expresiva y la consistencia del hablante, y admite inglés, chino y otros idiomas
Según el anuncio del repositorio, el código de VibeVoice-TTS fue eliminado, indicando que se retiró del repositorio tras detectarse usos que no coincidían con la intención declarada tras su publicación
VibeVoice-Realtime-0.5B es un modelo TTS en tiempo real de escala 0.5B, compatible con entrada de texto en streaming, una latencia hasta el primer audio audible de alrededor de 300 ms y generación de voz larga de aproximadamente 10 minutos
Al modelo Realtime se le agregaron hablantes experimentales multilingües en 9 idiomas y 11 voces de estilo inglés, y se indica que seguirán ampliando la variedad de tipos de hablantes
Las vías de distribución están organizadas principalmente en pesos en Hugging Face, Playground y Colab, lo que permite probarlo rápidamente
Este repositorio se presenta como de uso exclusivo para investigación y desarrollo, y no se recomienda usarlo en producción ni en entornos reales sin pruebas y desarrollo adicionales
El modelo puede heredar los sesgos y errores de Qwen2.5 1.5b, su modelo base, y debido a los riesgos de deepfakes, suplantación y difusión de desinformación, se recomienda un uso legal y responsable, además de divulgar cuando el contenido haya sido generado por IA

1 comentarios

GN⁺ 11 시간 전

Comentarios en Hacker News

Esto ni siquiera es un modelo nuevo, y en STT tiene muchas alucinaciones, la inferencia es pesada y lenta, y el rendimiento multilingüe tampoco es gran cosa
No sé sobre otras funciones, aquí estoy hablando puramente de speech to text
- No es que no tenga ninguna ventaja; en algunos casos su expresividad sí es un poco mejor
  Pero en general da la impresión de haber sido entrenado con datos muy ruidosos, usa más memoria y tampoco es rápido
  Me refiero a la versión 7B vibevoice-community, que apareció por poco tiempo y luego la bajaron; ahora sigo usando chatterbox turbo y a veces qwen TTS
- No entiendo por qué de repente está recibiendo tanta atención hoy
  En Twitter también no se habla de otra cosa
- El TTS tampoco fue bueno
  Lo usé unos días y, para empezar, no había documentación del modelo 1.5B, y el modelo realtime 0.5B era malísimo
  Convertía el texto línea por línea, metía música aleatoriamente y ni siquiera podía manejar bien caracteres especiales como …
  Sinceramente, bastante decepcionante
- El SOTA actual está muchísimo más adelante que esto
- Gracias por comentar esto, me ahorraste mucho tiempo
  Ya hasta le quité la estrella al repo y mejor lo voy a pasar por alto
Creo que ya deberíamos dejar de llamar open source a este tipo de modelos
En realidad son solo open weight; el código de entrenamiento es propietario y nunca se ha publicado
https://github.com/microsoft/VibeVoice/issues/102
- Ahora vivimos en un mundo donde a un freeware le dicen open source
  Perdón, Stallman
- Yo reservo esta queja para los modelos que se distribuyen con licencias que no son open source y aun así los llaman open source
  Cuando un proyecto dice que es open source, lo más importante para mí es qué puedo hacer realmente con él
- Ese barco ya zarpó
  La distinción entre open source vs open weight ya parece haber entrado en la misma categoría que hacker/cracker o la discusión sobre cómo se pronuncia GIF
- Viéndolo al revés, aunque yo te entregara solo el binario de código MIT y nunca te mandara el código fuente, ese código podría seguir siendo open source
  Solo significa que no tienes acceso; la licencia en sí seguiría siendo MIT
  Aun así, coincido completamente en que Microsoft está exagerando la apertura aquí, y tampoco es algo sorprendente
- Al menos que sea MIT license ya es algo bueno
  Los datos de entrenamiento cerrados también me molestan, pero a mí me molestan más las licencias restrictivas
En esta categoría, Voxtral me parece mucho mejor
Además, es lo suficientemente pequeño como para correr en webGPU
https://huggingface.co/spaces/mistralai/Voxtral-Realtime-WebGPU
Kevin Beaumont publicó algo interesante sobre este repo/producto/autor
https://cyberplace.social/@GossiTheDog/116454846703138243
- Es impresionante cómo se esfuerzan por esconder el enlace
Me parece que este es el proyecto que Microsoft publicó y luego retiró rápidamente por razones de seguridad/protección
Me pregunto qué cambió desde entonces
- Basta con ver la sección News del readme
  El modelo TTS original ya no está en este repo, aunque todavía se puede encontrar en otros lugares
  En cambio, los modelos de SST/ASR, long form TTS y streaming TTS son más nuevos
- Al menos para mí, sigue siendo bastante confuso
  Porque este proyecto abarca varias áreas a la vez, incluyendo todo lo que acabo de mencionar
Es interesante ver que una empresa como Microsoft esté oficializando vibe como término de producto de IA
- Especialmente porque vibe coded puede tener una connotación negativa de algo armado a las prisas y sin entender bien lo que se está haciendo
- También me pregunto si era un juego de palabras con Via Voice, aquel STT maldito de IBM de los 90
- Más bien me sorprende que hayan resistido la tentación de llamarlo Copilot
Mi speech-swift también se enfoca en procesamiento de voz on-device, como VibeVoice
Pero lo hice para ejecutar ASR, TTS y VAD aprovechando la capacidad de Apple Silicon sin depender de la nube
El ASR soporta 52 idiomas y su real-time factor es 0.06
https://soniqo.audio/benchmarks
Me gustó la publicación de Simon de anoche
https://simonwillison.net/2026/Apr/27/vibevoice/
- Ojo, esa publicación solo trata la parte de Speech-to-Text / Speech-Recognition
  Es un terreno parecido al de whisper; aparte de eso también hay modelos separados de long-form TTS y streaming TTS
- Dicen que VibeVoice solo puede procesar hasta 1 hora de audio
  Me pregunto por qué será
Elegí Microsoft Sam como la voz predeterminada de mi computadora
- Me acuerdo de cuando en la sala de cómputo jugábamos con Microsoft Sam metiéndole cadenas largas para sacar efectos de sonido graciosos
  Sususususususu
Vaya, por fin salió un producto de IA de Microsoft que no se llama Copilot
- Si lo hubieran llamado Vopilot, le habría quedado perfecto

VibeVoice - IA de voz open source de frontera

Lecturas relacionadas

1 comentarios

Comentarios en Hacker News