1 puntos por GN⁺ 11 시간 전 | 1 comentarios | Compartir por WhatsApp
  • Está compuesto por una familia de modelos de IA de voz que incluye TTS y ASR, y aborda tanto la generación de voz de larga duración como el reconocimiento de voz de larga duración
  • La arquitectura central combina un tokenizador continuo de voz de ultra baja tasa de cuadros de 7.5 Hz con next-token diffusion, buscando calidad de audio y eficiencia computacional al procesar secuencias largas
  • Para comprender el contexto textual y el flujo conversacional usa un LLM, y para generar detalles acústicos de alta fidelidad incorpora una diffusion head
  • VibeVoice-ASR procesa audio de hasta 60 minutos en una sola pasada y genera transcripciones estructuradas que incluyen información del hablante, marcas de tiempo y contenido de las intervenciones
  • El modelo ASR admite más de 50 idiomas y puede recibir hotwords personalizadas o información de contexto para mejorar la precisión de reconocimiento especializada por dominio
  • Del lado de ASR se publicaron el código de finetuning y el soporte de inferencia con vLLM, y también puede usarse directamente desde la biblioteca Hugging Face Transformers
  • VibeVoice-TTS sintetiza voz de hasta 90 minutos en una sola pasada y admite hasta 4 hablantes dentro de una misma conversación
  • TTS pone énfasis en la voz conversacional expresiva y la consistencia del hablante, y admite inglés, chino y otros idiomas
  • Según el anuncio del repositorio, el código de VibeVoice-TTS fue eliminado, indicando que se retiró del repositorio tras detectarse usos que no coincidían con la intención declarada tras su publicación
  • VibeVoice-Realtime-0.5B es un modelo TTS en tiempo real de escala 0.5B, compatible con entrada de texto en streaming, una latencia hasta el primer audio audible de alrededor de 300 ms y generación de voz larga de aproximadamente 10 minutos
  • Al modelo Realtime se le agregaron hablantes experimentales multilingües en 9 idiomas y 11 voces de estilo inglés, y se indica que seguirán ampliando la variedad de tipos de hablantes
  • Las vías de distribución están organizadas principalmente en pesos en Hugging Face, Playground y Colab, lo que permite probarlo rápidamente
  • Este repositorio se presenta como de uso exclusivo para investigación y desarrollo, y no se recomienda usarlo en producción ni en entornos reales sin pruebas y desarrollo adicionales
  • El modelo puede heredar los sesgos y errores de Qwen2.5 1.5b, su modelo base, y debido a los riesgos de deepfakes, suplantación y difusión de desinformación, se recomienda un uso legal y responsable, además de divulgar cuando el contenido haya sido generado por IA

1 comentarios

 
Comentarios en Hacker News
  • Esto ni siquiera es un modelo nuevo, y en STT tiene muchas alucinaciones, la inferencia es pesada y lenta, y el rendimiento multilingüe tampoco es gran cosa
    No sé sobre otras funciones, aquí estoy hablando puramente de speech to text

    • No es que no tenga ninguna ventaja; en algunos casos su expresividad sí es un poco mejor
      Pero en general da la impresión de haber sido entrenado con datos muy ruidosos, usa más memoria y tampoco es rápido
      Me refiero a la versión 7B vibevoice-community, que apareció por poco tiempo y luego la bajaron; ahora sigo usando chatterbox turbo y a veces qwen TTS
    • No entiendo por qué de repente está recibiendo tanta atención hoy
      En Twitter también no se habla de otra cosa
    • El TTS tampoco fue bueno
      Lo usé unos días y, para empezar, no había documentación del modelo 1.5B, y el modelo realtime 0.5B era malísimo
      Convertía el texto línea por línea, metía música aleatoriamente y ni siquiera podía manejar bien caracteres especiales como
      Sinceramente, bastante decepcionante
    • El SOTA actual está muchísimo más adelante que esto
    • Gracias por comentar esto, me ahorraste mucho tiempo
      Ya hasta le quité la estrella al repo y mejor lo voy a pasar por alto
  • Creo que ya deberíamos dejar de llamar open source a este tipo de modelos
    En realidad son solo open weight; el código de entrenamiento es propietario y nunca se ha publicado
    https://github.com/microsoft/VibeVoice/issues/102

    • Ahora vivimos en un mundo donde a un freeware le dicen open source
      Perdón, Stallman
    • Yo reservo esta queja para los modelos que se distribuyen con licencias que no son open source y aun así los llaman open source
      Cuando un proyecto dice que es open source, lo más importante para mí es qué puedo hacer realmente con él
    • Ese barco ya zarpó
      La distinción entre open source vs open weight ya parece haber entrado en la misma categoría que hacker/cracker o la discusión sobre cómo se pronuncia GIF
    • Viéndolo al revés, aunque yo te entregara solo el binario de código MIT y nunca te mandara el código fuente, ese código podría seguir siendo open source
      Solo significa que no tienes acceso; la licencia en sí seguiría siendo MIT
      Aun así, coincido completamente en que Microsoft está exagerando la apertura aquí, y tampoco es algo sorprendente
    • Al menos que sea MIT license ya es algo bueno
      Los datos de entrenamiento cerrados también me molestan, pero a mí me molestan más las licencias restrictivas
  • En esta categoría, Voxtral me parece mucho mejor
    Además, es lo suficientemente pequeño como para correr en webGPU
    https://huggingface.co/spaces/mistralai/Voxtral-Realtime-WebGPU

  • Kevin Beaumont publicó algo interesante sobre este repo/producto/autor
    https://cyberplace.social/@GossiTheDog/116454846703138243

    • Es impresionante cómo se esfuerzan por esconder el enlace
  • Me parece que este es el proyecto que Microsoft publicó y luego retiró rápidamente por razones de seguridad/protección
    Me pregunto qué cambió desde entonces

    • Basta con ver la sección News del readme
      El modelo TTS original ya no está en este repo, aunque todavía se puede encontrar en otros lugares
      En cambio, los modelos de SST/ASR, long form TTS y streaming TTS son más nuevos
    • Al menos para mí, sigue siendo bastante confuso
      Porque este proyecto abarca varias áreas a la vez, incluyendo todo lo que acabo de mencionar
  • Es interesante ver que una empresa como Microsoft esté oficializando vibe como término de producto de IA

    • Especialmente porque vibe coded puede tener una connotación negativa de algo armado a las prisas y sin entender bien lo que se está haciendo
    • También me pregunto si era un juego de palabras con Via Voice, aquel STT maldito de IBM de los 90
    • Más bien me sorprende que hayan resistido la tentación de llamarlo Copilot
  • Mi speech-swift también se enfoca en procesamiento de voz on-device, como VibeVoice
    Pero lo hice para ejecutar ASR, TTS y VAD aprovechando la capacidad de Apple Silicon sin depender de la nube
    El ASR soporta 52 idiomas y su real-time factor es 0.06
    https://soniqo.audio/benchmarks

  • Me gustó la publicación de Simon de anoche
    https://simonwillison.net/2026/Apr/27/vibevoice/

    • Ojo, esa publicación solo trata la parte de Speech-to-Text / Speech-Recognition
      Es un terreno parecido al de whisper; aparte de eso también hay modelos separados de long-form TTS y streaming TTS
    • Dicen que VibeVoice solo puede procesar hasta 1 hora de audio
      Me pregunto por qué será
  • Elegí Microsoft Sam como la voz predeterminada de mi computadora

    • Me acuerdo de cuando en la sala de cómputo jugábamos con Microsoft Sam metiéndole cadenas largas para sacar efectos de sonido graciosos
      Sususususususu
  • Vaya, por fin salió un producto de IA de Microsoft que no se llama Copilot

    • Si lo hubieran llamado Vopilot, le habría quedado perfecto