13 puntos por GN⁺ 2026-02-05 | 1 comentarios | Compartir por WhatsApp
  • Modelo de voz a texto de nueva generación con reconocimiento de voz en tiempo real de latencia ultrabaja y diarización de hablantes de alta precisión
  • Está compuesto por dos modelos: Voxtral Mini Transcribe V2 para procesamiento por lotes y Voxtral Realtime con una arquitectura para aplicaciones en tiempo real
  • El modelo Realtime procesa voz en streaming con menos de 200 ms de latencia y se publica con pesos abiertos bajo Apache 2.0
  • Mini Transcribe V2 ofrece funciones empresariales como soporte para 13 idiomas, incluido coreano, marcas de tiempo por palabra, context biasing y diarización de hablantes
  • Ambos modelos admiten despliegues con cumplimiento de GDPR e HIPAA y mejoran de forma significativa la precisión, velocidad y eficiencia de costos de las aplicaciones basadas en voz

Resumen de Voxtral Transcribe 2

  • Voxtral Transcribe 2 está compuesto por dos modelos caracterizados por calidad de reconocimiento de voz de última generación, diarización precisa de hablantes y procesamiento de latencia ultrabaja
    • Voxtral Mini Transcribe V2: para transcripción por lotes
    • Voxtral Realtime: para aplicaciones en tiempo real
  • El modelo Realtime se publica bajo licencia Apache 2.0, por lo que también puede desplegarse en entornos edge
  • Es posible probar transcripciones de inmediato mediante el audio playground dentro de Mistral Studio

Resumen de funciones principales

  • Voxtral Mini Transcribe V2: soporte para 13 idiomas, diarización de hablantes, context biasing y marcas de tiempo por palabra
  • Voxtral Realtime: permite transcripción en tiempo real con menos de 200 ms de latencia, ideal para agentes de voz y aplicaciones en tiempo real
  • Eficiencia: ofrece precisión de primer nivel con uno de los costos más bajos de la industria
  • Pesos abiertos: el modelo Realtime se publica bajo Apache 2.0, lo que permite despliegues centrados en la privacidad

Voxtral Realtime

  • Modelo diseñado para aplicaciones donde la latencia es crítica; realiza transcripción en tiempo real con una arquitectura de streaming sin procesar el audio por chunks
  • Configurable con menos de 200 ms de latencia; con 2.4 segundos de latencia logra la misma precisión que el modelo por lotes, y con 480 ms de latencia mantiene una tasa de error de 1 a 2%
  • Soporta 13 idiomas (inglés, chino, hindi, español, árabe, francés, portugués, ruso, alemán, japonés, coreano, italiano y neerlandés)
  • Con 4 mil millones de parámetros, funciona eficientemente incluso en dispositivos edge y garantiza seguridad y privacidad
  • Los pesos del modelo están disponibles en Hugging Face Hub

Voxtral Mini Transcribe V2

  • La calidad de transcripción y diarización de hablantes mejoró notablemente en distintos idiomas y dominios
  • Según el benchmark FLEURS, ofrece una tasa de error de palabras cercana al 4% y un rendimiento de precio por desempeño de primer nivel con un costo de $0.003/min
  • Tiene mayor precisión que GPT-4o mini Transcribe, Gemini 2.5 Flash, Assembly Universal y Deepgram Nova; además, es 3 veces más rápido que ElevenLabs Scribe v2 y cuesta una quinta parte

Funciones empresariales

  • Diarización de hablantes (Speaker diarization): distingue a los hablantes y marca puntos de inicio y fin, ideal para reuniones, entrevistas y llamadas con múltiples participantes
  • Context biasing: permite definir hasta 100 palabras o frases para mejorar el reconocimiento de nombres propios y términos especializados (optimizado para inglés; experimental en otros idiomas)
  • Marcas de tiempo por palabra: útiles para generación de subtítulos, búsqueda en audio y alineación de contenido
  • Soporte de idiomas ampliado: compatibilidad con 13 idiomas y mejor rendimiento que modelos competidores en idiomas distintos del inglés
  • Resistencia al ruido: mantiene la precisión incluso en entornos ruidosos como fábricas y centros de contacto
  • Procesamiento de audio de larga duración: puede manejar en una sola solicitud archivos grabados de hasta 3 horas

Audio playground

  • Es posible probar directamente Voxtral Transcribe 2 en Mistral Studio
  • Permite subir hasta 10 archivos de audio y configurar diarización de hablantes, unidad de marcas de tiempo y context biasing
  • Formatos compatibles: .mp3, .wav, .m4a, .flac, .ogg, con un máximo de 1 GB por archivo

Casos de uso diversos

  • Inteligencia de reuniones: permite analizar datos de reuniones a gran escala con transcripción multilingüe y distinción de hablantes
  • Agentes de voz y asistentes virtuales: posibilita interfaces conversacionales naturales con menos de 200 ms de latencia
  • Automatización de contact centers: la transcripción de llamadas en tiempo real permite análisis de sentimiento, sugerencias de respuesta y llenado automático en CRM
  • Medios y radiodifusión: generación de subtítulos multilingües en tiempo real y mejor reconocimiento de nombres propios y términos especializados
  • Cumplimiento normativo y documentación: permite trazabilidad de auditoría basada en marcas de tiempo por hablante
  • Ambos modelos admiten despliegues con cumplimiento de GDPR e HIPAA y pueden operar de forma segura en entornos on-premises o de nube privada

Uso y precios

  • Voxtral Mini Transcribe V2: $0.003/min vía API; disponible en Mistral Studio o Le Chat
  • Voxtral Realtime: $0.006/min vía API; ofrece pesos abiertos en Hugging Face
  • Se puede consultar información adicional en la documentación de audio y transcripción de Mistral

1 comentarios

 
GN⁺ 2026-02-05
Opiniones en Hacker News
  • Este demo fue realmente impresionante.
    Aunque aparezca que no hay micrófono, si presionas el botón de grabar el navegador pide permisos y empieza a funcionar de inmediato.
    Incluso hablando rápido y mezclando terminología técnica, transcribe con precisión. Hasta escribió perfectamente WebAssembly.

    • He probado casi todos los modelos de voz de los últimos 3 años, y esto está sin duda al nivel más alto que he visto hasta ahora.
      Además, que tenga pesos abiertos es algo realmente de agradecer.
    • Gracias por el enlace. En el playground base de Mistral solo se pueden subir archivos, así que era difícil darse cuenta de la velocidad y la precisión, pero este enlace sí muestra bien el rendimiento en tiempo real.
      Probé hablar dos idiomas al mismo tiempo y aun así los reconoció con precisión. De verdad sorprendente.
    • En mi entorno no funcionó. Tanto en Firefox como en Chromium se ve la forma de onda, pero solo aparece “Awaiting audio input”.
    • Este enlace de la API da error 404. Se muestra como error en rojo en la esquina superior derecha de la UI.
    • La velocidad es impresionante, al punto de transcribir en tiempo real incluso las partes de rap rápido de Eminem.
  • El reconocimiento de inglés es bastante bueno, pero si hablo en polaco lo detecta como ruso o ucraniano.
    Si es una empresa europea, pensaría que debería tener mejor soporte para los principales idiomas europeos.
    Probé mezclar inglés y polaco, y el resultado salió completamente mezclado.

    • El modelo indica explícitamente que no soporta polaco, pero sí ruso.
      Soporta 13 idiomas, y me da curiosidad cómo cambiarían la cantidad de parámetros o los requisitos de datos de entrenamiento cuando hay muchos idiomas con raíces similares.
    • Recomiendo probarlo solo con idiomas que estén en la lista de compatibilidad.
    • Es una pena que el rendimiento sea bueno solo en ciertos idiomas. Oficialmente solo da soporte fuerte a 13 idiomas.
    • Si mezclas polaco y ucraniano, el resultado sale en ruso. Incluso hablando solo ucraniano, siempre lo transcribe como ruso, lo cual decepciona.
    • Por su estructura fonológica, el polaco sería más natural de escribir en alfabeto cirílico, pero por razones históricas no es así. Parece que ese tipo de cosas confunden a la IA.
  • Me impresionan los números de 4% de tasa de error de palabras en FLEURS y $0.003 por minuto.
    Amazon Transcribe cobra $0.024 por minuto, así que la diferencia es grande.

    • Pero me pregunto si esa tarifa es por minuto de audio o por minuto de cómputo.
      Por ejemplo, la API de Whisper de fal.ai cobra “$0.00125 por segundo de cómputo”, pero procesa a una velocidad de 10 a 25 veces tiempo real, así que termina siendo mucho más barata.
  • Este modelo es multilingüe y entiende 14 idiomas.
    Pero en la mayoría de los casos de uso solo se necesita un idioma, así que los demás podrían simplemente aumentar la latencia.
    Creo que en adelante va a surgir una tendencia a recortar lo innecesario de estos modelos más generales.
    El paper relacionado se puede ver aquí.

    • Pero como hay muchas palabras prestadas entre idiomas, un modelo multilingüe podría de hecho ayudar.
      Ej.: “voila”, “el camino real”.
    • Este modelo parece haber demostrado eficiencia y precisión al mismo tiempo.
    • Servicios STT existentes como Azure, Google y Amazon requieren especificar el idioma, pero la calidad sigue siendo alta.
      Aun así, internamente parece que usan una arquitectura basada en LLM parecida.
    • La gente no usa un solo idioma. El code-switching es natural, así que un modelo monolingüe tiene limitaciones.
    • Lo gracioso es que en el comentario de arriba dicen que habría que reducir idiomas, mientras que otros comentarios se quejan de que faltan idiomas.
  • El rendimiento fue competitivo frente a Deepgram nova-3, y en la mayoría de los casos fue mejor que Assembly o ElevenLabs.
    En pruebas internas se evaluó con un dataset de llamadas de 8 kHz con fuerte acento británico, y en la práctica estuvo a nivel de SOTA.
    Eso sí, la distribución de latencia fue algo inestable. Parece que al correrlo localmente podría mejorar.

  • Me pregunto qué recursos de hardware necesita.
    No quedó claro si hacen falta varias GPU NVIDIA de gama alta o si también puede funcionar offline en dispositivos de bajo consumo como un ESP32.

  • Me pregunto si esto es mejor que Nvidia Parakeet V3. Hasta ahora ese era el mejor modelo local para mí.

    • Yo uso una versión porteada de Nemotron ASR y estoy satisfecho.
      Referencias: modelo, puerto de inferencia y versión GGUF.
    • Probé Parakeet V3 en local, y por sensación este modelo es un poco más lento, pero la precisión es mayor.
    • Me gustaba Parakeet v3, pero a veces tenía el problema de omitir frases enteras.
    • Parakeet es de 0.6B, así que corre incluso en dispositivos edge. Voxtral es de 4B, así que parece difícil que funcione en tiempo real en Orin o Hailo.
    • ¡Yo también vine a preguntar lo mismo!
  • Pensé que la función de diarización venía incluida por defecto, pero la versión en tiempo real no la tiene.
    Voxtral-Mini-4B-Realtime-2602 es un modelo de aproximadamente 9 GB.

    • La diarización solo está incluida en la versión Voxtral Mini Transcribe V2.
  • Probé el demo y el reconocimiento en inglés es excelente, además detecta cambios de idioma en tiempo real.
    Pero no reconoce en absoluto el ucraniano y siempre lo transcribe como ruso.
    Otros modelos STT manejan bien el ucraniano, así que decepciona que este parezca tener mucho más ruso que ucraniano en sus datos de entrenamiento.

    • Como el modelo solo soporta ruso, mapea el ucraniano de entrada a la palabra rusa más cercana.
  • El modelo está bien, pero la versión anterior no superaba a Parakeet.
    Hace falta una comparación objetiva con modelos recientes como Qwen3-ASR.
    Ya es difícil confiar en los benchmarks seleccionados que muestran las empresas.
    Por ahora, para mi uso, Parakeet v3 sigue siendo el más rápido y eficiente.

    • Existe el Open ASR Leaderboard, pero lleva medio año sin actualizarse.
    • A mí también me gusta Parakeet, así que en Mac lo uso con la app Handy.
      Me da curiosidad qué app usan en el teléfono.