- Modelo de voz a texto de nueva generación con reconocimiento de voz en tiempo real de latencia ultrabaja y diarización de hablantes de alta precisión
- Está compuesto por dos modelos: Voxtral Mini Transcribe V2 para procesamiento por lotes y Voxtral Realtime con una arquitectura para aplicaciones en tiempo real
- El modelo Realtime procesa voz en streaming con menos de 200 ms de latencia y se publica con pesos abiertos bajo Apache 2.0
- Mini Transcribe V2 ofrece funciones empresariales como soporte para 13 idiomas, incluido coreano, marcas de tiempo por palabra, context biasing y diarización de hablantes
- Ambos modelos admiten despliegues con cumplimiento de GDPR e HIPAA y mejoran de forma significativa la precisión, velocidad y eficiencia de costos de las aplicaciones basadas en voz
Resumen de Voxtral Transcribe 2
- Voxtral Transcribe 2 está compuesto por dos modelos caracterizados por calidad de reconocimiento de voz de última generación, diarización precisa de hablantes y procesamiento de latencia ultrabaja
- Voxtral Mini Transcribe V2: para transcripción por lotes
- Voxtral Realtime: para aplicaciones en tiempo real
- El modelo Realtime se publica bajo licencia Apache 2.0, por lo que también puede desplegarse en entornos edge
- Es posible probar transcripciones de inmediato mediante el audio playground dentro de Mistral Studio
Resumen de funciones principales
- Voxtral Mini Transcribe V2: soporte para 13 idiomas, diarización de hablantes, context biasing y marcas de tiempo por palabra
- Voxtral Realtime: permite transcripción en tiempo real con menos de 200 ms de latencia, ideal para agentes de voz y aplicaciones en tiempo real
- Eficiencia: ofrece precisión de primer nivel con uno de los costos más bajos de la industria
- Pesos abiertos: el modelo Realtime se publica bajo Apache 2.0, lo que permite despliegues centrados en la privacidad
Voxtral Realtime
- Modelo diseñado para aplicaciones donde la latencia es crítica; realiza transcripción en tiempo real con una arquitectura de streaming sin procesar el audio por chunks
- Configurable con menos de 200 ms de latencia; con 2.4 segundos de latencia logra la misma precisión que el modelo por lotes, y con 480 ms de latencia mantiene una tasa de error de 1 a 2%
- Soporta 13 idiomas (inglés, chino, hindi, español, árabe, francés, portugués, ruso, alemán, japonés, coreano, italiano y neerlandés)
- Con 4 mil millones de parámetros, funciona eficientemente incluso en dispositivos edge y garantiza seguridad y privacidad
- Los pesos del modelo están disponibles en Hugging Face Hub
Voxtral Mini Transcribe V2
- La calidad de transcripción y diarización de hablantes mejoró notablemente en distintos idiomas y dominios
- Según el benchmark FLEURS, ofrece una tasa de error de palabras cercana al 4% y un rendimiento de precio por desempeño de primer nivel con un costo de $0.003/min
- Tiene mayor precisión que GPT-4o mini Transcribe, Gemini 2.5 Flash, Assembly Universal y Deepgram Nova; además, es 3 veces más rápido que ElevenLabs Scribe v2 y cuesta una quinta parte
Funciones empresariales
- Diarización de hablantes (Speaker diarization): distingue a los hablantes y marca puntos de inicio y fin, ideal para reuniones, entrevistas y llamadas con múltiples participantes
- Context biasing: permite definir hasta 100 palabras o frases para mejorar el reconocimiento de nombres propios y términos especializados (optimizado para inglés; experimental en otros idiomas)
- Marcas de tiempo por palabra: útiles para generación de subtítulos, búsqueda en audio y alineación de contenido
- Soporte de idiomas ampliado: compatibilidad con 13 idiomas y mejor rendimiento que modelos competidores en idiomas distintos del inglés
- Resistencia al ruido: mantiene la precisión incluso en entornos ruidosos como fábricas y centros de contacto
- Procesamiento de audio de larga duración: puede manejar en una sola solicitud archivos grabados de hasta 3 horas
Audio playground
- Es posible probar directamente Voxtral Transcribe 2 en Mistral Studio
- Permite subir hasta 10 archivos de audio y configurar diarización de hablantes, unidad de marcas de tiempo y context biasing
- Formatos compatibles: .mp3, .wav, .m4a, .flac, .ogg, con un máximo de 1 GB por archivo
Casos de uso diversos
- Inteligencia de reuniones: permite analizar datos de reuniones a gran escala con transcripción multilingüe y distinción de hablantes
- Agentes de voz y asistentes virtuales: posibilita interfaces conversacionales naturales con menos de 200 ms de latencia
- Automatización de contact centers: la transcripción de llamadas en tiempo real permite análisis de sentimiento, sugerencias de respuesta y llenado automático en CRM
- Medios y radiodifusión: generación de subtítulos multilingües en tiempo real y mejor reconocimiento de nombres propios y términos especializados
- Cumplimiento normativo y documentación: permite trazabilidad de auditoría basada en marcas de tiempo por hablante
- Ambos modelos admiten despliegues con cumplimiento de GDPR e HIPAA y pueden operar de forma segura en entornos on-premises o de nube privada
Uso y precios
- Voxtral Mini Transcribe V2: $0.003/min vía API; disponible en Mistral Studio o Le Chat
- Voxtral Realtime: $0.006/min vía API; ofrece pesos abiertos en Hugging Face
- Se puede consultar información adicional en la documentación de audio y transcripción de Mistral
1 comentarios
Opiniones en Hacker News
Este demo fue realmente impresionante.
Aunque aparezca que no hay micrófono, si presionas el botón de grabar el navegador pide permisos y empieza a funcionar de inmediato.
Incluso hablando rápido y mezclando terminología técnica, transcribe con precisión. Hasta escribió perfectamente WebAssembly.
Además, que tenga pesos abiertos es algo realmente de agradecer.
Probé hablar dos idiomas al mismo tiempo y aun así los reconoció con precisión. De verdad sorprendente.
El reconocimiento de inglés es bastante bueno, pero si hablo en polaco lo detecta como ruso o ucraniano.
Si es una empresa europea, pensaría que debería tener mejor soporte para los principales idiomas europeos.
Probé mezclar inglés y polaco, y el resultado salió completamente mezclado.
Soporta 13 idiomas, y me da curiosidad cómo cambiarían la cantidad de parámetros o los requisitos de datos de entrenamiento cuando hay muchos idiomas con raíces similares.
Me impresionan los números de 4% de tasa de error de palabras en FLEURS y $0.003 por minuto.
Amazon Transcribe cobra $0.024 por minuto, así que la diferencia es grande.
Por ejemplo, la API de Whisper de fal.ai cobra “$0.00125 por segundo de cómputo”, pero procesa a una velocidad de 10 a 25 veces tiempo real, así que termina siendo mucho más barata.
Este modelo es multilingüe y entiende 14 idiomas.
Pero en la mayoría de los casos de uso solo se necesita un idioma, así que los demás podrían simplemente aumentar la latencia.
Creo que en adelante va a surgir una tendencia a recortar lo innecesario de estos modelos más generales.
El paper relacionado se puede ver aquí.
Ej.: “voila”, “el camino real”.
Aun así, internamente parece que usan una arquitectura basada en LLM parecida.
El rendimiento fue competitivo frente a Deepgram nova-3, y en la mayoría de los casos fue mejor que Assembly o ElevenLabs.
En pruebas internas se evaluó con un dataset de llamadas de 8 kHz con fuerte acento británico, y en la práctica estuvo a nivel de SOTA.
Eso sí, la distribución de latencia fue algo inestable. Parece que al correrlo localmente podría mejorar.
Me pregunto qué recursos de hardware necesita.
No quedó claro si hacen falta varias GPU NVIDIA de gama alta o si también puede funcionar offline en dispositivos de bajo consumo como un ESP32.
Me pregunto si esto es mejor que Nvidia Parakeet V3. Hasta ahora ese era el mejor modelo local para mí.
Referencias: modelo, puerto de inferencia y versión GGUF.
Pensé que la función de diarización venía incluida por defecto, pero la versión en tiempo real no la tiene.
Voxtral-Mini-4B-Realtime-2602 es un modelo de aproximadamente 9 GB.
Probé el demo y el reconocimiento en inglés es excelente, además detecta cambios de idioma en tiempo real.
Pero no reconoce en absoluto el ucraniano y siempre lo transcribe como ruso.
Otros modelos STT manejan bien el ucraniano, así que decepciona que este parezca tener mucho más ruso que ucraniano en sus datos de entrenamiento.
El modelo está bien, pero la versión anterior no superaba a Parakeet.
Hace falta una comparación objetiva con modelos recientes como Qwen3-ASR.
Ya es difícil confiar en los benchmarks seleccionados que muestran las empresas.
Por ahora, para mi uso, Parakeet v3 sigue siendo el más rápido y eficiente.
Me da curiosidad qué app usan en el teléfono.