- Modelo de reconocimiento automático de voz (ASR) de última generación con 2B (2 mil millones) de parámetros, compatible con 14 idiomas como inglés, coreano y chino
- Usa una arquitectura encoder-decoder basada en Conformer y se distribuye bajo licencia Apache 2.0
- En inglés, supera a modelos competidores importantes como Whisper Large v3 con una tasa media de error por palabra (WER) de 5.42%, y alcanzó el primer lugar en el Hugging Face Open ASR Leaderboard
- Mostró alta precisión y consistencia tanto en evaluaciones en entornos reales como en evaluaciones humanas, y mantuvo un rendimiento estable también en transcripción multilingüe
- Logra a la vez baja latencia y alta eficiencia de procesamiento, por lo que es adecuado para productos y flujos de trabajo en tiempo real
Resumen de Cohere Transcribe
- La voz está emergiendo como una forma de entrada clave para la automatización de tareas impulsada por IA, como actas de reuniones, análisis de voz y soporte al cliente en tiempo real
- Este modelo fue entrenado desde cero con el objetivo de minimizar la tasa de error por palabra (WER), y está diseñado pensando en su uso en entornos de servicio reales, no solo en investigación
- Permite inferencia eficiente también en GPU y entornos locales, y además está disponible en Model Vault, la plataforma de inferencia administrada de Cohere
- Alcanzó el primer lugar en precisión en el Open ASR Leaderboard de Hugging Face, marcando un nuevo estándar de rendimiento de transcripción en entornos reales
Arquitectura del modelo
- El nombre del modelo es cohere-transcribe-03-2026 y utiliza una arquitectura encoder-decoder basada en Conformer
- La entrada convierte la forma de onda de audio en un espectrograma log-Mel, y la salida es el texto transcrito
- Un gran encoder Conformer de 2B (2 mil millones) de parámetros extrae representaciones acústicas, y un decoder Transformer liviano genera los tokens
- Fue entrenado desde cero mediante aprendizaje supervisado usando pérdida estándar de entropía cruzada
-
Compatibilidad con 14 idiomas
- Europa: inglés, francés, alemán, italiano, español, portugués, griego, neerlandés, polaco
- Asia-Pacífico: chino (mandarín), japonés, coreano, vietnamita
- Medio Oriente y norte de África: árabe
- Publicado bajo licencia Apache 2.0
Rendimiento del modelo
- Alcanza el estándar más reciente en precisión de reconocimiento de voz en inglés, con un WER promedio de 5.42%, el mejor desempeño entre modelos ASR públicos y privados
- Supera a modelos competidores importantes como Whisper Large v3, ElevenLabs Scribe v2 y Qwen3-ASR-1.7B
- Mantiene un rendimiento robusto en diversos entornos reales, incluidos múltiples hablantes, acústica de salas de reuniones y distintos acentos
- Resultados principales de benchmark
- AMI: 8.13, LS clean: 1.25, LS other: 2.37, Voxpopuli: 5.87
- Con un WER promedio de 5.42, supera a Zoom Scribe v1 (5.47), IBM Granite 4.0 (5.52) y NVIDIA Canary Qwen 2.5B (5.63)
- El Hugging Face Open ASR Leaderboard evalúa con WER estandarizado sobre varios datasets, donde un WER más bajo significa mayor precisión de transcripción
Resultados de evaluación humana
- Se confirmó el mismo rendimiento sobresaliente fuera de los benchmarks, en evaluaciones de entornos reales
- Evaluadores expertos calificaron resultados de transcripción de audio real según precisión, consistencia y usabilidad
- Mostró un rendimiento superior y consistente tanto en evaluación automática como humana
- En la evaluación comparativa de calidad de transcripción en inglés, obtuvo alta preferencia en preservación de significado, prevención de alucinaciones, reconocimiento de nombres propios y precisión de formato
- En las evaluaciones humanas por idioma compatible también registró una tasa de preferencia superior al 50%, lo que demuestra un rendimiento estable en entornos multilingües
Velocidad de procesamiento y eficiencia
- En entornos de servicio reales, la latencia y el throughput son restricciones clave
- Aunque la precisión sea alta, si el modelo es lento o consume muchos recursos, impacta directamente en la experiencia del usuario y en los costos
- Cohere Transcribe mantiene uno de los niveles más altos de eficiencia de procesamiento entre los modelos de más de 1B de parámetros, y logra simultáneamente bajo WER y alto RTFx (multiplicador de procesamiento en tiempo real)
- RTFx es una métrica que indica qué tan rápido se procesa el audio de entrada respecto al tiempo real; Transcribe amplía la frontera de Pareto tanto en precisión como en velocidad
-
Evaluación de Radical Ventures
- Paige Dickie, vicepresidenta de Radical Ventures, valoró muy positivamente la velocidad y calidad de Transcribe
- Mencionó que “transcribe audios de varios minutos en solo segundos, abriendo nuevas posibilidades para productos y flujos de trabajo en tiempo real”
- También señaló que ofrece una calidad de transcripción sólida y confiable incluso en habla cotidiana, con una experiencia de uso fluida
Próxima dirección de desarrollo
- Cohere planea integrar Transcribe con North, su plataforma de orquestación de agentes de IA
- En el futuro, Transcribe buscará expandirse más allá de un simple modelo de transcripción para convertirse en una base de inteligencia de voz empresarial
Uso y despliegue
- El modelo puede descargarse desde Hugging Face y ejecutarse también en entornos locales o edge
- Se puede probar gratis a través de la API de Cohere, aunque existen límites de solicitud (rate limit)
- La guía de uso e integración está disponible en la documentación oficial
- Con Model Vault es posible hacer inferencia de baja latencia en nube privada sin administrar infraestructura
- Se aplica una tarifa por instancia por hora, con descuentos para uso prolongado
- Las consultas sobre despliegue empresarial pueden hacerse a través del equipo comercial de Cohere
2 comentarios
Entonces, ¿no es de código abierto sino un servicio de pago?
Opiniones de Hacker News
Me preocupa que ASR (reconocimiento automático de voz) termine volviéndose como el OCR
Si una IA multimodal grande es lo bastante rápida y entiende bien el contexto, parece que va a absorber todas las tecnologías existentes
En OCR también pasa que, aunque un texto esté escaneado borroso, la IA infiere el significado del documento y lo resuelve con patrones como “el ID de pedido normalmente está debajo de la fecha del pedido”
Si ASR también empieza a “adivinar” así basándose en contexto, existe el riesgo de distorsionar el audio real
Un buen ASR puede entender audio con ruido que yo mismo no alcanzo a entender, pero a veces corrige demasiado y cambia una palabra rara por una común
En OCR también pueden aparecer datos plausibles pero incorrectos, como en el caso de Xerox
Por eso yo solo uso OCR para búsqueda, y siempre guardo el escaneo original
Los LLM multimodales como gpt-4o-transcribe son mucho mejores que el simple reconocimiento de voz
Puedes meter en el prompt la terminología especializada o el organigrama de una empresa, así que una frase como “pídele a Kaitlyn que revise el PR” distingue correctamente a la persona
Con una herramienta open source para Mac que hice, puedes probarlo usando tu API key de OpenAI y prompts personalizados
Si la tecnología avanza, aunque algunas técnicas desaparezcan, ¿no terminamos igual en una situación mejor?
Desde la aparición de Whisper, explotó la cantidad de modelos de reconocimiento de voz que corren localmente
Ejemplos: superwhisper.com, carelesswhisper.app, macwhisper.com
Si se procesa directamente en el dispositivo con micrófono, se puede reducir muchísimo el uso de ancho de banda y hasta evitar enviar nada a la nube
Me decepciona que el modelo no tenga timestamps ni diarización de hablantes
Me pregunto si WhisperX sigue siendo la mejor opción para eso
Google Chirp tenía muchos problemas: segmentos omitidos, alucinaciones (hallucination) y timestamps inconsistentes
AWS está un poco mejor, pero la sincronización palabra por palabra sigue siendo inestable
Whisper también alucina con frecuencia, y los modelos nuevos de OpenAI son precisos pero no soportan timestamps
Al final se puede resolver con posprocesamiento, pero ojalá existiera una API que simplemente se pudiera usar con confianza
Parece probable que pronto salga una integración para Cohere Transcribe
Al final de la página hay ejemplos con timestamps
Usa los pesos de cross-attention de Whisper para alinear con Dynamic Time Warping, sin modelos adicionales
Estoy muy satisfecho con el servicio de Cohere
Hace unos meses migré a su modelo de clip-style embedding, y hasta ahora tiene la latencia P50 más estable de todos los servicios externos que he usado
Los modelos de Cohere normalmente suelen ser más pequeños y rendir menos
Muchos modelos STT están entrenados solo con voz de pronunciación perfecta, así que son débiles con acentos extranjeros
Como alguien con acento francés al hablar inglés, quiero probar este modelo sí o sí
Hasta ahora, lo que mejor me ha funcionado en mi app para aprender idiomas (Copycat Cafe) fue Soniox, y los modelos basados en Whisper más bien tendían a generar frases alucinadas
Lo probé con nuestro dataset interno (250 audios de códigos postales del Reino Unido) y fue bastante competitivo
Soniox 71%, ElevenLabs 68.5%, AssemblyAI 66.9%, Deepgram 63.7%, Cohere 59.7%, Speechmatics 54% más o menos
Qué lástima que este modelo no soporte diccionario de palabras personalizado, word boosting ni agregar prompts
Probablemente sea otro modelo ASR centrado en benchmarks
Yo subo ediciones de streams de Twitch a YouTube y genero subtítulos con Whisper-large-v3
Las condiciones para un buen ASR son
Con WhisperX puedo transcribir en 5 minutos, pero el mayor problema sigue siendo que se salta oraciones completas
Si dicen “open source”, me pregunto si eso significa que tiene código fuente o solo publicaron los pesos del modelo
y también hay una versión convertida a ONNX que puede correr en CPU
Como entrenar un modelo cuesta tanto, compartir solo el resultado final ya es suficientemente útil
Me pregunto si este modelo es SOTA dentro de su rango de tamaño
Quiero saber si es mejor que Parakeet
Parakeet (0.6B) es rápido, pero en WER anda más o menos por el top 10
Antes usaba Dragon Dictate, pero tardaba mucho en entrenarse y los resultados no eran muy buenos
Hace poco hice una entrevista para un pódcast, y Apple Podcasts generó automáticamente una transcripción con IA
No tenía demasiados errores, pero lo más incómodo fue la falta de separación entre hablantes
Cuando era chico descargaba demasiados shareware de TTS/reconocimiento de voz