Cohere Transcribe - modelo de reconocimiento de voz open source SOTA

(cohere.com)

3 puntos por GN⁺ 26 일 전 | 2 comentarios | Compartir por WhatsApp

Modelo de reconocimiento automático de voz (ASR) de última generación con 2B (2 mil millones) de parámetros, compatible con 14 idiomas como inglés, coreano y chino
Usa una arquitectura encoder-decoder basada en Conformer y se distribuye bajo licencia Apache 2.0
En inglés, supera a modelos competidores importantes como Whisper Large v3 con una tasa media de error por palabra (WER) de 5.42%, y alcanzó el primer lugar en el Hugging Face Open ASR Leaderboard
Mostró alta precisión y consistencia tanto en evaluaciones en entornos reales como en evaluaciones humanas, y mantuvo un rendimiento estable también en transcripción multilingüe
Logra a la vez baja latencia y alta eficiencia de procesamiento, por lo que es adecuado para productos y flujos de trabajo en tiempo real

Resumen de Cohere Transcribe

La voz está emergiendo como una forma de entrada clave para la automatización de tareas impulsada por IA, como actas de reuniones, análisis de voz y soporte al cliente en tiempo real
Este modelo fue entrenado desde cero con el objetivo de minimizar la tasa de error por palabra (WER), y está diseñado pensando en su uso en entornos de servicio reales, no solo en investigación
Permite inferencia eficiente también en GPU y entornos locales, y además está disponible en Model Vault, la plataforma de inferencia administrada de Cohere
Alcanzó el primer lugar en precisión en el Open ASR Leaderboard de Hugging Face, marcando un nuevo estándar de rendimiento de transcripción en entornos reales

Arquitectura del modelo

El nombre del modelo es cohere-transcribe-03-2026 y utiliza una arquitectura encoder-decoder basada en Conformer
- La entrada convierte la forma de onda de audio en un espectrograma log-Mel, y la salida es el texto transcrito
- Un gran encoder Conformer de 2B (2 mil millones) de parámetros extrae representaciones acústicas, y un decoder Transformer liviano genera los tokens
Fue entrenado desde cero mediante aprendizaje supervisado usando pérdida estándar de entropía cruzada
Compatibilidad con 14 idiomas
- Europa: inglés, francés, alemán, italiano, español, portugués, griego, neerlandés, polaco
- Asia-Pacífico: chino (mandarín), japonés, coreano, vietnamita
- Medio Oriente y norte de África: árabe
- Publicado bajo licencia Apache 2.0

Rendimiento del modelo

Alcanza el estándar más reciente en precisión de reconocimiento de voz en inglés, con un WER promedio de 5.42%, el mejor desempeño entre modelos ASR públicos y privados
- Supera a modelos competidores importantes como Whisper Large v3, ElevenLabs Scribe v2 y Qwen3-ASR-1.7B
Mantiene un rendimiento robusto en diversos entornos reales, incluidos múltiples hablantes, acústica de salas de reuniones y distintos acentos
Resultados principales de benchmark
- AMI: 8.13, LS clean: 1.25, LS other: 2.37, Voxpopuli: 5.87
- Con un WER promedio de 5.42, supera a Zoom Scribe v1 (5.47), IBM Granite 4.0 (5.52) y NVIDIA Canary Qwen 2.5B (5.63)
El Hugging Face Open ASR Leaderboard evalúa con WER estandarizado sobre varios datasets, donde un WER más bajo significa mayor precisión de transcripción

Resultados de evaluación humana

Se confirmó el mismo rendimiento sobresaliente fuera de los benchmarks, en evaluaciones de entornos reales
- Evaluadores expertos calificaron resultados de transcripción de audio real según precisión, consistencia y usabilidad
- Mostró un rendimiento superior y consistente tanto en evaluación automática como humana
En la evaluación comparativa de calidad de transcripción en inglés, obtuvo alta preferencia en preservación de significado, prevención de alucinaciones, reconocimiento de nombres propios y precisión de formato
En las evaluaciones humanas por idioma compatible también registró una tasa de preferencia superior al 50%, lo que demuestra un rendimiento estable en entornos multilingües

Velocidad de procesamiento y eficiencia

En entornos de servicio reales, la latencia y el throughput son restricciones clave
- Aunque la precisión sea alta, si el modelo es lento o consume muchos recursos, impacta directamente en la experiencia del usuario y en los costos
Cohere Transcribe mantiene uno de los niveles más altos de eficiencia de procesamiento entre los modelos de más de 1B de parámetros, y logra simultáneamente bajo WER y alto RTFx (multiplicador de procesamiento en tiempo real)
RTFx es una métrica que indica qué tan rápido se procesa el audio de entrada respecto al tiempo real; Transcribe amplía la frontera de Pareto tanto en precisión como en velocidad
Evaluación de Radical Ventures
- Paige Dickie, vicepresidenta de Radical Ventures, valoró muy positivamente la velocidad y calidad de Transcribe
- Mencionó que “transcribe audios de varios minutos en solo segundos, abriendo nuevas posibilidades para productos y flujos de trabajo en tiempo real”
- También señaló que ofrece una calidad de transcripción sólida y confiable incluso en habla cotidiana, con una experiencia de uso fluida

Próxima dirección de desarrollo

Cohere planea integrar Transcribe con North, su plataforma de orquestación de agentes de IA
- En el futuro, Transcribe buscará expandirse más allá de un simple modelo de transcripción para convertirse en una base de inteligencia de voz empresarial

Uso y despliegue

El modelo puede descargarse desde Hugging Face y ejecutarse también en entornos locales o edge
Se puede probar gratis a través de la API de Cohere, aunque existen límites de solicitud (rate limit)
- La guía de uso e integración está disponible en la documentación oficial
Con Model Vault es posible hacer inferencia de baja latencia en nube privada sin administrar infraestructura
- Se aplica una tarifa por instancia por hora, con descuentos para uso prolongado
- Las consultas sobre despliegue empresarial pueden hacerse a través del equipo comercial de Cohere

2 comentarios

j2sus91 26 일 전

Entonces, ¿no es de código abierto sino un servicio de pago?

GN⁺ 26 일 전

Opiniones de Hacker News

Me preocupa que ASR (reconocimiento automático de voz) termine volviéndose como el OCR
Si una IA multimodal grande es lo bastante rápida y entiende bien el contexto, parece que va a absorber todas las tecnologías existentes
En OCR también pasa que, aunque un texto esté escaneado borroso, la IA infiere el significado del documento y lo resuelve con patrones como “el ID de pedido normalmente está debajo de la fecha del pedido”
Si ASR también empieza a “adivinar” así basándose en contexto, existe el riesgo de distorsionar el audio real
- Esto tiene cosas buenas y malas
  Un buen ASR puede entender audio con ruido que yo mismo no alcanzo a entender, pero a veces corrige demasiado y cambia una palabra rara por una común
  En OCR también pueden aparecer datos plausibles pero incorrectos, como en el caso de Xerox
  Por eso yo solo uso OCR para búsqueda, y siempre guardo el escaneo original
- Eso ya está pasando en la práctica
  Los LLM multimodales como gpt-4o-transcribe son mucho mejores que el simple reconocimiento de voz
  Puedes meter en el prompt la terminología especializada o el organigrama de una empresa, así que una frase como “pídele a Kaitlyn que revise el PR” distingue correctamente a la persona
  Con una herramienta open source para Mac que hice, puedes probarlo usando tu API key de OpenAI y prompts personalizados
- No entiendo por qué preocuparse
  Si la tecnología avanza, aunque algunas técnicas desaparezcan, ¿no terminamos igual en una situación mejor?
- ASR es una tecnología cuya utilidad ya quedó demostrada
  Desde la aparición de Whisper, explotó la cantidad de modelos de reconocimiento de voz que corren localmente
  Ejemplos: superwhisper.com, carelesswhisper.app, macwhisper.com
- STT (voz→texto) probablemente seguirá siendo mejor en local por un buen tiempo
  Si se procesa directamente en el dispositivo con micrófono, se puede reducir muchísimo el uso de ancho de banda y hasta evitar enviar nada a la nube
Me decepciona que el modelo no tenga timestamps ni diarización de hablantes
Me pregunto si WhisperX sigue siendo la mejor opción para eso
- Incluso entre las APIs comerciales casi no hay opciones que soporten de forma confiable diarización y timestamps por palabra
  Google Chirp tenía muchos problemas: segmentos omitidos, alucinaciones (hallucination) y timestamps inconsistentes
  AWS está un poco mejor, pero la sincronización palabra por palabra sigue siendo inestable
  Whisper también alucina con frecuencia, y los modelos nuevos de OpenAI son precisos pero no soportan timestamps
  Al final se puede resolver con posprocesamiento, pero ojalá existiera una API que simplemente se pudiera usar con confianza
- WhisperX no es un modelo, sino un paquete de software que combina Whisper con otros modelos
  Parece probable que pronto salga una integración para Cohere Transcribe
- Recomiendo Qwen-ASR
  Al final de la página hay ejemplos con timestamps
- Mistral Voxtral soporta timestamps y diarización, y mostró buen rendimiento en alemán
- También está whisper-timestamped
  Usa los pesos de cross-attention de Whisper para alinear con Dynamic Time Warping, sin modelos adicionales
Estoy muy satisfecho con el servicio de Cohere
Hace unos meses migré a su modelo de clip-style embedding, y hasta ahora tiene la latencia P50 más estable de todos los servicios externos que he usado
- Me da curiosidad cómo anda la calidad general
  Los modelos de Cohere normalmente suelen ser más pequeños y rendir menos
Muchos modelos STT están entrenados solo con voz de pronunciación perfecta, así que son débiles con acentos extranjeros
Como alguien con acento francés al hablar inglés, quiero probar este modelo sí o sí
Hasta ahora, lo que mejor me ha funcionado en mi app para aprender idiomas (Copycat Cafe) fue Soniox, y los modelos basados en Whisper más bien tendían a generar frases alucinadas
Lo probé con nuestro dataset interno (250 audios de códigos postales del Reino Unido) y fue bastante competitivo
Soniox 71%, ElevenLabs 68.5%, AssemblyAI 66.9%, Deepgram 63.7%, Cohere 59.7%, Speechmatics 54% más o menos
- En compare-stt.com dicen que Gladia quedó en primer lugar en una prueba a ciegas
- Para renderizar tablas, basta con dejar dos saltos de línea entre filas
- Me pregunto si la referencia humana es 248/248
Qué lástima que este modelo no soporte diccionario de palabras personalizado, word boosting ni agregar prompts
Probablemente sea otro modelo ASR centrado en benchmarks
Yo subo ediciones de streams de Twitch a YouTube y genero subtítulos con Whisper-large-v3
Las condiciones para un buen ASR son
1. soporte de timestamps
2. reconocimiento de hablantes simultáneos
3. transcripción precisa
4. incluir expresiones no verbales como [tos], [risa]
5. poder inyectar más de 10 mil palabras de contexto
  Con WhisperX puedo transcribir en 5 minutos, pero el mayor problema sigue siendo que se salta oraciones completas
- Los puntos 3 y 4 podrían ser más bien funciones innecesarias para la mayoría de los clientes
Si dicen “open source”, me pregunto si eso significa que tiene código fuente o solo publicaron los pesos del modelo
- Puedes descargar los archivos desde Hugging Face,
  y también hay una versión convertida a ONNX que puede correr en CPU
- En la mayoría de los casos, “open source” significa pesos abiertos
  Como entrenar un modelo cuesta tanto, compartir solo el resultado final ya es suficientemente útil
- Probablemente se refieran al modelo en sí
Me pregunto si este modelo es SOTA dentro de su rango de tamaño
Quiero saber si es mejor que Parakeet
- Si ves el leaderboard de ASR en Hugging Face,
  Parakeet (0.6B) es rápido, pero en WER anda más o menos por el top 10
- El modelo de Cohere tiene 2B parámetros, así que es más grande que Parakeet (0.6B, 1.1B) y también muestra mejor rendimiento en benchmarks
Antes usaba Dragon Dictate, pero tardaba mucho en entrenarse y los resultados no eran muy buenos
Hace poco hice una entrevista para un pódcast, y Apple Podcasts generó automáticamente una transcripción con IA
No tenía demasiados errores, pero lo más incómodo fue la falta de separación entre hablantes
- En esa época había software de reconocimiento de voz que corría con 64MB de RAM
  Cuando era chico descargaba demasiados shareware de TTS/reconocimiento de voz

Cohere Transcribe - modelo de reconocimiento de voz open source SOTA

Resumen de Cohere Transcribe

Arquitectura del modelo

Compatibilidad con 14 idiomas

Rendimiento del modelo

Resultados de evaluación humana

Velocidad de procesamiento y eficiencia

Evaluación de Radical Ventures

Próxima dirección de desarrollo

Uso y despliegue

Lecturas relacionadas

2 comentarios

Opiniones de Hacker News