14 puntos por spilist2 2023-08-23 | Aún no hay comentarios. | Compartir por WhatsApp

(Parece más adecuado para SHOW, pero como no lo hice yo, lo publico en NEWS en lugar de SHOW.)

====

Este es un repositorio que mide, por API de reconocimiento de voz, la tasa de error (Character Error Rate) de diversos conjuntos de prueba publicados por AI-Hub, usando APIs de sitios para desarrolladores donde se puede probar el reconocimiento de voz en coreano. Este repositorio cubre lo siguiente.

  • Medición de la tasa de error (Character Error Rate) sobre conjuntos de prueba de AI Hub usando diversas APIs de reconocimiento de voz como Return Zero, Google, OpenAI Whisper, ETRI y Naver
  • Introducción a los métodos de evaluación del reconocimiento de voz en coreano

====

Este proyecto se publicó para evaluar objetivamente el rendimiento de diversas APIs de reconocimiento de voz. Busca analizar las diferencias de rendimiento entre los distintos servicios de reconocimiento de voz disponibles actualmente en el mercado y, a partir de ello, ofrecer mejor accesibilidad tanto a usuarios como a desarrolladores.

Los materiales publicados como artículos académicos normalmente evalúan el rendimiento solo para inglés y publican el WER (Word Error Rate) en paperswithcode. Sin embargo, en el caso del reconocimiento de voz en coreano, lo apropiado es evaluarlo con CER (Character Error Rate), y no había sido posible encontrar un leaderboard bien organizado.

Aunque KsponSpeech se publicó por primera vez en 2018, como AI-Hub solo es accesible para ciudadanos coreanos y hay pocos coreanos investigando y desarrollando reconocimiento de voz, no se había podido publicar como un recurso ampliamente disponible.

Return Zero ha investigado y desarrollado internamente reconocimiento de voz y, para que más personas puedan acceder a estos recursos, contribuyó KsponSpeech a speechbrain, muy usado en el campo del reconocimiento de voz, de modo que hoy puede usarse en la recipe más reciente y también se facilitó el acceso desde huggingface.

Recientemente, AI-Hub ha publicado diversos tipos de datos de voz, y se consideró que evaluar y dar a conocer hasta dónde han llegado los motores de reconocimiento de voz en coreano frente a estos variados conjuntos de datos ayudaría al desarrollo del reconocimiento de voz en coreano.

Aún no hay comentarios.

Aún no hay comentarios.