2 puntos por somang04 12 일 전 | 5 comentarios | Compartir por WhatsApp

He probado Whisper de OpenAI y Clova de NCP, pero la diarización de múltiples hablantes en coreano parece ser bastante más difícil de lo que esperaba.
¿Hay algún modelo local o en la nube, comercial, que hayan usado y que puedan recomendar?

El proceso que estoy considerando sería algo así:

  1. Recolección de contenido > separación de audio (música, efectos y voz) > análisis de forma de onda de audio > separación de múltiples hablantes dentro del audio > STT basado en múltiples hablantes > generación del guion con base en la información de códigos de tiempo.

Según el resultado, parece que incluso podría ampliarse hasta doblaje/subtitulado.

Los criterios que estoy considerando son los siguientes.

  • ¿Qué tan bueno es el resultado del producto de la separación de audio?
  • ¿Es posible identificar y distinguir la voz de una misma persona a partir del audio?

¡Agradecería mucho sus opiniones y sugerencias!

5 comentarios

 
sungwoo 5 일 전

Por lo que he probado recientemente, para múltiples hablantes Clova funciona bien.
Si te basta con una calidad razonable, también está bien ReturnZero, que te recomendaron arriba.
Aunque la calidad del STT se quede un poco corta, si le pasas el resultado a un LLM potente, puede dar resultados bastante satisfactorios.

En mi caso, como el reconocimiento de hablantes no era importante, opté por Gemini.
Como cada solución tiene sus pros y sus contras, al final te recomiendo tomar algunas muestras de los datos que quieres resolver y elegir en base a eso.

 
arthurk 6 일 전

¿Habrá algún modelo que haga bien la diarización de hablantes en coreano??

https://developers.rtzr.ai/docs/stt-file/diarization/
No se puede usar solo la diarización de múltiples hablantes, pero la API se ofrece junto con STT. (OpenAI o Clova también son parecidos)

 
yunsub2 12 일 전

Me pareció que Daglo hace bien la separación de hablantes.

 
somang04 12 일 전

¡Oh! ¿Así es? ¿Esto es una plataforma? Estoy buscando algo que funcione con un LLM local o basado en API.

 
yunsub2 11 일 전

Sí, lamentablemente Daglo no ofrece un LLM local.
Parece que también ofrece una API, aunque es de pago. (https://developers.daglo.ai/guide/)