1 puntos por somang04 4 시간 전 | Aún no hay comentarios. | Compartir por WhatsApp

No sé si esto encaja en ASK GN..! Pero como no parece noticia ni Show, lo publico aquí.

Estoy armándolo basándome en las opiniones que me dieron la vez pasada.
Casualmente, un amigo del área de negocio con quien trabajo también tenía una idea así, así que dos no desarrolladores estamos batallando para sacar un MVP.
(Tanto Claude Code 5X como los costos de API los estamos pagando de nuestro bolsillo... mi amigo del área de negocio está poniendo alcohol y comida... jaja)

Como lo estamos haciendo en torno a contenidos como dramas, programas de variedades y películas, los modelos que se pueden usar son limitados.
Así que, después de buscar y buscar, estamos usando Whisper (Open AI API), Pyannote y Assembly AI.

Se acabó el período gratuito de pyannote y habría que pagar, pero como no cobra por uso sino por suscripción ($19/month), lo dejamos pasar,
y estamos probando con Deepgram Nova-3. (Te dan $200 al registrarte.)

Pero... claro, al no usar pyannote la separación de hablantes se complica, así que en replicate.com estamos usando meronym/speaker-diarization para separar hablantes.

Viendo el resultado final, de todos modos la separación de hablantes sale más o menos bien.
Pienso compararlo con Clova, y también les compartiré el resultado de esa comparación.

Ahora, a partir de aquí, las siguientes dudas son:

  1. La separación de hablantes se hace con base en audio, pero si además le agrego reconocimiento facial, ¿podría volverse más precisa?
  2. ¿Cómo debería recopilar los metadatos necesarios para el reconocimiento facial?
  3. Si se toma como base contenido como dramas/películas/programas de variedades, ¿de dónde saco los metadatos? (Naver, NamuWiki, etc.)
  4. ¿Recopilar metadatos mejorará la calidad lo suficiente como para justificar el costo y el tiempo?

Si hay personas con más experiencia que hayan pasado por este tipo de dilema, agradecería muchísimo sus consejos...!!!

Aún no hay comentarios.

Aún no hay comentarios.