Hace un tiempo publiqué una pregunta sobre multihablantes en coreano. ¡Actualización del progreso desde entonces!

3 puntos por somang04 2026-05-28 | 5 comentarios | Compartir por WhatsApp

No sé si esto encaja en ASK GN..! Pero como no parece noticia ni Show, lo publico aquí.

Estoy armándolo basándome en las opiniones que me dieron la vez pasada.
Casualmente, un amigo del área de negocio con quien trabajo también tenía una idea así, así que dos no desarrolladores estamos batallando para sacar un MVP.
(Tanto Claude Code 5X como los costos de API los estamos pagando de nuestro bolsillo... mi amigo del área de negocio está poniendo alcohol y comida... jaja)

Como lo estamos haciendo en torno a contenidos como dramas, programas de variedades y películas, los modelos que se pueden usar son limitados.
Así que, después de buscar y buscar, estamos usando Whisper (Open AI API), Pyannote y Assembly AI.

Se acabó el período gratuito de pyannote y habría que pagar, pero como no cobra por uso sino por suscripción ($19/month), lo dejamos pasar,
y estamos probando con Deepgram Nova-3. (Te dan $200 al registrarte.)

Pero... claro, al no usar pyannote la separación de hablantes se complica, así que en replicate.com estamos usando meronym/speaker-diarization para separar hablantes.

Viendo el resultado final, de todos modos la separación de hablantes sale más o menos bien.
Pienso compararlo con Clova, y también les compartiré el resultado de esa comparación.

Ahora, a partir de aquí, las siguientes dudas son:

La separación de hablantes se hace con base en audio, pero si además le agrego reconocimiento facial, ¿podría volverse más precisa?
¿Cómo debería recopilar los metadatos necesarios para el reconocimiento facial?
Si se toma como base contenido como dramas/películas/programas de variedades, ¿de dónde saco los metadatos? (Naver, NamuWiki, etc.)
¿Recopilar metadatos mejorará la calidad lo suficiente como para justificar el costo y el tiempo?

Si hay personas con más experiencia que hayan pasado por este tipo de dilema, agradecería muchísimo sus consejos...!!!

5 comentarios

boradi 2026-05-29

He investigado antes sobre separación de hablantes, así que les comparto lo que sé.

Sí, se vuelve más preciso. Pero técnicamente probablemente tendrá cierta dificultad. Porque implica poder hacer match incluso entre los cambios en el movimiento de la boca y la sincronización del audio. Hay muchos proyectos open source relacionados, como TalkNet-ASD o 3D-Speaker-Toolkit, así que también pueden tomarlos como referencia. Además, recientemente también hay investigaciones como SpeakerLM, que se combinan con LLM para recibir imágenes y video como input y así poder hacer al mismo tiempo separación de hablantes y generación de subtítulos.
Como no conozco bien el contexto del negocio que está haciendo quien escribió el post, solo puedo responder con base en la información que está escrita. En contenidos como dramas, películas o programas de variedades, las caras que aparecen pueden extraerse de forma muy distinta incluso si es la misma persona, dependiendo del maquillaje o la situación, así que tendrían que extraer todos los rostros de los personajes que aparecen en cada contenido, hacer clustering por rostro y luego emparejarlos uno a uno con el elenco de ese contenido. Esto también podría hacerse con un modelo multimodal, pero para lograr buena precisión hace falta trabajo de etiquetado humano, y por eso consume mucho costo y tiempo. Esa también es una de las razones por las que se contrata gente pagada para hacerlo. Como referencia, incluso cuando solo hay voz, si se separan esos datos de audio por adelantado y una persona los etiqueta para generar embeddings, la calidad de la separación de hablantes mejora bastante.
Para la base de datos de este tipo de contenidos existen muchas APIs relacionadas, como tmdb, imdb o kmdb, así que cualquiera puede obtener hasta cierto punto esos datos, ya sea gratis o pagando. Convertir eso en una base de datos ya sí tendrían que hacerlo ustedes mismos. El crawling también puede ser una opción.
No sé exactamente qué quieren hacer, pero lo que mencioné arriba suena fácil al decirlo; en la práctica, son tareas que requieren mucho tiempo y costo para mejorar realmente la precisión. Las investigaciones que yo hice también se alargaron bastante por varias razones. Lograr una precisión de 80~90% es fácil, pero es algo que cualquiera puede hacer. Por eso, llenar el detalle de ese 10% restante es justamente la esencia de llevarlo a negocio y su valor central. Si me preguntan "¿mejora la calidad?", claro que mejora. Pero si preguntan "¿mejora en proporción al costo y al tiempo?", eso ya no lo sé. Como dije, es una mejora de alrededor de 10%.

De todos modos, que personas no desarrolladoras se animen a este tipo de desafíos es algo admirable y muy padre. Ojalá les salga bien.

somang04 2026-05-29

¡¡Gracias!! Definitivamente, la automatización tiene sus límites, y para el etiquetado y el mapeo sí o sí hay que meter trabajo humano..

Entonces tendré que reclutar a un esclavo más.. ¡¡Me ayudó muchísimo!!

¡¡Gracias!!

hmmhmmhm 2026-05-29

diarization está bastante bien, pero hay algunas partes que se quedan cortas, así que si uno quiere profundizar más entre los modelos públicos disponibles, parece que termina metiéndose de lleno en el área de investigación, como dice el comentario de abajo.

somang04 2026-05-29

Estoy avanzando a puro ensayo y error... jaja, al final como no sé, simplemente me pongo a hacerlo.
Como dijo la persona de abajo, hay que meter trabajo manual, así que ando buscando reclutar a un esclavo 1... jaja

hmmhmmhm 2026-05-29

Oh... es genial que te animes a intentarlo... ¡yo también me llevo esa energía!! ¡¡¡Ánimo!!!

Hace un tiempo publiqué una pregunta sobre multihablantes en coreano. ¡Actualización del progreso desde entonces!

Lecturas relacionadas

5 comentarios