oTranscribe: herramienta gratuita y de código abierto para transcribir entrevistas de audio

(otranscribe.com)

2 puntos por GN⁺ 2024-08-10 | 3 comentarios | Compartir por WhatsApp

oTranscribe es una app web gratuita que reduce la incomodidad de tener que alternar entre un reproductor multimedia y un editor de documentos al transcribir entrevistas grabadas
Permite manejar la reproducción y la escritura en una sola pantalla, y controlar pausar, retroceder y adelantar solo con el teclado
Puedes insertar marcas de tiempo interactivas en la transcripción para saltar directamente a un momento específico, y el trabajo se guarda automáticamente cada segundo en el almacenamiento del navegador
Los archivos de audio y las transcripciones se procesan de forma privada, sin salir de tu computadora, y se pueden exportar a Markdown, texto plano y Google Docs
Soporta audio mp3/ogg/webm/wav y video mp4/ogg/webm, pero está pensado para un flujo de uso en computadoras de escritorio

Un flujo de transcripción completo en una sola pantalla

oTranscribe es una app web gratuita para transcribir entrevistas grabadas
Solo se puede usar en computadoras de escritorio
Para evitar alternar entre QuickTime y Word, integra la escritura de la transcripción y la reproducción multimedia en la misma pantalla
Permite controlar la reproducción y el formato con atajos de teclado
- ESC para reproducir/pausar
- Con el teclado, pausar, retroceder, adelantar y ajustar la velocidad
- Ctrl+J para insertar la marca de tiempo actual
- Ctrl+I para aplicar cursiva y Ctrl+B para aplicar negrita
Al hacer clic en una marca de tiempo interactiva dentro de la transcripción, puedes saltar a ese momento

Manejo de archivos, guardado y exportación

Los archivos de audio y las transcripciones se procesan de forma privada, sin salir de tu computadora
El trabajo se guarda automáticamente cada segundo en el almacenamiento del navegador
El historial de transcripción se guarda como copia cada 5 minutos, y se conservan hasta 100 respaldos
Puedes guardar manualmente en cualquier momento con Ctrl+S
Formatos soportados
- Audio: mp3, ogg, webm, wav
- Video: mp4, ogg, webm
- Los archivos de video se pueden reproducir en el reproductor integrado
- Cuenta con una función para ingresar URLs de videos de YouTube
Exportación
- Markdown .md
- Texto plano .txt
- Formato oTranscribe
- Google Docs
- oTranscribe es un proyecto open source con licencia MIT
- La ayuda está disponible en Help

3 comentarios

xguru 2024-08-11

¿Eh? Me preguntaba cómo era posible en el navegador... resulta que es una herramienta para escuchar y transcribir manualmente, sin IA. Hoy en día Whisper ya reconoce bien el coreano, así que no sé si realmente haya motivo para usar algo así..

znjadong 2024-08-14

Cuando hay muchas personas hablando, la pronunciación no es clara o la calidad de la grabación no es buena, puede ser difícil apoyarse en la IA. Y también hay bastantes casos en los que se necesita una calidad superior a que simplemente funcione "lo suficientemente bien".

GN⁺ 2024-08-10

Comentarios en Hacker News

Esta semana tuve que transcribir con separación de hablantes una entrevista con varias voces y probé https://github.com/MahmoudAshraf97/whisper-diarization; funcionó muy bien
Genera tanto un archivo con números de hablante para cada intervención continua como otro con marcas de tiempo que podrían servir para subtítulos
- Obtuve buenos resultados usando la API de diarización de Whisper hospedada llamada Spectropic [1] como plataforma
  Fue más barato y mucho más fácil y rápido que configurar y usar whisper-diarization en un M1. Audiogest [2] es un servicio web construido sobre Spectropic, aunque todavía no lo he probado
  No tengo relación con ellos, solo soy un cliente satisfecho, y después de reportar un bug tuve un intercambio de correos bastante bueno con quien parece ser el desarrollador independiente que creó estas herramientas
  [1] https://spectropic.ai/
  [2] https://audiogest.app/
- Suelo poner subtítulos con Whisper a películas extranjeras viejas y poco conocidas, o a videos cortos encontrados en canales extranjeros de Telegram/Twitter
  Combinado con un GPT para traducción funciona bastante bien
  Si tienes suficiente (V)RAM, también se puede hacer en local, pero como normalmente no me sobra, prefiero la API de OpenAI. Varios modelos de la familia Llama no alcanzan la calidad de GPT-4
  Si solo necesitas Whisper y no traducción, ejecutarlo en local es totalmente viable, y Whisper de alta calidad cabe en 4 GB de (V)RAM
- El problema de OpenAI Whisper es que en máquinas solo con CPU es demasiado lento
  Whisper.CPP es muy rápido en comparación con Whisper, así que ojalá alguien construya mejores funciones de diarización sobre eso
- whisper-dia a veces tiene problemas raros sin resolver, así que personalmente whisperX me funcionó mejor: https://github.com/m-bain/whisperX
- Es interesante ver cómo problemas de aprendizaje automático que tradicionalmente eran muy complejos y difíciles se están volviendo cada vez más como productos genéricos gracias a la IA
  Como la transcripción, la traducción automática, el OCR y el reconocimiento de imágenes
Puede ser un poco confuso, pero OTranscribe no es una herramienta automática de voz a texto, sino una UI que ayuda con la transcripción manual
Así que aquí no hay IA
- Correcto, es una herramienta diseñada para asistir la transcripción manual
¿Existe alguna app de código abierto/de pago/shareware/freeware que haga transcripción en tiempo real palabra por palabra durante la grabación, funcione totalmente en local y use modelos locales de código abierto relativamente modernos?
Ahora uso otter.ai para transcribir reuniones en tiempo real. Me gusta porque si me hacen una pregunta mientras estoy haciendo varias cosas a la vez, puedo revisar la transcripción de los últimos segundos y ponerme al día enseguida, pero no es perfecto, a veces la latencia del servicio de transcripción en vivo es bastante grande y además requiere conexión a internet
En cambio, la mayoría de las apps basadas en Whisper, y el código demo de whisper.cpp la última vez que revisé, requerían pasar toda la grabación de una vez. También hay otras que dependen del framework de dictado de Apple y similares, pero sus funciones hoy se sienten algo anticuadas
Me pregunto si alguien está usando algo así en la práctica
- Por otra necesidad, porque no oigo muy bien, construí yo mismo una solución local-first que hace transcripción en tiempo real palabra por palabra totalmente en local
  Es una herramienta que uso todos los días para transcribir reuniones, entrevistas, etc. Como todos los datos se quedan en mi máquina, no tengo que preocuparme por la privacidad al transcribir reuniones del trabajo
  Es tan rápida como Otter.ai, aunque claramente todavía hay margen de mejora en experiencia de usuario y velocidad. Eso sí, solo funciona en MacBook con Apple silicon
  Si te interesa, podemos hablar por correo (ver mi perfil de HN)
- En Android/GrapheneOS uso Transcribro[0]
  Es software libre y de código abierto, y funciona completamente en local. No hace tiempo real palabra por palabra, pero tampoco hay que esperar a subir todo el audio para empezar a trabajar. Lo uso en un Pixel 5a, así que tampoco requiere hardware impresionante
  Incluso funciona lo bastante bien como para usarlo para enviar mensajes por Telegram a una máquina Linux cuando no quiero escribir. Es un hack poco elegante, pero resuelve el problema
  Pasé varias horas buscando una alternativa nativa para Linux o intentando ejecutarlo en Waydroid, pero no encontré nada que funcionara igual de bien, así que decidí no dejar que lo “pulido” fuera enemigo de lo “suficientemente útil”
  [0] https://github.com/soupslurpr/Transcribro
- Los teléfonos Google Pixel tienen esta función y funciona muy bien
- Ayudé a programar oTranscribe+ [0], y hace algo parecido a lo que pides
  Es una app de escritorio hecha con ElectronJS y la versión de oTranscribe de ese momento, y también tiene versión web y PWA [1]
  En ese momento el modelo de lenguaje que usaba era uno del BSC (Barcelona Supercomputing Center), y la transcripción se hacía en WASM sobre Vosk [2]
  [0] https://github.com/projecte-aina/oTranscribe-plus
  [1] https://otranscribe.bsc.es/
  [2] https://github.com/alphacep/vosk-api
- Sí, es posible. La app de TestFlight de WhisperKit soporta las tres cosas en Apple Silicon: https://www.takeargmax.com/blog/whisperkit
  También estaría bien tener diarización, pero estoy esperando a que la agreguen a Whisper upstream: https://github.com/argmaxinc/WhisperKit/issues/31
Es un poco sorprendente que no tenga integración con IA
Si quieres resultados con calidad de publicación, incluso los resultados de IA siguen necesitando corrección y control de calidad. Hay que indicar quién habló y cuándo, o al menos hacer identificación de hablantes, algo que Whisper no puede hacer, o corregir apellidos poco comunes, etc.
Así que incluso para quienes usan IA hace falta una buena herramienta para ajustar/rematar/corregir, y eso probablemente se parecerá a una herramienta de transcripción no asistida
- Esta herramienta fue creada hace muchísimo tiempo por Elliot Bentley, antes periodista de WSJ Graphics y ahora en Datawrapper
  Ahora la mantiene Muckrock y no ha tenido cambios desde hace un buen tiempo
  Por eso no tiene integraciones de ese tipo. En ese entonces esa tecnología ni siquiera existía
Según el FAQ, a la pregunta “¿oTranscribe convierte automáticamente el audio a texto?” la respuesta es “No”
oTranscribe hace que el trabajo manual de transcribir audio sea mucho menos doloroso, pero la transcripción en sí la tienes que hacer tú
Actualmente uso la app gratuita de iOS de Aiko, que hace transcripción offline con el modelo Whisper de OpenAI
Hasta ahora me ha funcionado bastante bien, y puede exportar en formatos como SRT, TXT, CSV, JSON y texto con marcas de tiempo
https://sindresorhus.com/aiko
Si necesitas transcripciones de archivos de audio/video, también puedes probar mi servicio TurboScribe https://turboscribe.ai/ cuando quieras
Es 100% gratis hasta 3 archivos al día, con un límite de 30 minutos por archivo; los planes de pago son ilimitados y transcriben hasta 10 horas por archivo
También soporta reconocimiento de hablantes, formatos de exportación comunes (TXT, DOCX, PDF, SRT, CSV) y herramientas de IA para trabajar con transcripciones
- He obtenido buenos resultados con el plan de pago de TurboScribe, y me gusta que se ofrezca como servicio
  Normalmente lo uso para grabaciones de video de 2 a 3 horas con varios hablantes, y la herramienta de edición para limpiar todo antes de exportar es útil
- Se ve bien. Me pregunto si tiene API o si planean publicar una
Me dio curiosidad qué tan bien transcribe Gemini-1.5-Pro-Experiment-0801, que podría ser el mejor LLM multimodal del momento, así que probé transcribiendo 5 minutos de la entrevista que subieron hoy con Ezra Klein y Nancy Pelosi
El resultado está aquí: https://www.gally.net/temp/20240809geminitranscription/index...
Salvo detalles menores de puntuación y mayúsculas, la transcripción de Gemini parecía casi perfecta. Solo hubo una o dos palabras que parecían mal oídas, y si yo la hubiera transcrito a mano probablemente me habría equivocado más
En particular me llamó la atención este pasaje: “And then he comes up with "weird," which becomes viral and the rest, and here he is.”
¿Cómo hizo Gemini para poner comillas en “weird” y marcar correctamente que la persona estaba refiriéndose a la palabra que usó Walz? Según Politico, la primera vez que Walz usó esa palabra en ese contexto en los medios fue el 23 de julio
https://www.politico.com/news/2024/07/26/trump-vance-weird-0...
- Puede que haya habido dos factores detrás de ese resultado tan impresionante, incluyendo las comillas bien puestas: pistas auditivas y el hecho de que, sin comillas, la frase queda gramaticalmente rara y el sentido no encaja
  Es solo una suposición, pero es muy probable que un LLM u otro sistema de reconocimiento de voz use el contexto de la oración para reconocer palabras individuales y la puntuación, y esto parece ser un ejemplo de cuando eso encajó muy bien
  Los humanos también escuchamos de forma parecida. Con contexto puedes entender palabras incluso cuando alguien habla muy entre dientes o muy rápido
  Al final, escuchamos por frases y no por palabras
- Es muy probable que el modelo pueda captar pistas lingüísticas alrededor de las comillas
  Si tienes el archivo de audio o video, me gustaría ponerlo en nuestro editor de video con IA para ver cómo puntúa la transcripción
También hay una herramienta de transcripción que usa Whisper y WASM en el navegador para transcribir archivos de video/audio y obtener archivos .txt, .srt y .vtt
Tal vez después también pueda soportar Whisper Turbo
https://video2srt.ccextractor.org/
Por cierto, estoy trabajando en este proyecto
Uso esto mucho. Es bueno, simple y tiene justo las herramientas que hacen falta, o sea control de velocidad de reproducción y pausa/reproducción fácil, y nada más
Lo prefiero muchísimo más que las herramientas de transcripción automática que te generan 40 páginas de “eh”, “ah” y sonidos parecidos para luego tener que filtrar y editar todo de nuevo
- ¿No podrías meter la transcripción en un LLM para que elimine las muletillas como eh, ah?

oTranscribe: herramienta gratuita y de código abierto para transcribir entrevistas de audio

Un flujo de transcripción completo en una sola pantalla

Manejo de archivos, guardado y exportación

Formatos soportados

Exportación

Lecturas relacionadas

3 comentarios

Comentarios en Hacker News