2 puntos por GN⁺ 2024-08-10 | 3 comentarios | Compartir por WhatsApp
  • "Web app" gratuita que permite transcribir fácilmente entrevistas grabadas
  • Funciones principales
    • No hace falta alternar entre el reproductor de video y el editor de documentos. Todo se procesa directamente en el navegador
    • Permite pausar, rebobinar y adelantar rápido sin quitar las manos del teclado
    • Se puede navegar fácilmente por la transcripción con marcas de tiempo interactivas
    • Guardado automático en el almacenamiento del navegador cada segundo
    • Privacidad: el archivo de audio y la transcripción no salen de tu computadora
    • Permite exportar a Markdown, texto plano y Google Docs
    • Soporte para archivos de video mediante un reproductor integrado
    • Código abierto bajo licencia MIT

Resumen de GN⁺

  • oTranscribe es una web app gratuita que simplifica el proceso de transcribir grabaciones de entrevistas
  • El usuario puede controlar el audio sin quitar las manos del teclado, y la transcripción se guarda automáticamente cada segundo
  • La app prioriza la privacidad, ya que el archivo de audio y la transcripción no salen de la computadora
  • Ofrece exportación a Markdown, texto plano y Google Docs, lo que permite aprovechar la transcripción en varios formatos
  • Otros proyectos con funciones similares incluyen Express Scribe y TranscribeMe

3 comentarios

 
xguru 2024-08-11

¿Eh? Me preguntaba cómo era posible en el navegador... resulta que es una herramienta para escuchar y transcribir manualmente, sin IA. Hoy en día Whisper ya reconoce bien el coreano, así que no sé si realmente haya motivo para usar algo así..

 
znjadong 2024-08-14

Cuando hay muchas personas hablando, la pronunciación no es clara o la calidad de la grabación no es buena, puede ser difícil apoyarse en la IA. Y también hay bastantes casos en los que se necesita una calidad superior a que simplemente funcione "lo suficientemente bien".

 
GN⁺ 2024-08-10
Comentarios de Hacker News
  • Transcribió la entrevista usando Whisper-diarization de MahmoudAshraf97

    • Genera archivos separando las intervenciones de varios hablantes por número de hablante
    • También genera archivos con marcas de tiempo que pueden usarse como subtítulos
  • OTranscribe no es una herramienta de reconocimiento automático de voz, sino una UI que ayuda con la transcripción manual

  • Está buscando una app que haga transcripción en tiempo real palabra por palabra, funcione localmente y pueda usar modelos open source modernos

    • Usa otter.ai, pero requiere conexión a internet y tiene problemas de retraso en la transcripción
    • Las apps basadas en Whisper tienen que procesar toda la grabación de una sola vez
    • El framework de reconocimiento de voz de Apple todavía se siente algo limitado en sus funciones
  • Sorprende que no haya integración con IA

    • Incluso los resultados de IA necesitan revisión y QA para alcanzar calidad de publicación
    • Hace falta identificar hablantes, corregir apellidos poco comunes y realizar otras tareas
  • oTranscribe no convierte automáticamente el audio a texto

    • Es una herramienta para hacer menos dolorosa la transcripción manual
  • Recomiendan el servicio TurboScribe

    • Transcripción gratis de hasta 3 archivos por día (30 minutos por archivo)
    • El plan de pago permite transcribir hasta 10 horas por archivo
    • Soporta identificación de hablantes, varios formatos de exportación e incluye herramientas de IA
  • Hizo una prueba de transcripción de entrevistas usando Gemini-1.5-Pro-Experiment-0801

    • El resultado fue casi perfecto
    • Le impresionó que marcara ciertas palabras entre comillas
  • Está usando la app gratuita de iOS de Aiko

    • Usa el modelo Whisper de OpenAI
    • Permite exportar en formatos como SRT, TXT, CSV y JSON
  • Está desarrollando una app open source para macOS usando Whisper y pyannote

    • Tiene funcionalidad, pero es lenta
    • Está teniendo dificultades para convertir Pyannote a CoreML
    • Las contribuciones son bienvenidas
  • Está desarrollando una herramienta con IA incluida

    • Descarga desde YouTube, transcribe con Vosk y separa hablantes con pyannote
    • Guarda las transcripciones en un motor de búsqueda, falta implementar la web app
    • Espera colaborar con alguien