31 puntos por GN⁺ 2025-08-14 | Aún no hay comentarios. | Compartir por WhatsApp
  • La versión 8.0 de FFmpeg agrega oficialmente soporte para el modelo de reconocimiento de voz Whisper
  • Whisper es un modelo de reconocimiento de voz de código abierto desarrollado por OpenAI, usado para convertir automáticamente voz en texto en varios idiomas
  • Con la incorporación de esta función, aumenta la posibilidad de automatizar directamente flujos de trabajo de conversión de voz a texto en tareas de procesamiento de video y audio
  • Para desarrolladores y el campo de la automatización de medios, se refuerzan considerablemente la utilidad y eficiencia de FFmpeg
  • Al integrar funciones modernas de reconocimiento de voz, se reduce la carga de depender de herramientas externas adicionales o de procesos de integración complejos

Resumen del soporte de Whisper en FFmpeg 8.0

  • La versión 8.0 de FFmpeg ofrece la capacidad de convertir automáticamente datos de voz en texto en varios idiomas al agregar soporte para el modelo de reconocimiento de voz Whisper
  • Whisper utiliza un algoritmo basado en aprendizaje profundo creado por OpenAI, lo que garantiza un rendimiento de conversión de voz a texto con alta precisión
  • Los usuarios actuales de FFmpeg obtienen la comodidad de poder generar subtítulos o extraer el contenido hablado de archivos de video y audio mediante la función integrada de soporte para Whisper, sin pasar por herramientas externas

Principales ventajas de la integración de Whisper

  • Gracias a la integración de Whisper, es posible implementar flujos de trabajo de reconocimiento de voz eficientes y altamente escalables dentro de pipelines de procesamiento y automatización de medios basados en FFmpeg
  • Al estar integrado el algoritmo de reconocimiento de voz, los desarrolladores tienen la ventaja de obtener resultados de transcripción de voz a texto con comandos simples sin la carga de realizar integraciones adicionales complejas ni escribir scripts por separado

Importancia industrial de la combinación FFmpeg y Whisper

  • En áreas como la gestión de grandes activos multimedia, la generación de subtítulos y el archivado de datos de video, la combinación FFmpeg + Whisper tiene la fortaleza de lograr al mismo tiempo eficiencia de costos y automatización
  • Antes era necesario integrar una herramienta de reconocimiento de voz de código abierto por separado con FFmpeg, pero ahora se espera simplificar el flujo de trabajo y mejorar la velocidad de procesamiento al hacerlo directamente dentro de FFmpeg

Detalles técnicos

  • Se agregó a FFmpeg un filtro de audio basado en la biblioteca Whisper.cpp para realizar reconocimiento automático de voz (ASR) directamente dentro de FFmpeg
  • Puede activarse con la opción --enable-whisper, y es obligatorio especificar la ruta del modelo (model)
  • Opciones principales: configuración de idioma (language), uso de GPU (use_gpu), tamaño de cola (queue), formato de salida (format: text/srt/json), modelo y umbral de VAD (detección de actividad de voz), entre otras
    • Si el valor de queue es pequeño, mejora la capacidad en tiempo real pero baja la precisión y aumenta la carga de CPU; si es grande, sube la precisión pero aumenta la latencia
    • Con la opción destination es posible guardar los resultados en un archivo de salida, una URL o metadatos, y también se admite el protocolo AVIO
  • Se incluyen escenarios de ejemplo como generación de subtítulos SRT, envío HTTP en formato JSON y transcripción en tiempo real desde micrófono (usando VAD)
    • Ejemplo de generación de archivo de subtítulos SRT
      ffmpeg -i input.mp4 -vn \  
      -af "whisper=model=../whisper.cpp/models/ggml-base.en.bin:language=en:queue=3:destination=output.srt:format=srt" \  
      -f null -  
      

Aún no hay comentarios.

Aún no hay comentarios.