WaaS - Whisper como servicio
(github.com/schibsted)- GUI y API de código abierto para usar fácilmente OpenAI Whisper (modelo de reconocimiento de voz) en un entorno local
- Ofrece funciones como
transcribe/detect/downloadmediante una API REST - Es posible iniciar el trabajo subiendo archivos de audio/video desde la página web
- Se ejecuta y utiliza con
docker-compose(pone en marcha 3 contenedores Docker, comoredis/api/worker) - El modelo mínimo,
tiny, requiere aproximadamente 1 GB de VRAM (el máximo,large, 10 GB)
1 comentarios
Whisper - sistema de reconocimiento de voz multilingüe (ASR) que OpenAI publicó como código abierto
OpenAI publica el modelo Whisper v2