- Basado en SenseVoice, un modelo multilingüe de comprensión de voz con funciones como reconocimiento automático de voz (ASR), identificación de idioma hablado (LID), reconocimiento de emociones en la voz (SER) y detección de eventos de audio (AED)
- Está optimizado para inferencia ultrarrápida y marcas de tiempo precisas, por lo que puede procesar transcripciones de audio de forma más inteligente y rápida
- Opciones principales
--language: detectar/especificar automáticamente el idioma (auto, zh, en, yue, ja, ko)
--textnorm: elegir si se aplica la normalización inversa de texto (withitn para normalizado inverso, woitn para texto sin procesar)
--device-id: ejecutar en una GPU específica (valor predeterminado: -1 para CPU)
--quantize: usar un modelo cuantizado para un procesamiento más rápido
1 comentarios
Como el coreano está entre las opciones, me gustaría probarlo jaja