Omni SenseVoice - reconocimiento de voz rápido con marcas de tiempo por palabra

xguru · 2024-11-10T09:31:01+09:00

Basado en SenseVoice, un modelo multilingüe de comprensión de voz con funciones como reconocimiento automático de voz (ASR), identificación de idioma hablado (LID), reconocimiento de emociones en la voz (SER) y detección de eventos de audio (AED) Está optimizado para inferencia ultrarrápida y marcas de tiempo precisas, por lo que puede procesar transcripciones de audio de forma más inteligente y rápida Opciones principales --language: detectar/especificar automáticamente el idioma (auto, zh, en, yue, ja, ko) --textnorm: elegir si se aplica la normalización inversa de texto (withitn para normalizado inverso, woitn para texto sin procesar) --device-id: ejecutar en una GPU específica (valor predeterminado: -1 para CPU) --quantize: usar un modelo cuantizado para un procesamiento más rápido

Basado en SenseVoice, un modelo multilingüe de comprensión de voz con funciones como reconocimiento automático de voz (ASR), identificación de idioma hablado (LID), reconocimiento de emociones en la voz (SER) y detección de eventos de audio (AED)
Está optimizado para inferencia ultrarrápida y marcas de tiempo precisas, por lo que puede procesar transcripciones de audio de forma más inteligente y rápida
Opciones principales
- --language: detectar/especificar automáticamente el idioma (auto, zh, en, yue, ja, ko)
- --textnorm: elegir si se aplica la normalización inversa de texto (withitn para normalizado inverso, woitn para texto sin procesar)
- --device-id: ejecutar en una GPU específica (valor predeterminado: -1 para CPU)
- --quantize: usar un modelo cuantizado para un procesamiento más rápido

Omni SenseVoice - reconocimiento de voz rápido con marcas de tiempo por palabra

Lecturas relacionadas

1 comentarios