13 puntos por xguru 2024-11-10 | 1 comentarios | Compartir por WhatsApp
  • Basado en SenseVoice, un modelo multilingüe de comprensión de voz con funciones como reconocimiento automático de voz (ASR), identificación de idioma hablado (LID), reconocimiento de emociones en la voz (SER) y detección de eventos de audio (AED)
  • Está optimizado para inferencia ultrarrápida y marcas de tiempo precisas, por lo que puede procesar transcripciones de audio de forma más inteligente y rápida
  • Opciones principales
    • --language: detectar/especificar automáticamente el idioma (auto, zh, en, yue, ja, ko)
    • --textnorm: elegir si se aplica la normalización inversa de texto (withitn para normalizado inverso, woitn para texto sin procesar)
    • --device-id: ejecutar en una GPU específica (valor predeterminado: -1 para CPU)
    • --quantize: usar un modelo cuantizado para un procesamiento más rápido

1 comentarios

 
yangeok 2024-11-12

Como el coreano está entre las opciones, me gustaría probarlo jaja