- Modelo de interacción de voz de extremo a extremo, de alta calidad y con baja latencia
- Construido sobre Llama-3.1-8B-Instruct, con el objetivo de alcanzar capacidades de voz a nivel de GPT-4o
- Baja latencia de 226 ms
- Genera respuestas de texto y voz al mismo tiempo
Resumen de GN⁺
- LLaMA-Omni es un modelo de voz-lenguaje basado en Llama-3.1-8B-Instruct que ofrece interacción de voz de baja latencia y alta calidad
- Puede generar respuestas de texto y voz simultáneamente, lo que lo hace útil en diversos campos de aplicación
- Su entrenamiento se completa en menos de 3 días con 4 GPU, por lo que es eficiente
- Se puede interactuar fácilmente con él mediante una demo de Gradio, y también permite inferencia local
- Entre los proyectos con funciones similares están Whisper de OpenAI y Speech-to-Text API de Google
1 comentarios
Opiniones en Hacker News
STT -> LLM -> TTS