2 puntos por GN⁺ 2024-09-20 | 1 comentarios | Compartir por WhatsApp
  • Modelo de interacción de voz de extremo a extremo, de alta calidad y con baja latencia
  • Construido sobre Llama-3.1-8B-Instruct, con el objetivo de alcanzar capacidades de voz a nivel de GPT-4o
  • Baja latencia de 226 ms
  • Genera respuestas de texto y voz al mismo tiempo

Resumen de GN⁺

  • LLaMA-Omni es un modelo de voz-lenguaje basado en Llama-3.1-8B-Instruct que ofrece interacción de voz de baja latencia y alta calidad
  • Puede generar respuestas de texto y voz simultáneamente, lo que lo hace útil en diversos campos de aplicación
  • Su entrenamiento se completa en menos de 3 días con 4 GPU, por lo que es eficiente
  • Se puede interactuar fácilmente con él mediante una demo de Gradio, y también permite inferencia local
  • Entre los proyectos con funciones similares están Whisper de OpenAI y Speech-to-Text API de Google

1 comentarios

 
GN⁺ 2024-09-20
Opiniones en Hacker News
  • Pregunta sobre si puede reproducir sonidos que no se pueden expresar con texto
  • Duda sobre las ventajas o el potencial de este modelo frente a un modelo puramente de texto
    • Expectativa de que, a medida que el modelo mejore, pueda interpretar o generar correctamente la entonación, el ritmo y las emociones que se pierden en TTS
  • Pregunta sobre si no es simplemente STT -> LLM -> TTS
    • Duda sobre si, al ingresar un sonido de Chewbacca, el modelo lo reconocerá como un sonido sin sentido o si lo interpretará como palabras aleatorias mediante un STT deficiente
  • Pregunta sobre si operadores de modelos como Ollama, LM Studio y llama.cpp lo soportan
  • La voz TTS del clip de demostración se parece mucho a la actriz de voz de Valve, Ellen McLain
  • La velocidad es muy buena
    • Recientemente configuré LMStudio + AnythingLLM para intentar chat de voz local, pero sigue siendo más lento de lo que quisiera
    • La voz de PiperTTS es mejor
  • El ajuste fino de voz parece ser un requisito importante para uso comercial
    • Ojalá hubiera código de entrenamiento o de ajuste fino
  • Duda sobre si no es posible hacer ajuste fino adicional
  • Pregunta sobre si hay una demo que muestre el rendimiento
  • Duda sobre si la presencia de un gráfico de historial de estrellas en el repositorio de GitHub hace que se perciba como menos confiable