11 puntos por xguru 2024-01-31 | 3 comentarios | Compartir por WhatsApp
  • Ofrece una conversación fluida con la IA al integrarse con Mistral LLM sobre la base de las funciones de WhisperLive y WhisperSpeech
    • WhisperLive: implementa Whisper de OpenAI para funcionar casi en tiempo real y convertir voz a texto
    • WhisperSpeech: sistema TTS construido invirtiendo Whisper
  • Tanto el LLM como Whisper están optimizados para ejecutarse eficientemente con motores TensorRT, maximizando el rendimiento y las capacidades de procesamiento en tiempo real, y WhisperSpeech está optimizado con torch.compile

3 comentarios

 
kleinstein 2024-02-02

Estaría genial si hubiera traducción en tiempo real y fuera rápida.

 
xguru 2024-01-31

Opiniones de Hacker News

  • Dos funciones necesarias para que un escenario conversacional funcione bien:
    • Función de interrupción: el LLM debe poder pausarse cuando el usuario diga "espera un momento".
    • Responder a señales específicas: debe esperar ciertas señales, como "¿qué piensas tú?", y responder entonces.
    • Además de estas dos funciones, la baja latencia es importante y debe sentirse como conversar con otra persona.
  • Expresa interés en proyectos como WhisperFusion, WhisperLive y WhisperSpeech, y tiene curiosidad por la latencia de cada sistema y por las cifras de WER (Word Error Rate) de WhisperLive. Menciona que parece faltar información importante sobre estos modelos.
  • Señala que el proyecto es excelente, pero que principalmente tiene problemas de empaquetado:
    • Critica que muchas aplicaciones de Python están reimplementando la mitad de setuptools de una manera lenta y con errores.
    • Cuestiona que TensorRT distribuya funcionalidad clave en el directorio de "ejemplos".
    • Sobre huggingface_cli, menciona que ya existe una forma de descargar algo por nombre (como el índice de PyPI, etc.) y que podría ser mejor aplicar eso a los modelos.
  • Recuerda una discusión sobre el proyecto Vocode, menciona que hubo una conversación al respecto hace 10 meses y que probó el demo, lo cual le impresionó. Se pregunta si alguien lo está usando actualmente en desarrollo o en producción.
  • Un usuario imagina portar esta tecnología a una app dedicada que pueda reconocer lo que hay en pantalla y el texto, y brindar ayuda casi en tiempo real.
  • Tiene curiosidad sobre cómo usar bien Whisper para transcripción en streaming y presenta un proyecto con objetivos similares.
  • Pide un resumen de cómo la parte del LLM difiere de una configuración TGWUI+llama.cpp, o en qué se parece. En particular, cuestiona que la "latencia ultrabaja" no se esté logrando en el hardware del usuario.
  • El usuario pregunta si el proyecto corre completamente en local o si necesita acceso por API al sistema remoto de OpenAI. Comenta que está construyendo TTS y STT con OpenAI, pero que no quiere estar enviando constantemente streams de audio a OpenAI solo para esperar un único comando.
  • Opina que esto es lo que Siri y Alexa debieron haber sido, y espera ver más tecnologías de este tipo en los próximos años. Menciona que, si corre en local y no deja un registro permanente, también se resolvería el problema de escuchar en segundo plano.
  • Menciona que usa TensorRT y tiene curiosidad sobre qué GPU son compatibles y si puede ejecutarse en Jetson.