WhisperFusion - Conversa con un chatbot de IA con poca latencia

xguru · 2024-01-31T10:03:01+09:00

Ofrece una conversación fluida con la IA al integrarse con Mistral LLM sobre la base de las funciones de WhisperLive y WhisperSpeech WhisperLive: implementa Whisper de OpenAI para funcionar casi en tiempo real y convertir voz a texto WhisperSpeech: sistema TTS construido invirtiendo Whisper Tanto el LLM como Whisper están optimizados para ejecutarse eficientemente con motores TensorRT, maximizando el rendimiento y las capacidades de procesamiento en tiempo real, y WhisperSpeech está optimizado con torch.compile

(github.com/collabora)

11 puntos por xguru 2024-01-31 | 3 comentarios | Compartir por WhatsApp

Ofrece una conversación fluida con la IA al integrarse con Mistral LLM sobre la base de las funciones de WhisperLive y WhisperSpeech
- WhisperLive: implementa Whisper de OpenAI para funcionar casi en tiempo real y convertir voz a texto
- WhisperSpeech: sistema TTS construido invirtiendo Whisper
Tanto el LLM como Whisper están optimizados para ejecutarse eficientemente con motores TensorRT, maximizando el rendimiento y las capacidades de procesamiento en tiempo real, y WhisperSpeech está optimizado con torch.compile

3 comentarios

kleinstein 2024-02-02

Estaría genial si hubiera traducción en tiempo real y fuera rápida.

xguru 2024-01-31

WhisperSpeech – sistema de síntesis de voz de código abierto construido a la inversa a partir de Whisper

xguru 2024-01-31

Opiniones de Hacker News

Dos funciones necesarias para que un escenario conversacional funcione bien:
- Función de interrupción: el LLM debe poder pausarse cuando el usuario diga "espera un momento".
- Responder a señales específicas: debe esperar ciertas señales, como "¿qué piensas tú?", y responder entonces.
- Además de estas dos funciones, la baja latencia es importante y debe sentirse como conversar con otra persona.
Expresa interés en proyectos como WhisperFusion, WhisperLive y WhisperSpeech, y tiene curiosidad por la latencia de cada sistema y por las cifras de WER (Word Error Rate) de WhisperLive. Menciona que parece faltar información importante sobre estos modelos.
Señala que el proyecto es excelente, pero que principalmente tiene problemas de empaquetado:
- Critica que muchas aplicaciones de Python están reimplementando la mitad de setuptools de una manera lenta y con errores.
- Cuestiona que TensorRT distribuya funcionalidad clave en el directorio de "ejemplos".
- Sobre huggingface_cli, menciona que ya existe una forma de descargar algo por nombre (como el índice de PyPI, etc.) y que podría ser mejor aplicar eso a los modelos.
Recuerda una discusión sobre el proyecto Vocode, menciona que hubo una conversación al respecto hace 10 meses y que probó el demo, lo cual le impresionó. Se pregunta si alguien lo está usando actualmente en desarrollo o en producción.
Un usuario imagina portar esta tecnología a una app dedicada que pueda reconocer lo que hay en pantalla y el texto, y brindar ayuda casi en tiempo real.
Tiene curiosidad sobre cómo usar bien Whisper para transcripción en streaming y presenta un proyecto con objetivos similares.
Pide un resumen de cómo la parte del LLM difiere de una configuración TGWUI+llama.cpp, o en qué se parece. En particular, cuestiona que la "latencia ultrabaja" no se esté logrando en el hardware del usuario.
El usuario pregunta si el proyecto corre completamente en local o si necesita acceso por API al sistema remoto de OpenAI. Comenta que está construyendo TTS y STT con OpenAI, pero que no quiere estar enviando constantemente streams de audio a OpenAI solo para esperar un único comando.
Opina que esto es lo que Siri y Alexa debieron haber sido, y espera ver más tecnologías de este tipo en los próximos años. Menciona que, si corre en local y no deja un registro permanente, también se resolvería el problema de escuchar en segundo plano.
Menciona que usa TensorRT y tiene curiosidad sobre qué GPU son compatibles y si puede ejecutarse en Jetson.

WhisperFusion - Conversa con un chatbot de IA con poca latencia

Lecturas relacionadas

3 comentarios

Opiniones de Hacker News