1 puntos por GN⁺ 2024-06-28 | 1 comentarios | Compartir por WhatsApp

Demo del bot de voz más rápido del mundo

Introducción a la demo

  • Importancia de la velocidad: En las interfaces de IA por voz, la velocidad es muy importante. Las personas esperan respuestas rápidas en una conversación normal.
  • Objetivo: Esta demo muestra interacciones de LLM de baja latencia con el objetivo de lograr tiempos de respuesta por voz de 500 ms o menos.
  • Tecnología: Este bot fue construido usando Pipecat, un framework de código abierto.

Probar la demo

  • Probar la demo: Puedes probar la demo directamente.
  • Ver el código fuente: Puedes revisar el código fuente.
  • Implementarlo por tu cuenta: Se ofrece una opción para desplegarlo en tu propio entorno.

Opinión de GN⁺

  • Importancia de la velocidad: Las respuestas rápidas en interfaces de voz mejoran mucho la experiencia del usuario.
  • Ventajas del código abierto: Los frameworks de código abierto como Pipecat son útiles porque permiten a los desarrolladores acceder y modificarlos fácilmente.
  • Aspectos a considerar al adoptar tecnología: Al incorporar una nueva tecnología, hay que considerar la compatibilidad con los sistemas existentes, los costos de mantenimiento y otros factores.
  • Proyectos similares: También existen otras soluciones de IA por voz como Dialogflow de Google o Lex de Amazon.

1 comentarios

 
GN⁺ 2024-06-28
Opiniones de Hacker News
  • Velocidad: en la IA de atención al cliente redujeron el tiempo de respuesta a unos pocos segundos. La velocidad le gana a todo.
  • Inferencia de voz: implementaron Websocket Faster Whisper antes del lanzamiento de gpt4o de OpenAI. Usan push-to-talk por problemas de confiabilidad con VAD.
  • VAD multiplataforma: presentan un módulo VAD para navegador multiplataforma al portar la red VAD de Silero a ONNX. También funciona en Firefox.
  • TTS en navegador: el motor de texto a voz del navegador cada vez es más rápido y mejora en calidad. GPT-4o integra en un solo modelo el reconocimiento automático de voz, la comprensión y la generación de respuestas para lograr baja latencia.
  • Potencial de la app: parece ser una app teaser de Cerebrium. Al probarla en iPad, la latencia varió entre 1400 ms y 400 ms.
  • Experiencia conversacional: las respuestas rápidas mejoran la experiencia conversacional. Mantienen un contexto corto para lograr tiempos de respuesta breves.
  • Whisper-dictation: usan Whisper-dictation junto con llama-70b. Terminan de hablar mientras carga el sitio web.
  • Conversación natural: el ajuste de VAD e interrupciones se siente muy natural. Es la experiencia de conversación más natural.
  • Compartir: animan a otras personas a compartir sus soluciones. Planea revisar varios métodos de implementación durante el fin de semana.
  • Marketing y matemáticas: señalan que en marketing dicen 500, pero matemáticamente sería 759.
  • Interfaz rápida: la interfaz es muy rápida y casi indistinguible de un humano. Elogios para Cerebrium.ai.