2 puntos por GN⁺ 2024-10-02 | 1 comentarios | Compartir por WhatsApp
  • Hassaan y Quinn, cofundadores de Tavus, presentan su empresa de investigación en IA y plataforma de desarrollo de API de video
  • Desde 2020 han desarrollado modelos de video con IA para "gemelos digitales" o "avatares"
  • Comparten los desafíos de construir una interfaz de video con IA para conversaciones realistas con humanos

Desafíos

  • Para que el video conversacional sea efectivo, necesita una latencia muy baja y comprensión de la conversación
  • Las conversaciones rápidas entre amigos suelen tener unos 250 ms entre intervenciones, pero los temas complejos o las conversaciones con personas nuevas requieren tiempo adicional para "pensar"
  • Una latencia de menos de 1000 ms hace que la conversación se sienta realista

Decisiones de arquitectura

  • Equilibrar latencia, escalabilidad y costo fue un gran desafío
  • Tuvieron que construir desde cero para reducir la latencia
  • También debían reducir los costos de cómputo mientras soportaban miles de conversaciones al mismo tiempo

Desarrollo inicial

  • En la etapa inicial de desarrollo, cada conversación tenía que ejecutarse en una H100 dedicada
  • Eso no escalaba y resultaba muy costoso

Desarrollo del modelo Phoenix-2

  • Desarrollaron un nuevo modelo, Phoenix-2, con varias mejoras
  • Cambiaron de una base NeRF a Gaussian Splatting, lo que permitió generar cuadros más rápido que en tiempo real
  • Optimizaron el uso de memoria y de núcleos de GPU para que pudiera ejecutarse incluso en hardware de gama baja
  • También usaron otros métodos para ahorrar tiempo y costo, como streaming vs batching y paralelización de procesos

Optimización

  • Tuvieron que optimizar cada componente (visión, ASR, LLM, TTS, generación de video) para que fuera ultrarrápido
  • El mayor problema fue el LLM
  • Incluso si los tokens por segundo (t/s) eran rápidos, seguía siendo un problema si el tiempo hasta el primer token (ttft) era lento
  • La mayoría de los proveedores eran demasiado lentos

Detección del fin de turno de habla

  • Detectar el final de una intervención fue difícil
  • La solución básica usa el tiempo de silencio para "decidir" que una persona terminó de hablar, pero eso añade latencia
  • Era importante acertar con el momento adecuado para que el agente de IA no interrumpiera al usuario

Resultados

  • Con estas optimizaciones, lograron reducir la latencia de 3-5 segundos a menos de 1 segundo (hasta 600 ms)
  • Alcanzaron una latencia inferior a 1 segundo incluso en hardware de gama baja
  • Tienen varios clientes, como Delphi, y las conversaciones con gemelos digitales duran desde unos minutos hasta 4 horas

Resumen de GN⁺

  • El modelo de video con IA de Tavus busca conversaciones naturales con humanos
  • Reconstruyeron y optimizaron la arquitectura para reducir la latencia
  • El modelo Phoenix-2 puede generar cuadros más rápido que en tiempo real incluso en hardware de gama baja
  • Esta tecnología podría convertirse en un elemento importante de la interfaz humano-computadora
  • Otro proyecto con capacidades similares es Duplex de Google

1 comentarios

 
GN⁺ 2024-10-02
Opiniones de Hacker News
  • Me gusta el sitio web y el sonido de dial-up, el sombrero vaquero también está bueno
  • La experiencia de chat entre los dos avatares no es buena, se corta seguido y resulta confusa
  • El reconocimiento de imágenes es bueno, pudo reconocer objetos cuando el avatar respondía lentamente
  • Gracias por compartir las dificultades concretas, va a mejorar más adelante
  • La versión de Hassan fue mejor, reconoció el fondo y habló sobre la maqueta en la pared
    • Habló sobre el set de LEGO
  • En el baño, la cámara estaba apuntando a una toalla y dijo: "Qué baño tan acogedor"
  • Se sintió como hablar con una persona real, no pude tratarlo como si fuera código
    • Me hizo pensar en el esfuerzo consciente que implica hablar con personas
    • Al buscar en Google, solo uso las palabras clave mínimas
    • Me preocupa que esta tecnología entrene a la gente a comportarse de forma parecida
  • Si te interesa la IA multimodal de baja latencia, Tavus está patrocinando un hackatón en SF el 19 y 20 de octubre
    • También hay una modalidad remota
  • Funcionalidad de la demo: 9.5/10
    • Escalofriante: 10/10
  • No tengo experiencia con despliegues en GPU, pero parece costoso y difícil conseguir capacidad
    • Me pregunto cómo manejan recursos de GPU en la nube a gran escala
    • Si asignan una GPU por cada conexión de WebSocket, entonces debe salir muy caro
  • Técnicamente es muy impresionante, el avatar Carter parece estar nervioso
    • Hay algo raro con la boca y los dientes, pero responde rápido
    • He visto más latencia en Zoom
    • Creo que es el futuro de los call centers; si el avatar se vuelve más expresivo, el CSAT va a subir
  • Trabajo técnicamente asombroso, un tiempo de respuesta de menos de 1 segundo es muy impresionante
    • Da miedo que se pueda hablar con una persona falsa por FaceTime
    • Me pregunto qué piensan sobre el impacto social
    • Hoy existe una crisis de soledad por la falta de conexión humana
  • ChatGPT tiene problemas para detectar las pausas en la conversación
    • Siempre interrumpe