- Hassaan y Quinn, cofundadores de Tavus, presentan su empresa de investigación en IA y plataforma de desarrollo de API de video
- Desde 2020 han desarrollado modelos de video con IA para "gemelos digitales" o "avatares"
- Comparten los desafíos de construir una interfaz de video con IA para conversaciones realistas con humanos
Desafíos
- Para que el video conversacional sea efectivo, necesita una latencia muy baja y comprensión de la conversación
- Las conversaciones rápidas entre amigos suelen tener unos 250 ms entre intervenciones, pero los temas complejos o las conversaciones con personas nuevas requieren tiempo adicional para "pensar"
- Una latencia de menos de 1000 ms hace que la conversación se sienta realista
Decisiones de arquitectura
- Equilibrar latencia, escalabilidad y costo fue un gran desafío
- Tuvieron que construir desde cero para reducir la latencia
- También debían reducir los costos de cómputo mientras soportaban miles de conversaciones al mismo tiempo
Desarrollo inicial
- En la etapa inicial de desarrollo, cada conversación tenía que ejecutarse en una H100 dedicada
- Eso no escalaba y resultaba muy costoso
Desarrollo del modelo Phoenix-2
- Desarrollaron un nuevo modelo, Phoenix-2, con varias mejoras
- Cambiaron de una base NeRF a Gaussian Splatting, lo que permitió generar cuadros más rápido que en tiempo real
- Optimizaron el uso de memoria y de núcleos de GPU para que pudiera ejecutarse incluso en hardware de gama baja
- También usaron otros métodos para ahorrar tiempo y costo, como streaming vs batching y paralelización de procesos
Optimización
- Tuvieron que optimizar cada componente (visión, ASR, LLM, TTS, generación de video) para que fuera ultrarrápido
- El mayor problema fue el LLM
- Incluso si los tokens por segundo (t/s) eran rápidos, seguía siendo un problema si el tiempo hasta el primer token (ttft) era lento
- La mayoría de los proveedores eran demasiado lentos
Detección del fin de turno de habla
- Detectar el final de una intervención fue difícil
- La solución básica usa el tiempo de silencio para "decidir" que una persona terminó de hablar, pero eso añade latencia
- Era importante acertar con el momento adecuado para que el agente de IA no interrumpiera al usuario
Resultados
- Con estas optimizaciones, lograron reducir la latencia de 3-5 segundos a menos de 1 segundo (hasta 600 ms)
- Alcanzaron una latencia inferior a 1 segundo incluso en hardware de gama baja
- Tienen varios clientes, como Delphi, y las conversaciones con gemelos digitales duran desde unos minutos hasta 4 horas
Resumen de GN⁺
- El modelo de video con IA de Tavus busca conversaciones naturales con humanos
- Reconstruyeron y optimizaron la arquitectura para reducir la latencia
- El modelo Phoenix-2 puede generar cuadros más rápido que en tiempo real incluso en hardware de gama baja
- Esta tecnología podría convertirse en un elemento importante de la interfaz humano-computadora
- Otro proyecto con capacidades similares es Duplex de Google
1 comentarios
Opiniones de Hacker News