Show HN: Agente de video con IA en tiempo real con latencia menor a 1 segundo

(news.ycombinator.com)

2 puntos por GN⁺ 2024-10-02 | 1 comentarios | Compartir por WhatsApp

Tavus se enfocó en reducir la latencia de respuesta a menos de 1 segundo para crear una interfaz de video con IA que converse de forma natural con las personas
En conversaciones rápidas, el intervalo entre intervenciones es de apenas unos 250 ms, por lo que un agente de video también necesita baja latencia y conciencia del contexto conversacional
El Phoenix-1 inicial requería una H100 por conversación, lo que limitaba el costo y la escalabilidad; Phoenix-2 apunta a generar más de 70 fps en hardware menos potente al cambiar a Gaussian Splatting
En todo el pipeline se redujo la latencia de vision, ASR, LLM, TTS y generación de video, y en el LLM el cuello de botella percibido no eran los tokens por segundo sino el tiempo hasta el primer token
Si el final de una intervención se determina solo por el tiempo de silencio, aparecen interrupciones y demoras en la respuesta, así que con detección de fin de turno y anticipación de entrada redujeron una latencia de 3 a 5 segundos a menos de 1 segundo, e incluso hasta 600 ms

La meta de Tavus: una velocidad de respuesta que se sienta humana

Tavus es una empresa de investigación en IA y una plataforma para desarrolladores de API de video que desde 2020 crea modelos de video con IA para gemelos digitales o avatares
Como demo, ofrece hassaanraza.com, donde se puede conversar con el gemelo digital de Hassaan, y tavus.io, donde está el “demo twin” Carter
El video conversacional puede convertirse en una forma más natural de interactuar con las computadoras, pero para eso necesita baja latencia y una percepción que refleje el contexto de la conversación
La latencia objetivo es menor a 1 segundo
- En conversaciones rápidas entre amigos, el espacio entre intervenciones ronda los 250 ms
- En temas más complejos o conversaciones con desconocidos hay un tiempo adicional para “pensar”
- Por debajo de 1000 ms, la conversación puede sentirse bastante realista

Una implementación que equilibró latencia, escalabilidad y costo

La arquitectura tenía que resolver al mismo tiempo latencia, escalabilidad y costo, así que replantearon todo desde cero como un sistema de baja latencia
Modelo de video y costo de hardware
- En la etapa inicial de desarrollo, para ejecutar el modelo Phoenix-1 por encima de 30 fps había que cargar todos los componentes y pesos del modelo en la memoria de la GPU, y cada conversación requería una H100 dedicada
- Este enfoque era difícil de escalar y también muy costoso
- Phoenix-2 es un nuevo modelo que incorpora varias mejoras, incluida la velocidad de inferencia
  - Cambiaron de un backbone basado en NeRF a Gaussian Splatting
  - Establecieron como requisito generar cuadros a más de 70 fps en tiempo real sobre hardware menos potente
  - Se enfocaron en optimizar el uso de memoria y núcleos de GPU para que pudiera ejecutarse también en hardware de menores prestaciones
  - El uso de streaming y la paralelización en lugar del procesamiento por lotes también ayudaron a ahorrar tiempo y costo
LLM y detección de fin de turno
- Para reducir la latencia entre intervenciones a menos de 1 segundo, optimizaron agresivamente vision, ASR, LLM, TTS y la generación de video
- El mayor cuello de botella era el LLM
  - Más que una alta velocidad de tokens por segundo (tokens per second), lo que más importaba para la latencia percibida era el tiempo hasta el primer token (time-to-first token)
  - Servicios como Groq también tenían muchos tokens por segundo, pero el tiempo hasta el primer token era demasiado lento para este objetivo, y la mayoría de los proveedores eran demasiado lentos
- El siguiente cuello de botella era detectar si el usuario realmente había terminado de hablar
  - Si se decide en función del tiempo después del silencio, se agrega latencia extra
  - Si el umbral es demasiado corto, el agente de IA pisa al usuario; si es demasiado largo, la respuesta llega tarde
  - Hacía falta un modelo dedicado para detectar con precisión el fin de turno (end-of-turn) a partir de señales conversacionales y anticipar la entrada para prepararse antes
- Con estas optimizaciones, la latencia de 3 a 5 segundos se redujo a menos de 1 segundo, y en los mejores casos a 600 ms, además de funcionar en hardware de menores prestaciones

Demo y casos de uso

Tavus tiene clientes como Delphi, una plataforma de réplicas de coaches y expertos, donde hay usuarios que mantienen conversaciones con gemelos digitales durante varios minutos, 1 hora e incluso hasta 4 horas
Quienes vean la demo y quieran probar la API pueden registrarse gratis en tavus.io

1 comentarios

GN⁺ 2024-10-02

Opiniones de Hacker News

Me gusta el sitio web y el sonido de dial-up, el sombrero vaquero también está bueno
La experiencia de chat entre los dos avatares no es buena, se corta seguido y resulta confusa
El reconocimiento de imágenes es bueno, pudo reconocer objetos cuando el avatar respondía lentamente
Gracias por compartir las dificultades concretas, va a mejorar más adelante
La versión de Hassan fue mejor, reconoció el fondo y habló sobre la maqueta en la pared
- Habló sobre el set de LEGO
En el baño, la cámara estaba apuntando a una toalla y dijo: "Qué baño tan acogedor"
Se sintió como hablar con una persona real, no pude tratarlo como si fuera código
- Me hizo pensar en el esfuerzo consciente que implica hablar con personas
- Al buscar en Google, solo uso las palabras clave mínimas
- Me preocupa que esta tecnología entrene a la gente a comportarse de forma parecida
Si te interesa la IA multimodal de baja latencia, Tavus está patrocinando un hackatón en SF el 19 y 20 de octubre
- También hay una modalidad remota
Funcionalidad de la demo: 9.5/10
- Escalofriante: 10/10
No tengo experiencia con despliegues en GPU, pero parece costoso y difícil conseguir capacidad
- Me pregunto cómo manejan recursos de GPU en la nube a gran escala
- Si asignan una GPU por cada conexión de WebSocket, entonces debe salir muy caro
Técnicamente es muy impresionante, el avatar Carter parece estar nervioso
- Hay algo raro con la boca y los dientes, pero responde rápido
- He visto más latencia en Zoom
- Creo que es el futuro de los call centers; si el avatar se vuelve más expresivo, el CSAT va a subir
Trabajo técnicamente asombroso, un tiempo de respuesta de menos de 1 segundo es muy impresionante
- Da miedo que se pueda hablar con una persona falsa por FaceTime
- Me pregunto qué piensan sobre el impacto social
- Hoy existe una crisis de soledad por la falta de conexión humana
ChatGPT tiene problemas para detectar las pausas en la conversación
- Siempre interrumpe

Show HN: Agente de video con IA en tiempo real con latencia menor a 1 segundo

La meta de Tavus: una velocidad de respuesta que se sienta humana

Una implementación que equilibró latencia, escalabilidad y costo

Modelo de video y costo de hardware

LLM y detección de fin de turno

Demo y casos de uso

Lecturas relacionadas

1 comentarios

Opiniones de Hacker News