13 puntos por xguru 2024-11-28 | 1 comentarios | Compartir por WhatsApp
  • Voice AI no es solo una mejora de la UI, sino una innovación en la forma en que se conectan las empresas y los clientes
    • En servicios al cliente como los de las aerolíneas, hay largos tiempos de espera, selección repetitiva de menús y poca comprensión del contexto del cliente. No se resuelven los problemas y además se genera estrés innecesario y pérdida de tiempo
    • Con Voice AI, a diferencia de los rígidos sistemas IVR existentes (respuesta de voz interactiva), es posible ofrecer una experiencia que conversa como un humano y personaliza la experiencia del cliente, además de estar disponible las 24 horas
      • Comprende de inmediato la situación del cliente y propone la mejor alternativa
      • Ejemplo: reprograma automáticamente un vuelo cancelado y recomienda opciones según las preferencias del cliente
      • En algunas situaciones, es posible que los clientes prefieran un agente de IA en lugar de un humano
    • Voice AI satisface la alta demanda y las expectativas de los clientes, al mismo tiempo que mejora la eficiencia operativa
  • Voice AI es la convergencia de modelos de IA nativos de voz y tecnología multimodal

El enorme mercado de la comunicación por voz

  • Los humanos prefieren hablar:
    • Cada día se realizan miles de millones de llamadas
    • Aunque los mensajes de texto, el email y las redes sociales se han generalizado, las llamadas siguen siendo un medio principal de comunicación en muchos negocios
    • Son esenciales en industrias como salud, servicios legales, servicios para el hogar, seguros y logística para transmitir información compleja, brindar servicios personalizados y resolver situaciones urgentes
  • Problemas de la comunicación telefónica tradicional
    • Falta de capacidad de respuesta:
      • El 62% de las PyMEs pierde llamadas, por lo que no logra atender las necesidades de los clientes y pierde oportunidades de negocio
      • Problemas comunes:
        • Fuera del horario laboral, las llamadas pasan al buzón de voz
        • Solo se puede atender una llamada a la vez
        • La calidad del soporte es inconsistente
    • Limitaciones técnicas:
      • Sistemas IVR (introducidos en la década de 1970):
        • Solo pueden procesar comandos preconfigurados, con poca flexibilidad: "Presione 1 para hacer una reserva" "Diga en pocas palabras en qué necesita ayuda"
        • No entienden la intención ni la urgencia del cliente
      • Deterioro de la experiencia del cliente:
        • Largos tiempos de espera
        • Navegación ineficiente por menús
        • Fracaso en la resolución del problema
  • A pesar de la alta demanda:
    • La tecnología existente tiene límites para resolver los problemas de los clientes de manera eficiente y agradable
    • Se requiere una tecnología de automatización por voz más avanzada

[Por qué este es el momento ideal para desarrollar tecnología de Voice]

La evolución de la tecnología de voz

  1. Sistemas IVR iniciales:
  • Tecnología IVR (Interactive Voice Response) introducida en la década de 1970:
    • Solo podía procesar comandos predefinidos
    • No entendía la intención ni la urgencia del usuario
  • A pesar de ser una tecnología poco querida, sigue siendo un mercado de 5 mil millones de dólares
  1. Aparición de la tecnología ASR/STT:
  • Modelos de reconocimiento automático de voz (ASR) y voz a texto (STT):
    • Tecnología que convierte voz en texto en tiempo real
    • Aparición de startups como Gong, Rev, DeepL
    • Lanzamiento del modelo Whisper de OpenAI (2022) y Reverb de Rev (2024):
      • Permiten sistemas conversacionales naturales que manejan acentos, ruido de fondo y emociones
  1. Innovación reciente: avance de la IA de voz:
  • Desarrollo de modelos Text-To-Speech (TTS) que generan voces emocionalmente ricas:
  • Capacidades multimodales:
    • Google Gemini 1.5: integra voz, texto y entrada visual
    • Voice Engine de OpenAI: generación de voz que imita la conversación humana
  • Lanzamiento de GPT-4o:
    • Integración nativa en tiempo real de audio, visión y texto
    • Capacidad para manejar conversaciones complejas y responder con inteligencia

Dos avances clave impulsados por la innovación reciente

  • Difusión de modelos de alta calidad y desarrollo de aplicaciones:
    • Limitaciones de la arquitectura tradicional de tipo “cascada”:
      • En el proceso STT → LLM → TTS se producen latencia y pérdida de información no textual
      • La alta latencia de respuesta genera una experiencia de usuario negativa
    • Nuevos modelos:
      • GPT-4 Turbo: menor latencia
      • Es posible elegir el modelo según el caso de uso
  • Ascenso de los modelos Speech-to-Speech (STS):
    • Procesan la voz directamente sin convertirla en texto:
      • Latencia ultrabaja: alrededor de 300 ms de tiempo de respuesta para conversaciones naturales
      • Comprensión de contexto: conservan información de conversaciones previas e identifican intención y emoción
      • Mejor reconocimiento emocional y tonal: ofrecen respuestas que reflejan emociones y matices
      • Detección de actividad de voz en tiempo real: el usuario puede hablar sin interrupciones innecesarias

Modelos nativos de voz: el futuro de la voz conversacional

  • Superan las limitaciones de la arquitectura en cascada:
    • Modelos STS especializados en voz:
      • Kyutai Moshi: modelo open source
      • Alibaba SenseVoice & CosyVoice: modelos especializados en voz
      • Hume Empathetic Voice Interface: manejo de respuestas emocionales
  • Realtime API de OpenAI:
    • Soporta interacciones Speech-to-Speech basadas en GPT-4o

Principales desafíos para la adopción en la industria

Tres factores principales que frenan la adopción de agentes de voz

  • Calidad (Quality):
    • Muchos agentes de IA por voz todavía no son lo suficientemente estables como para ser confiables en varios casos de uso.
    • Las empresas suelen probar agentes de voz primero en entornos de bajo riesgo:
      • Ejemplo: una pequeña empresa de reparación de techos usa un agente para atender llamadas fuera del horario laboral
      • Al expandirse a casos de uso de alto valor, los estándares de calidad se vuelven más estrictos
      • Ejemplo: si una sola llamada puede derivar en un proyecto de 30 mil dólares, hay poca tolerancia a fallas en la llamada
  • Confianza (Trust):
    • Los clientes ya han tenido muchas experiencias negativas con la tecnología IVR existente:
      • Respuestas lentas, menús ineficientes y falta de conversación natural
    • Las empresas necesitan tener confianza en que la IA puede manejar las necesidades del cliente con precisión y rapidez
  • Confiabilidad (Reliability):
    • Casos de queja más frecuentes:
      • Llamadas caídas: la interrupción de la llamada frustra al cliente
      • Alucinaciones (Hallucination): la IA entrega respuestas inexactas o fuera de lugar
      • Latencia de respuesta: tiempos de procesamiento largos que provocan abandono

Dirección de avance para resolver estos problemas

  • Optimización de latencia y confiabilidad:
    • Aumentan las plataformas para desarrolladores que ofrecen una infraestructura más confiable, enfocadas en reducir la latencia y evitar interrupciones en la conversación
  • Recuperación elegante ante fallos (Fail Gracefully):
    • Si una llamada falla, recuperar de forma natural el flujo conversacional para minimizar interrupciones en la experiencia del cliente
  • Orquestación de conversaciones:
    • Diseñar al agente de IA para que siga flujos predecibles: minimizar alucinaciones y establecer guardrails sobre la información y el alcance de la conversación que puede ofrecer al cliente

Mapa del mercado de Voice AI

  • En el mercado de Voice AI hay innovación en múltiples capas, desde modelos base hasta infraestructura de voz, plataformas para desarrolladores y aplicaciones
  • En particular, se observan oportunidades destacables en las tres áreas clave siguientes

1. Modelos (Models)

  • Función: construyen tecnología para soportar casos de uso basados en voz y se especializan en tecnologías específicas como SST (Speech-to-Speech), LLS (Large Language Models) y TTS (Text-to-Speech)
  • Dirección futura:
    • Liderarán los modelos multimodales y nativos de voz
    • Será clave la tecnología capaz de procesar audio directamente sin pasar por conversiones entre texto y audio
  • Modelos de próxima generación:
    • Empresas como Cartesia están abriendo camino con nuevas arquitecturas basadas en State Space Models (SSMs)
    • Se espera reducir latencia y costos separando el manejo de conversaciones simples en modelos pequeños y las tareas complejas en modelos más potentes

2. Plataformas para desarrolladores (Developer Platforms)

  • La construcción de agentes de IA por voz y la gestión de infraestructura de voz en tiempo real siguen siendo un gran desafío técnico para los desarrolladores. Las nuevas plataformas resuelven esta complejidad y ofrecen distintos tipos de soporte
  • Optimización de latencia y confiabilidad:
    • Gestionar agentes de voz en tiempo real de alto rendimiento en forma escalable.
  • Gestión de señales conversacionales y contexto no verbal:
    • Detección de “endpointing” para determinar si el usuario terminó de hablar.
    • Filtrado de ruido de fondo y mejora en la detección de emociones y estados afectivos.
  • Manejo eficiente de errores:
    • Detectar llamadas API fallidas y reintentarlas de inmediato.
    • Insertar respuestas alternativas para evitar interrupciones en la conversación.
  • Integración con sistemas de terceros y soporte RAG:
    • Se requieren integraciones de baja latencia con bases de conocimiento y sistemas de terceros.
  • Control del flujo conversacional:
    • Diseñar flujos predecibles para manejar conversaciones sensibles o reguladas.
  • Observabilidad, analítica y pruebas:
    • Resolver la falta de herramientas para rastrear la calidad y el rendimiento de las conversaciones a gran escala.
  • Ejemplo de plataforma Vapi: ayuda a reducir la complejidad de la infraestructura de voz y a construir rápidamente agentes de voz de alta calidad

3. Aplicaciones (Applications)

  • Se están desarrollando productos de automatización basados en voz en distintos sectores.
  • Características de las aplicaciones más destacadas:
    • Resuelven completamente la tarea del cliente y entregan un resultado valioso.
    • Tienen escalabilidad para manejar miles de llamadas simultáneamente en momentos de picos de demanda.
    • Ofrecen soluciones personalizadas especializadas para industrias específicas.
  • Principales oportunidades por función
    • Transcripción (Transcription): elaboración de notas de conversación, recomendación de tareas de seguimiento
    • Llamadas entrantes (Inbound Calling): gestión de reservas, conversión de leads, customer success
    • Llamadas salientes (Outbound Calling): filtrado de candidatos, confirmación de citas
    • Entrenamiento (Training): entrenamiento de ventas o entrevistas.
    • Negociación (Negotiation): negociación de compras, disputas de seguros, ajustes contractuales
  • Casos de inversión
    • Abridge: documentación de conversaciones médicas
    • Rilla: coaching para ventas de campo
    • Rev: transcripción colaborativa entre IA y humanos en múltiples industrias

Casos de uso concretos

  • Solución especializada por industria Sameday AI: agente de ventas con IA para la industria de servicios para el hogar. Automatiza desde la recepción de la llamada del cliente → cotización según el problema → coordinación de agenda → finalización del pago.
  • Llamadas salientes Wayfaster: automatización del proceso de contratación. Realiza automáticamente llamadas de filtrado a postulantes para enfocarse en los mejores candidatos.
  • Salud negociación con aseguradoras: usa LLM para analizar miles de documentos de seguros e historiales de pacientes, y apoyar negociaciones en tiempo real.

Principios de inversión en tecnología Voice AI

  • En el ecosistema de Voice AI, las mayores oportunidades de emprendimiento están en la capa de plataformas para desarrolladores y en la capa de aplicaciones
  • La velocidad de mejora de los modelos está creando un entorno donde los emprendedores pueden desarrollar y probar rápidamente MVPs (productos mínimos viables) efectivos con una inversión inicial baja
  • 1. Soluciones profundamente integradas con flujos de trabajo por industria y multimodalidad
    • Las aplicaciones de Voice AI de mayor impacto están profundamente integradas con los flujos de trabajo de industrias específicas
    • Se ajustan al lenguaje y estilo conversacional propios de cada industria
    • Ejemplo:
      • Un agente de voz para concesionarios de autos integrado con el CRM usa datos de interacciones previas con clientes para mejorar la calidad del servicio y acelerar el despliegue
      • Combina voz con texto, imágenes y otras modalidades para resolver procesos humanos de varias etapas y mayor complejidad
  • 2. Entregar productos de alta calidad mediante ingeniería robusta
    • Crear un demo para hackathon es relativamente sencillo, pero un producto real requiere alta confiabilidad, escalabilidad y capacidad de manejar casos de uso reales
    • Requisitos empresariales: rendimiento consistente. Garantía de baja latencia. Integración fluida con sistemas existentes
    • Elementos clave de diseño: manejo de entradas de voz impredecibles. Mayor seguridad. Mantener alto uptime
  • 3. Equilibrio entre crecimiento, retención y KPI de calidad del producto
    • Los agentes de voz tienen un fuerte potencial de crecimiento en funciones impulsoras de ingresos, como ventas.
    • Cuando los clientes trasladan flujos de trabajo clave de personas a agentes, una caída en la calidad puede generar una alta tasa de cancelación (churn)

KPI importantes e indicadores de calidad

  • Churn (tasa de cancelación de clientes):
    • En etapas tempranas, muchas aplicaciones de voz enfrentan dificultades por altas tasas de cancelación.
    • Ocurre cuando los clientes migran a la competencia por un servicio poco confiable.
  • Self-Serve Resolution (tasa de resolución por autoservicio):
    • Indica qué tan eficazmente el agente de voz resuelve el problema del usuario sin intervención humana.
  • Customer Satisfaction Score (puntaje de satisfacción del cliente):
    • Mide la satisfacción general de los clientes que interactuaron con el agente de voz y aporta insights de calidad.
  • Call Termination Rates (tasa de finalización/abandono de llamadas):
    • Una tasa alta indica problemas en la experiencia de usuario y asuntos no resueltos.
  • Cohort Call Volume Expansion (expansión del volumen de llamadas por cohorte):
    • Mide si, con el tiempo, los clientes aumentan su uso del agente de voz; es un indicador del valor del producto y del engagement del usuario.

El futuro de Voice AI

  • Los avances tecnológicos de los últimos años han abierto la posibilidad de desarrollar productos innovadores que resuelvan problemas complejos
  • Se espera que, en el futuro, los sistemas multimodales y conversacionales en tiempo real resuelvan aún más problemas en diversas industrias

1 comentarios

 
xguru 2024-11-28

Como antes trabajé en el área de IVR, supongo que por eso me interesa mucho este tema jaja

Vean también el artículo Todo sobre los agentes de voz con IA que resumió a16z