- Gracias a la IA generativa, en el futuro los humanos ya no necesitarán hacer llamadas telefónicas
- Los humanos solo dedicarán tiempo a las llamadas cuando realmente aporten valor
Beneficios para las empresas
- Ahorro de tiempo y costos laborales al reemplazar a los emisores humanos de llamadas
- Posibilidad de reasignar recursos para aumentar la generación de ingresos
- Menor riesgo gracias a una experiencia del cliente más estandarizada y consistente
Beneficios para los consumidores
- Los agentes de voz pueden ofrecer un servicio a nivel humano sin necesidad de pagarle a una persona real ni de hacer “matching” con ella
- Actualmente esto incluye terapeutas, coaches, acompañantes, etc.
- En el futuro, es muy probable que abarque una gama mucho más amplia de experiencias construidas en torno a la voz
- Como ocurre con la mayoría de los demás software para consumidores, es imposible predecir quiénes serán los “ganadores”
La llamada telefónica es la API para comunicarse con el mundo, y la IA la lleva un paso más allá
Dónde parece haber oportunidades
- Hay enormes oportunidades en cada capa: jugadores de infraestructura, interfaces de consumo y agentes empresariales
- En el caso de los agentes de voz B2C y B2B, hay algunas hipótesis sobre los productos emergentes más interesantes:
Principales características de los agentes de voz B2B y B2C
- Built to scale (diseñados para escalar)
- La latencia y la experiencia conversacional todavía no están resueltas
- Están buscando fundadores con una postura clara sobre cómo construir agentes
- Se está trabajando para maximizar lo más importante del agente: velocidad, precisión, tono/emoción, etc.
- Vertically focused (enfocados verticalmente)
- Pueden ser agentes ejecutores que dependen de modelos ajustados de forma única para un caso de uso específico y de integraciones estrechas
- Eso hace que sea más fácil construirlos, lanzarlos al mercado y hacerlos crecer con éxito
- Realistic in scope (realistas en alcance)
- Delegar por completo en la IA llamadas importantes es un gran desafío
- Se espera que las empresas de agentes de voz hagan, en el corto plazo, trabajo que no se puede “escalar”
- Esto puede incluir ajuste por cliente o transferir la llamada a un agente humano para los pasos finales
El stack para construir agentes de voz
- Para que un agente de voz funcione, se necesita:
- Capturar la voz humana (ASR)
- Procesar esa entrada con un LLM y devolver una salida
- Volver a hablarle al humano (TTS)
- Nuevos modelos multimodales como GPT-4o pueden cambiar la estructura del stack al “ejecutar” varias de estas capas a la vez con un solo modelo
- Esto puede reducir la latencia y el costo, y ofrecer una interfaz conversacional más natural
- Muchos agentes todavía no han alcanzado una calidad verdaderamente humana con el stack compuesto descrito abajo
- En algunas empresas/enfoques, un LLM o una serie de LLM manejan el flujo conversacional y la emoción. En otros casos, hay motores propios que agregan emoción y gestionan interrupciones, entre otras cosas
- Los proveedores de voz “full stack” ofrecen todo esto en un solo lugar.
- Las apps de consumo (B2C) y empresariales (B2B) se ubican por encima de este stack.
- Incluso usando proveedores de terceros, las apps (por lo general) conectan un LLM personalizado, que a menudo también cumple el rol de motor conversacional.
Full stack vs. ensamblaje propio: comparación de factores clave
- Los fundadores de agentes de voz pueden elegir entre ejecutar sus agentes en plataformas full stack (por ejemplo: Retell, Vapi, Bland) o ensamblar el stack por su cuenta.
- Al tomar esta decisión, hay varios factores clave:
- Complexity (complejidad)
- Los jugadores full stack ofrecen formas más simples de construir agentes de voz, abstrayendo la complejidad del lado de la infraestructura
- Aun así, dejan margen para personalización y ajuste, como conectar prompts o documentos de conocimiento (RAG) al LLM
- Flexibility (flexibilidad)
- Los fundadores que construyen para mercados verticales y casos de uso específicos probablemente querrán la máxima flexibilidad sobre cómo opera/se ejecuta cada capa del stack
- Esto también puede ayudar a reducir al máximo la latencia
- Cost (costo)
- Los proveedores full stack pueden introducir un costo adicional por llamada, aunque también podrían negociar mejores precios por volumen
- En agentes de voz a escala, una diferencia de unos pocos centavos por llamada puede ser importante
- Control (control)
- Si algo sale mal, los fundadores de agentes de voz deben poder rastrear y resolver el problema de inmediato, especialmente en casos de uso sensibles
- También pueden necesitar la mayor visibilidad posible sobre cómo funciona cada capa
- Esto puede ser más fácil con un stack ensamblado por cuenta propia
- Complexity (complejidad)
- Principales jugadores del stack
- Full Stack (full stack): hume, Retell AI, VAPI, vocode, sindarin., BLAND.AI
- Emotion (emoción): hume
- Text to Speech (texto a voz): ElevenLabs, Azure
- Speech to Text (voz a texto): Deepgram, Whisper, AssemblyAI, Azure
- Streaming (streaming): LiveKit, daily
Nuestra visión sobre los agentes B2B
La evolución de la voz con IA
- Estamos pasando de la voz con IA 1.0 (árboles telefónicos) a la era de la voz con IA 2.0 (basada en LLM)
- Las empresas 2.0 empezaron a aparecer en los últimos seis meses aproximadamente
- Puede que las empresas 1.0 sean más precisas hoy, pero a largo plazo el enfoque 2.0 será mucho más escalable y preciso
La necesidad de modelos especializados por mercado vertical
- No habrá un único modelo o plataforma horizontal que sirva para todo tipo de agente de voz empresarial
- Hay varias diferencias clave según el mercado vertical:
- Tipo de llamada, tono y estructura
- Integraciones y procesos
- GTM y “killer feature”
- Esto podría significar una explosión de agentes verticales altamente opinados en la UI
- Para eso, se necesitan equipos fundadores con experiencia o interés en ese sector
Las oportunidades más cercanas
- El TAM es grande para empresas intensivas en mano de obra
- Las oportunidades más inmediatas pueden estar en industrias que:
- Dependen totalmente de las reservas por teléfono
- Sufren una escasez severa de mano de obra
- Tienen baja complejidad en las llamadas
- A medida que los agentes se vuelvan más sofisticados, podrán manejar llamadas más complejas
La evolución de los agentes B2B
- Proceso evolutivo
- IVR (Interactive Voice Response): modelo tradicional de tonos, en el que el agente ofrece al consumidor una serie de opciones (1 para ventas, 2 para soporte al cliente, etc.) y lo guía en consecuencia
- AI 1.0 (Phone Trees): una versión más flexible e intuitiva del IVR, donde el consumidor habla en lenguaje natural y el agente intenta guiarlo a través de una serie de flujos conversacionales
- AI 2.0 (LLMs): conversación libre, donde la IA no intenta hacer coincidir lo que dice el humano con opciones predefinidas
- Muchas empresas de agentes de voz están adoptando un enfoque vertical por industria específica (por ejemplo, servicio automotriz) o por tipo de tarea (por ejemplo, agendamiento de citas). Esto se debe a varias razones:
- Dificultad de ejecución
- El estándar de calidad para dejar llamadas en manos de la IA es alto, y el flujo conversacional (así como el workflow backend del lado del cliente) puede volverse rápidamente complejo o muy específico
- Las empresas que construyen para los “casos de excepción” de estos mercados verticales tienen más probabilidades de éxito (por ejemplo, vocabulario único que un modelo general podría malinterpretar)
- Regulación y licencias
- Algunas empresas de agentes de voz enfrentan restricciones especiales, certificaciones requeridas, etc.
- El ejemplo más representativo es salud (por ejemplo, cumplimiento de HIPAA), pero también está apareciendo en categorías como ventas, donde hay regulación nacional sobre llamadas en frío con IA
- Integraciones
- En algunas categorías, para implementar correctamente la experiencia de usuario (tanto para empresas como para consumidores), pueden ser necesarias integraciones long tail o especializadas. No vale la pena construirlas a menos que se quiera resolver ese caso de uso específico
- Entrada a otros software
- La voz puede insertarse de forma natural en acciones centrales del cliente, como reservas, renovaciones, cotizaciones, etc.
- En algunos casos, esto puede convertirse en una puerta de entrada hacia plataformas SaaS verticales más amplias para esas empresas, especialmente cuando su base de clientes sigue operando offline
- Dificultad de ejecución
Agentes B2B: dónde se ven oportunidades
Basados en LLM, pero no necesariamente 100% automatizados desde el día uno
- La “forma fuerte” de los agentes de voz con IA será una conversación completamente guiada por LLM, no un enfoque tipo IVR o árbol telefónico
- Sin embargo, como los LLM todavía no son 100% confiables de punta a punta, es probable que haya (temporalmente) “intervención humana” en operaciones más sensibles o de mayor valor
- Esto también hace que los workflows específicos por mercado vertical sean especialmente importantes, ya que pueden maximizar la probabilidad de éxito, minimizar los edge cases y reducir la intervención humana
Ajuste de modelos personalizados vs. prompting con enfoque LLM
- Los agentes de voz B2B necesitan manejar conversaciones especializadas (o específicas de un mercado vertical), algo para lo que un LLM general probablemente no sea suficiente
- Muchas empresas están ajustando modelos por cliente (usando unos cientos o pocos miles de puntos de datos), con la posibilidad de extrapolarlo a un modelo base para toda la empresa
- El ajuste personalizado para clientes empresariales también podría continuar
- Nota: algunas empresas pueden ajustar un modelo “general” (que se usará con toda la base de clientes) para un caso de uso específico, y luego hacer prompting por cliente
Equipos técnicos con experiencia de dominio
- Dada la complejidad, contar con experiencia previa en IA será útil para construir y escalar agentes de voz B2B de alta calidad
- Pero también puede ser igual de importante tener conocimiento del dominio o un fuerte interés para entender cómo empaquetar el producto y abrirse paso en un mercado vertical
- ¡No hace falta un doctorado en IA para construir y lanzar un agente de voz empresarial!
Una visión clara sobre integraciones + ecosistema
- Similar a lo anterior, los compradores de cada mercado vertical suelen querer ver ciertas funciones o integraciones específicas antes de comprar
- De hecho, esto puede ser la prueba que eleve la percepción del producto de “útil” a “mágico”
- Esa es otra razón por la que tiene sentido empezar bastante verticalizado
Un enfoque “enterprise-grade” o un fuerte movimiento de product-led growth (PLG)
- En mercados verticales donde una parte importante de los ingresos se concentra en las empresas/proveedores principales, las compañías de agentes de voz pueden empezar por grandes cuentas y después “bajar” hacia pymes con un producto self-service
- Los clientes pyme quieren mucho esta solución y están dispuestos a probar distintas opciones, pero puede que no aporten datos con la escala/calidad necesaria para que una startup ajuste el modelo a nivel empresarial
Nuestra visión sobre los agentes B2C
Diferencias frente a B2B
- En B2B, los agentes de voz reemplazan principalmente llamadas telefónicas existentes para completar tareas específicas
- En el caso de los agentes para consumidores, el usuario debe elegir seguir participando, lo cual es difícil porque interactuar por voz no siempre es conveniente
- Eso significa que el estándar del producto es “más alto”
Primeras áreas de aplicación
- La primera y más obvia aplicación de los agentes de voz para consumidores es reemplazar con IA servicios humanos caros o de difícil acceso
- Esto incluye todo lo conversacional que puede hacerse de forma virtual, como terapia, coaching, tutoría, etc.
Posibilidades a futuro
- Sin embargo, creemos que la verdadera magia de los agentes de voz B2C todavía no ha llegado
- Estamos buscando productos que usen el poder de la voz para habilitar nuevos tipos de “conversación” que antes no existían
- Esto podría reinventar la forma de servicios existentes o crear servicios completamente nuevos
Imitación de la conexión humana
- En productos que resuelvan bien la UX, los agentes de voz ofrecen la oportunidad de involucrar a los consumidores a un nivel nunca antes visto en software
- Se trata de imitar una conexión verdaderamente humana
- Esto puede aparecer como el propio agente como producto, o como un modo de voz dentro de un producto más amplio
La evolución de los agentes B2C
- Hasta ahora, los agentes de voz con IA para consumidores que han dominado el mercado han venido de grandes empresas, como ChatGPT Voice y la app Pi de Inflection.
- Hay varias razones por las que la voz para consumidores ha avanzado más lentamente:
La ventaja de las grandes empresas
- Las grandes empresas ya cuentan con distribución al consumidor y con modelos de primer nivel en precisión, latencia, etc.
- La voz no es fácil de ofrecer a gran escala, especialmente considerando el reciente lanzamiento de GPT-4o
La dificultad de adoptar nuevos comportamientos
- Mientras que los agentes de voz B2B “enchufan” IA a procesos existentes, los agentes de voz B2C requieren que el usuario adopte nuevos comportamientos
- Eso puede requerir un producto más lento o más mágico
La percepción negativa de la voz con IA existente
- Puede que los consumidores no se sientan motivados a probar nuevas apps porque sus experiencias con productos como Siri han influido negativamente en su percepción de la voz con IA
Los productos amplios ya cubren los casos de uso básicos
- Los productos de base amplia normalmente pueden cubrir los casos de uso básicos de la voz con IA, como tutoría, compañía, etc.
- Las startups B2C de voz están entrando en la etapa de empezar a crear casos de uso o experiencias que ChatGPT, Pi y otros no resolverán
Agentes B2C: dónde se ven oportunidades
Una postura fuerte sobre por qué se necesita voz
- Nos entusiasman los productos y fundadores que tienen una postura clara sobre cómo la voz aporta un valor único al producto
- No se trata simplemente de “voz por voz”
- En muchos casos, la interfaz de voz es incluso peor que la de texto, porque es más incómoda para consumir y extraer información
Una postura fuerte sobre por qué se necesita voz en tiempo real
- Si bien la voz ya es difícil de consumir, la voz en tiempo real lo es aún más (frente a mensajes de voz asíncronos)
- Nos entusiasman fundadores que tengan una visión clara de por qué su producto debe construirse alrededor de conversaciones en tiempo real
- Tal vez para compañía con cualidades humanas, entornos de práctica, etc.
Falta de similitud con el “producto” previo a la IA
- Sospechamos que la forma fuerte de estos productos no será una simple traslación directa de conversaciones entre personas previas, donde un agente de voz con IA solo reemplaza a un proveedor humano
- Primero, porque es difícil cumplir ese estándar
- Y más importante aún, porque existe la oportunidad de usar IA para entregar el mismo valor de una mejor manera (más eficiente, más agradable)
Verticalización donde la calidad del modelo no define al ganador
- Los principales productos generales de IA para consumidores (ChatGPT, Pi, Claude) tienen modos de voz de alta calidad
- Pueden participar de forma significativa en muchos tipos de conversaciones e interacciones
- Como alojan sus propios modelos y su propio stack, es probable que ganen a corto plazo en latencia y flujo conversacional
Esperamos que las startups tengan éxito de formas como las siguientes:
- Ajustando o afinando para tipos específicos de conversación, o
- Construyendo una UI que aporte más contexto y valor a la experiencia del agente de voz
- (p. ej., seguimiento del progreso a lo largo del tiempo, conducir la conversación/experiencia de una manera opinada)
1 comentarios
Tuve la oportunidad de ver de cerca al equipo de integración de una empresa enterprise, y pude observar en tiempo real que se estaba llevando a cabo un proyecto muy similar a lo que se describe en el texto principal.
Al principio, el objetivo era automatizar el CS a través de AWS Connect, pero luego también empezaron a manejar la distribución del tráfico y hasta participaron en el diseño de servicios especiales para clientes VVIP... también es interesante ver cómo el alcance se va haciendo cada vez más grande.
Por eso, siendo sinceros, la línea de servicio parece ser que los bots de respuesta automática atiendan lo más posible a los clientes que no generan dinero, mientras que a los clientes con mayores depósitos los agentes humanos los contacten directamente lo más rápido posible. Supongo que es una parte inevitable jaja