Todo lo que a16z resumió sobre los agentes de voz con IA

xguru · 2024-06-12T11:07:01+09:00

Gracias a la IA generativa, en el futuro los humanos ya no necesitarán hacer llamadas telefónicas Los humanos solo dedicarán tiempo a las llamadas cuando realmente aporten valor Beneficios para las empresas Ahorro de tiempo y costos laborales al reemplazar a los emisores humanos de llamadas Posibilidad de reasignar recursos para aumentar la generación de ingresos Menor riesgo gracias a una experiencia del cliente más estandarizada y consistente Beneficios para los consumidores Los agentes de voz pueden ofrecer un servicio a nivel humano sin necesidad de pagarle a una persona real ni de hacer “matching” con ella Actualmente esto incluye terapeutas, coaches, acompañantes, etc. En el futuro, es muy probable que abarque una gama mucho más amplia de experiencias construidas en torno a la voz Como ocurre con la mayoría de los demás software para consumidores, es imposible predecir quiénes serán los “ganadores” La llamada telefónica es la API para comunicarse con el mundo, y la IA la lleva un paso más allá Dónde parece haber oportunidades Hay enormes oportunidades en cada capa: jugadores de infraestructura, interfaces de consumo y agentes empresariales En el caso de los agentes de voz B2C y B2B, hay algunas hipótesis sobre los productos emergentes más interesantes: Principales características de los agentes de voz B2B y B2C Built to scale (diseñados para escalar) La latencia y la experiencia conversacional todavía no están resueltas Están buscando fundadores con una postura clara sobre cómo construir agentes Se está trabajando para maximizar lo más importante del agente: velocidad, precisión, tono/emoción, etc. Vertically focused (enfocados verticalmente) Pueden ser agentes ejecutores que dependen de modelos ajustados de forma única para un caso de uso específico y de integraciones estrechas Eso hace que sea más fácil construirlos, lanzarlos al mercado y hacerlos crecer con éxito Realistic in scope (realistas en alcance) Delegar por completo en la IA llamadas importantes es un gran desafío Se espera que las empresas de agentes de voz hagan, en el corto plazo, trabajo que no se puede “escalar” Esto puede incluir ajuste por cliente o transferir la llamada a un agente humano para los pasos finales El stack para construir agentes de voz Para que un agente de voz funcione, se necesita: Capturar la voz humana (ASR) Procesar esa entrada con un LLM y devolver una salida Volver a hablarle al humano (TTS) Nuevos modelos multimodales como GPT-4o pueden cambiar la estructura del stack al “ejecutar” varias de estas capas a la vez con un solo modelo Esto puede reducir la latencia y el costo, y ofrecer una interfaz conversacional más natural Muchos agentes todavía no han alcanzado una calidad verdaderamente humana con el stack compuesto descrito abajo En algunas empresas/enfoques, un LLM o una serie de LLM manejan el flujo conversacional y la emoción. En otros casos, hay motores propios que agregan emoción y gestionan interrupciones, entre otras cosas Los proveedores de voz “full stack” ofrecen todo esto en un solo lugar. Las apps de consumo (B2C) y empresariales (B2B) se ubican por encima de este stack. Incluso usando proveedores de terceros, las apps (por lo general) conectan un LLM personalizado, que a menudo también cumple el rol de motor conversacional. Full stack vs. ensamblaje propio: comparación de factores clave Los fundadores de agentes de voz pueden elegir entre ejecutar sus agentes en plataformas full stack (por ejemplo: Retell, Vapi, Bland) o ensamblar el stack por su cuenta. Al tomar esta decisión, hay varios factores clave: Complexity (complejidad) Los jugadores full stack ofrecen formas más simples de construir agentes de voz, abstrayendo la complejidad del lado de la infraestructura Aun así, dejan margen para personalización y ajuste, como conectar prompts o documentos de conocimiento (RAG) al LLM Flexibility (flexibilidad) Los fundadores que construyen para mercados verticales y casos de uso específicos probablemente querrán la máxima flexibilidad sobre cómo opera/se ejecuta cada capa del stack Esto también puede ayudar a reducir al máximo la latencia Cost (costo) Los proveedores full stack pueden introducir un costo adicional por llamada, aunque también podrían negociar mejores precios por volumen En agentes de voz a escala, una diferencia de unos pocos centavos por llamada puede ser importante Control (control) Si algo sale mal, los fundadores de agentes de voz deben poder rastrear y resolver el problema de inmediato, especialmente en casos de uso sensibles También pueden necesitar la mayor visibilidad posible sobre cómo funciona cada capa Esto puede ser más fácil con un stack ensamblado por cuenta propia Principales jugadores del stack Full Stack (full stack): hume, Retell AI, VAPI, vocode, sindarin., BLAND.AI Emotion (emoción): hume Text to Speech (texto a voz): ElevenLabs, Azure Speech to Text (voz a texto): Deepgram, Whisper, AssemblyAI, Azure Streaming (streaming): LiveKit, daily Nuestra visión sobre los agentes B2B La evolución de la voz con IA Estamos pasando de la voz con IA 1.0 (árboles telefónicos) a la era de la voz con IA 2.0 (basada en LLM) Las empresas 2.0 empezaron a aparecer en los últimos seis meses aproximadamente Puede que las empresas 1.0 sean más precisas hoy, pero a largo plazo el enfoque 2.0 será mucho más escalable y preciso La necesidad de modelos especializados por mercado vertical No habrá un único modelo o plataforma horizontal que sirva para todo tipo de agente de voz empresarial Hay varias diferencias clave según el mercado vertical: Tipo de llamada, tono y estructura Integraciones y procesos GTM y “killer feature” Esto podría significar una explosión de agentes verticales altamente opinados en la UI Para eso, se necesitan equipos fundadores con experiencia o interés en ese sector Las oportunidades más cercanas El TAM es grande para empresas intensivas en mano de obra Las oportunidades más inmediatas pueden estar en industrias que: Dependen totalmente de las reservas por teléfono Sufren una escasez severa de mano de obra Tienen baja complejidad en las llamadas A medida que los agentes se vuelvan más sofisticados, podrán manejar llamadas más complejas La evolución de los agentes B2B Proceso evolutivo IVR (Interactive Voice Response): modelo tradicional de tonos, en el que el agente ofrece al consumidor una serie de opciones (1 para ventas, 2 para soporte al cliente, etc.) y lo guía en consecuencia AI 1.0 (Phone Trees): una versión más flexible e intuitiva del IVR, donde el consumidor habla en lenguaje natural y el agente intenta guiarlo a través de una serie de flujos conversacionales AI 2.0 (LLMs): conversación libre, donde la IA no intenta hacer coincidir lo que dice el humano con opciones predefinidas Muchas empresas de agentes de voz están adoptando un enfoque vertical por industria específica (por ejemplo, servicio automotriz) o por tipo de tarea (por ejemplo, agendamiento de citas). Esto se debe a varias razones: Dificultad de ejecución El estándar de calidad para dejar llamadas en manos de la IA es alto, y el flujo conversacional (así como el workflow backend del lado del cliente) puede volverse rápidamente complejo o muy específico Las empresas que construyen para los “casos de excepción” de estos mercados verticales tienen más probabilidades de éxito (por ejemplo, vocabulario único que un modelo general podría malinterpretar) Regulación y licencias Algunas empresas de agentes de voz enfrentan restricciones especiales, certificaciones requeridas, etc. El ejemplo más representativo es salud (por ejemplo, cumplimiento de HIPAA), pero también está apareciendo en categorías como ventas, donde hay regulación nacional sobre llamadas en frío con IA Integraciones En algunas categorías, para implementar correctamente la experiencia de usuario (tanto para empresas como para consumidores), pueden ser necesarias integraciones long tail o especializadas. No vale la pena construirlas a menos que se quiera resolver ese caso de uso específico Entrada a otros software La voz puede insertarse de forma natural en acciones centrales del cliente, como reservas, renovaciones, cotizaciones, etc. En algunos casos, esto puede convertirse en una puerta de entrada hacia plataformas SaaS verticales más amplias para esas empresas, especialmente cuando su base de clientes sigue operando offline Agentes B2B: dónde se ven oportunidades Basados en LLM, pero no necesariamente 100% automatizados desde el día uno La “forma fuerte” de los agentes de voz con IA será una conversación completamente guiada por LLM, no un enfoque tipo IVR o árbol telefónico Sin embargo, como los LLM todavía no son 100% confiables de punta a punta, es probable que haya (temporalmente) “intervención humana” en operaciones más sensibles o de mayor valor Esto también hace que los workflows específicos por mercado vertical sean especialmente importantes, ya que pueden maximizar la probabilidad de éxito, minimizar los edge cases y reducir la intervención humana Ajuste de modelos personalizados vs. prompting con enfoque LLM Los agentes de voz B2B necesitan manejar conversaciones especializadas (o específicas de un mercado vertical), algo para lo que un LLM general probablemente no sea suficiente Muchas empresas están ajustando modelos por cliente (usando unos cientos o pocos miles de puntos de datos), con la posibilidad de extrapolarlo a un modelo base para toda la empresa El ajuste personalizado para clientes empresariales también podría continuar Nota: algunas empresas pueden ajustar un modelo “general” (que se usará con toda la base de clientes) para un caso de uso específico, y luego hacer prompting por cliente Equipos técnicos con experiencia de dominio Dada la complejidad, contar con experiencia previa en IA será útil para construir y escalar agentes de voz B2B de alta calidad Pero también puede ser igual de importante tener conocimiento del dominio o un fuerte interés para entender cómo empaquetar el producto y abrirse paso en un mercado vertical ¡No hace falta un doctorado en IA para construir y lanzar un agente de voz empresarial! Una visión clara sobre integraciones + ecosistema Similar a lo anterior, los compradores de cada mercado vertical suelen querer ver ciertas funciones o integraciones específicas antes de comprar De hecho, esto puede ser la prueba que eleve la percepción del producto de “útil” a “mágico” Esa es otra razón por la que tiene sentido empezar bastante verticalizado Un enfoque “enterprise-grade” o un fuerte movimiento de product-led growth (PLG) En mercados verticales donde una parte importante de los ingresos se concentra en las empresas/proveedores principales, las compañías de agentes de voz pueden empezar por grandes cuentas y después “bajar” hacia pymes con un producto self-service Los clientes pyme quieren mucho esta solución y están dispuestos a probar distintas opciones, pero puede que no aporten datos con la escala/calidad necesaria para que una startup ajuste el modelo a nivel empresarial Nuestra visión sobre los agentes B2C Diferencias frente a B2B En B2B, los agentes de voz reemplazan principalmente llamadas telefónicas existentes para completar tareas específicas En el caso de los agentes para consumidores, el usuario debe elegir seguir participando, lo cual es difícil porque interactuar por voz no siempre es conveniente Eso significa que el estándar del producto es “más alto” Primeras áreas de aplicación La primera y más obvia aplicación de los agentes de voz para consumidores es reemplazar con IA servicios humanos caros o de difícil acceso Esto incluye todo lo conversacional que puede hacerse de forma virtual, como terapia, coaching, tutoría, etc. Posibilidades a futuro Sin embargo, creemos que la verdadera magia de los agentes de voz B2C todavía no ha llegado Estamos buscando productos que usen el poder de la voz para habilitar nuevos tipos de “conversación” que antes no existían Esto podría reinventar la forma de servicios existentes o crear servicios completamente nuevos Imitación de la conexión humana En productos que resuelvan bien la UX, los agentes de voz ofrecen la oportunidad de involucrar a los consumidores a un nivel nunca antes visto en software Se trata de imitar una conexión verdaderamente humana Esto puede aparecer como el propio agente como producto, o como un modo de voz dentro de un producto más amplio La evolución de los agentes B2C Hasta ahora, los agentes de voz con IA para consumidores que han dominado el mercado han venido de grandes empresas, como ChatGPT Voice y la app Pi de Inflection. Hay varias razones por las que la voz para consumidores ha avanzado más lentamente: La ventaja de las grandes empresas Las grandes empresas ya cuentan con distribución al consumidor y con modelos de primer nivel en precisión, latencia, etc. La voz no es fácil de ofrecer a gran escala, especialmente considerando el reciente lanzamiento de GPT-4o La dificultad de adoptar nuevos comportamientos Mientras que los agentes de voz B2B “enchufan” IA a procesos existentes, los agentes de voz B2C requieren que el usuario adopte nuevos comportamientos Eso puede requerir un producto más lento o más mágico La percepción negativa de la voz con IA existente Puede que los consumidores no se sientan motivados a probar nuevas apps porque sus experiencias con productos como Siri han influido negativamente en su percepción de la voz con IA Los productos amplios ya cubren los casos de uso básicos Los productos de base amplia normalmente pueden cubrir los casos de uso básicos de la voz con IA, como tutoría, compañía, etc. Las startups B2C de voz están entrando en la etapa de empezar a crear casos de uso o experiencias que ChatGPT, Pi y otros no resolverán Agentes B2C: dónde se ven oportunidades Una postura fuerte sobre por qué se necesita voz Nos entusiasman los productos y fundadores que tienen una postura clara sobre cómo la voz aporta un valor único al producto No se trata simplemente de “voz por voz” En muchos casos, la interfaz de voz es incluso peor que la de texto, porque es más incómoda para consumir y extraer información Una postura fuerte sobre por qué se necesita voz en tiempo real Si bien la voz ya es difícil de consumir, la voz en tiempo real lo es aún más (frente a mensajes de voz asíncronos) Nos entusiasman fundadores que tengan una visión clara de por qué su producto debe construirse alrededor de conversaciones en tiempo real Tal vez para compañía con cualidades humanas, entornos de práctica, etc. Falta de similitud con el “producto” previo a la IA Sospechamos que la forma fuerte de estos productos no será una simple traslación directa de conversaciones entre personas previas, donde un agente de voz con IA solo reemplaza a un proveedor humano Primero, porque es difícil cumplir ese estándar Y más importante aún, porque existe la oportunidad de usar IA para entregar el mismo valor de una mejor manera (más eficiente, más agradable) Verticalización donde la calidad del modelo no define al ganador Los principales productos generales de IA para consumidores (ChatGPT, Pi, Claude) tienen modos de voz de alta calidad Pueden participar de forma significativa en muchos tipos de conversaciones e interacciones Como alojan sus propios modelos y su propio stack, es probable que ganen a corto plazo en latencia y flujo conversacional Esperamos que las startups tengan éxito de formas como las siguientes: Ajustando o afinando para tipos específicos de conversación, o Construyendo una UI que aporte más contexto y valor a la experiencia del agente de voz (p. ej., seguimiento del progreso a lo largo del tiempo, conducir la conversación/experiencia de una manera opinada)

(a16z.com)

12 puntos por xguru 2024-06-12 | 1 comentarios | Compartir por WhatsApp

Gracias a la IA generativa, en el futuro los humanos ya no necesitarán hacer llamadas telefónicas
Los humanos solo dedicarán tiempo a las llamadas cuando realmente aporten valor

Beneficios para las empresas

Ahorro de tiempo y costos laborales al reemplazar a los emisores humanos de llamadas
Posibilidad de reasignar recursos para aumentar la generación de ingresos
Menor riesgo gracias a una experiencia del cliente más estandarizada y consistente

Beneficios para los consumidores

Los agentes de voz pueden ofrecer un servicio a nivel humano sin necesidad de pagarle a una persona real ni de hacer “matching” con ella
- Actualmente esto incluye terapeutas, coaches, acompañantes, etc.
- En el futuro, es muy probable que abarque una gama mucho más amplia de experiencias construidas en torno a la voz
Como ocurre con la mayoría de los demás software para consumidores, es imposible predecir quiénes serán los “ganadores”

La llamada telefónica es la API para comunicarse con el mundo, y la IA la lleva un paso más allá

Dónde parece haber oportunidades

Hay enormes oportunidades en cada capa: jugadores de infraestructura, interfaces de consumo y agentes empresariales
En el caso de los agentes de voz B2C y B2B, hay algunas hipótesis sobre los productos emergentes más interesantes:

Principales características de los agentes de voz B2B y B2C

Built to scale (diseñados para escalar)
- La latencia y la experiencia conversacional todavía no están resueltas
- Están buscando fundadores con una postura clara sobre cómo construir agentes
- Se está trabajando para maximizar lo más importante del agente: velocidad, precisión, tono/emoción, etc.
Vertically focused (enfocados verticalmente)
- Pueden ser agentes ejecutores que dependen de modelos ajustados de forma única para un caso de uso específico y de integraciones estrechas
- Eso hace que sea más fácil construirlos, lanzarlos al mercado y hacerlos crecer con éxito
Realistic in scope (realistas en alcance)
- Delegar por completo en la IA llamadas importantes es un gran desafío
- Se espera que las empresas de agentes de voz hagan, en el corto plazo, trabajo que no se puede “escalar”
- Esto puede incluir ajuste por cliente o transferir la llamada a un agente humano para los pasos finales

El stack para construir agentes de voz

Para que un agente de voz funcione, se necesita:
- Capturar la voz humana (ASR)
- Procesar esa entrada con un LLM y devolver una salida
- Volver a hablarle al humano (TTS)
Nuevos modelos multimodales como GPT-4o pueden cambiar la estructura del stack al “ejecutar” varias de estas capas a la vez con un solo modelo
- Esto puede reducir la latencia y el costo, y ofrecer una interfaz conversacional más natural
- Muchos agentes todavía no han alcanzado una calidad verdaderamente humana con el stack compuesto descrito abajo
En algunas empresas/enfoques, un LLM o una serie de LLM manejan el flujo conversacional y la emoción. En otros casos, hay motores propios que agregan emoción y gestionan interrupciones, entre otras cosas
- Los proveedores de voz “full stack” ofrecen todo esto en un solo lugar.
Las apps de consumo (B2C) y empresariales (B2B) se ubican por encima de este stack.
Incluso usando proveedores de terceros, las apps (por lo general) conectan un LLM personalizado, que a menudo también cumple el rol de motor conversacional.

Full stack vs. ensamblaje propio: comparación de factores clave

Los fundadores de agentes de voz pueden elegir entre ejecutar sus agentes en plataformas full stack (por ejemplo: Retell, Vapi, Bland) o ensamblar el stack por su cuenta.
Al tomar esta decisión, hay varios factores clave:
- Complexity (complejidad)
  - Los jugadores full stack ofrecen formas más simples de construir agentes de voz, abstrayendo la complejidad del lado de la infraestructura
  - Aun así, dejan margen para personalización y ajuste, como conectar prompts o documentos de conocimiento (RAG) al LLM
- Flexibility (flexibilidad)
  - Los fundadores que construyen para mercados verticales y casos de uso específicos probablemente querrán la máxima flexibilidad sobre cómo opera/se ejecuta cada capa del stack
  - Esto también puede ayudar a reducir al máximo la latencia
- Cost (costo)
  - Los proveedores full stack pueden introducir un costo adicional por llamada, aunque también podrían negociar mejores precios por volumen
  - En agentes de voz a escala, una diferencia de unos pocos centavos por llamada puede ser importante
- Control (control)
  - Si algo sale mal, los fundadores de agentes de voz deben poder rastrear y resolver el problema de inmediato, especialmente en casos de uso sensibles
  - También pueden necesitar la mayor visibilidad posible sobre cómo funciona cada capa
  - Esto puede ser más fácil con un stack ensamblado por cuenta propia
Principales jugadores del stack
- Full Stack (full stack): hume, Retell AI, VAPI, vocode, sindarin., BLAND.AI
- Emotion (emoción): hume
- Text to Speech (texto a voz): ElevenLabs, Azure
- Speech to Text (voz a texto): Deepgram, Whisper, AssemblyAI, Azure
- Streaming (streaming): LiveKit, daily

Nuestra visión sobre los agentes B2B

La evolución de la voz con IA

Estamos pasando de la voz con IA 1.0 (árboles telefónicos) a la era de la voz con IA 2.0 (basada en LLM)
Las empresas 2.0 empezaron a aparecer en los últimos seis meses aproximadamente
Puede que las empresas 1.0 sean más precisas hoy, pero a largo plazo el enfoque 2.0 será mucho más escalable y preciso

La necesidad de modelos especializados por mercado vertical

No habrá un único modelo o plataforma horizontal que sirva para todo tipo de agente de voz empresarial
Hay varias diferencias clave según el mercado vertical:
1. Tipo de llamada, tono y estructura
2. Integraciones y procesos
3. GTM y “killer feature”
Esto podría significar una explosión de agentes verticales altamente opinados en la UI
Para eso, se necesitan equipos fundadores con experiencia o interés en ese sector

Las oportunidades más cercanas

El TAM es grande para empresas intensivas en mano de obra
Las oportunidades más inmediatas pueden estar en industrias que:
- Dependen totalmente de las reservas por teléfono
- Sufren una escasez severa de mano de obra
- Tienen baja complejidad en las llamadas
A medida que los agentes se vuelvan más sofisticados, podrán manejar llamadas más complejas

La evolución de los agentes B2B

Proceso evolutivo
- IVR (Interactive Voice Response): modelo tradicional de tonos, en el que el agente ofrece al consumidor una serie de opciones (1 para ventas, 2 para soporte al cliente, etc.) y lo guía en consecuencia
- AI 1.0 (Phone Trees): una versión más flexible e intuitiva del IVR, donde el consumidor habla en lenguaje natural y el agente intenta guiarlo a través de una serie de flujos conversacionales
- AI 2.0 (LLMs): conversación libre, donde la IA no intenta hacer coincidir lo que dice el humano con opciones predefinidas
Muchas empresas de agentes de voz están adoptando un enfoque vertical por industria específica (por ejemplo, servicio automotriz) o por tipo de tarea (por ejemplo, agendamiento de citas). Esto se debe a varias razones:
- Dificultad de ejecución
  - El estándar de calidad para dejar llamadas en manos de la IA es alto, y el flujo conversacional (así como el workflow backend del lado del cliente) puede volverse rápidamente complejo o muy específico
  - Las empresas que construyen para los “casos de excepción” de estos mercados verticales tienen más probabilidades de éxito (por ejemplo, vocabulario único que un modelo general podría malinterpretar)
- Regulación y licencias
  - Algunas empresas de agentes de voz enfrentan restricciones especiales, certificaciones requeridas, etc.
  - El ejemplo más representativo es salud (por ejemplo, cumplimiento de HIPAA), pero también está apareciendo en categorías como ventas, donde hay regulación nacional sobre llamadas en frío con IA
- Integraciones
  - En algunas categorías, para implementar correctamente la experiencia de usuario (tanto para empresas como para consumidores), pueden ser necesarias integraciones long tail o especializadas. No vale la pena construirlas a menos que se quiera resolver ese caso de uso específico
- Entrada a otros software
  - La voz puede insertarse de forma natural en acciones centrales del cliente, como reservas, renovaciones, cotizaciones, etc.
  - En algunos casos, esto puede convertirse en una puerta de entrada hacia plataformas SaaS verticales más amplias para esas empresas, especialmente cuando su base de clientes sigue operando offline

Agentes B2B: dónde se ven oportunidades

Basados en LLM, pero no necesariamente 100% automatizados desde el día uno

La “forma fuerte” de los agentes de voz con IA será una conversación completamente guiada por LLM, no un enfoque tipo IVR o árbol telefónico
Sin embargo, como los LLM todavía no son 100% confiables de punta a punta, es probable que haya (temporalmente) “intervención humana” en operaciones más sensibles o de mayor valor
Esto también hace que los workflows específicos por mercado vertical sean especialmente importantes, ya que pueden maximizar la probabilidad de éxito, minimizar los edge cases y reducir la intervención humana

Ajuste de modelos personalizados vs. prompting con enfoque LLM

Los agentes de voz B2B necesitan manejar conversaciones especializadas (o específicas de un mercado vertical), algo para lo que un LLM general probablemente no sea suficiente
Muchas empresas están ajustando modelos por cliente (usando unos cientos o pocos miles de puntos de datos), con la posibilidad de extrapolarlo a un modelo base para toda la empresa
El ajuste personalizado para clientes empresariales también podría continuar
- Nota: algunas empresas pueden ajustar un modelo “general” (que se usará con toda la base de clientes) para un caso de uso específico, y luego hacer prompting por cliente

Equipos técnicos con experiencia de dominio

Dada la complejidad, contar con experiencia previa en IA será útil para construir y escalar agentes de voz B2B de alta calidad
Pero también puede ser igual de importante tener conocimiento del dominio o un fuerte interés para entender cómo empaquetar el producto y abrirse paso en un mercado vertical
¡No hace falta un doctorado en IA para construir y lanzar un agente de voz empresarial!

Una visión clara sobre integraciones + ecosistema

Similar a lo anterior, los compradores de cada mercado vertical suelen querer ver ciertas funciones o integraciones específicas antes de comprar
De hecho, esto puede ser la prueba que eleve la percepción del producto de “útil” a “mágico”
Esa es otra razón por la que tiene sentido empezar bastante verticalizado

Un enfoque “enterprise-grade” o un fuerte movimiento de product-led growth (PLG)

En mercados verticales donde una parte importante de los ingresos se concentra en las empresas/proveedores principales, las compañías de agentes de voz pueden empezar por grandes cuentas y después “bajar” hacia pymes con un producto self-service
Los clientes pyme quieren mucho esta solución y están dispuestos a probar distintas opciones, pero puede que no aporten datos con la escala/calidad necesaria para que una startup ajuste el modelo a nivel empresarial

Nuestra visión sobre los agentes B2C

Diferencias frente a B2B

En B2B, los agentes de voz reemplazan principalmente llamadas telefónicas existentes para completar tareas específicas
En el caso de los agentes para consumidores, el usuario debe elegir seguir participando, lo cual es difícil porque interactuar por voz no siempre es conveniente
Eso significa que el estándar del producto es “más alto”

Primeras áreas de aplicación

La primera y más obvia aplicación de los agentes de voz para consumidores es reemplazar con IA servicios humanos caros o de difícil acceso
Esto incluye todo lo conversacional que puede hacerse de forma virtual, como terapia, coaching, tutoría, etc.

Posibilidades a futuro

Sin embargo, creemos que la verdadera magia de los agentes de voz B2C todavía no ha llegado
Estamos buscando productos que usen el poder de la voz para habilitar nuevos tipos de “conversación” que antes no existían
Esto podría reinventar la forma de servicios existentes o crear servicios completamente nuevos

Imitación de la conexión humana

En productos que resuelvan bien la UX, los agentes de voz ofrecen la oportunidad de involucrar a los consumidores a un nivel nunca antes visto en software
Se trata de imitar una conexión verdaderamente humana
Esto puede aparecer como el propio agente como producto, o como un modo de voz dentro de un producto más amplio

La evolución de los agentes B2C

Hasta ahora, los agentes de voz con IA para consumidores que han dominado el mercado han venido de grandes empresas, como ChatGPT Voice y la app Pi de Inflection.
Hay varias razones por las que la voz para consumidores ha avanzado más lentamente:

La ventaja de las grandes empresas

Las grandes empresas ya cuentan con distribución al consumidor y con modelos de primer nivel en precisión, latencia, etc.
La voz no es fácil de ofrecer a gran escala, especialmente considerando el reciente lanzamiento de GPT-4o

La dificultad de adoptar nuevos comportamientos

Mientras que los agentes de voz B2B “enchufan” IA a procesos existentes, los agentes de voz B2C requieren que el usuario adopte nuevos comportamientos
Eso puede requerir un producto más lento o más mágico

La percepción negativa de la voz con IA existente

Puede que los consumidores no se sientan motivados a probar nuevas apps porque sus experiencias con productos como Siri han influido negativamente en su percepción de la voz con IA

Los productos amplios ya cubren los casos de uso básicos

Los productos de base amplia normalmente pueden cubrir los casos de uso básicos de la voz con IA, como tutoría, compañía, etc.
Las startups B2C de voz están entrando en la etapa de empezar a crear casos de uso o experiencias que ChatGPT, Pi y otros no resolverán

Agentes B2C: dónde se ven oportunidades

Una postura fuerte sobre por qué se necesita voz

Nos entusiasman los productos y fundadores que tienen una postura clara sobre cómo la voz aporta un valor único al producto
No se trata simplemente de “voz por voz”
En muchos casos, la interfaz de voz es incluso peor que la de texto, porque es más incómoda para consumir y extraer información

Una postura fuerte sobre por qué se necesita voz en tiempo real

Si bien la voz ya es difícil de consumir, la voz en tiempo real lo es aún más (frente a mensajes de voz asíncronos)
Nos entusiasman fundadores que tengan una visión clara de por qué su producto debe construirse alrededor de conversaciones en tiempo real
Tal vez para compañía con cualidades humanas, entornos de práctica, etc.

Falta de similitud con el “producto” previo a la IA

Sospechamos que la forma fuerte de estos productos no será una simple traslación directa de conversaciones entre personas previas, donde un agente de voz con IA solo reemplaza a un proveedor humano
Primero, porque es difícil cumplir ese estándar
Y más importante aún, porque existe la oportunidad de usar IA para entregar el mismo valor de una mejor manera (más eficiente, más agradable)

Verticalización donde la calidad del modelo no define al ganador

Los principales productos generales de IA para consumidores (ChatGPT, Pi, Claude) tienen modos de voz de alta calidad
Pueden participar de forma significativa en muchos tipos de conversaciones e interacciones
Como alojan sus propios modelos y su propio stack, es probable que ganen a corto plazo en latencia y flujo conversacional

Esperamos que las startups tengan éxito de formas como las siguientes:

Ajustando o afinando para tipos específicos de conversación, o
Construyendo una UI que aporte más contexto y valor a la experiencia del agente de voz
- (p. ej., seguimiento del progreso a lo largo del tiempo, conducir la conversación/experiencia de una manera opinada)

1 comentarios

bus710 2024-06-13

Tuve la oportunidad de ver de cerca al equipo de integración de una empresa enterprise, y pude observar en tiempo real que se estaba llevando a cabo un proyecto muy similar a lo que se describe en el texto principal.

Al principio, el objetivo era automatizar el CS a través de AWS Connect, pero luego también empezaron a manejar la distribución del tráfico y hasta participaron en el diseño de servicios especiales para clientes VVIP... también es interesante ver cómo el alcance se va haciendo cada vez más grande.

Por eso, siendo sinceros, la línea de servicio parece ser que los bots de respuesta automática atiendan lo más posible a los clientes que no generan dinero, mientras que a los clientes con mayores depósitos los agentes humanos los contacten directamente lo más rápido posible. Supongo que es una parte inevitable jaja