Hoja de ruta de Voice AI: el futuro de la IA conversacional

xguru · 2024-11-28T11:10:01+09:00

Voice AI no es solo una mejora de la UI, sino una innovación en la forma en que se conectan las empresas y los clientes En servicios al cliente como los de las aerolíneas, hay largos tiempos de espera, selección repetitiva de menús y poca comprensión del contexto del cliente. No se resuelven los problemas y además se genera estrés innecesario y pérdida de tiempo Con Voice AI, a diferencia de los rígidos sistemas IVR existentes (respuesta de voz interactiva), es posible ofrecer una experiencia que conversa como un humano y personaliza la experiencia del cliente, además de estar disponible las 24 horas Comprende de inmediato la situación del cliente y propone la mejor alternativa Ejemplo: reprograma automáticamente un vuelo cancelado y recomienda opciones según las preferencias del cliente En algunas situaciones, es posible que los clientes prefieran un agente de IA en lugar de un humano Voice AI satisface la alta demanda y las expectativas de los clientes, al mismo tiempo que mejora la eficiencia operativa Voice AI es la convergencia de modelos de IA nativos de voz y tecnología multimodal Proporciona una innovación fundamental en industrias donde la comunicación humana es importante Satisface las expectativas de los clientes, permite escalar las operaciones de forma eficiente y sienta las bases para la próxima era de la comunicación empresarial Escucha los principales insights de este artículo en un pódcast generado por NotebookLM El enorme mercado de la comunicación por voz Los humanos prefieren hablar: Cada día se realizan miles de millones de llamadas Aunque los mensajes de texto, el email y las redes sociales se han generalizado, las llamadas siguen siendo un medio principal de comunicación en muchos negocios Son esenciales en industrias como salud, servicios legales, servicios para el hogar, seguros y logística para transmitir información compleja, brindar servicios personalizados y resolver situaciones urgentes Problemas de la comunicación telefónica tradicional Falta de capacidad de respuesta: El 62% de las PyMEs pierde llamadas, por lo que no logra atender las necesidades de los clientes y pierde oportunidades de negocio Problemas comunes: Fuera del horario laboral, las llamadas pasan al buzón de voz Solo se puede atender una llamada a la vez La calidad del soporte es inconsistente Limitaciones técnicas: Sistemas IVR (introducidos en la década de 1970): Solo pueden procesar comandos preconfigurados, con poca flexibilidad: "Presione 1 para hacer una reserva" "Diga en pocas palabras en qué necesita ayuda" No entienden la intención ni la urgencia del cliente Deterioro de la experiencia del cliente: Largos tiempos de espera Navegación ineficiente por menús Fracaso en la resolución del problema A pesar de la alta demanda: La tecnología existente tiene límites para resolver los problemas de los clientes de manera eficiente y agradable Se requiere una tecnología de automatización por voz más avanzada [Por qué este es el momento ideal para desarrollar tecnología de Voice] La evolución de la tecnología de voz Sistemas IVR iniciales: Tecnología IVR (Interactive Voice Response) introducida en la década de 1970: Solo podía procesar comandos predefinidos No entendía la intención ni la urgencia del usuario A pesar de ser una tecnología poco querida, sigue siendo un mercado de 5 mil millones de dólares Aparición de la tecnología ASR/STT: Modelos de reconocimiento automático de voz (ASR) y voz a texto (STT): Tecnología que convierte voz en texto en tiempo real Aparición de startups como Gong, Rev, DeepL Lanzamiento del modelo Whisper de OpenAI (2022) y Reverb de Rev (2024): Permiten sistemas conversacionales naturales que manejan acentos, ruido de fondo y emociones Innovación reciente: avance de la IA de voz: Desarrollo de modelos Text-To-Speech (TTS) que generan voces emocionalmente ricas: Empresas líderes como Eleven Labs Capacidades multimodales: Google Gemini 1.5: integra voz, texto y entrada visual Voice Engine de OpenAI: generación de voz que imita la conversación humana Lanzamiento de GPT-4o: Integración nativa en tiempo real de audio, visión y texto Capacidad para manejar conversaciones complejas y responder con inteligencia Dos avances clave impulsados por la innovación reciente Difusión de modelos de alta calidad y desarrollo de aplicaciones: Limitaciones de la arquitectura tradicional de tipo “cascada”: En el proceso STT → LLM → TTS se producen latencia y pérdida de información no textual La alta latencia de respuesta genera una experiencia de usuario negativa Nuevos modelos: GPT-4 Turbo: menor latencia Es posible elegir el modelo según el caso de uso Ascenso de los modelos Speech-to-Speech (STS): Procesan la voz directamente sin convertirla en texto: Latencia ultrabaja: alrededor de 300 ms de tiempo de respuesta para conversaciones naturales Comprensión de contexto: conservan información de conversaciones previas e identifican intención y emoción Mejor reconocimiento emocional y tonal: ofrecen respuestas que reflejan emociones y matices Detección de actividad de voz en tiempo real: el usuario puede hablar sin interrupciones innecesarias Modelos nativos de voz: el futuro de la voz conversacional Superan las limitaciones de la arquitectura en cascada: Modelos STS especializados en voz: Kyutai Moshi: modelo open source Alibaba SenseVoice & CosyVoice: modelos especializados en voz Hume Empathetic Voice Interface: manejo de respuestas emocionales Realtime API de OpenAI: Soporta interacciones Speech-to-Speech basadas en GPT-4o Principales desafíos para la adopción en la industria Tres factores principales que frenan la adopción de agentes de voz Calidad (Quality): Muchos agentes de IA por voz todavía no son lo suficientemente estables como para ser confiables en varios casos de uso. Las empresas suelen probar agentes de voz primero en entornos de bajo riesgo: Ejemplo: una pequeña empresa de reparación de techos usa un agente para atender llamadas fuera del horario laboral Al expandirse a casos de uso de alto valor, los estándares de calidad se vuelven más estrictos Ejemplo: si una sola llamada puede derivar en un proyecto de 30 mil dólares, hay poca tolerancia a fallas en la llamada Confianza (Trust): Los clientes ya han tenido muchas experiencias negativas con la tecnología IVR existente: Respuestas lentas, menús ineficientes y falta de conversación natural Las empresas necesitan tener confianza en que la IA puede manejar las necesidades del cliente con precisión y rapidez Confiabilidad (Reliability): Casos de queja más frecuentes: Llamadas caídas: la interrupción de la llamada frustra al cliente Alucinaciones (Hallucination): la IA entrega respuestas inexactas o fuera de lugar Latencia de respuesta: tiempos de procesamiento largos que provocan abandono Dirección de avance para resolver estos problemas Optimización de latencia y confiabilidad: Aumentan las plataformas para desarrolladores que ofrecen una infraestructura más confiable, enfocadas en reducir la latencia y evitar interrupciones en la conversación Recuperación elegante ante fallos (Fail Gracefully): Si una llamada falla, recuperar de forma natural el flujo conversacional para minimizar interrupciones en la experiencia del cliente Orquestación de conversaciones: Diseñar al agente de IA para que siga flujos predecibles: minimizar alucinaciones y establecer guardrails sobre la información y el alcance de la conversación que puede ofrecer al cliente Mapa del mercado de Voice AI En el mercado de Voice AI hay innovación en múltiples capas, desde modelos base hasta infraestructura de voz, plataformas para desarrolladores y aplicaciones En particular, se observan oportunidades destacables en las tres áreas clave siguientes 1. Modelos (Models) Función: construyen tecnología para soportar casos de uso basados en voz y se especializan en tecnologías específicas como SST (Speech-to-Speech), LLS (Large Language Models) y TTS (Text-to-Speech) Dirección futura: Liderarán los modelos multimodales y nativos de voz Será clave la tecnología capaz de procesar audio directamente sin pasar por conversiones entre texto y audio Modelos de próxima generación: Empresas como Cartesia están abriendo camino con nuevas arquitecturas basadas en State Space Models (SSMs) Se espera reducir latencia y costos separando el manejo de conversaciones simples en modelos pequeños y las tareas complejas en modelos más potentes 2. Plataformas para desarrolladores (Developer Platforms) La construcción de agentes de IA por voz y la gestión de infraestructura de voz en tiempo real siguen siendo un gran desafío técnico para los desarrolladores. Las nuevas plataformas resuelven esta complejidad y ofrecen distintos tipos de soporte Optimización de latencia y confiabilidad: Gestionar agentes de voz en tiempo real de alto rendimiento en forma escalable. Gestión de señales conversacionales y contexto no verbal: Detección de “endpointing” para determinar si el usuario terminó de hablar. Filtrado de ruido de fondo y mejora en la detección de emociones y estados afectivos. Manejo eficiente de errores: Detectar llamadas API fallidas y reintentarlas de inmediato. Insertar respuestas alternativas para evitar interrupciones en la conversación. Integración con sistemas de terceros y soporte RAG: Se requieren integraciones de baja latencia con bases de conocimiento y sistemas de terceros. Control del flujo conversacional: Diseñar flujos predecibles para manejar conversaciones sensibles o reguladas. Observabilidad, analítica y pruebas: Resolver la falta de herramientas para rastrear la calidad y el rendimiento de las conversaciones a gran escala. Ejemplo de plataforma Vapi: ayuda a reducir la complejidad de la infraestructura de voz y a construir rápidamente agentes de voz de alta calidad 3. Aplicaciones (Applications) Se están desarrollando productos de automatización basados en voz en distintos sectores. Características de las aplicaciones más destacadas: Resuelven completamente la tarea del cliente y entregan un resultado valioso. Tienen escalabilidad para manejar miles de llamadas simultáneamente en momentos de picos de demanda. Ofrecen soluciones personalizadas especializadas para industrias específicas. Principales oportunidades por función Transcripción (Transcription): elaboración de notas de conversación, recomendación de tareas de seguimiento Llamadas entrantes (Inbound Calling): gestión de reservas, conversión de leads, customer success Llamadas salientes (Outbound Calling): filtrado de candidatos, confirmación de citas Entrenamiento (Training): entrenamiento de ventas o entrevistas. Negociación (Negotiation): negociación de compras, disputas de seguros, ajustes contractuales Casos de inversión Abridge: documentación de conversaciones médicas Rilla: coaching para ventas de campo Rev: transcripción colaborativa entre IA y humanos en múltiples industrias Casos de uso concretos Solución especializada por industria Sameday AI: agente de ventas con IA para la industria de servicios para el hogar. Automatiza desde la recepción de la llamada del cliente → cotización según el problema → coordinación de agenda → finalización del pago. Llamadas salientes Wayfaster: automatización del proceso de contratación. Realiza automáticamente llamadas de filtrado a postulantes para enfocarse en los mejores candidatos. Salud negociación con aseguradoras: usa LLM para analizar miles de documentos de seguros e historiales de pacientes, y apoyar negociaciones en tiempo real. Principios de inversión en tecnología Voice AI En el ecosistema de Voice AI, las mayores oportunidades de emprendimiento están en la capa de plataformas para desarrolladores y en la capa de aplicaciones La velocidad de mejora de los modelos está creando un entorno donde los emprendedores pueden desarrollar y probar rápidamente MVPs (productos mínimos viables) efectivos con una inversión inicial baja 1. Soluciones profundamente integradas con flujos de trabajo por industria y multimodalidad Las aplicaciones de Voice AI de mayor impacto están profundamente integradas con los flujos de trabajo de industrias específicas Se ajustan al lenguaje y estilo conversacional propios de cada industria Ejemplo: Un agente de voz para concesionarios de autos integrado con el CRM usa datos de interacciones previas con clientes para mejorar la calidad del servicio y acelerar el despliegue Combina voz con texto, imágenes y otras modalidades para resolver procesos humanos de varias etapas y mayor complejidad 2. Entregar productos de alta calidad mediante ingeniería robusta Crear un demo para hackathon es relativamente sencillo, pero un producto real requiere alta confiabilidad, escalabilidad y capacidad de manejar casos de uso reales Requisitos empresariales: rendimiento consistente. Garantía de baja latencia. Integración fluida con sistemas existentes Elementos clave de diseño: manejo de entradas de voz impredecibles. Mayor seguridad. Mantener alto uptime 3. Equilibrio entre crecimiento, retención y KPI de calidad del producto Los agentes de voz tienen un fuerte potencial de crecimiento en funciones impulsoras de ingresos, como ventas. Cuando los clientes trasladan flujos de trabajo clave de personas a agentes, una caída en la calidad puede generar una alta tasa de cancelación (churn) KPI importantes e indicadores de calidad Churn (tasa de cancelación de clientes): En etapas tempranas, muchas aplicaciones de voz enfrentan dificultades por altas tasas de cancelación. Ocurre cuando los clientes migran a la competencia por un servicio poco confiable. Self-Serve Resolution (tasa de resolución por autoservicio): Indica qué tan eficazmente el agente de voz resuelve el problema del usuario sin intervención humana. Customer Satisfaction Score (puntaje de satisfacción del cliente): Mide la satisfacción general de los clientes que interactuaron con el agente de voz y aporta insights de calidad. Call Termination Rates (tasa de finalización/abandono de llamadas): Una tasa alta indica problemas en la experiencia de usuario y asuntos no resueltos. Cohort Call Volume Expansion (expansión del volumen de llamadas por cohorte): Mide si, con el tiempo, los clientes aumentan su uso del agente de voz; es un indicador del valor del producto y del engagement del usuario. El futuro de Voice AI Los avances tecnológicos de los últimos años han abierto la posibilidad de desarrollar productos innovadores que resuelvan problemas complejos Se espera que, en el futuro, los sistemas multimodales y conversacionales en tiempo real resuelvan aún más problemas en diversas industrias

(bvp.com)

13 puntos por xguru 2024-11-28 | 1 comentarios | Compartir por WhatsApp

Voice AI no es solo una mejora de la UI, sino una innovación en la forma en que se conectan las empresas y los clientes
- En servicios al cliente como los de las aerolíneas, hay largos tiempos de espera, selección repetitiva de menús y poca comprensión del contexto del cliente. No se resuelven los problemas y además se genera estrés innecesario y pérdida de tiempo
- Con Voice AI, a diferencia de los rígidos sistemas IVR existentes (respuesta de voz interactiva), es posible ofrecer una experiencia que conversa como un humano y personaliza la experiencia del cliente, además de estar disponible las 24 horas
  - Comprende de inmediato la situación del cliente y propone la mejor alternativa
  - Ejemplo: reprograma automáticamente un vuelo cancelado y recomienda opciones según las preferencias del cliente
  - En algunas situaciones, es posible que los clientes prefieran un agente de IA en lugar de un humano
- Voice AI satisface la alta demanda y las expectativas de los clientes, al mismo tiempo que mejora la eficiencia operativa
Voice AI es la convergencia de modelos de IA nativos de voz y tecnología multimodal
- Proporciona una innovación fundamental en industrias donde la comunicación humana es importante
- Satisface las expectativas de los clientes, permite escalar las operaciones de forma eficiente y sienta las bases para la próxima era de la comunicación empresarial
- Escucha los principales insights de este artículo en un pódcast generado por NotebookLM

El enorme mercado de la comunicación por voz

Los humanos prefieren hablar:
- Cada día se realizan miles de millones de llamadas
- Aunque los mensajes de texto, el email y las redes sociales se han generalizado, las llamadas siguen siendo un medio principal de comunicación en muchos negocios
- Son esenciales en industrias como salud, servicios legales, servicios para el hogar, seguros y logística para transmitir información compleja, brindar servicios personalizados y resolver situaciones urgentes
Problemas de la comunicación telefónica tradicional
- Falta de capacidad de respuesta:
  - El 62% de las PyMEs pierde llamadas, por lo que no logra atender las necesidades de los clientes y pierde oportunidades de negocio
  - Problemas comunes:
    - Fuera del horario laboral, las llamadas pasan al buzón de voz
    - Solo se puede atender una llamada a la vez
    - La calidad del soporte es inconsistente
- Limitaciones técnicas:
  - Sistemas IVR (introducidos en la década de 1970):
    - Solo pueden procesar comandos preconfigurados, con poca flexibilidad: "Presione 1 para hacer una reserva" "Diga en pocas palabras en qué necesita ayuda"
    - No entienden la intención ni la urgencia del cliente
  - Deterioro de la experiencia del cliente:
    - Largos tiempos de espera
    - Navegación ineficiente por menús
    - Fracaso en la resolución del problema
A pesar de la alta demanda:
- La tecnología existente tiene límites para resolver los problemas de los clientes de manera eficiente y agradable
- Se requiere una tecnología de automatización por voz más avanzada

[Por qué este es el momento ideal para desarrollar tecnología de Voice]

La evolución de la tecnología de voz

Sistemas IVR iniciales:

Tecnología IVR (Interactive Voice Response) introducida en la década de 1970:
- Solo podía procesar comandos predefinidos
- No entendía la intención ni la urgencia del usuario
A pesar de ser una tecnología poco querida, sigue siendo un mercado de 5 mil millones de dólares

Aparición de la tecnología ASR/STT:

Modelos de reconocimiento automático de voz (ASR) y voz a texto (STT):
- Tecnología que convierte voz en texto en tiempo real
- Aparición de startups como Gong, Rev, DeepL
- Lanzamiento del modelo Whisper de OpenAI (2022) y Reverb de Rev (2024):
  - Permiten sistemas conversacionales naturales que manejan acentos, ruido de fondo y emociones

Innovación reciente: avance de la IA de voz:

Desarrollo de modelos Text-To-Speech (TTS) que generan voces emocionalmente ricas:
- Empresas líderes como Eleven Labs
Capacidades multimodales:
- Google Gemini 1.5: integra voz, texto y entrada visual
- Voice Engine de OpenAI: generación de voz que imita la conversación humana
Lanzamiento de GPT-4o:
- Integración nativa en tiempo real de audio, visión y texto
- Capacidad para manejar conversaciones complejas y responder con inteligencia

Dos avances clave impulsados por la innovación reciente

Difusión de modelos de alta calidad y desarrollo de aplicaciones:
- Limitaciones de la arquitectura tradicional de tipo “cascada”:
  - En el proceso STT → LLM → TTS se producen latencia y pérdida de información no textual
  - La alta latencia de respuesta genera una experiencia de usuario negativa
- Nuevos modelos:
  - GPT-4 Turbo: menor latencia
  - Es posible elegir el modelo según el caso de uso
Ascenso de los modelos Speech-to-Speech (STS):
- Procesan la voz directamente sin convertirla en texto:
  - Latencia ultrabaja: alrededor de 300 ms de tiempo de respuesta para conversaciones naturales
  - Comprensión de contexto: conservan información de conversaciones previas e identifican intención y emoción
  - Mejor reconocimiento emocional y tonal: ofrecen respuestas que reflejan emociones y matices
  - Detección de actividad de voz en tiempo real: el usuario puede hablar sin interrupciones innecesarias

Modelos nativos de voz: el futuro de la voz conversacional

Superan las limitaciones de la arquitectura en cascada:
- Modelos STS especializados en voz:
  - Kyutai Moshi: modelo open source
  - Alibaba SenseVoice & CosyVoice: modelos especializados en voz
  - Hume Empathetic Voice Interface: manejo de respuestas emocionales
Realtime API de OpenAI:
- Soporta interacciones Speech-to-Speech basadas en GPT-4o

Principales desafíos para la adopción en la industria

Tres factores principales que frenan la adopción de agentes de voz

Calidad (Quality):
- Muchos agentes de IA por voz todavía no son lo suficientemente estables como para ser confiables en varios casos de uso.
- Las empresas suelen probar agentes de voz primero en entornos de bajo riesgo:
  - Ejemplo: una pequeña empresa de reparación de techos usa un agente para atender llamadas fuera del horario laboral
  - Al expandirse a casos de uso de alto valor, los estándares de calidad se vuelven más estrictos
  - Ejemplo: si una sola llamada puede derivar en un proyecto de 30 mil dólares, hay poca tolerancia a fallas en la llamada
Confianza (Trust):
- Los clientes ya han tenido muchas experiencias negativas con la tecnología IVR existente:
  - Respuestas lentas, menús ineficientes y falta de conversación natural
- Las empresas necesitan tener confianza en que la IA puede manejar las necesidades del cliente con precisión y rapidez
Confiabilidad (Reliability):
- Casos de queja más frecuentes:
  - Llamadas caídas: la interrupción de la llamada frustra al cliente
  - Alucinaciones (Hallucination): la IA entrega respuestas inexactas o fuera de lugar
  - Latencia de respuesta: tiempos de procesamiento largos que provocan abandono

Dirección de avance para resolver estos problemas

Optimización de latencia y confiabilidad:
- Aumentan las plataformas para desarrolladores que ofrecen una infraestructura más confiable, enfocadas en reducir la latencia y evitar interrupciones en la conversación
Recuperación elegante ante fallos (Fail Gracefully):
- Si una llamada falla, recuperar de forma natural el flujo conversacional para minimizar interrupciones en la experiencia del cliente
Orquestación de conversaciones:
- Diseñar al agente de IA para que siga flujos predecibles: minimizar alucinaciones y establecer guardrails sobre la información y el alcance de la conversación que puede ofrecer al cliente

Mapa del mercado de Voice AI

En el mercado de Voice AI hay innovación en múltiples capas, desde modelos base hasta infraestructura de voz, plataformas para desarrolladores y aplicaciones
En particular, se observan oportunidades destacables en las tres áreas clave siguientes

1. Modelos (Models)

Función: construyen tecnología para soportar casos de uso basados en voz y se especializan en tecnologías específicas como SST (Speech-to-Speech), LLS (Large Language Models) y TTS (Text-to-Speech)
Dirección futura:
- Liderarán los modelos multimodales y nativos de voz
- Será clave la tecnología capaz de procesar audio directamente sin pasar por conversiones entre texto y audio
Modelos de próxima generación:
- Empresas como Cartesia están abriendo camino con nuevas arquitecturas basadas en State Space Models (SSMs)
- Se espera reducir latencia y costos separando el manejo de conversaciones simples en modelos pequeños y las tareas complejas en modelos más potentes

2. Plataformas para desarrolladores (Developer Platforms)

La construcción de agentes de IA por voz y la gestión de infraestructura de voz en tiempo real siguen siendo un gran desafío técnico para los desarrolladores. Las nuevas plataformas resuelven esta complejidad y ofrecen distintos tipos de soporte
Optimización de latencia y confiabilidad:
- Gestionar agentes de voz en tiempo real de alto rendimiento en forma escalable.
Gestión de señales conversacionales y contexto no verbal:
- Detección de “endpointing” para determinar si el usuario terminó de hablar.
- Filtrado de ruido de fondo y mejora en la detección de emociones y estados afectivos.
Manejo eficiente de errores:
- Detectar llamadas API fallidas y reintentarlas de inmediato.
- Insertar respuestas alternativas para evitar interrupciones en la conversación.
Integración con sistemas de terceros y soporte RAG:
- Se requieren integraciones de baja latencia con bases de conocimiento y sistemas de terceros.
Control del flujo conversacional:
- Diseñar flujos predecibles para manejar conversaciones sensibles o reguladas.
Observabilidad, analítica y pruebas:
- Resolver la falta de herramientas para rastrear la calidad y el rendimiento de las conversaciones a gran escala.
Ejemplo de plataforma Vapi: ayuda a reducir la complejidad de la infraestructura de voz y a construir rápidamente agentes de voz de alta calidad

3. Aplicaciones (Applications)

Se están desarrollando productos de automatización basados en voz en distintos sectores.
Características de las aplicaciones más destacadas:
- Resuelven completamente la tarea del cliente y entregan un resultado valioso.
- Tienen escalabilidad para manejar miles de llamadas simultáneamente en momentos de picos de demanda.
- Ofrecen soluciones personalizadas especializadas para industrias específicas.
Principales oportunidades por función
- Transcripción (Transcription): elaboración de notas de conversación, recomendación de tareas de seguimiento
- Llamadas entrantes (Inbound Calling): gestión de reservas, conversión de leads, customer success
- Llamadas salientes (Outbound Calling): filtrado de candidatos, confirmación de citas
- Entrenamiento (Training): entrenamiento de ventas o entrevistas.
- Negociación (Negotiation): negociación de compras, disputas de seguros, ajustes contractuales
Casos de inversión
- Abridge: documentación de conversaciones médicas
- Rilla: coaching para ventas de campo
- Rev: transcripción colaborativa entre IA y humanos en múltiples industrias

Casos de uso concretos

Solución especializada por industria Sameday AI: agente de ventas con IA para la industria de servicios para el hogar. Automatiza desde la recepción de la llamada del cliente → cotización según el problema → coordinación de agenda → finalización del pago.
Llamadas salientes Wayfaster: automatización del proceso de contratación. Realiza automáticamente llamadas de filtrado a postulantes para enfocarse en los mejores candidatos.
Salud negociación con aseguradoras: usa LLM para analizar miles de documentos de seguros e historiales de pacientes, y apoyar negociaciones en tiempo real.

Principios de inversión en tecnología Voice AI

En el ecosistema de Voice AI, las mayores oportunidades de emprendimiento están en la capa de plataformas para desarrolladores y en la capa de aplicaciones
La velocidad de mejora de los modelos está creando un entorno donde los emprendedores pueden desarrollar y probar rápidamente MVPs (productos mínimos viables) efectivos con una inversión inicial baja
1. Soluciones profundamente integradas con flujos de trabajo por industria y multimodalidad
- Las aplicaciones de Voice AI de mayor impacto están profundamente integradas con los flujos de trabajo de industrias específicas
- Se ajustan al lenguaje y estilo conversacional propios de cada industria
- Ejemplo:
  - Un agente de voz para concesionarios de autos integrado con el CRM usa datos de interacciones previas con clientes para mejorar la calidad del servicio y acelerar el despliegue
  - Combina voz con texto, imágenes y otras modalidades para resolver procesos humanos de varias etapas y mayor complejidad
2. Entregar productos de alta calidad mediante ingeniería robusta
- Crear un demo para hackathon es relativamente sencillo, pero un producto real requiere alta confiabilidad, escalabilidad y capacidad de manejar casos de uso reales
- Requisitos empresariales: rendimiento consistente. Garantía de baja latencia. Integración fluida con sistemas existentes
- Elementos clave de diseño: manejo de entradas de voz impredecibles. Mayor seguridad. Mantener alto uptime
3. Equilibrio entre crecimiento, retención y KPI de calidad del producto
- Los agentes de voz tienen un fuerte potencial de crecimiento en funciones impulsoras de ingresos, como ventas.
- Cuando los clientes trasladan flujos de trabajo clave de personas a agentes, una caída en la calidad puede generar una alta tasa de cancelación (churn)

KPI importantes e indicadores de calidad

Churn (tasa de cancelación de clientes):
- En etapas tempranas, muchas aplicaciones de voz enfrentan dificultades por altas tasas de cancelación.
- Ocurre cuando los clientes migran a la competencia por un servicio poco confiable.
Self-Serve Resolution (tasa de resolución por autoservicio):
- Indica qué tan eficazmente el agente de voz resuelve el problema del usuario sin intervención humana.
Customer Satisfaction Score (puntaje de satisfacción del cliente):
- Mide la satisfacción general de los clientes que interactuaron con el agente de voz y aporta insights de calidad.
Call Termination Rates (tasa de finalización/abandono de llamadas):
- Una tasa alta indica problemas en la experiencia de usuario y asuntos no resueltos.
Cohort Call Volume Expansion (expansión del volumen de llamadas por cohorte):
- Mide si, con el tiempo, los clientes aumentan su uso del agente de voz; es un indicador del valor del producto y del engagement del usuario.

El futuro de Voice AI

Los avances tecnológicos de los últimos años han abierto la posibilidad de desarrollar productos innovadores que resuelvan problemas complejos
Se espera que, en el futuro, los sistemas multimodales y conversacionales en tiempo real resuelvan aún más problemas en diversas industrias

1 comentarios

xguru 2024-11-28

Como antes trabajé en el área de IVR, supongo que por eso me interesa mucho este tema jaja

Vean también el artículo Todo sobre los agentes de voz con IA que resumió a16z