Nuestra tesis - "¿Por qué voz?"
- La voz cumple el papel de un fuerte punto de inflexión en términos de la utilidad de la IA
- Desde la perspectiva de las empresas, la IA permite reemplazar personal y atender a clientes las 24 horas
- Desde la perspectiva de los consumidores, también existe la expectativa de que la voz se convierta en la interfaz principal de la IA
- En este momento, la infraestructura de voz para IA ya se ha asentado hasta cierto punto, y la voz comienza a usarse de lleno en diversas aplicaciones
- A medida que mejora el rendimiento de los modelos, existe la visión de que la voz dejará de ser el producto en sí y funcionará como una "wedge" de entrada al mercado
Novedades anunciadas hasta ahora
- Mayo de 2024: OpenAI lanzó GPT-4o voice y mostró capacidades de voz en tiempo real; Cartesia anunció Sonic
- Junio de 2024: Character introdujo llamadas de voz en beta; Apple anunció la integración de ChatGPT en Siri
- Julio de 2024: OpenAI avanzó con el rollout de Advanced Voice; Speechmatics presentó el modelo Flow
- Agosto de 2024: Amazon integró Claude en Alexa; Meta ofreció compañeros de IA con voces de celebridades
- Septiembre de 2024: NotebookLM ganó atención con Audio Overview; PlayHT presentó su modelo 2.0
- Octubre de 2024: OpenAI lanzó su API en tiempo real; Kyutai presentó el modelo Moshi
- Noviembre de 2024: ElevenLabs lanzó Conversational AI; NVIDIA presentó el modelo Fugatto; Gemini Live lanzó su app en tiempo real
- Diciembre de 2024: ChatGPT Advanced Voice Mode incorporó búsqueda en internet; 1-800-CHATGPT generó gran atención
¿Qué cambió?
- La infraestructura de modelos se simplificó y aparecieron agentes de voz con baja latencia y alto rendimiento
- Los nuevos modelos conversacionales de los últimos 6 meses han sido un motor clave de esta mejora de rendimiento
- Los costos también siguen bajando: en diciembre de 2024 OpenAI redujo de forma importante el precio de la API en tiempo real de GPT-4o
- GPT-4o mini también está disponible en versión en tiempo real
Situación actual
-
Calidad del modelo
- La calidad conversacional (latencia, capacidad de interrupción, expresión emocional, etc.) está en un nivel donde la mayoría de los problemas ya están resueltos
- Gracias a los avances del modelo de voz en tiempo real de OpenAI y otros modelos, ya hay casos con mejor desempeño que call centers/BPO
-
GTM(go-to-market)
- Los productos de agentes pueden expandirse rápido al reemplazar directamente trabajo humano
- Sin embargo, las barreras de entrada también son bajas, mientras que las grandes empresas conservadoras tienen altas barreras de adopción
- La ejecución de GTM y la siguiente etapa del producto (act 2) son factores clave del éxito
-
Monetización
- Al inicio predominaban los precios por minuto, pero la fuerte caída del costo de los modelos está intensificando la presión sobre precios
- Hacia adelante, se espera un modelo de cobro mixto con tarifa de plataforma + uso
-
Panorama competitivo
- Los agentes de voz para empresas compiten entre plataformas para desarrolladores, plataformas generales no-code y soluciones especializadas por industria
- Se espera que la competencia se intensifique aún más
Evolución del mercado
- En la segunda mitad de 2024, el mercado de agentes de voz creció rápidamente
- Hay una tendencia de múltiples productos agregando funciones de voz
- En varias capas del stack de voz conversacional hay mucha actividad tanto de levantamiento de capital como de adquisición real de clientes
- En especial, las grandes empresas tienden a no reemplazar de golpe todo el trabajo humano de llamadas con IA, sino a empezar con ciertos tipos de llamadas y expandirse gradualmente
- Llamadas nocturnas y de sobrecarga: llamadas que normalmente terminarían en buzón de voz pueden ser atendidas por IA, permitiendo recopilar cierta información y procesar transacciones
- Nuevas llamadas outbound: se vuelven posibles llamadas que antes no se hacían por baja rentabilidad, con potencial de ingresos adicionales o ahorro de costos
- Llamadas de "back office": automatizar tareas que requieren llamar a otras empresas o instituciones puede aumentar la eficiencia
Evolución del mercado - casos de financiamiento
-
Empresas de modelos
- Siguen apareciendo noticias de grandes rondas de inversión, desde seed hasta Series B, en ElevenLabs, Hume, PlayAI, Cartesia, WaveForms AI y otras
-
Plataformas generales
- Kore, Rasa, Parloa, PolyAI, Synthflow, Thoughtly, Bland y otras avanzaron con rondas Series A a C
- También están llamando la atención empresas enfocadas en industrias específicas, como 11x, Decagon, Sierra y Artisan, en áreas como ventas y customer support
- También surgieron plataformas para desarrolladores como Vapi y Retell AI
-
Plataformas verticales
- Muchas startups en áreas especializadas como salud, RR. HH. y respuesta a emergencias, entre ellas Hippocratic AI, Assort Health, Voicepanel, Letter y Solidroad, recibieron inversión
- Wayfaster y HappyRobot también lograron financiamiento en áreas como logística y entrevistas
Verticales de mercado importantes
- Los lugares con mayor probabilidad de adoptar primero agentes de voz son las industrias con gran gasto en call centers/BPO
- Industrias clave como servicios financieros, seguros, B2C, B2B, gobierno y salud probablemente desarrollarán sus propias soluciones de voz
- Se espera una actividad fuerte de fundadores en las siguientes áreas
- Financial services (por ejemplo: cobranza de deudas)
- Insurance (atención al cliente y back office)
- Government
- Support services (atención compleja al cliente, como soporte de TI que requiere conocimiento especializado)
- Incluso fuera de la categoría de call center, ya se ve disposición a pagar por agentes de voz con IA para coaching/training en roles de altos salarios
- Un agente de voz realista puede actuar como "simulador" y mejorar notablemente las capacidades laborales
- Esto puede reemplazar costos de personal, como coaches de ventas, o software existente poco eficiente
Verticales a seguir - tendencia de empresas de YC
- El número de empresas de agentes de voz dentro de YC está aumentando rápidamente
- Predominan B2B (~69%) y salud (~18%), y dentro de B2B hay muchas startups relacionadas con fintech y customer support
- En salud, el sector se divide entre front office (orientado a pacientes) y back office (orientado a farmacias, aseguradoras, etc.)
- En general, las startups están intentando resolver problemas de múltiples industrias con agentes de voz
Lo que estamos buscando
- Industrias donde la llamada telefónica sea el canal central, o donde por regulación o eficiencia el teléfono esté especialmente optimizado
- Donde el teléfono sea el medio principal para demos con clientes (por ejemplo: logística)
- Donde por regulación una llamada sea más efectiva (por ejemplo: cobranza de deudas)
- O donde tenga mayor tasa de éxito que otros enfoques (por ejemplo: salud)
- La estructura de la llamada debe ser clara y medible
- Deben estar bien definidos los puntos de datos a recopilar o la información a entregar
- Los resultados deben ser fáciles de medir, para que la empresa pueda considerar la adopción de agentes de voz con IA sin demasiada fricción
- Debe lograrse una reducción de más del 50% en costos laborales, manteniendo un desempeño similar al humano
- La adopción es más fácil cuando el personal reemplazado es evidente o puede reasignarse
- Puede haber escepticismo interno frente a la IA, por lo que el ROI debe ser muy alto
- La llamada debe ser un problema de "supervivencia" para el cliente, pero con un entorno donde quien llama o recibe pueda tolerar fallas
- A menudo se empieza con llamadas nocturnas, de overflow o llamadas "subprime"
- Es más fácil para la IA entrar en espacios con estándares de desempeño bajos
- La eficiencia en llamadas tiene gran impacto en casos de generación directa de ingresos (por ejemplo: nuevas reservas, pagos) o en áreas de alto gasto (por ejemplo: drive-thru)
- Para entrar al segmento SMB/mid-market, debe ser posible una integración VoIP simple o un self-setup
- En enterprise, mientras más compleja sea la integración inicial, más se convierte en barrera de entrada, pero una vez bien construida también se vuelve ventaja competitiva
- O bien puede empezarse fácilmente con baja complejidad de integración y luego expandirse gradualmente
- En general, el mercado muestra alto interés por soluciones que logren al mismo tiempo una alta tasa de éxito y una gran reducción de costos
Caso de estudio - entrevistas de voz con IA
- Al principio, parece inesperado introducir voz con IA en entrevistas de contratación, que tienen alta complejidad y sensibilidad
- Sin embargo, la industria de staffing ha visto un gran efecto al manejar entrevistas masivas y repetitivas
- Se vuelve posible realizar entrevistas más rápidas y consistentes sin perjudicar la experiencia del candidato
- La IA puede hacer entrevistas de inmediato cuando se necesita o evaluar candidatos sin barreras de idioma o acento
- En especial para roles técnicos, hay retroalimentación de que la IA puede evaluar con más precisión que un reclutador generalista
- Las empresas perciben ventajas como una mayor tasa de aprobación en entrevistas y un proceso más rápido de matching de candidatos
1 comentarios
Todo lo que a16z recopiló sobre los agentes de voz con IA