15 puntos por xguru 2025-02-06 | 1 comentarios | Compartir por WhatsApp

Nuestra tesis - "¿Por qué voz?"

  • La voz cumple el papel de un fuerte punto de inflexión en términos de la utilidad de la IA
  • Desde la perspectiva de las empresas, la IA permite reemplazar personal y atender a clientes las 24 horas
  • Desde la perspectiva de los consumidores, también existe la expectativa de que la voz se convierta en la interfaz principal de la IA
  • En este momento, la infraestructura de voz para IA ya se ha asentado hasta cierto punto, y la voz comienza a usarse de lleno en diversas aplicaciones
  • A medida que mejora el rendimiento de los modelos, existe la visión de que la voz dejará de ser el producto en sí y funcionará como una "wedge" de entrada al mercado

Novedades anunciadas hasta ahora

  • Mayo de 2024: OpenAI lanzó GPT-4o voice y mostró capacidades de voz en tiempo real; Cartesia anunció Sonic
  • Junio de 2024: Character introdujo llamadas de voz en beta; Apple anunció la integración de ChatGPT en Siri
  • Julio de 2024: OpenAI avanzó con el rollout de Advanced Voice; Speechmatics presentó el modelo Flow
  • Agosto de 2024: Amazon integró Claude en Alexa; Meta ofreció compañeros de IA con voces de celebridades
  • Septiembre de 2024: NotebookLM ganó atención con Audio Overview; PlayHT presentó su modelo 2.0
  • Octubre de 2024: OpenAI lanzó su API en tiempo real; Kyutai presentó el modelo Moshi
  • Noviembre de 2024: ElevenLabs lanzó Conversational AI; NVIDIA presentó el modelo Fugatto; Gemini Live lanzó su app en tiempo real
  • Diciembre de 2024: ChatGPT Advanced Voice Mode incorporó búsqueda en internet; 1-800-CHATGPT generó gran atención

¿Qué cambió?

  • La infraestructura de modelos se simplificó y aparecieron agentes de voz con baja latencia y alto rendimiento
  • Los nuevos modelos conversacionales de los últimos 6 meses han sido un motor clave de esta mejora de rendimiento
  • Los costos también siguen bajando: en diciembre de 2024 OpenAI redujo de forma importante el precio de la API en tiempo real de GPT-4o
  • GPT-4o mini también está disponible en versión en tiempo real

Situación actual

  • Calidad del modelo

    • La calidad conversacional (latencia, capacidad de interrupción, expresión emocional, etc.) está en un nivel donde la mayoría de los problemas ya están resueltos
    • Gracias a los avances del modelo de voz en tiempo real de OpenAI y otros modelos, ya hay casos con mejor desempeño que call centers/BPO
  • GTM(go-to-market)

    • Los productos de agentes pueden expandirse rápido al reemplazar directamente trabajo humano
    • Sin embargo, las barreras de entrada también son bajas, mientras que las grandes empresas conservadoras tienen altas barreras de adopción
    • La ejecución de GTM y la siguiente etapa del producto (act 2) son factores clave del éxito
  • Monetización

    • Al inicio predominaban los precios por minuto, pero la fuerte caída del costo de los modelos está intensificando la presión sobre precios
    • Hacia adelante, se espera un modelo de cobro mixto con tarifa de plataforma + uso
  • Panorama competitivo

    • Los agentes de voz para empresas compiten entre plataformas para desarrolladores, plataformas generales no-code y soluciones especializadas por industria
    • Se espera que la competencia se intensifique aún más

Evolución del mercado

  • En la segunda mitad de 2024, el mercado de agentes de voz creció rápidamente
  • Hay una tendencia de múltiples productos agregando funciones de voz
  • En varias capas del stack de voz conversacional hay mucha actividad tanto de levantamiento de capital como de adquisición real de clientes
  • En especial, las grandes empresas tienden a no reemplazar de golpe todo el trabajo humano de llamadas con IA, sino a empezar con ciertos tipos de llamadas y expandirse gradualmente
    • Llamadas nocturnas y de sobrecarga: llamadas que normalmente terminarían en buzón de voz pueden ser atendidas por IA, permitiendo recopilar cierta información y procesar transacciones
    • Nuevas llamadas outbound: se vuelven posibles llamadas que antes no se hacían por baja rentabilidad, con potencial de ingresos adicionales o ahorro de costos
      • Llamadas de "back office": automatizar tareas que requieren llamar a otras empresas o instituciones puede aumentar la eficiencia

Evolución del mercado - casos de financiamiento

  • Empresas de modelos

    • Siguen apareciendo noticias de grandes rondas de inversión, desde seed hasta Series B, en ElevenLabs, Hume, PlayAI, Cartesia, WaveForms AI y otras
  • Plataformas generales

    • Kore, Rasa, Parloa, PolyAI, Synthflow, Thoughtly, Bland y otras avanzaron con rondas Series A a C
    • También están llamando la atención empresas enfocadas en industrias específicas, como 11x, Decagon, Sierra y Artisan, en áreas como ventas y customer support
    • También surgieron plataformas para desarrolladores como Vapi y Retell AI
  • Plataformas verticales

    • Muchas startups en áreas especializadas como salud, RR. HH. y respuesta a emergencias, entre ellas Hippocratic AI, Assort Health, Voicepanel, Letter y Solidroad, recibieron inversión
    • Wayfaster y HappyRobot también lograron financiamiento en áreas como logística y entrevistas

Verticales de mercado importantes

  • Los lugares con mayor probabilidad de adoptar primero agentes de voz son las industrias con gran gasto en call centers/BPO
  • Industrias clave como servicios financieros, seguros, B2C, B2B, gobierno y salud probablemente desarrollarán sus propias soluciones de voz
  • Se espera una actividad fuerte de fundadores en las siguientes áreas
    • Financial services (por ejemplo: cobranza de deudas)
    • Insurance (atención al cliente y back office)
    • Government
    • Support services (atención compleja al cliente, como soporte de TI que requiere conocimiento especializado)
  • Incluso fuera de la categoría de call center, ya se ve disposición a pagar por agentes de voz con IA para coaching/training en roles de altos salarios
    • Un agente de voz realista puede actuar como "simulador" y mejorar notablemente las capacidades laborales
    • Esto puede reemplazar costos de personal, como coaches de ventas, o software existente poco eficiente

Verticales a seguir - tendencia de empresas de YC

  • El número de empresas de agentes de voz dentro de YC está aumentando rápidamente
  • Predominan B2B (~69%) y salud (~18%), y dentro de B2B hay muchas startups relacionadas con fintech y customer support
  • En salud, el sector se divide entre front office (orientado a pacientes) y back office (orientado a farmacias, aseguradoras, etc.)
  • En general, las startups están intentando resolver problemas de múltiples industrias con agentes de voz

Lo que estamos buscando

  • Industrias donde la llamada telefónica sea el canal central, o donde por regulación o eficiencia el teléfono esté especialmente optimizado
    • Donde el teléfono sea el medio principal para demos con clientes (por ejemplo: logística)
    • Donde por regulación una llamada sea más efectiva (por ejemplo: cobranza de deudas)
    • O donde tenga mayor tasa de éxito que otros enfoques (por ejemplo: salud)
  • La estructura de la llamada debe ser clara y medible
    • Deben estar bien definidos los puntos de datos a recopilar o la información a entregar
    • Los resultados deben ser fáciles de medir, para que la empresa pueda considerar la adopción de agentes de voz con IA sin demasiada fricción
  • Debe lograrse una reducción de más del 50% en costos laborales, manteniendo un desempeño similar al humano
    • La adopción es más fácil cuando el personal reemplazado es evidente o puede reasignarse
    • Puede haber escepticismo interno frente a la IA, por lo que el ROI debe ser muy alto
  • La llamada debe ser un problema de "supervivencia" para el cliente, pero con un entorno donde quien llama o recibe pueda tolerar fallas
    • A menudo se empieza con llamadas nocturnas, de overflow o llamadas "subprime"
    • Es más fácil para la IA entrar en espacios con estándares de desempeño bajos
  • La eficiencia en llamadas tiene gran impacto en casos de generación directa de ingresos (por ejemplo: nuevas reservas, pagos) o en áreas de alto gasto (por ejemplo: drive-thru)
  • Para entrar al segmento SMB/mid-market, debe ser posible una integración VoIP simple o un self-setup
  • En enterprise, mientras más compleja sea la integración inicial, más se convierte en barrera de entrada, pero una vez bien construida también se vuelve ventaja competitiva
    • O bien puede empezarse fácilmente con baja complejidad de integración y luego expandirse gradualmente
  • En general, el mercado muestra alto interés por soluciones que logren al mismo tiempo una alta tasa de éxito y una gran reducción de costos

Caso de estudio - entrevistas de voz con IA

  • Al principio, parece inesperado introducir voz con IA en entrevistas de contratación, que tienen alta complejidad y sensibilidad
  • Sin embargo, la industria de staffing ha visto un gran efecto al manejar entrevistas masivas y repetitivas
  • Se vuelve posible realizar entrevistas más rápidas y consistentes sin perjudicar la experiencia del candidato
  • La IA puede hacer entrevistas de inmediato cuando se necesita o evaluar candidatos sin barreras de idioma o acento
  • En especial para roles técnicos, hay retroalimentación de que la IA puede evaluar con más precisión que un reclutador generalista
  • Las empresas perciben ventajas como una mayor tasa de aprobación en entrevistas y un proceso más rápido de matching de candidatos