Más allá de los bots: los agentes de IA lideran la próxima ola de automatización empresarial

xguru · 2024-10-07T11:21:01+09:00

Todos los trabajos pueden verse como conjuntos de tareas compartidas entre humanos y máquinas El software se está encargando de cada vez más tareas, pero la mayoría de los procesos de negocio siguen estando en manos de humanos Se espera que los agentes de IA cambien de forma decisiva este equilibrio del trabajo A diferencia de las generaciones anteriores de software, pueden automatizar dinámicamente procesos end-to-end mediante nuevas arquitecturas cognitivas No se trata simplemente de una IA que puede leer y escribir, sino de una IA que puede decidir el flujo de la lógica de la aplicación y actuar en nombre del usuario, y esto representa la mayor oportunidad de los LLM en la empresa ¿No es esto simplemente RPA? : límites y problemas de RPA Puede sonar como algo ya conocido, porque UiPath y Zapier han vendido una visión similar durante los últimos 10 años bajo el nombre de "automatización con bots" UiPath, gigante del RPA, automatiza procesos como extraer información de documentos, mover carpetas, llenar formularios y actualizar bases de datos mediante screen scraping y automatización de GUI, registrando el comportamiento del usuario e imitando pasos secuenciales Después, proveedores de iPaaS como Zapier introdujeron un enfoque más ligero de "automatización por API", aunque a diferencia de UiPath su alcance está limitado a la automatización de aplicaciones web UiPath y Zapier demostraron el mercado de plataformas horizontales de automatización componibles y basadas en reglas para resolver el long tail de procesos empresariales que existen dentro y entre sistemas de software específicos de departamentos o industrias Sin embargo, a medida que las empresas escalan la automatización basada en bots, empezó a hacerse evidente la brecha entre las capacidades de la arquitectura existente y la autonomía prometida Sigue requiriendo mucho personal y trabajo manual. El proceso de crear y mantener automatizaciones sigue siendo dolorosamente manual La automatización de UI es frágil o la integración por API es limitada. La automatización de UI se rompe con frecuencia cuando cambia la interfaz del software; las API son más estables, pero ofrecen muchas menos integraciones con software legacy o on-premise No puede manejar datos no estructurados. El 80% de los datos empresariales son no estructurados o semiestructurados, pero la automatización basada en secuencias no puede trabajar de manera inteligente con ellos Las soluciones tradicionales de RPA e iPaaS siguen esposadas a arquitecturas deterministas incluso cuando intentan integrar LLM Autopilot de UiPath y AI Actions de Zapier solo ofrecen LLM para patrones de diseño de subagentes, como texto a acción o nodos para búsqueda semántica, síntesis y generación one-shot Aunque estas capacidades de IA pueden ser poderosas, siguen dejando fuera los casos de uso más transformadores de los LLM en automatización de procesos Los agentes de IA son fundamentalmente distintos como motores de decisión A diferencia de los bots de RPA o las apps RAG de hoy, los agentes se ubican en el centro del flujo de control de la aplicación como motor de decisión Por primera vez, permiten adaptabilidad, acciones de múltiples pasos, razonamiento complejo y manejo sólido de excepciones Si lo explicamos con el ejemplo de la conciliación de facturas (Invoice Reconciliation), en un diagrama simplificado del proceso de hacer coincidir un nuevo PDF de factura con el libro mayor general de la empresa, la complejidad del workflow rápidamente se vuelve difícil de manejar Incluso dentro de los primeros tres conjuntos de decisiones, se vuelve casi imposible considerar todas las situaciones de excepción relevantes Un bot de RPA que ejecute este workflow como un robot suele fallar y muchas veces escala a una persona cuando hay errores, coincidencias parciales o elementos faltantes Sin embargo, cuando se aplica un agente al mismo workflow, el desempeño es mucho mejor Adaptación a nuevas situaciones: puede reconocer y adaptarse de forma inteligente a nuevas fuentes de datos, formatos de factura, convenciones de nombres, números de cuenta, cambios de políticas y más, con base en razonamiento básico y contexto de negocio relevante Capacidad de trabajo en múltiples pasos: si el monto de una factura no coincide, puede realizar investigaciones en varios pasos, por ejemplo revisando correos recientes del proveedor para verificar posibles cambios de precio Demostración de razonamiento complejo: si debe conciliar la factura de un proveedor internacional con el libro mayor, necesita buscar y calcular en conjunto múltiples factores como moneda de la factura, moneda del libro mayor, fecha de la transacción, fluctuaciones del tipo de cambio, cargos transfronterizos y comisiones bancarias. Un agente puede realizar este tipo de inteligencia, mientras que un bot de RPA probablemente lo escalaría a una persona Consideración de la incertidumbre: puede manejar con solidez excepciones como errores de redondeo en partidas individuales o números ilegibles, basándose en contexto como coincidencia del monto total del pedido, historial temporal y frecuencia de facturas anteriores Mapa del mercado de agentes de IA Los agentes de IA ya no son ciencia ficción. Desde startups hasta empresas Fortune 500, ya están comprando y usando estos sistemas a gran escala Hoy el mercado de agentes puede visualizarse en dos dimensiones principales: especificidad de dominio y autonomía del LLM Especificidad de dominio: va desde agentes especializados para industrias verticales o departamentos, como salud o soporte al cliente, hasta plataformas horizontales de agentes con funciones amplias y generales Autonomía del LLM: representa el grado en que el modelo de lenguaje puede planear y dirigir de forma independiente la lógica de la aplicación En la esquina superior derecha del mapa de mercado se encuentran los agentes más horizontales y generalizables Agente empresarial: plataforma escalable para construir y administrar agentes a través de múltiples funciones y workflows, usando SOP en lenguaje natural o reglas similares a las que se le darían a un nuevo empleado. La mayoría usa una arquitectura de "agent on rails", donde para cada nuevo proceso el agente debe basarse en un conjunto predefinido de tareas, contexto de negocio y guardrails Agente de navegador: sigue un diseño de "agente general de IA" que aprovecha vision transformers entrenados sobre diversas interfaces de software y codebases subyacentes para automatizar navegación web, tareas visuales de UI, entrada de texto y más. Tienden a ganar generalización, pero sacrifican consistencia Servicios impulsados por IA: para que un diseño de "agent on rails" realmente funcione, se requiere una gran infraestructura de datos y guardrails, por lo que empresas como Distyl o Agnetic ofrecen servicios de ingeniería forward-deployed para cerrar esa brecha con los clientes bajo un modelo de "Palantir para IA" Sin embargo, no todos los agentes buscan ser horizontales y generalizables. Está creciendo la cantidad de agentes especializados por dominio y workflow, que pueden aumentar la confiabilidad al limitar el tipo de problema Agente vertical: las oportunidades más prometedoras existen en procesos manuales y centrados en procedimientos que las personas manejan siguiendo SOP o reglas. Categorías representativas incluyen soporte al cliente, reclutamiento, tareas de desarrollo de software como revisión/pruebas/mantenimiento de código, ventas en frío y operaciones de seguridad Asistente de IA: otra forma de acotar el enfoque del agente no es por especificidad de dominio sino por especificidad de tarea. A diferencia de los procesos complejos end-to-end que manejan los agentes empresariales y verticales, realiza tareas más simples y orientadas a productividad Aunque no son agentes en sí, las soluciones de IA generativa construidas alrededor de arquitecturas RAG a veces compiten por los mismos presupuestos y workflows que las soluciones basadas en agentes IA vertical: la plataforma de automatización médica Tennr procesa referencias extrayendo datos no estructurados de múltiples fuentes como fax, PDF y llamadas telefónicas, e ingresándolos en el EHR de la clínica, eliminando la necesidad de captura manual por parte del personal RAG-as-a-Service: empresas como Danswer o Gradient permiten a los clientes consultar fuentes de datos no estructurados como PDF y extraer datos para ingresarlos en bases de datos o sistemas más estructurados Búsqueda empresarial: Glean, Perplexity, Sana y otras ofrecen consultas semánticas para gestionar mejor el conocimiento en toda la organización y romper silos de datos, indexando y recuperando documentos conceptualmente relacionados El futuro de la automatización empresarial La segunda ola de la IA generativa estará definida no por sistemas que simplemente leen y escriben, sino por agentes que pueden pensar y actuar en nombre del usuario A medida que estas arquitecturas maduren, serán un fuerte catalizador para que la IA conquiste la economía de servicios

(menlovc.com)

9 puntos por xguru 2024-10-07 | Aún no hay comentarios. | Compartir por WhatsApp

Todos los trabajos pueden verse como conjuntos de tareas compartidas entre humanos y máquinas
El software se está encargando de cada vez más tareas, pero la mayoría de los procesos de negocio siguen estando en manos de humanos
Se espera que los agentes de IA cambien de forma decisiva este equilibrio del trabajo
A diferencia de las generaciones anteriores de software, pueden automatizar dinámicamente procesos end-to-end mediante nuevas arquitecturas cognitivas
No se trata simplemente de una IA que puede leer y escribir, sino de una IA que puede decidir el flujo de la lógica de la aplicación y actuar en nombre del usuario, y esto representa la mayor oportunidad de los LLM en la empresa

¿No es esto simplemente RPA? : límites y problemas de RPA

Puede sonar como algo ya conocido, porque UiPath y Zapier han vendido una visión similar durante los últimos 10 años bajo el nombre de "automatización con bots"
UiPath, gigante del RPA, automatiza procesos como extraer información de documentos, mover carpetas, llenar formularios y actualizar bases de datos mediante screen scraping y automatización de GUI, registrando el comportamiento del usuario e imitando pasos secuenciales
Después, proveedores de iPaaS como Zapier introdujeron un enfoque más ligero de "automatización por API", aunque a diferencia de UiPath su alcance está limitado a la automatización de aplicaciones web
UiPath y Zapier demostraron el mercado de plataformas horizontales de automatización componibles y basadas en reglas para resolver el long tail de procesos empresariales que existen dentro y entre sistemas de software específicos de departamentos o industrias
Sin embargo, a medida que las empresas escalan la automatización basada en bots, empezó a hacerse evidente la brecha entre las capacidades de la arquitectura existente y la autonomía prometida
- Sigue requiriendo mucho personal y trabajo manual. El proceso de crear y mantener automatizaciones sigue siendo dolorosamente manual
- La automatización de UI es frágil o la integración por API es limitada. La automatización de UI se rompe con frecuencia cuando cambia la interfaz del software; las API son más estables, pero ofrecen muchas menos integraciones con software legacy o on-premise
- No puede manejar datos no estructurados. El 80% de los datos empresariales son no estructurados o semiestructurados, pero la automatización basada en secuencias no puede trabajar de manera inteligente con ellos
Las soluciones tradicionales de RPA e iPaaS siguen esposadas a arquitecturas deterministas incluso cuando intentan integrar LLM
- Autopilot de UiPath y AI Actions de Zapier solo ofrecen LLM para patrones de diseño de subagentes, como texto a acción o nodos para búsqueda semántica, síntesis y generación one-shot
Aunque estas capacidades de IA pueden ser poderosas, siguen dejando fuera los casos de uso más transformadores de los LLM en automatización de procesos

Los agentes de IA son fundamentalmente distintos como motores de decisión

A diferencia de los bots de RPA o las apps RAG de hoy, los agentes se ubican en el centro del flujo de control de la aplicación como motor de decisión
Por primera vez, permiten adaptabilidad, acciones de múltiples pasos, razonamiento complejo y manejo sólido de excepciones
Si lo explicamos con el ejemplo de la conciliación de facturas (Invoice Reconciliation), en un diagrama simplificado del proceso de hacer coincidir un nuevo PDF de factura con el libro mayor general de la empresa, la complejidad del workflow rápidamente se vuelve difícil de manejar
- Incluso dentro de los primeros tres conjuntos de decisiones, se vuelve casi imposible considerar todas las situaciones de excepción relevantes
- Un bot de RPA que ejecute este workflow como un robot suele fallar y muchas veces escala a una persona cuando hay errores, coincidencias parciales o elementos faltantes
Sin embargo, cuando se aplica un agente al mismo workflow, el desempeño es mucho mejor
- Adaptación a nuevas situaciones: puede reconocer y adaptarse de forma inteligente a nuevas fuentes de datos, formatos de factura, convenciones de nombres, números de cuenta, cambios de políticas y más, con base en razonamiento básico y contexto de negocio relevante
- Capacidad de trabajo en múltiples pasos: si el monto de una factura no coincide, puede realizar investigaciones en varios pasos, por ejemplo revisando correos recientes del proveedor para verificar posibles cambios de precio
- Demostración de razonamiento complejo: si debe conciliar la factura de un proveedor internacional con el libro mayor, necesita buscar y calcular en conjunto múltiples factores como moneda de la factura, moneda del libro mayor, fecha de la transacción, fluctuaciones del tipo de cambio, cargos transfronterizos y comisiones bancarias. Un agente puede realizar este tipo de inteligencia, mientras que un bot de RPA probablemente lo escalaría a una persona
- Consideración de la incertidumbre: puede manejar con solidez excepciones como errores de redondeo en partidas individuales o números ilegibles, basándose en contexto como coincidencia del monto total del pedido, historial temporal y frecuencia de facturas anteriores

Mapa del mercado de agentes de IA

Los agentes de IA ya no son ciencia ficción. Desde startups hasta empresas Fortune 500, ya están comprando y usando estos sistemas a gran escala
Hoy el mercado de agentes puede visualizarse en dos dimensiones principales: especificidad de dominio y autonomía del LLM
- Especificidad de dominio: va desde agentes especializados para industrias verticales o departamentos, como salud o soporte al cliente, hasta plataformas horizontales de agentes con funciones amplias y generales
- Autonomía del LLM: representa el grado en que el modelo de lenguaje puede planear y dirigir de forma independiente la lógica de la aplicación
En la esquina superior derecha del mapa de mercado se encuentran los agentes más horizontales y generalizables
- Agente empresarial: plataforma escalable para construir y administrar agentes a través de múltiples funciones y workflows, usando SOP en lenguaje natural o reglas similares a las que se le darían a un nuevo empleado. La mayoría usa una arquitectura de "agent on rails", donde para cada nuevo proceso el agente debe basarse en un conjunto predefinido de tareas, contexto de negocio y guardrails
- Agente de navegador: sigue un diseño de "agente general de IA" que aprovecha vision transformers entrenados sobre diversas interfaces de software y codebases subyacentes para automatizar navegación web, tareas visuales de UI, entrada de texto y más. Tienden a ganar generalización, pero sacrifican consistencia
- Servicios impulsados por IA: para que un diseño de "agent on rails" realmente funcione, se requiere una gran infraestructura de datos y guardrails, por lo que empresas como Distyl o Agnetic ofrecen servicios de ingeniería forward-deployed para cerrar esa brecha con los clientes bajo un modelo de "Palantir para IA"
Sin embargo, no todos los agentes buscan ser horizontales y generalizables. Está creciendo la cantidad de agentes especializados por dominio y workflow, que pueden aumentar la confiabilidad al limitar el tipo de problema
- Agente vertical: las oportunidades más prometedoras existen en procesos manuales y centrados en procedimientos que las personas manejan siguiendo SOP o reglas. Categorías representativas incluyen soporte al cliente, reclutamiento, tareas de desarrollo de software como revisión/pruebas/mantenimiento de código, ventas en frío y operaciones de seguridad
- Asistente de IA: otra forma de acotar el enfoque del agente no es por especificidad de dominio sino por especificidad de tarea. A diferencia de los procesos complejos end-to-end que manejan los agentes empresariales y verticales, realiza tareas más simples y orientadas a productividad
Aunque no son agentes en sí, las soluciones de IA generativa construidas alrededor de arquitecturas RAG a veces compiten por los mismos presupuestos y workflows que las soluciones basadas en agentes
- IA vertical: la plataforma de automatización médica Tennr procesa referencias extrayendo datos no estructurados de múltiples fuentes como fax, PDF y llamadas telefónicas, e ingresándolos en el EHR de la clínica, eliminando la necesidad de captura manual por parte del personal
- RAG-as-a-Service: empresas como Danswer o Gradient permiten a los clientes consultar fuentes de datos no estructurados como PDF y extraer datos para ingresarlos en bases de datos o sistemas más estructurados
- Búsqueda empresarial: Glean, Perplexity, Sana y otras ofrecen consultas semánticas para gestionar mejor el conocimiento en toda la organización y romper silos de datos, indexando y recuperando documentos conceptualmente relacionados

El futuro de la automatización empresarial

La segunda ola de la IA generativa estará definida no por sistemas que simplemente leen y escriben, sino por agentes que pueden pensar y actuar en nombre del usuario
A medida que estas arquitecturas maduren, serán un fuerte catalizador para que la IA conquiste la economía de servicios