Cómo evitar la muerte en el camino de ladrillos amarillos: la capa de aplicaciones aún no ha muerto
(a16z.news)- Aunque entre los fundadores se está extendiendo la preocupación de que la capa de aplicaciones de IA será absorbida por los grandes labs como OpenAI y Anthropic, la capa de aplicaciones no es una oportunidad única, sino una estructura dividida entre el "Yellow Brick Road" y el "Rest of Oz"
- El Yellow Brick Road es el ámbito horizontal donde la calidad mejora solo con mejoras en el rendimiento del propio modelo, como generación de código, escritura o generación de imágenes; es la ruta en la que los labs están invirtiendo recursos masivos
- El Rest of Oz es el ámbito donde el scaffolding sobre el modelo determina la confiabilidad y el compliance, como en flujos de trabajo verticales, multietapa y con múltiples aprobaciones; ahí existe la oportunidad de que las startups sean dueñas del cliente
- El hecho mismo de que OpenAI y Anthropic hayan anunciado joint ventures forward-deployed a gran escala para personalización empresarial sugiere que un simple coworker de IA generalizado no puede resolver todos los problemas
- El software empresarial de próxima generación se construirá "fuera del camino" (off the road), y la línea clave de defensa es que los modelos son intercambiables, pero el system of work no lo es
Preguntas y premisas clave
- La pregunta que se repite entre fundadores y candidatos potenciales es: "¿OpenAI y Anthropic van a matar todo?, ¿queda algo por construir en la capa de aplicaciones de IA?"
- Algunos concluyen que los únicos lugares para evitar una subordinación permanente son dentro de los grandes labs o en la frontera de robótica y hard tech
- El autor, desde una postura maximalista sobre la IA, considera que están "medio en lo correcto": los labs sí absorberán una parte importante de la superficie de aplicaciones
- Pero el punto clave es que la capa de aplicaciones no es una sola oportunidad: el framing correcto es si estás sobre el camino de ladrillos amarillos o en otra parte de Oz
The Yellow Brick Road — el camino que recorren los labs
- El patrón consiste en conectar a un modelo de alto rendimiento conectores off-the-shelf para G Drive, Slack, Salesforce, Notion, GitHub y similares, y encima montar una capa de orquestación de agentes
- Este patrón es riesgoso porque los labs ya están haciendo lo mismo con Cowork y Codex
- Poseen el modelo → mejores márgenes, mayor control y poder de fijación de precios hacia downstream
- Tienen la capacidad de elegir la arquitectura para que el producto funcione bien: hasta ahora han adoptado deliberadamente el patrón de "model + tool calls", que encaja exactamente con el trabajo horizontal y de bajo nivel que está sobre el camino
- Incluso si una startup supera a Codex o Claude Code en rendimiento, los labs tienen una red de distribución enorme y el mayor halo de marca del sector de IA
- Una empresa de apps de IA que siga este playbook con la misma combinación de conectores, sin subagentes ni composición, y sin distribución, está recorriendo un "camino que no lleva a ninguna parte"
The Rest of Oz — la oportunidad para las startups
- Es el ámbito en el que los modelos construyen experiencias agentic a través de una red compleja de herramientas, automatización e integraciones, y que de forma natural suele terminar siendo vertical
- Permite enfocarse en trabajos multietapa y con múltiples participantes a los que una plataforma horizontal no puede llegar
- Reunir contexto en todo el sistema y luego enrutarlo a muchas personas que requieren aprobación por etapas
- Integrarse con uno o más sistemas legacy, donde se necesitan resultados determinísticos y no se permite la ambigüedad
- A menudo está conectado con resultados de negocio valiosos
- Los labs también reconocen el valor de este problema, por eso operan directamente outsourced configuration shops y existe una clase upmarket del negocio de reinforcement learning
Por qué el Rest of Oz no será absorbido por el mago
-
Data and learning flywheels (flywheels de datos y aprendizaje)
- Las normas implícitas de una industria, estándares no documentados y el conocimiento tribal en la cabeza de quienes trabajan en campo no existen en la web pública ni en los conjuntos de entrenamiento
- Operan dos flywheels superpuestos
- across-customer: patrones que se acumulan al ver variaciones del mismo problema en múltiples clientes
- within-customer: por qué se tomó una decisión específica, excepciones implícitas y heurísticas propias de esa empresa
- Una empresa que ha procesado 100 redlines legales, 1,000 casos de underwriting de seguros o 10,000 campañas de SDR internaliza una forma del problema que un nuevo entrante no puede replicar con un agente recién lanzado
- La razón clave por la que un agente horizontal no puede construir la misma infraestructura de aprendizaje es la UX: solo un jugador vertical puede diseñar con precisión la superficie del workflow
- Los conjuntos de evaluación, outputs etiquetados y taxonomías de edge cases se acumulan como un flywheel de datos especializado por vertical, y se vuelven combustible para fine-tuning
-
Managing model variability and complexity (gestión de la variabilidad y complejidad de los modelos)
- Los labs ya hacen internamente routing y ensamblado de modelos por solicitud, pero no pueden hacer routing entre vendors, evaluar modelos de competidores ni desplegar modelos open source fine-tuned en dominios estrechos
- Una empresa del Rest of Oz puede elegir el mejor modelo por subtarea no solo entre lo que lance su lab matriz, sino en todo el mercado de modelos
- También absorbe el "trabajo que nadie quiere hacer": volver a correr evals en cada upgrade, recalibrar prompts para edge cases de clientes y hacer rollouts sin romper producción
- El lab solo vende el siguiente modelo y te dice que "migres"; la empresa del Rest of Oz absorbe la migración y le ofrece al cliente la mejor inteligencia del mercado completo junto con continuidad en los upgrades
-
Cost optimization (optimización de costos)
- Ejecutar todas las consultas con Opus 4.7 es la ruta más corta hacia un margen bruto negativo
- Las mejores empresas del Rest of Oz hacen routing por tiers
- Modelos frontier para las tareas más difíciles
- Mid-tier para la mayoría de los trabajos
- Modelos pequeños custom o fine-tuned para las partes que ya califican
- Algunas empresas además hacen su propio post-training, optimizando para el slice estrecho que al cliente realmente le importa y sirviéndolo a una fracción del costo frente a una API frontier
- Si un lab fija un precio piso como "inteligencia mínima por X dólares", una empresa del Rest of Oz vende lo contrario: el menor costo en dólares para el nivel de inteligencia que el workflow realmente requiere
-
Governance (gobernanza)
- Hay mucho valor en convertirse en el control plane de cómo el cliente opera IA dentro de ese vertical: permisos, auditoría, qué puede hacer un agente y qué hizo realmente convergen ahí
- El control plane se compone de guardrails específicos por caso de uso que cambian por industria y por función
- Como poseen de extremo a extremo las herramientas, los workflows y los datos, pueden ofrecer resultados determinísticos que son difíciles para una herramienta horizontal
- Son quienes absorben la complejidad regulatoria en lugar del comprador final
- Legal: FRCP y reglas de ética profesional
- Salud: HIPAA
- Finanzas: SEC y FINRA
- Seguros: regulaciones estatales de seguros, etc.
- Un CIO quiere un socio que asuma contractualmente la responsabilidad por el compliance de los agentes que entrega
-
Conclusión común: foco
- Ya sea un vertical como seguros, legal o contabilidad, o una función profundamente ejecutada como ventas, soporte al cliente o finanzas, se necesita un equipo comprometido con los workflows, edge cases y regulaciones de un solo conjunto de clientes
- Los labs no pueden hacer este trabajo porque su estructura los obliga a estar en todas partes para todos: o estás en todas partes o haces una sola cosa muy bien
Caso de Sales — consejos prácticos de Prabhav Jain, CEO de 11x
-
Focus on outcomes (enfocarse en resultados)
- La ruta táctica para construir una empresa resistente a los labs es partir del resultado específico que al cliente realmente le importa; en el caso de 11x, la generación de pipeline
- Descomponer cada actividad en tareas → distinguir qué es agentic y qué no, y qué requiere insight profundo de dominio y qué no
- En workflows multietapa, con inputs desordenados, estados difíciles de interpretar y restricciones del mundo real, no basta con un mejor modelo; se necesita ingeniería de software convencional, y en esa superficie los labs no tienen ventaja
- Ejemplos de tareas que maneja 11x
- Prospecting de leads basado en señales custom, lead enrichment, deep account research
- Fetchers de contexto desde CRM, redactor por canal, agente de calificación de leads, sistema de deliverability de email
- El trabajo de una empresa de aplicaciones es inyectar en el workflow, en el momento correcto, conocimiento de dominio que no existe en los datos de entrenamiento generales, y eso se acumula
- Como las skills se vuelven obsoletas constantemente con la evolución del negocio, la capacidad de evolucionar workflows y contexto es en sí una ventaja competitiva
- Ejemplo: desde que aparecieron los correos escritos por IA, la sensibilidad de los usuarios cambia cada pocos meses, así que el agente debe seguir adaptándose a la dinámica del mercado
- En los últimos meses, la positive reply rate subió 4x, generando cientos de millones de dólares en pipeline para los clientes
-
Work on problems where complexity is high (trabajar en problemas de alta complejidad)
- El valor real de negocio se desbloquea en problemas complejos; de lo contrario, terminas siendo un thin wrapper
- Ejemplo en GTM: incluso una regla simple como "no contactar a una persona de una empresa que ya es cliente" en la práctica es muy compleja
- Puede haber mapeo de dominios en el CRM, compañías con decenas de subsidiarias, casos donde solo está registrado el dominio de la matriz, y campos de matching stale en Salesforce que terminan enviando un cold pitch al CRO de un cliente actual
- Los datos del mundo real son desordenados y ni humanos ni modelos los resuelven mágicamente: se necesitan agentes especializados para un propósito e ingenierizados según la forma concreta del problema
- Según los datos de 11x, la calidad y frescura de sus propios datos es mayor que la del lado del cliente, así que la base es anclar el sistema en sus propios datos
-
Guardrails — no son para evitar cosas malas, sino la esencia por la que el cliente paga
- Los guardrails están fuertemente subestimados, y hasta dentro del mismo producto se requieren por separado según el caso de uso
- Las garantías necesarias para un prospecto de servicios financieros regulados y para un cliente SaaS mid-market son distintas, y eso se traduce en cómo se redacta el agente, a quién contacta, a qué datos accede, qué dice en una llamada y cómo registra sus decisiones
- Un sistema one-size-fits-all colapsa; se necesita diseño por caso de uso, configuración por cliente y auditoría continua
- Para eso operan con FDE (Forward Deployed Engineer) y estrategas de despliegue técnico que ajustan el sistema a los requisitos del cliente
- Caso de una institución F1000
- Realiza outbound por voz basado en consentimiento a gran escala hacia clientes SMB
- En las primeras iteraciones, la tasa de respuesta fue baja → el sistema aprendió rápido cómo enganchar a dueños de SMB en los primeros 10 segundos de la llamada
- Los dueños de SMB se comportan diferente a compradores B2B grandes o consumidores; hoy ese segmento genera más oportunidades de venta en un día que un mes entero del equipo comercial del cliente
Caso de Insurance — Aman Gour, CEO de FurtherAI
- Un supuesto que encontró repetidamente al desplegar IA en operaciones reales de seguros — "el modelo es la inteligencia y el workflow es solo scaffolding" — lo llevó, mientras más trabajaba con carriers, a convencerse de que es exactamente al revés
- En seguros, una gran parte de la inteligencia está en el propio workflow
- Aunque dos carriers sigan la misma ruta (submission → review → quote → bind), la diferencia está en todo lo que ocurre dentro
- Qué riesgos van a escalation
- Qué señales de pérdida importan
- Qué regla de appetite gana cuando hay conflicto
- En qué momento interviene la aprobación humana, cuándo se llama a datos externos y cómo se documenta la decisión final
- Esa lógica no vive en un único rule engine limpio, sino dispersa entre SOPs, revisiones de managers, filosofía de underwriting, appetite propio del carrier y años de experiencia operativa; gran parte ni siquiera está documentada en una forma que el modelo pueda leer
- Aunque dos carriers sigan la misma ruta (submission → review → quote → bind), la diferencia está en todo lo que ocurre dentro
- La conclusión, una y otra vez, no es un agente puro que razona desde cero cada vez, ni un workflow rígido que se rompe cuando la realidad se ensucia, sino agentic workflows
- Workflow → repetibilidad, auditabilidad y control de costos
- Agente → manejo de la variabilidad y recuperación cuando se rompe el happy path
- Human in the loop → llamadas de juicio donde importa la responsabilidad
- En el Day 1 hay automatización manual; con el tiempo, cada escalation se vuelve una señal, cada excepción un feedback, y cada corrección humana una señal de lo que falta en el runbook, de modo que el workflow evoluciona hacia la memoria operativa del carrier
- Los labs seguirán lanzando mejores modelos y mejores agentes generales, pero no pueden aprender qué cuenta fue a escalation, qué riesgo fue rechazado o por qué un underwriter revirtió la guía de appetite y tenía razón, a menos que permanezcan el tiempo suficiente dentro de la producción del carrier
- "El workflow que lanzaste en Day 1 no es el moat; el moat es el loop que crea el uso en producción a lo largo del tiempo"
Tres pruebas para saber si perteneces al Rest of Oz
-
The tools-and-steps test (prueba de herramientas y pasos)
- ¿Cuántos pasos tiene el trabajo y qué tan complejas son las herramientas de soporte?
- Comparación
- Búsqueda horizontal con IA (a través de Google Drive): 1 paso, 1 herramienta, resultado tolerante — si falla, se vuelve a preguntar
- Redline legal (contrastado con 3 años de precedentes del bufete): decenas de pasos, muchas herramientas, y la salida debe pasar revisión de socios y hasta podría discutirse en tribunales
- Ambas parecen "un agente haciendo trabajo", pero solo una requiere software profundo construido durante años por un equipo enfocado
-
The system test (prueba del sistema)
- ¿Estás construyendo un sistema por el que pasa el trabajo del cliente, o solo una herramienta sobre un sistema que ya existe?
- Un sistema posee de extremo a extremo la captura de datos, la gobernanza y el registro de ejecución; es aquello que el cliente señala como "donde realmente ocurre el trabajo"
- Una herramienta solo agrega inteligencia a un workflow que el cliente ya opera; puede generar ingresos, pero es un espacio que el lab puede capturar
- Un ACV alto suele ser señal de sistema, pero no es garantía: la prueba real es si, aun cuando el lab lance un producto competidor, el cliente sigue necesitando tu herramienta
-
The hedge fund / P&L test (prueba de hedge fund / P&L)
- El desempeño de los labs se mide contra benchmarks; el del Rest of Oz se mide contra el P&L del cliente
- Al cliente no le importan los puntajes de SWE-Bench o MMLU; le importa si el agente cerró el deal, hizo correctamente el redline del contrato o bindió la póliza adecuada
- Un cliente obsesionado con resultados específicos del workflow → Rest of Oz; un cliente que paga por capacidad general → le bastan seats de Claude o Codex
- Los mejores negocios de agentes deben competir como un hedge fund: con alpha medido por el P&L del cliente
Ambos lados pueden ganar
- También sobre el Yellow Brick Road surgirán ganadores enormes: los labs poseen los modelos y también la distribución de las herramientas horizontales que ellos mismos diseñan
- La condición de victoria en el Rest of Oz es poseer el system of work: la superficie donde realmente se ejecuta el trabajo de la empresa y se capturan los datos
- Poseer la captura de datos, el sistema de acción del workflow y la gobernanza
- A medida que maduran workflows complejos en un vertical, se condensan en una sola experiencia central de la que el cliente depende
- Cuando se lanzan nuevas generaciones de modelos, la empresa se convierte en la capa que las integra y entrega
- Los modelos debajo son fungibles, pero el system of work no
- El software empresarial de próxima generación se construirá "fuera del camino"
Aún no hay comentarios.