Cómo evitar la muerte en el camino de ladrillos amarillos: la capa de aplicaciones aún no ha muerto

(a16z.news)

10 puntos por GN⁺ 2026-06-01 | Aún no hay comentarios. | Compartir por WhatsApp

Aunque entre los fundadores se está extendiendo la preocupación de que la capa de aplicaciones de IA será absorbida por los grandes labs como OpenAI y Anthropic, la capa de aplicaciones no es una oportunidad única, sino una estructura dividida entre el "Yellow Brick Road" y el "Rest of Oz"
El Yellow Brick Road es el ámbito horizontal donde la calidad mejora solo con mejoras en el rendimiento del propio modelo, como generación de código, escritura o generación de imágenes; es la ruta en la que los labs están invirtiendo recursos masivos
El Rest of Oz es el ámbito donde el scaffolding sobre el modelo determina la confiabilidad y el compliance, como en flujos de trabajo verticales, multietapa y con múltiples aprobaciones; ahí existe la oportunidad de que las startups sean dueñas del cliente
El hecho mismo de que OpenAI y Anthropic hayan anunciado joint ventures forward-deployed a gran escala para personalización empresarial sugiere que un simple coworker de IA generalizado no puede resolver todos los problemas
El software empresarial de próxima generación se construirá "fuera del camino" (off the road), y la línea clave de defensa es que los modelos son intercambiables, pero el system of work no lo es

Preguntas y premisas clave

La pregunta que se repite entre fundadores y candidatos potenciales es: "¿OpenAI y Anthropic van a matar todo?, ¿queda algo por construir en la capa de aplicaciones de IA?"
Algunos concluyen que los únicos lugares para evitar una subordinación permanente son dentro de los grandes labs o en la frontera de robótica y hard tech
El autor, desde una postura maximalista sobre la IA, considera que están "medio en lo correcto": los labs sí absorberán una parte importante de la superficie de aplicaciones
Pero el punto clave es que la capa de aplicaciones no es una sola oportunidad: el framing correcto es si estás sobre el camino de ladrillos amarillos o en otra parte de Oz

The Yellow Brick Road — el camino que recorren los labs

El patrón consiste en conectar a un modelo de alto rendimiento conectores off-the-shelf para G Drive, Slack, Salesforce, Notion, GitHub y similares, y encima montar una capa de orquestación de agentes
Este patrón es riesgoso porque los labs ya están haciendo lo mismo con Cowork y Codex
- Poseen el modelo → mejores márgenes, mayor control y poder de fijación de precios hacia downstream
- Tienen la capacidad de elegir la arquitectura para que el producto funcione bien: hasta ahora han adoptado deliberadamente el patrón de "model + tool calls", que encaja exactamente con el trabajo horizontal y de bajo nivel que está sobre el camino
Incluso si una startup supera a Codex o Claude Code en rendimiento, los labs tienen una red de distribución enorme y el mayor halo de marca del sector de IA
Una empresa de apps de IA que siga este playbook con la misma combinación de conectores, sin subagentes ni composición, y sin distribución, está recorriendo un "camino que no lleva a ninguna parte"

The Rest of Oz — la oportunidad para las startups

Es el ámbito en el que los modelos construyen experiencias agentic a través de una red compleja de herramientas, automatización e integraciones, y que de forma natural suele terminar siendo vertical
Permite enfocarse en trabajos multietapa y con múltiples participantes a los que una plataforma horizontal no puede llegar
- Reunir contexto en todo el sistema y luego enrutarlo a muchas personas que requieren aprobación por etapas
- Integrarse con uno o más sistemas legacy, donde se necesitan resultados determinísticos y no se permite la ambigüedad
- A menudo está conectado con resultados de negocio valiosos
Los labs también reconocen el valor de este problema, por eso operan directamente outsourced configuration shops y existe una clase upmarket del negocio de reinforcement learning

Por qué el Rest of Oz no será absorbido por el mago

Data and learning flywheels (flywheels de datos y aprendizaje)
- Las normas implícitas de una industria, estándares no documentados y el conocimiento tribal en la cabeza de quienes trabajan en campo no existen en la web pública ni en los conjuntos de entrenamiento
- Operan dos flywheels superpuestos
  - across-customer: patrones que se acumulan al ver variaciones del mismo problema en múltiples clientes
  - within-customer: por qué se tomó una decisión específica, excepciones implícitas y heurísticas propias de esa empresa
- Una empresa que ha procesado 100 redlines legales, 1,000 casos de underwriting de seguros o 10,000 campañas de SDR internaliza una forma del problema que un nuevo entrante no puede replicar con un agente recién lanzado
- La razón clave por la que un agente horizontal no puede construir la misma infraestructura de aprendizaje es la UX: solo un jugador vertical puede diseñar con precisión la superficie del workflow
- Los conjuntos de evaluación, outputs etiquetados y taxonomías de edge cases se acumulan como un flywheel de datos especializado por vertical, y se vuelven combustible para fine-tuning
Managing model variability and complexity (gestión de la variabilidad y complejidad de los modelos)
- Los labs ya hacen internamente routing y ensamblado de modelos por solicitud, pero no pueden hacer routing entre vendors, evaluar modelos de competidores ni desplegar modelos open source fine-tuned en dominios estrechos
- Una empresa del Rest of Oz puede elegir el mejor modelo por subtarea no solo entre lo que lance su lab matriz, sino en todo el mercado de modelos
- También absorbe el "trabajo que nadie quiere hacer": volver a correr evals en cada upgrade, recalibrar prompts para edge cases de clientes y hacer rollouts sin romper producción
- El lab solo vende el siguiente modelo y te dice que "migres"; la empresa del Rest of Oz absorbe la migración y le ofrece al cliente la mejor inteligencia del mercado completo junto con continuidad en los upgrades
Cost optimization (optimización de costos)
- Ejecutar todas las consultas con Opus 4.7 es la ruta más corta hacia un margen bruto negativo
- Las mejores empresas del Rest of Oz hacen routing por tiers
  - Modelos frontier para las tareas más difíciles
  - Mid-tier para la mayoría de los trabajos
  - Modelos pequeños custom o fine-tuned para las partes que ya califican
- Algunas empresas además hacen su propio post-training, optimizando para el slice estrecho que al cliente realmente le importa y sirviéndolo a una fracción del costo frente a una API frontier
- Si un lab fija un precio piso como "inteligencia mínima por X dólares", una empresa del Rest of Oz vende lo contrario: el menor costo en dólares para el nivel de inteligencia que el workflow realmente requiere
Governance (gobernanza)
- Hay mucho valor en convertirse en el control plane de cómo el cliente opera IA dentro de ese vertical: permisos, auditoría, qué puede hacer un agente y qué hizo realmente convergen ahí
- El control plane se compone de guardrails específicos por caso de uso que cambian por industria y por función
- Como poseen de extremo a extremo las herramientas, los workflows y los datos, pueden ofrecer resultados determinísticos que son difíciles para una herramienta horizontal
- Son quienes absorben la complejidad regulatoria en lugar del comprador final
  - Legal: FRCP y reglas de ética profesional
  - Salud: HIPAA
  - Finanzas: SEC y FINRA
  - Seguros: regulaciones estatales de seguros, etc.
- Un CIO quiere un socio que asuma contractualmente la responsabilidad por el compliance de los agentes que entrega
Conclusión común: foco
- Ya sea un vertical como seguros, legal o contabilidad, o una función profundamente ejecutada como ventas, soporte al cliente o finanzas, se necesita un equipo comprometido con los workflows, edge cases y regulaciones de un solo conjunto de clientes
- Los labs no pueden hacer este trabajo porque su estructura los obliga a estar en todas partes para todos: o estás en todas partes o haces una sola cosa muy bien

Caso de Sales — consejos prácticos de Prabhav Jain, CEO de 11x

Focus on outcomes (enfocarse en resultados)
- La ruta táctica para construir una empresa resistente a los labs es partir del resultado específico que al cliente realmente le importa; en el caso de 11x, la generación de pipeline
- Descomponer cada actividad en tareas → distinguir qué es agentic y qué no, y qué requiere insight profundo de dominio y qué no
- En workflows multietapa, con inputs desordenados, estados difíciles de interpretar y restricciones del mundo real, no basta con un mejor modelo; se necesita ingeniería de software convencional, y en esa superficie los labs no tienen ventaja
- Ejemplos de tareas que maneja 11x
  - Prospecting de leads basado en señales custom, lead enrichment, deep account research
  - Fetchers de contexto desde CRM, redactor por canal, agente de calificación de leads, sistema de deliverability de email
- El trabajo de una empresa de aplicaciones es inyectar en el workflow, en el momento correcto, conocimiento de dominio que no existe en los datos de entrenamiento generales, y eso se acumula
- Como las skills se vuelven obsoletas constantemente con la evolución del negocio, la capacidad de evolucionar workflows y contexto es en sí una ventaja competitiva
  - Ejemplo: desde que aparecieron los correos escritos por IA, la sensibilidad de los usuarios cambia cada pocos meses, así que el agente debe seguir adaptándose a la dinámica del mercado
  - En los últimos meses, la positive reply rate subió 4x, generando cientos de millones de dólares en pipeline para los clientes
Work on problems where complexity is high (trabajar en problemas de alta complejidad)
- El valor real de negocio se desbloquea en problemas complejos; de lo contrario, terminas siendo un thin wrapper
- Ejemplo en GTM: incluso una regla simple como "no contactar a una persona de una empresa que ya es cliente" en la práctica es muy compleja
  - Puede haber mapeo de dominios en el CRM, compañías con decenas de subsidiarias, casos donde solo está registrado el dominio de la matriz, y campos de matching stale en Salesforce que terminan enviando un cold pitch al CRO de un cliente actual
- Los datos del mundo real son desordenados y ni humanos ni modelos los resuelven mágicamente: se necesitan agentes especializados para un propósito e ingenierizados según la forma concreta del problema
- Según los datos de 11x, la calidad y frescura de sus propios datos es mayor que la del lado del cliente, así que la base es anclar el sistema en sus propios datos
Guardrails — no son para evitar cosas malas, sino la esencia por la que el cliente paga
- Los guardrails están fuertemente subestimados, y hasta dentro del mismo producto se requieren por separado según el caso de uso
- Las garantías necesarias para un prospecto de servicios financieros regulados y para un cliente SaaS mid-market son distintas, y eso se traduce en cómo se redacta el agente, a quién contacta, a qué datos accede, qué dice en una llamada y cómo registra sus decisiones
- Un sistema one-size-fits-all colapsa; se necesita diseño por caso de uso, configuración por cliente y auditoría continua
- Para eso operan con FDE (Forward Deployed Engineer) y estrategas de despliegue técnico que ajustan el sistema a los requisitos del cliente
- Caso de una institución F1000
  - Realiza outbound por voz basado en consentimiento a gran escala hacia clientes SMB
  - En las primeras iteraciones, la tasa de respuesta fue baja → el sistema aprendió rápido cómo enganchar a dueños de SMB en los primeros 10 segundos de la llamada
  - Los dueños de SMB se comportan diferente a compradores B2B grandes o consumidores; hoy ese segmento genera más oportunidades de venta en un día que un mes entero del equipo comercial del cliente

Caso de Insurance — Aman Gour, CEO de FurtherAI

Un supuesto que encontró repetidamente al desplegar IA en operaciones reales de seguros — "el modelo es la inteligencia y el workflow es solo scaffolding" — lo llevó, mientras más trabajaba con carriers, a convencerse de que es exactamente al revés
En seguros, una gran parte de la inteligencia está en el propio workflow
- Aunque dos carriers sigan la misma ruta (submission → review → quote → bind), la diferencia está en todo lo que ocurre dentro
  - Qué riesgos van a escalation
  - Qué señales de pérdida importan
  - Qué regla de appetite gana cuando hay conflicto
  - En qué momento interviene la aprobación humana, cuándo se llama a datos externos y cómo se documenta la decisión final
- Esa lógica no vive en un único rule engine limpio, sino dispersa entre SOPs, revisiones de managers, filosofía de underwriting, appetite propio del carrier y años de experiencia operativa; gran parte ni siquiera está documentada en una forma que el modelo pueda leer
La conclusión, una y otra vez, no es un agente puro que razona desde cero cada vez, ni un workflow rígido que se rompe cuando la realidad se ensucia, sino agentic workflows
- Workflow → repetibilidad, auditabilidad y control de costos
- Agente → manejo de la variabilidad y recuperación cuando se rompe el happy path
- Human in the loop → llamadas de juicio donde importa la responsabilidad
En el Day 1 hay automatización manual; con el tiempo, cada escalation se vuelve una señal, cada excepción un feedback, y cada corrección humana una señal de lo que falta en el runbook, de modo que el workflow evoluciona hacia la memoria operativa del carrier
Los labs seguirán lanzando mejores modelos y mejores agentes generales, pero no pueden aprender qué cuenta fue a escalation, qué riesgo fue rechazado o por qué un underwriter revirtió la guía de appetite y tenía razón, a menos que permanezcan el tiempo suficiente dentro de la producción del carrier
"El workflow que lanzaste en Day 1 no es el moat; el moat es el loop que crea el uso en producción a lo largo del tiempo"

Tres pruebas para saber si perteneces al Rest of Oz

The tools-and-steps test (prueba de herramientas y pasos)
- ¿Cuántos pasos tiene el trabajo y qué tan complejas son las herramientas de soporte?
- Comparación
  - Búsqueda horizontal con IA (a través de Google Drive): 1 paso, 1 herramienta, resultado tolerante — si falla, se vuelve a preguntar
  - Redline legal (contrastado con 3 años de precedentes del bufete): decenas de pasos, muchas herramientas, y la salida debe pasar revisión de socios y hasta podría discutirse en tribunales
- Ambas parecen "un agente haciendo trabajo", pero solo una requiere software profundo construido durante años por un equipo enfocado
The system test (prueba del sistema)
- ¿Estás construyendo un sistema por el que pasa el trabajo del cliente, o solo una herramienta sobre un sistema que ya existe?
- Un sistema posee de extremo a extremo la captura de datos, la gobernanza y el registro de ejecución; es aquello que el cliente señala como "donde realmente ocurre el trabajo"
- Una herramienta solo agrega inteligencia a un workflow que el cliente ya opera; puede generar ingresos, pero es un espacio que el lab puede capturar
- Un ACV alto suele ser señal de sistema, pero no es garantía: la prueba real es si, aun cuando el lab lance un producto competidor, el cliente sigue necesitando tu herramienta
The hedge fund / P&L test (prueba de hedge fund / P&L)
- El desempeño de los labs se mide contra benchmarks; el del Rest of Oz se mide contra el P&L del cliente
- Al cliente no le importan los puntajes de SWE-Bench o MMLU; le importa si el agente cerró el deal, hizo correctamente el redline del contrato o bindió la póliza adecuada
- Un cliente obsesionado con resultados específicos del workflow → Rest of Oz; un cliente que paga por capacidad general → le bastan seats de Claude o Codex
- Los mejores negocios de agentes deben competir como un hedge fund: con alpha medido por el P&L del cliente

Ambos lados pueden ganar

También sobre el Yellow Brick Road surgirán ganadores enormes: los labs poseen los modelos y también la distribución de las herramientas horizontales que ellos mismos diseñan
La condición de victoria en el Rest of Oz es poseer el system of work: la superficie donde realmente se ejecuta el trabajo de la empresa y se capturan los datos
- Poseer la captura de datos, el sistema de acción del workflow y la gobernanza
- A medida que maduran workflows complejos en un vertical, se condensan en una sola experiencia central de la que el cliente depende
- Cuando se lanzan nuevas generaciones de modelos, la empresa se convierte en la capa que las integra y entrega
- Los modelos debajo son fungibles, pero el system of work no
El software empresarial de próxima generación se construirá "fuera del camino"

Cómo evitar la muerte en el camino de ladrillos amarillos: la capa de aplicaciones aún no ha muerto

Preguntas y premisas clave

The Yellow Brick Road — el camino que recorren los labs

The Rest of Oz — la oportunidad para las startups

Por qué el Rest of Oz no será absorbido por el mago

Data and learning flywheels (flywheels de datos y aprendizaje)

Managing model variability and complexity (gestión de la variabilidad y complejidad de los modelos)

Cost optimization (optimización de costos)

Governance (gobernanza)

Conclusión común: foco

Caso de Sales — consejos prácticos de Prabhav Jain, CEO de 11x

Focus on outcomes (enfocarse en resultados)

Work on problems where complexity is high (trabajar en problemas de alta complejidad)

Guardrails — no son para evitar cosas malas, sino la esencia por la que el cliente paga

Caso de Insurance — Aman Gour, CEO de FurtherAI

Tres pruebas para saber si perteneces al Rest of Oz

The tools-and-steps test (prueba de herramientas y pasos)

The system test (prueba del sistema)

The hedge fund / P&L test (prueba de hedge fund / P&L)

Ambos lados pueden ganar

Lecturas relacionadas

Aún no hay comentarios.