Decisiones y dinero: cómo sobrevive una empresa a la pregunta “¿y si Anthropic construye esto?”

(writing.nikunjk.com)

4 puntos por GN⁺ 3 시간 전 | 2 comentarios | Compartir por WhatsApp

Cuanto más poderosos se vuelven los modelos de IA, menos valor tiene el software por sí mismo, y las empresas de aplicaciones que quieran sobrevivir necesitan convertirse al mismo tiempo en empresas de datos y empresas fintech
A medida que los agentes se convierten en los principales usuarios del software, el modelo de precios por asiento colapsa; aunque mil personas ejecuten cien mil agentes, eso no equivale a cien mil asientos, así que solo quedan como base de cobro las decisiones que dejan los agentes (datos) y el dinero que mueven (fintech)
Los modelos frontier son como un grupo de genios que no sabe cómo funciona una empresa; el verdadero foso está en el juicio implícito (judgment) que tienen las personas, y el historial de correcciones (corrections) con el que los usuarios han ido ajustando los resultados del modelo sirve tanto como señal de entrenamiento como conjunto de prueba
Si no circula dinero por los datos, no pasa de ser un proyecto científico; solo una fintech con red y lock-in, como Toast, Ramp o Shopify, puede sostener márgenes incluso mientras cae el precio de los modelos
Acumular juicio, controlar el flujo del dinero y defender las escrituras (writes) es el único camino para seguir siendo una empresa irremplazable aunque los Labs vean todos los tokens

El avance de los modelos y la caída del valor del software

Ayer se lanzó Claude Fable 5, el primer modelo Mythos-class disponible para el público, líder en casi todos los benchmarks, y la brecha se amplía cuanto más larga es la tarea
- Cuanto más inteligentes son los modelos, más cae el valor del software en sí
Toda empresa de aplicaciones financiada por venture ahora tiene que ser una empresa de datos o una fintech, idealmente ambas

El cambio en quién usa el software

En un texto de hace 2 años se señalaba que, si los agentes se convertían en usuarios, el modelo de precios por asiento se rompería, y parece que ya cruzamos esa línea
- Cloudflare anunció que el tráfico de agentes superó por primera vez al tráfico humano
- Aunque hay debate en internet, la tendencia de que los agentes se conviertan en los principales clientes de todo el software es clara
Que mil empleados ejecuten cien mil agentes no significa cien mil asientos
Las dos cosas facturables que deja un agente son las decisiones que toma (= datos) y el dinero que mueve (= fintech)

Decisiones — el foso de los datos

xAI tiene una opción para adquirir Cursor por 60 mil millones de dólares, y Cursor genera alrededor de 4 mil millones de dólares en ingresos anualizados
- La razón principal no es que el software sea caro
- Anthropic y OpenAI ya observan el trabajo de los desarrolladores en tiempo real con Claude Code y Codex
- La razón por la que xAI compraría Cursor es entrar lo más rápido posible en el flujo de tokens (token flow)
- Musk, el primer billonario del mundo, dijo que el registro de un millón de desarrolladores usando modelos en trabajo real entra directamente al entrenamiento de Grok; el precio alto es el peaje para saltarse años de recolección lenta de datos
A las pocas semanas del lanzamiento de Cursor aparecieron clones funcionales, pero ninguno logró asentarse, porque competía por taste
- Miles de pequeñas decisiones sobre qué mostrar y cuándo hacerlo desaparecer
- Los clones solo copian la interfaz; no pueden heredar el historial de lo que los desarrolladores aceptaron, rechazaron o reescribieron durante años
- Cursor ahora entrena sus propios modelos con ese diff, y los datos se convierten en su foso principal
La razón de una valuación de 60 mil millones de dólares: es como reemplazar al 90% del personal por un equipo de genios que no sabe absolutamente nada sobre cómo opera la empresa
- Fable 5 resuelve el 80% del trabajo real de software que el mejor modelo del año pasado apenas lograba cubrir a la mitad; los genios son difíciles de distinguir entre sí y se pueden sustituir
- Hay una sola razón por la que fallan: nadie sabe lo que sabían las personas que fueron reemplazadas

Conocimiento tácito y acumulación de juicio

La solución temporal es sacar el conocimiento de la cabeza de las personas y pasárselo al modelo como contexto, pero la mayor parte no existe en forma estructurada
- Un trato que se abandonó, una línea de código revertida a las 2 de la mañana, un cliente al que nadie volvió a perseguir y sin explicación escrita: ahí está lo realmente central
- Es juicio que no se puede escribir como workflow y hoy no queda almacenado
Ahora nos estamos moviendo de context → harness → judgment
- Context es retrieval: poner frente al modelo el fragmento correcto
- Harness es el loop o andamiaje donde el modelo puede correr
- Judgment es la capa final y la única que acumula de forma compuesta: todo lo que cada llamada, corrección y reversión deja sobre los datos
Casi todos los pitches actuales de aplicaciones de IA presentan una slide de contexto como si fuera el foso, pero eso ya es apenas table stakes
- Porque todos los competidores están armando el contexto de la misma manera

Los dos roles del historial de correcciones

Las correcciones pueden verse como un scorecard: cada vez que un usuario corrige el resultado del modelo, queda registrado qué es correcto en ese negocio
Ese scorecard hace dos cosas al mismo tiempo
- Es una señal de entrenamiento para ajustar un modelo prestado a ese negocio
- Es un conjunto de prueba: la única forma de saber si el agente realmente mejora, porque los benchmarks públicos no miden un workflow específico
No hace falta preentrenar un modelo desde cero; ni siquiera Cursor lo hace
- El modelo propio de Cursor está construido sobre una base open source, y el diff es lo que se encarga de la diferenciación
- El fine-tuning y RL sobre modelos frontier ya son lo bastante baratos como para que una empresa en Series B pueda ejecutar este loop; hace 2 años se necesitaba un lab
Sarah Guo llama a esta zona the untrainable: tareas donde desde afuera no se puede calificar la respuesta correcta, y las correcciones son la forma de apropiarse de eso

Casos de líderes de IA vertical

Harvey superó una valuación de 11 mil millones de dólares y Legora la de 5 mil millones, ambos enfocados en el mercado legal
- Ya no van solo por una herramienta independiente, sino por adueñarse del matter completo, porque las correcciones que hacen los abogados sobre un borrador son corrections que nadie más puede ver
Rogo sigue la misma estrategia en finanzas, capturando cómo los analistas construyen modelos y corrigen memos
Ninguno de ellos entrena modelos fundacionales; construyen un harness alrededor de modelos prestados y se quedan con el judgment que circula dentro, que es lo que compone con el tiempo
Lo mismo pasa con líderes ya establecidos
- Figma posee más que SVG: posee la historia de cómo un diseño pasó de v1 a v47 y todas las versiones descartadas en el camino, un registro puntuado del taste de diseño
- Linear posee las discusiones debajo de cada ticket cerrado
- Notion posee la forma del pensamiento de un equipo a lo largo de mil ediciones
- Aunque un competidor intente llevarse al cliente, nada de eso se puede exportar, y son respuestas que un modelo genérico no tiene

Los Labs están comprando juicio

Los Labs están comprando juicio como producto terminado, empezando por datos etiquetados por personas
- Mercor está valuada en 10 mil millones de dólares y paga 85 dólares por hora a redes de expertos
- Meta pagó 14 mil millones a Scale para controlar el pipeline
- Una startup de Nueva York limpia departamentos gratis si le permites grabar todo el proceso, porque el equipo de robótica necesita ver cómo los humanos deciden la siguiente acción
- Varias empresas de RL environments ya venden juicio sobre tareas de largo plazo y alcanzan cientos de millones de dólares en ingresos anualizados
Los Labs ya agotaron el entrenamiento sobre todo internet, y ahora compran decisiones directamente

Dinero — el foso fintech

23andMe tenía el ADN de quince millones de personas y aun así quebró el año pasado
- Si no circula dinero por los datos, no pasa de ser un proyecto científico esperando financiamiento
- La mayoría de los fundadores está ignorando esta mitad
Toast entendió esto hace años: un restaurante es, en esencia, un procesador de pagos con una cocina pegada
- Los pagos generan mucho más dinero que el software
Ramp fue todavía más lejos: ofrece tarjetas corporativas gratis, sin comisión en ningún lado, y cuando circulan miles de millones de dólares, toma entre 1 y 2 centavos por cada dólar
- Es una empresa de 32 mil millones de dólares construida sobre errores de redondeo; la tarjeta gratis es la puerta principal hacia el interchange
- La swipe fee se mantiene porque la red la sostiene, y mientras el dinero se queda ahí también produce ingresos a través del float
No todo medidor de dinero tiene foso
- Una popular app de vibe-coding tiene alrededor de 50% de margen sobre los créditos que vende; gran parte de sus ingresos anualizados es markup sobre inference
- Detrás del markup de tokens no hay ninguna red, y su propio costo de inference baja trimestre a trimestre, así que el margen se derrite a medida que los modelos se abaratan
- La fintech sostenible es la que viene con lock-in: pagos respaldados por red o préstamos garantizados con datos que los bancos no pueden ver

Infraestructura de pagos para agentes

La infraestructura de pagos para agentes por fin está entrando en funcionamiento
- Cuando los agentes reservan vuelos, piden piezas y pagan a proveedores, alguien tiene que autorizar, transportar el cobro y quedarse con una comisión
- Stripe lanzó un protocolo para esto, y Visa y Mastercard compiten por apropiarse del estándar
- OpenAI ya descuenta un porcentaje de cada compra que hacen sus propios agentes
- Las transacciones de 1 billón de agentes pronto emergerán como la mayor economía de pagos de la historia

Convertir una cosa en la otra

Las mejores empresas de aplicaciones que perduran no tratan estas dos mitades por separado
- Judgment es el registro de decisiones sobre el trabajo; fintech es el registro de decisiones sobre el dinero; las empresas fuertes convierten una en la otra
Shopify es el mejor ejemplo
- Empezó con software para tiendas → le agregó pagos → con Shopify Capital ofrece préstamos garantizados con los datos de ventas que fluyen por la tienda, algo que un banco por sí solo no puede hacer
- Si el comercio crece, aumentan las ventas y esos datos ayudan al siguiente préstamo
- Hoy, cerca de tres cuartas partes de los ingresos de Shopify vienen del lado del dinero, no de suscripciones de software
- Stripe con Radar, y Ramp con datos de gasto y tarjetas, operan el mismo loop
Rippling intenta algo similar; su objeto central es el empleado
- Nómina, beneficios, dispositivos y tarjetas dependen de una sola source of truth
- Nadie ha logrado todavía un lock-in claro, y Gusto y Deel siguen creciendo en paralelo, pero mientras la empresa que posee el objeto compone, el resto ensambla a mano

Defiende las escrituras

Hay una tensión “headless” que nadie ha resuelto
- Si todo el software va a ser usado por agentes, para ser útil hay que dejarlos entrar, pero para sobrevivir no se les puede permitir que se lleven todo
- Todo system of record tiene que estar lo suficientemente abierto como para que un agente se conecte por cualquier protocolo, pero también lo suficientemente cerrado como para que, una vez que obtiene lo que necesita, nadie se pueda ir
- Salesforce este año bloqueó los datos de Slack frente a Glean y agentes externos, en el primer caso público de este tipo
La forma de construir una empresa sostenible es separar
- Permite que los agentes lean; leer es barato y, de todos modos, importante
- Defiende las escrituras
El punto donde entra nuevo juicio y donde personas y agentes se aprueban, corrigen y revierten mutuamente es la parte que el competidor no puede trasladar fácilmente
- Lo que se llevan raspando es el estado de ayer; las decisiones que se toman ahora son lo único que sigue siendo propio

“¿Y si Anthropic construye esto?”

Se puede objetar que, si los Labs ya están dentro del flujo de tokens, entonces ¿dónde está el foso?
- Claude Code ve cada comando que ejecutan los desarrolladores y cada sugerencia ignorada; ChatGPT observa en un día más decisiones de las que un producto registra en un año
La respuesta a esa objeción: lo que ven sus herramientas es mayormente genérico
- El mismo coding y writing que ven todos los modelos, precisamente eso que los Labs compiten por commoditizar entre sí
- El juicio raro vive en lo profundo de una sola empresa: cómo un hospital lee escaneos, qué trato aprendió una empresa a abandonar; nada de eso llega al chatbox de un lab
Durante años, los Labs han dicho a las empresas que no entrenan con sus datos
- El conocimiento tácito que pasa por los modelos dentro del producto sigue siendo suyo por contrato; los Labs ven pasar el trace, pero acuerdan no conservarlo
La mitad fintech ni siquiera es algo que los Labs quieran
- Con gusto se quedarían con los datos, pero un loan book, pérdidas por fraude o licencias de money transmitter en 40 estados no les sirven de nada
- Para un comprador, los datos crean valor de adquisición; la fintech hace que sea difícil arrancarlo de raíz
Cursor construyó el mejor motor de datos de su categoría y un lab lo adquirió por 60 mil millones de dólares
- No sabrás si eso es un sueño o una advertencia hasta que ya sea demasiado tarde para cambiar
- Construye las dos cosas que sobreviven: acumular juicio y sentarte en el paso del dinero; así es como se resiste la pregunta “¿y si Anthropic construye esto?”

2 comentarios

heim2 15 분 전

Suena algo convincente, pero cuesta entenderlo.

somang04 2 시간 전

“La acumulación de criterio, el control del flujo de dinero y la defensa de las escrituras (writes) son el único camino para que una empresa siga siendo irreemplazable aunque el lab vea todos los tokens” -> El significado de esto es ambiguo; ¿sería posible ampliar la explicación?