Lo que no se puede entrenar

(saranormous.substack.com)

5 puntos por GN⁺ 4 시간 전 | Aún no hay comentarios. | Compartir por WhatsApp

A mediados de 2026 se está extendiendo entre los inversionistas un pesimismo casi de "psicosis de IA", cuya lógica central sostiene que, si los modelos se vuelven mejores en todo, todas las empresas construidas encima de ellos no son más que wrappers delgados destinados a ser absorbidos
Devin, el primer AI SWE, resolvía apenas el 13% de las tareas de benchmark estándar en 2024, pero en solo año y medio el mejor agente llegó a la franja alta del 80%, así que los modelos están invadiendo rápidamente primero las áreas medibles
Lo que es medible se vuelve objeto de entrenamiento y cae en la commoditización, pero las respuestas privadas y costosas de verificar no pueden leerse desde un leaderboard
El valor real está en áreas a las que el modelo no puede llegar, como licencias, liability y asignación de responsabilidades; el cuello de botella no es la inteligencia sino el permiso (permission) y la responsabilidad (accountability)
Cuanto más barata se vuelve la inteligencia, más se desplaza el valor hacia unos pocos lugares a los que el modelo no puede acceder; la "zona no entrenable (untrainable)" es el moat final

El pesimismo de los inversionistas y su lógica

A mediados de 2026, el pesimismo entre inversionistas se resume en la idea de que no hay en qué invertir; el ánimo es poner dinero solo en Anthropic y Nvidia y retirarse
La lógica dice que, si los modelos hacen todo mejor, cualquier empresa construida sobre ellos es un thin wrapper esperando ser absorbido, y que el único valor que sobrevive es el compute y los frontier weights
- El caso en el que esta lógica más se apoya es el del software

La verdadera lección que muestra el software

Cuando salió en 2024, Devin fue en gran parte ignorado porque solo resolvía el 13% de las tareas en benchmarks estándar de software, pero un año y medio después el mejor agente llegó a la franja alta del 80% y ya realiza trabajo real dentro de Goldman Sachs y el U.S. Army
Casi todo el mundo sacó la lección equivocada de que "el modelo se tragó la ingeniería de software", pero la ingeniería siempre se ha resistido a la medición y la parte más medible no es la única que importa
Mert Demirer del MIT y sus coautores lo cuantificaron con más de 100 mil desarrolladores: los coding agents más recientes aumentan el volumen de código escrito en cerca de 180%, pero el volumen realmente desplegado solo crece alrededor de 30%
- Escribir código se volvió barato, pero el resto sigue pasando por personas, y esa parte es la importante

Lo medible se vuelve entrenable

Un benchmark es algo medible, y lo medible puede ser atacado con entrenamiento, por eso los coding agents maduraron primero
- El compiler y el test suite funcionan como verificadores gratuitos (free verifiers); la respuesta puede comprobarse a sí misma, así que se le puede iterar hasta que pase
Pero pasar los tests no dice si ese cambio es la decisión correcta para una base de código de 10 años
- Las tres razones no documentadas por las que existe un módulo, o un pipeline de despliegue sostenido por un cron job que nadie admite haber escrito, no pueden leerse en un leaderboard
La corrección de un sistema complejo solo se conoce después de hacerlo correr suficiente tiempo en el mundo, y un modelo más inteligente no puede hacer que el mundo corra más rápido
- Noam Brown, pionero de los modelos de razonamiento de OpenAI, comentó que quizá la única forma realmente segura de evaluar a un agente a escala de un año sea ejecutarlo durante un año

Lo que solo se mueve a la velocidad de la organización

Según Gabe Pereyra, la verdadera automatización no consiste solo en mejorar el modelo, sino en mover juntos product, model, workflow y firm, y tres de esos cuatro se mueven a la velocidad de la organización
La parte a la que no llegan los benchmarks es el trabajo de mover personas: cambiar la forma de trabajar de un socio escéptico o mantener unido a un equipo durante una reconstrucción
- Al contratar a un CEO se valora la capacidad de tratar con personas tanto como la capacidad analítica, y un modelo más inteligente no cambia ese peso
Todas las empresas ya les dieron a todos sus ingenieros un frontier coding model, pero no hay una sola que haya cambiado su organización de ingeniería (eng org) a esa misma velocidad
- La adopción ocurrió en un trimestre; la reconstrucción está tomando años

El trabajo legible se está yendo

Todo lo que puede subir a un leaderboard pronto puede ser atacado con entrenamiento, así que todo trabajo medible ya va camino a convertirse en commodity, y esa dirección no va a revertirse
Como dice la analogía de Matt MacInnis de Rippling, un token que responde una pregunta general casi no vale nada porque cualquier modelo puede responderla, pero un token que razona sobre datos de la empresa vale mucho más
El trabajo legible está siendo erosionado desde arriba y desde abajo
- Desde abajo, las tareas se saturan y el comprador deja de preguntar "¿qué modelo es?" para preguntar "¿cuánto cuesta?", cayendo al open/distilled model más barato de esa semana
- Desde arriba, los labs avanzan una frontera de absorción en la que arrastran hacia los weights la infraestructura (scaffolding) que envolvía al modelo, como retrieval, routing, tool use y reasoning policy
La presión sobre márgenes también opera al revés: un agente generalista tiene que estar preparado para cualquier cosa y por eso es caro, pero una aplicación enfocada puede ajustarse para ejecutar un solo workflow con una fracción del costo en tokens y capturar directamente ese diferencial

La matriz 2x2 y la "zona no entrenable"

A todo trabajo se le pueden hacer dos preguntas: ¿la exactitud es privada y costosa de establecer?, y ¿está atrapada dentro de sistemas a los que no se puede entrar?
Al cruzar eso con la saturación de tareas, se forma una matriz 2x2
- Saturado + respuesta pública = token commodity, dominado por open models
- Frontier + respuesta pública (donde viven los coding benchmarks) = ganan los labs; si la evaluación es gratis, poseerla no tiene importancia
- La última esquina = trabajo frontier cuya exactitud solo existe en privado, y eso es lo untrainable
Esto puede verse en la nube de inferencia, donde las empresas líderes AI-native generan una gran mayoría de sus tokens no con modelos generales abiertos sino con custom models
La altura del muro para entrar en esa última esquina varía
- La toy codebase de un desarrollador individual es portable y estandarizada, así que la entrada es corta
- El sistema productivo de un banco no es ninguna de las dos, y ser 2% más inteligente en SWE-Bench Verified no te da permisos de root

El cuello de botella no es la inteligencia, sino el permiso y la responsabilidad

Ni siquiera un modelo mejor puede volver pública una verdad privada de referencia (private ground truth), ni puede poseer una licencia, firmar una liability, ser dueño de los archivos de una empresa o convertirse en la parte demandada cuando la respuesta sale mal
- El cuello de botella no es la inteligencia sino el permission y accountability
Esa puerta tiene una cerradura (lock) y un cerrojo (deadbolt)
- La lock es el entorno: la utilidad de la IA dentro del sistema solo puede verificarse después de ganar confianza mediante revisión de seguridad, integración y contratos en los que alguien pone su nombre sobre el resultado
- El deadbolt es el usuario: el hábito de muchos médicos en Estados Unidos de abrir OpenEvidence todos los días no se puede comprar con ningún compute
Aunque mañana se entrenara un modelo médico perfecto, no habría manera de meterlo en los hábitos del médico ni en el flujo de decisión de UCSF; la confianza se acumula lentamente sobre relaciones y consentimiento del usuario

La naturaleza misma del trabajo

La forma en que una aplicación consigue lugar en la esquina untrainable no es glamorosa: consiste en ordenar (arrange) la realidad privada de una empresa para que el modelo pueda trabajar con ella, darle herramientas para actuar y cambiar junto al cliente la realidad de su fuerza laboral
- Una empresa que logra esa traducción es difícil de copiar, y esa traducción nunca termina
- La integración y el mantenimiento continúan mientras la relación exista, y gana el equipo que mantiene ingenieros y herramientas especializados en el dominio cerca del cliente
Caso: M&A en un gran despacho de abogados
- En un despacho white-shoe de primer nivel, una sola área de M&A maneja alrededor de 1,000 deals al año; no se puede hacer que cientos de associates descarguen cada uno un client file en su desktop y lo pasen por un agente generalista
  - Hay muchas razones, entre ellas la confidencialidad; y aun si se pudiera, lo que se obtendría serían fragmentos de una corrección por persona, no la visión del flujo completo del deal
- La señal significativa existe a nivel del deal (level of the deal), y un deal tiene forma
  - M&A incluye NDA, term sheet, diligence, purchase agreement, ancillaries y closing checklist
  - IP litigation incluye motion, discovery, prior art y más motion
  - Cada practice area es distinta, y ni los abogados ni las herramientas son intercambiables entre sí
- El problema que realmente resuelve el despacho está un nivel arriba: operar en paralelo todas las practice areas, con socios top moviendo cientos de casos a la vez, trayendo trabajo nuevo y entrenando associates
  - La transformación de un despacho así no es una tarea única que sirva como eval, sino algo que requiere que un operador (operator) lo conduzca con precisión en medio de metas intermedias extremadamente ambiguas, feedback incompleto, plazos muy largos y un entorno que no deja de moverse

El valor difícil de leer también es difícil de vender

Desde afuera, ni la propia empresa sabe si la IA cambiará su operación, así que los negocios más fuertes dejan de intentar probarlo hacia afuera y entran a la organización para poner precio al resultado (outcome)
Sierra cobra cuando su agente resuelve el problema del cliente y no cobra si lo pasa a una persona; el precio mismo se vuelve la evaluación, y eso funciona porque Sierra posee la definición de resolved
El Devin de Cognition también ofrece en software una performance guarantee, algo que solo puede hacerse sobre resultados dentro de sistemas de confianza

Incluso el serving de tokens no es commodity puro

Ni siquiera el serving de tokens, que se consideraba commodity puro, se comporta así; las mejores empresas AI-native concentran su serving en uno o dos proveedores (Baseten o Fireworks)
- El costo por token sí se commoditiza como estaba previsto, pero la confiabilidad bajo tráfico real y el acceso garantizado a compute escaso no
- Dónde hacer el serving es una decisión distinta de qué modelo usar, y la parte de la inferencia que sí se comporta como commodity es solo el precio (price)

La objeción de que el lab es el proveedor

La objeción más común dice que, como el lab es el proveedor, puede operar su propio producto por debajo del costo para asfixiar a otros o cancelarles el acceso al API y quedarse directamente con el mercado; esta es la versión más dura del pesimismo
Esa lógica solo funciona si la capa de modelos es un juego de un solo jugador, pero claramente no lo es
- Se parece más a un "3.5-player deathmatch" con jugadores internacionales que vienen seis meses atrás, y la liga de desarrolladores es cinco veces más grande que el año pasado
- Los clientes quieren competencia entre proveedores, y los labs quieren más market share de lo que quieren matar una sola aplicación específica
Esto puede observarse en el mercado donde los labs compiten de frente: en el chat para consumidores, el mejor modelo nunca ha ganado simplemente por ser el mejor
- ChatGPT ha mantenido el liderazgo durante años en competencia real, y la cuota que hoy pierde no se va a un modelo mejor, sino a Gemini impulsado por Android y Search
- Anthropic, que según los prediction markets y el ambiente de internet suele considerarse el mejor modelo, casi no cuenta como variable en consumer chat y construye su negocio en enterprise y coding
- Si ni siquiera en la aplicación más central un modelo mejor logra quitarle usuarios a un competidor, entonces tampoco abrirá por integración los registros hospitalarios ni la responsabilidad bancaria

El derecho a definir qué es una buena respuesta

Si no se puede calificar desde afuera, alguien dentro tiene que decidir qué es una buena respuesta, y esa decisión lo es todo en el juego
- Cuando esas decisiones se acumulan y quedan registradas, se convierten en benchmark; Harvey publicó uno para legal y Sierra uno para voice agents
- El derecho a definir qué significa good en un campo se obtiene convirtiéndose en quien ese campo ya usa, y esa gente gana ese derecho a través de la lucha real de la adopción
Las evaluaciones que de verdad separan el dinero son privadas y específicas de cada firma: qué considera esta empresa un buen trabajo en este tipo de asunto; la profundidad del derecho supera cualquier prueba pública y por eso nunca se cierra por completo
Esto no es medición, sino juicio (judgment) sobre qué es verdad y qué es bueno, algo que se registra y luego se vuelve estándar, pero que un foundation lab no puede escribir por más inteligente que sea
- Esa posición solo existe dentro del campo; la autoridad aterriza donde ya estaba
- Un benchmark legal lo define un abogado senior; la definición de una respuesta clínica segura la decide un médico; el significado de resolved lo decide la empresa que ya posee al cliente

Una defensa que hay que volver a suscribir sin fin

A medida que más trabajo se vuelve medible, la absorption frontier sigue subiendo, y lo que se vuelve medible termina siendo absorbido
El terreno untrainable se encoge bajo los pies de quien está parado sobre él, así que nadie puede acomodarse en una posición segura; hay que seguir moviendo los pies hacia zonas que todavía no se pueden calificar y volver a re-underwrite sin descanso
Si en una tarea estrecha se entrena hasta la frontera con datos privados y evals propias, en ese punto se vence al modelo generalista y ese modelo especializado pasa a ser parte del moat
En cambio, competir en el terreno generalista es una guerra de capital que se pierde contra quien tenga más compute; es la trampa de las empresas con acceso superficial y tareas fáciles de leer
- El día en que decidas que para sobrevivir debes entrenar hasta superar al frontier en el espacio generalista, el ganador quedará definido por el tamaño del datacenter, y el desenlace no será un campeón independiente sino una venta al que tenga abundancia de compute

El ataque más difícil: qué construir

Todo lo anterior es defensa; lo más difícil es el ataque, es decir, elegir qué construir en primer lugar, y eso se descubre quizá tres veces al año
El modelo no ayuda aquí: hace cualquier cosa que se le señale, pero no puede decir qué vale la pena señalar, y como eso no puede benchmarkearse, tampoco puede entrenarse
- Esa es la razón por la que los incumbentes no pueden quedarse con todo; lo siguiente surge de alguien que detecta antes que los demás para qué sirve
- Tal vez el intent sea un insumo más escaso que el compute

Conclusión: el valor que tiene historia

El pesimismo acierta solo a medias: la capa de thin wrappers sí está siendo absorbida, y muchas cosas que hoy parecen empresas en realidad son thin wrappers
- Pero se equivoca sobre lo que eso deja; el mecanismo de absorción está claro, pero el destino final no lo está
La inteligencia seguirá abaratándose y el valor se deslizará hacia unos pocos lugares a los que el modelo no puede llegar; ese lugar es lo untrainable: "valor con historia (value with history)" que se acumula con el tiempo, como relaciones, confianza y juicio acumulado, y que no puede replicarse con entrenamiento
Por eso, no hay que intentar poseer la inteligencia misma, sino entrar en una zona donde la respuesta correcta solo exista dentro de ese campo ("get inside one")
- Hacer directamente el trabajo nada glamoroso de traducción (translation) que ordena la realidad privada de una empresa para que el modelo pueda operar sobre ella
- La clave es convertirse en quien registra qué significa good (una buena respuesta) en ese campo y define el estándar, porque ese lugar no está vacío: si yo no lo hago, alguien más sin duda lo ocupará
El benchmark score más citado del año no es motivo de orgullo sino advertencia: es el mapa de un territorio que pronto dejará de valer, y una notificación para quien pronto perderá el derecho a decir qué es good
- Que algo se haya vuelto públicamente medible es la señal de que pronto se convertirá en commodity, y cuando la calificación es pública cualquiera puede alcanzarte, así que incluso quien queda primero con ese score pierde el derecho a definir el estándar de lo good

Lo que no se puede entrenar

El pesimismo de los inversionistas y su lógica

La verdadera lección que muestra el software

Lo medible se vuelve entrenable

Lo que solo se mueve a la velocidad de la organización

El trabajo legible se está yendo

La matriz 2x2 y la "zona no entrenable"

El cuello de botella no es la inteligencia, sino el permiso y la responsabilidad

La naturaleza misma del trabajo

Caso: M&A en un gran despacho de abogados

El valor difícil de leer también es difícil de vender

Incluso el serving de tokens no es commodity puro

La objeción de que el lab es el proveedor

El derecho a definir qué es una buena respuesta

Una defensa que hay que volver a suscribir sin fin

El ataque más difícil: qué construir

Conclusión: el valor que tiene historia

Lecturas relacionadas

Aún no hay comentarios.