- En las startups de IA, antes del product-market fit (PMF) es indispensable verificar el model-market fit (MMF), es decir, si la capacidad del modelo actual realmente puede resolver lo que exige el mercado
- Tras el lanzamiento de GPT-4, el mercado de IA legal creció de forma explosiva, y después del lanzamiento de Claude 3.5 Sonnet, los asistentes de programación se convirtieron en un flujo de trabajo real, un ejemplo representativo de haber alcanzado MMF
- Áreas como demostraciones matemáticas, análisis financiero de alto riesgo y descubrimiento autónomo de fármacos tienen demanda de mercado, pero la capacidad de los modelos no supera el umbral crítico, por lo que siguen sin MMF
- Si el human-in-the-loop no funciona como apoyo sino que las personas deben hacer el trabajo central en lugar de solo complementar al sistema, puede interpretarse que no existe MMF
- La clave de la estrategia en IA está en reconocer el orden MMF → PMF → éxito y juzgar con frialdad cuándo y qué construir
El marco de Marc Andreessen y una nueva variable
- En 2007, Marc Andreessen publicó un ensayo donde sostenía que, entre los tres elementos de una startup (equipo, producto y mercado), el mercado es lo más importante
- Un gran mercado tira del producto fuera de la startup, y el producto ni siquiera tiene que ser extraordinario: basta con que funcione de forma básica
- Diecinueve años después, apareció una nueva variable que determina si el mercado realmente puede tirar de algo: el modelo
- En las startups de IA existe una condición previa al product-market fit: si la capacidad actual del modelo puede ejecutar el trabajo que el mercado exige
- Cuando existe MMF, el marco de Andreessen funciona y el mercado tira del producto; cuando no existe, ni el mejor UX, ni la estrategia GTM, ni la ingeniería pueden lograr adopción por parte de los clientes
Casos de explosión de mercado cuando se desbloquea el MMF
-
IA legal: GPT-4 (marzo de 2023)
- Antes de GPT-4, la IA legal en legal tech fracasó al intentar escalar, y las herramientas de revisión documental exigían más supervisión humana de la que ahorraban
- Los transformers previos como BERT eran fuertes en tareas de clasificación como clasificar documentos o identificar tipos de contrato, pero no podían realizar generación ni razonamiento, que son centrales en el trabajo legal
- Podían clasificar un contrato como “laboral” o “NDA”, pero no redactar de forma consistente un brief explicando por qué una cláusula de no competencia no es ejecutable bajo la ley de California
- En los 18 meses posteriores al lanzamiento de GPT-4, startups de Silicon Valley levantaron cientos de millones de dólares, Thomson Reuters adquirió Casetext por 650 millones de dólares, y surgieron decenas de nuevas startups de IA legal
- El mercado de IA legal produjo más unicornios en solo 12 meses que en toda la década anterior
- La demanda del mercado seguía igual; lo único que cambió fue que la capacidad del modelo superó el umbral crítico
-
Programación: Claude 3.5 Sonnet (junio de 2024)
- Ya existían asistentes de programación como GitHub Copilot, pero hay una diferencia clara entre el autocompletado ocasionalmente útil y una IA que realmente entiende la base de código
- Antes de Claude 3.5 Sonnet, usar Cursor se quedaba en el nivel de demo interesante y no se consolidaba como flujo de trabajo cotidiano
- Después del lanzamiento de Sonnet, en una semana se volvió imposible trabajar sin Cursor, transformándose en la experiencia de hacer pair programming con una entidad que entiende toda la base de código
- La razón del crecimiento vertical de Cursor no fue una innovación funcional, sino que el modelo base superó el umbral de uso real
-
Análisis del patrón
- La clave es si existe MMF o no, y las startups ganadoras nunca son necesariamente las primeras, sino los equipos que estaban preparados para el momento en que la capacidad del modelo cruzara el umbral
- Tanto en programación como en el sector legal, no hubo casos donde ganaran los incumbentes; siempre fueron nuevos jugadores quienes dominaron el mercado
- Las startups legales líderes de hoy ya habían acumulado durante meses conocimiento sobre el flujo real de trabajo de los abogados, los formatos de salida requeridos, las exigencias regulatorias y cómo investigan los asociados
- La victoria no es para quien llega primero, sino para quien alcanza antes el PMF después de que se establece el MMF
Problemas que surgen cuando no existe MMF
-
Demostraciones matemáticas
- Los matemáticos quieren una IA que pueda demostrar nuevos teoremas, y centros de investigación, contratistas de defensa y empresas tecnológicas están dispuestos a pagar millones de dólares por razonamiento matemático real
- Pero incluso los modelos más avanzados no pueden hacerlo de forma consistente; se limitan a verificar pruebas conocidas, asistir en pasos mecánicos o aportar ideas sobre problemas limitados
- Generar nuevas pruebas para problemas abiertos sigue siendo imposible; aunque ha habido mejoras graduales con GPT-5, o1 y o3, todavía no estamos en una etapa en la que pueda esperarse una prueba rigurosa de una conjetura abierta
-
Finanzas de alto riesgo
- Los bancos de inversión y hedge funds quieren desesperadamente una IA que realice análisis financiero integral, y una sola operación exitosa o un deal de M&A puede generar cientos de millones de dólares en comisiones
- Sin embargo, la IA sigue mostrando un desempeño sorprendentemente bajo en las tareas clave
- Al trabajar con modelos financieros complejos, incluso la salida en Excel es difícil de considerar confiable
- Leer documentos de 200 páginas y combinar análisis cuantitativo con juicio cualitativo sigue siendo una de las mayores barreras para la IA
- Un analista humano lee earnings calls, disclosures regulatorios e informes sectoriales, los integra en modelos de hoja de cálculo y así toma decisiones de inversión, pero la IA solo puede procesar partes de ese flujo de trabajo
- Si el humano sigue dentro del loop no es por supervisión, sino porque todavía se necesita que actúe como tomador central de decisiones
-
Brecha en benchmarks
- La comparación de benchmarks de Vals.ai muestra de forma muy clara la diferencia de desempeño entre verticales con MMF y verticales sin MMF
- LegalBench (tareas de razonamiento legal): el mejor modelo alcanza 87% de precisión, con Gemini 3 Pro liderando con 87.04%, y varios modelos superando el 85%
- Rendimiento a nivel de producción en el que un abogado puede confiar en la salida con solo una revisión ligera
- Finance Agent (tareas centrales de analista financiero): el mejor modelo alcanza 56.55% de precisión; GPT-5.1 apenas supera la mitad y Claude Sonnet 4.5 extended thinking obtiene 55.32%
- Con una brecha de unos 30 puntos, en el ámbito legal sí existe MMF, mientras que en finanzas todavía no
- Hoy sí es posible lanzar productos de IA legal, pero un producto de IA financiera que haga el trabajo real de un analista aún no es posible, aunque podría serlo pronto
-
Descubrimiento autónomo de fármacos
- La industria farmacéutica está invirtiendo miles de millones de dólares en descubrimiento de fármacos basado en IA, y un solo medicamento exitoso puede valer decenas de miles de millones
- La IA sí aporta aceleración en etapas individuales como identificar moléculas candidatas, predecir estructuras de proteínas (la innovación de AlphaFold) y optimizar el diseño de ensayos clínicos
- Sin embargo, todavía no existe un descubrimiento autónomo de fármacos de extremo a extremo que justifique las valoraciones actuales
- Si el humano sigue dentro del loop no es por una decisión de diseño del flujo de trabajo, sino porque la IA aún no puede hacer el trabajo real
Cómo identificar la ausencia de MMF
- La señal más confiable para estimar la ausencia de MMF es qué papel cumple el human-in-the-loop
- Cuando existe MMF, el human-in-the-loop funciona como una función: mantiene la calidad, genera confianza y gestiona casos límite
- La IA hace el trabajo central y el humano supervisa y aprueba
- Cuando no existe MMF, el human-in-the-loop se parece más a una muleta, ocultando que la IA no puede realizar el trabajo principal
- El humano no está para aumentar capacidades sino para compensar, y si se lo elimina, el producto deja de funcionar de inmediato
- Criterio simple: si se eliminan todas las correcciones humanas de este flujo de trabajo, ¿el cliente seguiría pagando?
- Si la respuesta es no, entonces no hay MMF y lo que queda es solo una demo
Dilema estratégico: ¿construir para el presente o para el futuro?
-
Argumento a favor de esperar
- Construir una startup cuando hoy no existe MMF es apostar por mejoras del modelo que están en la hoja de ruta de otros
- No puedes controlar cuándo llegarán esas capacidades, y mientras Anthropic y OpenAI toman decisiones, tu runway sigue consumiéndose
- También existe la posibilidad de equivocarse al juzgar la capacidad necesaria
- La brecha entre el 80% y el 99% de precisión que exige un vertical podría cerrarse dentro de 5 años, o quizá nunca cerrarse de la forma esperada
- Si crees en AGI, quizá los modelos algún día puedan hacer casi cualquier cosa, pero lo importante no es la posibilidad sino el momento en que ocurra
- La cuestión no es si la IA podrá resolver el problema, sino si la startup podrá sobrevivir hasta entonces, lo que en esencia es un problema de runway
-
Argumento a favor de empezar temprano
- Hay un contraargumento que suele mencionarse en Y Combinator y es bastante convincente
- Cuando se desbloquea el MMF, no solo importa la capacidad del modelo
- pipelines de datos específicos del dominio
- relaciones con reguladores
- confianza de clientes acumulada durante años
- flujos de trabajo profundamente integrados
- entendimiento de cómo realmente trabajan los expertos
- Las startups legales no simplemente conectaron GPT-4; ya habían construido el scaffolding de antemano y, en cuanto apareció el modelo, pudieron ejecutar de inmediato
- Los equipos más cercanos al problema ejercen influencia directa sobre cómo se evalúa el modelo, en qué dirección se hace fine-tuning y cómo se despliega
- No esperan pasivamente la capacidad, sino que ayudan a definir qué cuenta como capacidad en ese vertical
-
Solución
- La pregunta clave no es si hay que empezar temprano o no, sino qué tan temprano empezar y qué construir mientras se espera
- La zona más peligrosa es la franja intermedia
- cuando parece que el MMF llegará en 24 a 36 meses
- se siente lo bastante cercano como para entusiasmar, pero lo bastante lejano como para quemar varias rondas de financiamiento
- En esta zona, la convicción y el runway lo deciden todo
- Si vas a apostar por un MMF que llegará dentro de más de 2 años, debe tratarse de un mercado enorme que realmente valga la espera
- Salud y servicios financieros son mercados de escala de billones de dólares donde Anthropic y OpenAI están all-in, a pesar de que hoy muestran resultados mixtos
- El potencial alcista es tan grande que justifica posicionarse temprano
- La fórmula para juzgarlo es simple
valor esperado = probabilidad de llegada del MMF × tamaño del mercado × participación esperada
Cómo medir el MMF
- El product-market fit es famoso por ser difícil de medir con precisión, y Andreessen lo describía en términos cualitativos
- “Cuando el PMF no ocurre, siempre puedes sentirlo; y cuando ocurre, también siempre puedes sentirlo”
- El MMF también es, en esencia, un concepto intuitivo, pero puede concretarse con criterios más claros
-
Test de MMF
- Pregunta central: si el modelo recibe la misma entrada que un experto humano, ¿puede producir una salida por la que el cliente pagaría sin necesidad de corrección humana sustancial?
- Tres componentes
- 1. La misma entrada
- El modelo usa como entrada los mismos documentos, datos y contexto que recibe la persona
- No se permite preprocesamiento mágico que no pueda proporcionarse en el flujo de trabajo real
- 2. Una salida por la que el cliente pagaría
- No una demo ni una prueba de concepto, sino un resultado con calidad de producción que resuelva un problema real
- 3. Sin corrección humana sustancial
- Una persona puede revisar, corregir o aprobar, pero si tiene que reescribir el 50% de la salida, difícilmente puede decirse que el modelo esté haciendo el trabajo
-
La brecha 80/99
- En verticales no regulados, a veces 80% de precisión puede ser suficiente
- Una IA que redacta borradores de copy de marketing puede generar valor aunque una persona los edite de forma importante
- En verticales regulados (finanzas, derecho, salud), 80% de precisión es en la práctica inútil
- Una herramienta de revisión de contratos que omite el 20% de las cláusulas clave no ayuda al abogado, sino que crea responsabilidad
- Un diagnóstico médico que falla una de cada cinco veces no es un producto sino riesgo de demanda
- La brecha entre 80% y 99% de precisión en el trabajo real suele ser casi infinita
- Es la diferencia decisiva entre una “demo prometedora” y un “sistema de producción”
- Muchas startups de IA están atrapadas en esa brecha: levantan capital con demos mientras esperan la capacidad que haga que el producto realmente funcione
El umbral agéntico
- Una segunda frontera de capacidad que suele pasarse por alto en la discusión sobre MMF es la capacidad de trabajar de forma autónoma durante periodos prolongados
- Los casos donde hoy sí existe MMF (revisión de documentos legales, apoyo a la programación) son, en esencia, tareas de horizonte corto
- Se ingresa un prompt, se obtiene una salida, quizá con algunas llamadas a herramientas, y en segundos o minutos se genera un resultado útil
- Pero el trabajo de conocimiento más valioso no funciona así
- Un analista financiero no responde una sola pregunta: construye modelos durante varios días, somete supuestos a pruebas de estrés y sintetiza información de decenas de fuentes
- Un consultor estratégico no hace una sola diapositiva: repite semanas de investigación, entrevistas y análisis
- Un investigador en descubrimiento de fármacos no diseña un solo experimento, sino que planifica y ejecuta campañas de meses
- Estos flujos de trabajo requieren capacidades que los modelos aún no realizan de forma confiable, y la principal es operar de manera autónoma y sostenida
- El umbral agéntico no se reduce a “¿puede usar herramientas?”
- Persistencia: ¿puede mantener objetivos y contexto durante horas o días?
- Recuperación: ¿puede reconocer fallas, diagnosticar la causa e intentar otro enfoque?
- Coordinación: ¿puede descomponer un objetivo complejo en subtareas y ejecutarlas en secuencia?
- Juicio: ¿puede distinguir cuándo seguir adelante y cuándo detenerse para pedir instrucciones a una persona?
- Los agentes actuales pueden manejar tareas de minutos, pero la siguiente generación tendrá que asumir tareas de días
- No es una mejora incremental de rendimiento, sino un cambio de fase en la capacidad misma
- Esa es la razón de que finanzas todavía no tenga MMF aunque “lee bien documentos”
- Leer un 10-K es una tarea de 30 segundos, pero construir una tesis de inversión es un flujo de trabajo de varios días
- Hay que sostener un razonamiento coherente a lo largo de todo el proceso: recopilar datos, construir modelos, probar escenarios y sintetizar conclusiones
- La próxima ola de desbloqueo de MMF no vendrá solo de modelos más inteligentes, sino de modelos capaces de ejecutar de forma autónoma un mismo trabajo durante días
Punto estructural clave
- La idea central de Andreessen es que el mercado importa más que el equipo o el producto porque un gran mercado tira del producto fuera de la startup
- La conclusión inevitable en IA es que la condición previa para que comience esa atracción gravitacional es la capacidad del modelo
- Por grande y deseoso que sea el mercado, no puede tirar de un producto que no funciona
- Y en IA, qué significa “no funciona” no lo decide la ingeniería ni el diseño, sino el propio modelo
- Puedes tener la interfaz más hermosa, el flujo de trabajo más elegante y el pipeline de datos más sofisticado; si el modelo base no realiza la tarea central, nada de eso importa
- Si se salta el orden MMF → PMF → éxito, la segunda etapa no puede establecerse
- Para los fundadores, esto significa ser despiadadamente honestos al distinguir entre hasta dónde han llegado realmente las capacidades y dónde desearían que estuvieran
- Para los inversionistas, significa evaluar no solo el tamaño del mercado y la calidad del equipo, sino también la brecha entre la capacidad actual del modelo y lo que el mercado exige
- Para todos los que construyen IA, la pregunta restante no es si el mercado lo quiere, sino si el modelo realmente puede ofrecerlo
- Eso es lo único que importa
1 comentarios
Supervivencia del software 3.0: ¿Qué hay que construir para sobrevivir?
En los últimos días se ven seguido artículos sobre cómo hay que sobrevivir.