Los datos son el único moat

(thebootstrappedfounder.com)

41 puntos por GN⁺ 2026-03-24 | 2 comentarios | Compartir por WhatsApp

A medida que las herramientas de IA reducen drásticamente el costo y la cantidad de personal necesarios para desarrollar software, la pregunta clave pasa a ser cuál es realmente la barrera de entrada de los negocios de software
Ahora que la IA puede reemplazar la mayoría de las tareas de transformación, solo los datos del mundo real generados por humanos quedan como el único moat que la IA agente no puede replicar
El mercado de datos se está bifurcando entre “datos generados por humanos” y “datos generados por IA”; los primeros aumentan de valor y los segundos se están convirtiendo en commodities
El software de transformación simple (flujos de trabajo como Excel → PDF → correo electrónico) puede ser reemplazado por IA agente, pero la recolección continua de datos a gran escala y los systems of record no pueden ser sustituidos
Lograr paridad de API (equivalencia funcional entre UI, REST y MCP) y acumular metadatos será la ventaja competitiva clave de los negocios de software en adelante

El cambio del moat del software en la era de la IA

Las herramientas basadas en LLM han hecho que desarrollar software complejo sea radicalmente más fácil, aunque no esté completamente resuelto
- Sigue haciendo falta un orquestador (alguien que sepa qué construir), un rol situado no solo en la capacidad técnica sino también en la intersección entre gestión de producto, desarrollo de clientes e ingeniería
- Lo que antes requería 10 personas para construir algo significativo se está moviendo hacia 3, 2 o incluso 1 persona
Si los productos de software se vuelven fáciles de desplegar y mantener, los moats existentes (dificultad de desarrollo, productización del conocimiento de dominio, etc.) pasan a ser reemplazables en su mayor parte por la IA

La gran bifurcación de los datos (The Great Data Bifurcation)

El mundo de los datos se está dividiendo en dos ramas
- Datos generados por humanos: episodios de podcast, videos, publicaciones en redes sociales, posts de blog y otros contenidos creados directamente por personas
- Datos generados por IA: imágenes creadas por IA, voces sintéticas por TTS, videos totalmente producidos por IA, correos spam escritos por agentes, etc.
Los datos humanos ganan valor por su escasez y singularidad, mientras que los datos generados por IA se vuelven commodities a medida que los modelos se vuelven más rápidos y baratos
Los datos humanos contienen el conjunto completo de conocimientos que solo posee su creador, por lo que la única entidad capaz de generar esos datos es esa persona
Como la IA no puede, por definición, crear datos generados por humanos, los datos del mundo real generados, validados y depurados por personas serán el único moat confiable para los fundadores de software durante la próxima década

El caso de Podscan: el moat de datos en la práctica

El valor central del servicio de monitoreo de podcasts Podscan no está en la velocidad de recolección de feeds RSS ni en la velocidad de respuesta de la API
- El valor real está en los datos de transcripción y análisis con IA (palabras clave, temas, análisis de sentimiento) de 50 millones de episodios de podcast
El valor agregado clave está en recolectar datos públicos (episodios de podcast) y convertirlos en una forma transcrita, transformada y accesible
- Puede aprovecharse para múltiples usos, como seguimiento de menciones de marca, detección de tendencias en tiempo real y evaluación de patrocinios en podcasts
Cuanto mayor sea la fidelidad y la frescura de los datos, mayor será el valor que perciben los clientes
- Aunque la UI sea incómoda o la API sea limitada, los clientes encuentran la forma de acceder a los datos: lo que importa son los datos en sí
Si solo se ofreciera una función que, dada una URL, hiciera la transcripción y el análisis, podría ser reemplazada en 2 horas con una skill dentro de Claude Code
Procesar con agentes la recolección, transcripción y análisis de 50 mil episodios al día llevaría los costos de API a decenas de miles de dólares por día, haciéndolo prácticamente inviable

La vulnerabilidad del software de transformación

El software puramente transformativo, que toma datos de entrada, los procesa y genera una salida, es vulnerable a la IA agente
- Ejemplo: “ChatGPT, crea un reporte con este archivo de Excel, expórtalo a PDF y envíalo por correo” — puede ejecutarlo de forma autónoma sin servicios externos
- La propia IA puede implementar o reutilizar implementaciones existentes para el parseo de Excel, consultas de análisis, renderizado de PDF y envío de correos
Los negocios SaaS orientados a flujos como Excel → reporte → correo electrónico ya no son necesarios
En cambio, la recolección continua de datos a gran escala es un área difícil de reemplazar para los agentes
- Esto se debe a su naturaleza efímera, ya que los agentes existen solo por sesión (Cursor, Claude Code, conversaciones de ChatGPT, etc.)
- Mantener agentes escaneando y trabajando de forma permanente consume tantos tokens que resulta económicamente irrealista

Estrategia de negocio API-first

En los negocios de software actuales, una estrategia API-first es una de las decisiones más inteligentes
- MCP no es más que una capa encima de las API REST existentes, y el acceso programático, MCP, API y webhooks comparten la misma esencia: conexiones estables entre computadoras
Entre los fundadores está creciendo la demanda de paridad funcional entre la UI y la API
- Cuanto más pueda hacerse por API exactamente igual que desde la UI, mayores serán las probabilidades de adopción del producto por parte del cliente
- En la era de los agentes, la posibilidad de automatización se convierte en un factor clave de compra
Podscan opera un archivo de seguimiento de paridad de plataforma (platform parity tracking file)
- Para cada función, mantiene una tabla con el soporte disponible en UI, REST API y MCP
- Un subagente de Claude Code analiza la base de código y actualiza periódicamente ese archivo
- Incluye desde funciones simples como “búsqueda de podcasts” hasta funciones complejas como “alerta de palabras clave de menciones de marca → agregar a una lista → activar webhook”
Hay que servir por igual a usuarios humanos, usuarios computadora y usuarios agente

Los metadatos son el moat

El moat de datos no se limita a los datos de podcasts
Los metadatos recopilados al usar una plataforma (franja horaria de publicación, horas con mayor engagement, tipos de contenido que generan interacción, etc.) constituyen un moat de datos único
- Ejemplo: en una herramienta de publicación para Twitter o Facebook, los datos sobre patrones de comportamiento del usuario serían el moat
Poseer los datos es la mitad del moat; hacerlos accesibles es la otra mitad
La tarea clave es identificar qué fuentes internas de datos con valor agregado tiene tu producto y volverlas conectables y accesibles

2 comentarios

minelee 2026-03-24

Así como el entrenamiento de AlphaGo se hizo con datos de partidas internas AlphaGo vs. AlphaGo, el entrenamiento de los LLM también se está realizando generando datos con los propios LLM. Con unas pocas muestras de datos ya es fácil crear más datos, así que también es difícil considerar que esto sea un foso defensivo seguro.

rlaaudgjs5638 2026-03-25

Creo que es algo así como la diferencia entre el aprendizaje por refuerzo y el aprendizaje profundo. En los lugares donde no se puede proporcionar un bucle de retroalimentación decisivo, los datos humanos todavía parecen ser un foso defensivo.