2 puntos por GN⁺ 1 시간 전 | Aún no hay comentarios. | Compartir por WhatsApp
  • El framework central de Lean Analytics, publicado en 2013 (identificar la etapa, entender el modelo de negocio, OMTM, benchmarks), sigue siendo válido, pero la mayoría de las métricas concretas necesitan redefinirse para la era de la IA
  • En los productos de IA, el tiempo hasta obtener valor (Time to Value) se ha acortado de forma extrema, y los usuarios esperan resultados de alta calidad desde el primer intento; si fallan, abandonan rápidamente
  • El engagement deja de medirse solo como alto o bajo y pasa a ser una métrica direccional que debe distinguir en qué se usa el tiempo (batallar con la herramienta vs. trabajo hecho por la IA vs. exploración)
  • Debido a la naturaleza probabilística de los outputs de la IA, la calidad se volvió una métrica de primera categoría; sin un eval harness, el producto no es más que "vibes"
  • Por la estructura de costos variables basada en tokens, los power users incluso pueden generar pérdidas, por lo que seguir el margen bruto por usuario activo y los modelos de precios basados en resultados se vuelve un reto clave

Resumen de los principios centrales de Lean Analytics

  • Lean Analytics se estructura sobre 4 ideas centrales: identificar la etapa, entender el modelo de negocio, OMTM (One Metric That Matters) y benchmarks (lines in the sand)
  • Modelo de 5 etapas: Empathy → Stickiness → Virality → Revenue → Scale, la secuencia por la que pasa todo negocio
    • Muchos fundadores se engañan sobre la etapa en la que están y, aun en la era de la IA, tienden a perseguir crecimiento tipo hockey stick sin una base sólida
  • 6 arquetipos de modelos de negocio: SaaS, e-commerce, marketplace de dos lados, contenido generado por usuarios/comunidad, app móvil y medios
    • Esta clasificación ya se siente anticuada, pero el principio de entender cómo funciona el propio negocio sigue siendo importante
  • OMTM: sin importar la etapa o el modelo de negocio, existe una sola métrica en la que hay que enfocarse
    • Como no se puede arreglar todo al mismo tiempo, sirve para identificar en qué trabajar y cómo medirlo
  • Benchmarks (lines in the sand): criterios que indican si ya se ganó el derecho de pasar a la siguiente etapa
    • En productos de IA y agentes, las métricas y sus objetivos están cambiando rápidamente

Lo que no cambia en la era de la IA

  • Los principios centrales no cambian, pero los negocios que se construyen hoy son fundamentalmente distintos
  • La IA está transformando la interfaz de usuario, el modelo de precios y los márgenes, y los productos AI-first y de agentes se usan de una manera distinta desde la base
  • El modelo de 5 etapas no desaparece, pero a cada etapa se le agrega un signo de interrogación: hay que redefinir cada una integrando métricas tradicionales y nuevas

Métricas de producto: 6 cambios clave

  • Cambio 1: el colapso del tiempo hasta el valor (Time to Value)

    • El SaaS tradicional permitía experimentar valor tras un onboarding por etapas, pero en los productos de IA los usuarios esperan resultados de alta calidad de inmediato
      • Si cargan un documento desordenado, esperan una propuesta limpia; si suben una hoja de cálculo, esperan un análisis; si ingresan un boceto de wireframe, esperan una UI funcional
      • La forma de entrada varía, pero la expectativa es constante: salidas rápidas y de alta calidad, en el primer intento
    • También se desploma el tiempo hasta la competencia (Time to Competency): incluso usuarios no técnicos pueden generar resultados de nivel experto sin curva de aprendizaje
      • Si antes la curva de activación era una curva de aprendizaje, ahora se acorta a una o dos interacciones
    • Es positivo, pero puede afectar negativamente el modelo de negocio: si una persona hace el trabajo de tres con IA, la cantidad de seats, los ingresos por expansión y la curva de ACV se ven golpeados
      • Usuarios felices, menos seats: esta tensión empieza en el Cambio 1 y se propaga a todas las métricas aguas abajo
    • Qué medir: tiempo hasta el primer resultado útil, porcentaje de usuarios que obtienen un resultado útil en el primer intento (sin importar si fue por prompt, carga o boceto)
  • Cambio 2: la activación (Activation) ya no es decisiva

    • En el SaaS tradicional, la activación era un evento determinista: si el usuario completaba los pasos definidos, se obtenía un resultado predecible
    • En los productos de IA, incluso después de completar todos los pasos del funnel de activación, el usuario puede recibir un resultado insuficiente
      • En el dashboard aparece como activado, pero en realidad no lo está
    • La activación no es una compuerta binaria, sino un evento ponderado por calidad
    • El modelo Hooked de Nir Eyal (trigger → acción → recompensa variable → inversión) sigue aplicando, pero en los loops de IA hay variabilidad a ambos lados de la acción
      • Los usuarios prueban el producto de formas no diseñadas, y la calidad del resultado también varía: dos fuentes de variabilidad en un mismo loop
    • La activación compuesta de múltiples pasos sigue siendo válida en productos de IA; de hecho, puede ser más efectiva cuando la configuración mejora la calidad de la primera ejecución, como conectar contexto, subir material de referencia o configurar plantillas
      • El cambio clave no es que "la activación se acortó", sino que completar los pasos no garantiza la entrega de valor
    • Qué medir: seguir en paralelo las métricas tradicionales de finalización del funnel junto con las señales de calidad del primer intento del Cambio 1; el funnel muestra si se completaron los pasos, y las señales de calidad indican si realmente se entregó valor, por lo que deben verse lado a lado en el dashboard
  • Cambio 3: el engagement es una métrica de dirección

    • La idea tradicional: cuanto más tiempo pasa el usuario dentro del producto, mejor; sesiones largas, alto DAU y uso profundo de funciones aparecían en los decks para inversionistas
    • En IA, la pregunta clave no es si el engagement sube o baja, sino en qué se está usando el tiempo del usuario
      • Tiempo de lucha (regenerar, reescribir prompts, ajustar entradas para obtener algo útil) = mal engagement, fracaso disfrazado de engagement
      • Tiempo en que la IA trabaja por el usuario (manipular hojas de cálculo, generar propuestas, revisar documentos) = buen engagement, indica trabajo realizado por la IA
      • Tiempo de exploración y creación (brainstorming, ideación, iteración de diseño) = buen engagement, se mantiene la intuición tradicional
      • Cero tiempo del usuario, trabajo completado = el resultado ideal en productos de agentes y automatización
    • GitHub Copilot reporta la tasa de aceptación de sugerencias como métrica clave, y en la industria ronda aproximadamente el 27~30%
      • Es un KPI que no existía en el SaaS tradicional y mide directamente no si "el usuario se quedó", sino si "el trabajo de la IA fue útil"
  • Cambio 4: la stickiness no es una barrera, sino flujo (Flow)

    • La stickiness tradicional era un juego de frecuencia (DAU/MAU, retorno, loops de hábito), y Andrew Chen ya había señalado las limitaciones de DAU/MAU: no sirve bien para productos episódicos pero de alto valor, ni para herramientas con ritmos semanales
    • La IA no elimina DAU/MAU, pero sí amplifica sus limitaciones existentes
    • Ocurren dos cosas al mismo tiempo:
      • Los usuarios esperan hacer más variedad de tareas en un producto de IA que en una herramienta SaaS tradicional de una sola función: la diversidad de tareas por usuario (task diversity per user) se vuelve un vector de crecimiento que antes no existía
      • Los productos de IA realmente stickies no encierran al usuario detrás de una barrera, sino que existen dentro del flujo de trabajo; esto encaja con la idea de Trace Cohen: "Moats are dead. Long live canals"
        • "Los fosos escalan mediante exclusión, los canales escalan mediante throughput"
    • Qué medir:
      • Diversidad de tareas: si los usuarios expanden el producto a casos de uso fuera de su alcance original
      • Profundidad de integración: cuántas herramientas y fuentes de datos del usuario están conectadas al producto
      • Diversidad de triggers: si hay uno o varios factores que hacen volver al usuario
      • Encadenamiento de workflows: si el producto hace handoff a otras herramientas o recibe handoff de ellas
    • Cuando los humanos dejan de ser los usuarios principales, el DAU/MAU tradicional se vuelve una métrica problemática
    • Métrica adicional de amplitud de reemplazo (replacement breadth): cuántas herramientas adyacentes, suscripciones o procesos manuales reemplazó el cliente al adoptar el producto
      • Si la respuesta es 0, es un canal pequeño y evitable; si el número es significativo, se vuelve la ruta por la que pasa todo
  • Cambio 5: la calidad es una métrica de primera clase (First-Class)

    • La causa raíz es la misma que en el Cambio 2: las salidas de la IA son probabilísticas, no deterministas; este cambio afecta todas las métricas heredadas del playbook SaaS
    • Antes: una función funcionaba o no funcionaba; se instrumentaba después del despliegue y se seguía adelante
    • La realidad de la IA: la salida es una distribución, no una propiedad; un producto que es bueno en 80% y uno que es bueno en 95% se sienten como productos totalmente distintos para el usuario
    • Caso Klarna: tras introducir soporte al cliente exclusivo con IA en 2024, la empresa afirmó que la IA hacía el trabajo de 700 agentes; pero a mediados de 2025 el CEO se retractó públicamente y volvió a contratar humanos
    • Fragilidad (brittleness): puede haber regresiones silenciosas por modelos cuya calidad no posees, integraciones sobre las que casi no tienes control y actualizaciones de proveedores aguas arriba
      • La calidad puede caer incluso si el equipo no toca el código: es una nueva categoría de riesgo
    • Defensa: realizar evaluaciones comparativas entre modelos con prompts reales, ejecutando los mismos evals sobre todos los modelos para detectar regresiones y mejoras
    • Qué medir:
      • La tasa de thumbs-up y la tasa de regeneración (regenerate rate) son señales clave
      • Seguir el puntaje del eval harness como serie temporal, igual que la retención, y aplicarlo a todos los modelos en uso
      • Distribución de calidad por cohorte: la experiencia de usuarios nuevos y power users es distinta, y la mayoría de los equipos no mide esa brecha
    • Perspectiva de Alistair Croll: si en la era Lean Startup el MVP era el experimento mínimo para probar la suposición más riesgosa, en la era de la IA la suite de evals es el MVP: "el conjunto mínimo de acciones con el que se puede automatizar y medir la mejora"
  • Cambio 6: la confianza y la comodidad con la IA son indicadores adelantados

    • La habilidad técnica siempre ha importado, pero con la IA el nivel de comodidad con la propia tecnología se vuelve una variable que afecta todas las métricas aguas abajo
    • Estudio de Gallup de febrero de 2026 (23,717 empleados en EE. UU.): lo que separa a quienes adoptan IA de quienes no no es el acceso a herramientas, sino si consideran que la IA es útil, ética y adecuada para su workflow
    • Stanford 2026 AI Index Report: la tasa global de adopción entre empleados es de 58%, mientras que EE. UU. se queda en 28.3%, muy por detrás de Singapore con 61% y EAU con 54%
      • El mismo producto puede existir sobre grupos de usuarios dramáticamente distintos, y la mayoría de los equipos no lo mide
    • En B2B, las curvas de activación, stickiness y diversidad de tareas pueden diferir de forma significativa entre usuarios nativos de IA y usuarios reacios a la IA
      • Los usuarios nativos de IA amplían la herramienta, la promptean de formas no diseñadas y extraen más valor por sesión
      • Los usuarios reacios a la IA usan la herramienta con cautela, la subutilizan y en silencio concluyen: "esto no es para mí"
      • Si se mide todo como una sola cohorte, el promedio oculta la historia real
    • En B2C, productos de acompañamiento, apoyo en salud mental, amistad y bienestar emocional están surgiendo como categorías reales
  • Datos de Stanford: 52% de los encuestados globales está entusiasmado con los compañeros de IA, y en Singapore e Indonesia supera el 80%

    • En este contexto, la creación de valor se mide por la participación continua, la conversación y la intención de interacción emocional del usuario
    • La confianza no es un concepto único, sino al menos 4 dimensiones independientes:
      • confianza en el resultado (precisión y utilidad), confianza en el manejo de datos (a dónde van los prompts), confianza en la seguridad (posibilidad de abuso o filtración), confianza en la fiabilidad (si al depender de ella no te dejará en aprietos)
    • Qué medir:
      • curvas de adopción y activación por cohortes de comodidad con la IA
      • tasa de aceptación (accept rate) — al analizarla por cohortes de comodidad con la IA, permite identificar la velocidad de construcción de confianza; más que el valor absoluto, importa la pendiente de la curva
      • tasa de override (override rate) — frecuencia con la que el usuario reescribe o edita el resultado de la IA; una disminución es señal de mayor confianza
      • en productos B2C emocionalmente íntimos: profundidad de sesión, tasa de regreso a funciones sensibles, tono cualitativo de la interacción
      • señales de preocupación por datos y seguridad: opt-out de funciones, tickets de soporte de "¿a dónde va esto?", evitación de entradas sensibles

Métricas del modelo de negocio: 3 cambios clave

  • Cambio 1: el costo por tarea exitosa es el nuevo cálculo de CAC

    • SaaS tradicional: CAC, LTV y margen bruto relativamente estables por cliente; los costos bajan al escalar; el costo marginal de agregar usuarios es casi cero
    • Realidad de la IA: los usuarios intensivos sí generan costo real — los tokens son un costo variable; suscripción fija + usuarios intensivos = margen negativo por cuenta
      • La curva de LTV de SaaS deja de aplicar, y mientras más uso hay, peor se pone la economía unitaria: una estructura invertida
    • Qué medir: margen bruto por usuario activo (no por usuario de pago), costo por tarea exitosa, proporción del costo del modelo frente a los ingresos, costo marginal vs. ingreso marginal de los usuarios intensivos
    • Fin de Intercom: $0.99 por resolución exitosa en lugar de cobro por asiento — un modelo de pricing basado en resultados, matemáticamente honesto con el costo operativo real de los productos de IA
    • ElevenLabs cobró por uso desde el primer día; Anthropic y OpenAI están lidiando públicamente con la economía de las suscripciones de consumo
    • Si el pricing y las métricas no reflejan los costos variables de cómputo, se está operando a ciegas
  • Cambio 2: el pricing define el producto

    • El pricing por uso y por resultados todavía está en una etapa temprana, y es probable que el formato final de la mayoría de los productos de IA sea un modelo híbrido (cuota mensual baja + uso + excedentes)
    • El modelo de pricing comunica al usuario la definición de éxito — debe alinearse con la economía unitaria subyacente; si no, se agotan los márgenes o se limita el crecimiento (o ambas cosas)
    • “Consultas de IA ilimitadas por $20 al mes” y “$0.99 por resultado exitoso” no son solo dos modelos de pricing distintos, sino dos productos completamente diferentes desde la perspectiva del usuario
      • El primero: “experimenta libremente; nosotros absorbemos el costo de aprendizaje”
      • El segundo: “solo ganamos cuando tú ganas”
    • La mayoría de los PM nunca tuvo que pensar a fondo en pricing, pero los PM nativos de IA deben tratar el pricing como el núcleo del diseño del producto
    • A diferencia de las funciones del SaaS tradicional, las funciones de IA no son baratas de ejecutar — una función de IA cara pero con poco valor para el usuario puede arruinar todo
  • Cambio 3: experimentar ya no es una vanity metric

    • El desarrollo de productos impulsado por IA hizo que la velocidad de despliegue explotara — se desplomó el costo de lanzar funciones
    • Si se lanza más rápido pero sin hacer experimentos reales, eso es “vibe-stuffing” — agregar funciones porque se puede, sin evidencia
      • La mayoría de las funciones no crea valor, y solo hincha el producto y la base de código, además de aumentar la carga cognitiva del usuario
    • Cada función de IA implica un costo continuo por llamada cada vez que se usa — la inferencia no es gratis
      • La inflación del vibe-stuffing no es solo complejidad: es un impuesto que crece de forma compuesta según el uso
      • En la era de la IA, la obesidad del producto es un asesino de márgenes
    • La experimentación sólida es la única defensa, y el valor de Lean Analytics en realidad aumenta
      • La disciplina de elegir métricas, escribir hipótesis, hacer pruebas de presión y decidir la siguiente acción es lo que separa a los equipos que aprenden de los que solo lanzan
    • Un filtro útil: en cada experimento, registrar la hipótesis y el criterio de decisión antes del lanzamiento — si no, no es un experimento, es solo un release
    • Qué medir: número de experimentos por trimestre, hipótesis registradas antes del lanzamiento, retiro de funciones basado en datos, costo por función en operación (no solo si se usa, sino si justifica su costo operativo)
  • Densidad de valor (Value Density)

    • El principio que atraviesa los tres cambios del modelo de negocio: en palabras de Ben Murray (The SaaS CFO), “si SaaS trata de eficiencia de márgenes, la IA trata de la densidad de valor: optimizar cuánto output, productividad o trabajo reemplaza por cada dólar de cómputo”
    • Informe de ICONIQ de enero de 2026: en empresas B2B de IA en etapa de escalamiento, la inferencia representa el 23% de los ingresos, y el margen bruto de IA promedia 52% en 2026 (frente a 41% en 2024, pero por debajo del 70~90% del SaaS maduro)
    • Bessemer: margen bruto de empresas AI-first de 50~60%
    • Jason Lemkin: “a medida que creces, necesitas más inferencia, y no puedes reducirla sin degradar la calidad del producto”
    • Tres ratios para medir la densidad de valor (se mueven de forma independiente):
      • Costo de entrega por tarea — cuánto cuestan los tokens y el cómputo para producir un resultado exitoso
      • Ingresos obtenidos por cada dólar de cómputo — si se está cobrando lo suficiente para cubrir el costo variable + margen
      • Valor entregado al usuario por cada dólar de cómputo — la métrica que la mayoría de los equipos se salta; el diagnóstico solo funciona si se miden las tres

El futuro: humanos que salen del loop

  • “Build-too-much” es el nuevo overfitting

    • Construir se volvió tan fácil que existe el riesgo de lanzar más de lo que los usuarios pueden absorber, o más de lo que los datos respaldan
    • Alistair Croll: la IA elimina la fricción que antes forzaba a borrar — el código viejo seguía ahí por el costo de reescribirlo, y las funciones viejas por el costo de volver a construirlas; ahora no se limpia nada
      • Los fallbacks se acumulan como “muros de carga invisibles”, y las pruebas generadas por IA se optimizan para autovalidarse, no para verificar el comportamiento deseado
      • “Borrar se siente más riesgoso que mantener, y sin fricción todo se queda”
    • Ganan los PM que miden la eliminación con el mismo cuidado que la adición
  • Cuando los agentes son los usuarios

    • Cuando un agente de Claude usa un producto sin UI en lugar de un humano, deja de estar claro quién es el usuario y qué significan activación, duración de sesión y engagement
    • Medida práctica: instrumentar el tráfico de agentes como una cohorte separada — distinguir entre “un humano operando la UI” y “un agente llamando a la API” por medio del user-agent, patrones de API, etc.
      • El comportamiento es distinto, los criterios de éxito son distintos, y si se mezclan en una sola métrica, ambas respuestas salen mal
    • El concepto de HX (Harness Experience) de Rob May: si durante 30 años el UX hizo que los humanos hicieran clic en los botones correctos, los agentes autónomos se saltan todo eso
      • “El funnel no está roto; simplemente se volvió irrelevante
      • HX es la capa de diseño para humanos que coordinan, confían y auditan flotas de agentes — el usuario ya no es conductor, sino director
      • En vez de clics y conversión, se miden resultados, supervisión e intervención
  • Descubribilidad (Discoverability) y reutilización (Reuse)

    • Dos problemas, una misma causa raíz: una IA que no controlas decide si tu producto se usa o no
    • Descubribilidad: si un usuario le pide a ChatGPT “ayúdame a planear un viaje a México”, ChatGPT elige entre Expedia, Booking o Kayak — quien selecciona la herramienta es la IA, no el usuario
      • Durante 30 años, la distribución consistió en lograr que los humanos encontraran y eligieran; en un mundo de agentes, se compite por la lógica de selección de la IA
    • Reutilización: aunque el usuario pague Canva e instale la app de ChatGPT, si pide un diseño a través de ChatGPT, la IA decide en cada ocasión si llama o no a Canva
      • Aunque “poseas” al cliente, no posees el momento real en que se genera el valor — un nuevo riesgo de plataforma
    • Qué rastrear: la brecha entre “usuarios que poseen o pagan el producto” y “usuarios para los que la IA realmente lo llamó”
      • Un suscriptor de pago al que la IA no llamó en 30 días está en más riesgo que uno que simplemente no inició sesión de forma directa
  • Productos de agente contra agente

    • Cuando el producto es una red de agentes que colaboran con agentes de otras personas, sigue sin estar claro qué significan OMTM, stickiness y churn
    • A las cuatro etapas del modelo Hooked se les pegan preguntas que no existían hace cinco años:
      • qué significa un trigger cuando lo activa una IA, qué significa una acción cuando la ejecuta una IA, cómo recompensar a una entidad que no experimenta recompensas, y si la inversión aplica en sistemas sin memoria del loop anterior o con memoria perfecta

Qué hay que empezar a hacer hoy mismo

  • Auditoría de métricas de engagement: no preguntes "si el engagement sube o baja", sino "en qué se está usando el tiempo del usuario" — el tiempo de lucha y frustración es fracaso disfrazado de engagement
  • Agregar una vista de calidad por cohorte: medir por separado la calidad del resultado para usuarios nuevos y usuarios avanzados — la brecha puede ser mayor de lo esperado y señalar con precisión dónde mejorar el onboarding
  • Verificar la utilidad bruta por usuario activo: con base en usuarios activos, no en usuarios que pagan — es posible que el dashboard actual no te diga si tus mejores usuarios son tu mejor activo o tu mayor pasivo
  • Empezar a medir por separado el tráfico de agentes: aunque hoy sea 2%, hay que establecer una línea base antes de que cambie la forma del tráfico
  • Construir un arnés de evaluación: si no puedes evaluar de forma sistemática si la IA está haciendo la tarea deseada, no tienes un producto sino "vibes"
  • Evaluar cómo se construyen las funciones: revisar si se están ejecutando experimentos rigurosos o si se está matando el producto con relleno guiado por vibes

Aún no hay comentarios.

Aún no hay comentarios.