La amarga lección de un fundador de IA (Bitter Lesson)

xguru · 2025-02-10T11:06:01+09:00

Resumen en un solo texto de la serie de 4 artículos del fundador de la startup de AI Safety Andon Labs (YC W24), Lukas Petersson Históricamente, en el campo de la IA, los enfoques generales siempre han terminado ganando Los fundadores actuales en el campo de las aplicaciones de IA están repitiendo los errores que cometieron los investigadores de IA del pasado Mejores modelos de IA harán posibles aplicaciones de IA de propósito general y, al mismo tiempo, reducirán el valor agregado del software relacionado con esos modelos Capítulo 1: La historia se repite Capítulo 2: Sin ventaja competitiva Capítulo 3: Las huellas de la historia Capítulo 4: Eres un mago Capítulo 1: La historia se repite (History Repeats Itself) tl;dr: Los avances recientes en IA han hecho posibles nuevos productos para resolver diversos problemas Sin embargo, la mayoría de los productos operan dentro de las capacidades limitadas de los modelos actuales y no aprovechan la verdadera fortaleza de la IA: la flexibilidad La historia de la IA muestra repetidamente que los enfoques generales siempre terminan ganando. Richard Sutton lo enfatiza en "The Bitter Lesson" Los fundadores de IA de hoy tienden a repetir los mismos errores que cometieron los investigadores de IA en el pasado Resumen del ensayo de Richard Sutton: The Bitter Lesson. (traducción al coreano) Presenta las siguientes lecciones: Los investigadores de IA intentan incorporar conocimiento dentro del agente Eso funciona y resulta satisfactorio en el corto plazo A largo plazo, el progreso se estanca e incluso termina obstaculizando avances posteriores Al final, los avances llegan ampliando la capacidad de cómputo a partir del enfoque opuesto Advierte que este patrón se ha observado repetidamente en la investigación en IA y que todavía no ha terminado Los productos de IA y The Bitter Lesson Los productos de IA por lo general están compuestos por un modelo de IA y el software que lo rodea Hay dos formas de mejorar el rendimiento: Trabajo de ingeniería para reducir errores restringiendo el software Esperar a que salgan modelos mejores A medida que los modelos mejoran, el valor del trabajo de ingeniería disminuye Un ejemplo de esto es cómo el lanzamiento de nuevos modelos de OpenAI redujo el valor de la ingeniería de prompts Tipos de restricciones y productos de IA Los elementos de restricción en los productos de IA pueden clasificarse en dos tipos: Especificidad: software enfocado en un problema particular (solución vertical) Autonomía: capacidad de la IA para ejecutar tareas por sí sola A partir de esto, los productos de IA pueden clasificarse según especificidad (Vertical vs. Horizontal) y autonomía (Workflow vs. Agent) Vertical Workflow Sistema que opera en una secuencia fija para resolver un problema específico Harvey es un caso representativo: un sistema de flujo de trabajo diseñado para manejar problemas en un ámbito estrecho, como tareas legales específicas Vertical Agent Sistema que opera de manera autónoma dentro de un área de trabajo específica y toma decisiones por su cuenta durante el proceso Devin es un caso representativo: realiza tareas repetitivas usando herramientas y datos limitados, y ajusta los pasos según sea necesario Horizontal Workflow Sistema de flujo de trabajo general que puede resolver distintos tipos de problemas ChatGPT es un caso representativo: responde a varios tipos de entrada siguiendo procedimientos predefinidos, pero sin autonomía completa Horizontal Agent Sistema completamente autónomo capaz de abordar diversos problemas Claude computer-use es un caso representativo: usa el software estándar de la empresa para realizar tareas según las instrucciones del usuario y resolver problemas de forma similar a un humano Conexión entre Vertical Workflow y The Bitter Lesson La mayoría de los productos presentados en Demo Day corresponden a la forma de Vertical Workflow La confiabilidad de los modelos actuales aún no es suficiente, lo que dificulta otros enfoques Hay una tendencia a limitar incluso problemas complejos a Vertical Workflow para obtener un rendimiento aceptable El trabajo de ingeniería puede mejorar estas soluciones, pero tiene límites Para problemas que no pueden resolverse con los modelos actuales, una mejor estrategia es esperar modelos más avanzados Observación de Leopold Aschenbrenner: es posible que el tiempo de espera por mejores modelos sea más corto que el trabajo de ingeniería Relación entre The Bitter Lesson y los productos actuales de IA Los investigadores de IA diseñaron soluciones basadas en conocimiento para lograr un “rendimiento aceptable”, pero al final las soluciones generales que aprovechaban más recursos computacionales las superaron La forma actual de desarrollar productos de IA se parece a ese mismo patrón Aplicación de las cuatro observaciones de Bitter Lesson y los tipos de restricciones Las cuatro observaciones principales mencionadas en Bitter Lesson también se reflejan claramente en las restricciones de autonomía y especificidad de los productos de IA. Explicadas según cada tipo de restricción, quedan así: Primera observación: los investigadores de IA intentan incorporar conocimiento dentro del agente Restricción de autonomía: Los desarrolladores experimentan con agentes autónomos, pero su confiabilidad es baja En su lugar, hardcodean los pasos de trabajo como un workflow para que sigan el mismo procedimiento con el que ellos mismos resolverían el problema Restricción de especificidad: Los desarrolladores intentan crear un sistema general de análisis de documentos, pero enfrentan dificultades por problemas de confiabilidad En su lugar, se enfocan en tipos específicos de documentos, como estados financieros, y hardcodean métricas concretas y reglas de validación Segunda observación: en el corto plazo funciona y les da satisfacción a los investigadores Restricción de autonomía: Hardcodear el workflow aumenta la estabilidad Restricción de especificidad: Especializarse para manejar solo un conjunto reducido de documentos y métricas mejora la precisión Tercera observación: a largo plazo el progreso se estanca e incluso termina siendo un obstáculo Restricción de autonomía: Los workflows hardcodeados no pueden manejar situaciones nuevas, lo que produce resultados inexactos Restricción de especificidad: Un sistema que solo puede tratar problemas específicos no puede manejar tareas relacionadas, como documentos fusionados o análisis de llamadas de resultados Hace falta un sistema especializado separado para cada tarea Cuarta observación: los avances llegan gracias a la ampliación de los recursos computacionales Restricción de autonomía: Los nuevos modelos encuentran dinámicamente el enfoque adecuado, corrigen errores cuando es necesario y hacen posibles agentes autónomos confiables Restricción de especificidad: Los nuevos modelos pueden comprender de forma integral todos los documentos de negocio y extraer la información relevante, por lo que los sistemas especializados dejan de ser necesarios En problemas que requieren autonomía, los productos más autónomos ofrecen mejor desempeño Al tratar espacios de entrada amplios y complejos, los productos menos especializados dan mejores resultados Cierre: startups de IA y The Bitter Lesson Este texto es la primera parte de una serie de cuatro artículos que explora el papel de las startups en la IA, y destaca el patrón histórico en el que los modelos de IA apoyados en conocimiento de dominio han sido reemplazados de forma constante por modelos que aprovechan recursos computacionales Los productos de IA actuales se parecen de forma sorprendente a ese patrón Desarrollar software para compensar las limitaciones de los modelos actuales es una estrategia con altas probabilidades de fracasar, especialmente cuando los modelos avanzan rápidamente Señalamiento de Jarred, socio de YC: las apps de LLM de workflow vertical de primera generación están siendo reemplazadas por la siguiente generación de modelos GPT Consejo de Sam Altman: es importante construir startups que no le teman al lanzamiento de mejores modelos, sino que puedan esperarlo con optimismo Muchos fundadores en la capa de aplicaciones de IA se entusiasman esperando nuevos lanzamientos de modelos, pero eso puede ser una señal peligrosa Si se lanzan modelos mejores, es muy probable que se reduzca su ventaja competitiva actual En particular, este riesgo se vuelve aún más evidente desde la perspectiva del rendimiento del producto, cuando se trata de resolver problemas más difíciles con mayor eficacia En el siguiente texto se explorará otra dimensión, la adopción de mercado, y se discutirá por qué un mejor rendimiento no garantiza necesariamente el éxito comercial Capítulo 2: Sin ventaja competitiva (No Powers) tl;dr: En la historia de la IA, ha habido muchos casos en los que los enfoques que intentaban compensar las limitaciones de los modelos con conocimiento de dominio terminaron siendo superados por enfoques más generalizados que aprovechan recursos computacionales. La IA vertical (vertical AI) entra primero al mercado al mejorar la precisión mediante flujos de trabajo específicos predefinidos para compensar las limitaciones de los modelos actuales. La IA horizontal (horizontal AI) utiliza modelos de propósito general como ChatGPT y sigue evolucionando, por lo que cada mejora del modelo podría traducirse en un mejor desempeño en múltiples áreas. A largo plazo, la IA horizontal podría imponerse sobre la IA vertical, que opera con múltiples restricciones, al ofrecer mayor rendimiento y flexibilidad. Dificultad del problema y curva de rendimiento La Figure 1 muestra un ejemplo simple en el que la IA vertical entra primero al mercado, pero la IA horizontal, a medida que mejora el modelo, termina superando su rendimiento. Cuando la dificultad del problema es alta (Figure 2), la IA vertical ni siquiera alcanza un nivel de rendimiento suficiente, y solo cuando mejora la IA horizontal el problema puede resolverse. En este momento, los problemas a los que puede aplicarse la IA vertical son relativamente “problemas de baja dificultad”; en esta categoría puede beneficiarse del efecto de entrada temprana, pero su competitividad de largo plazo es incierta. El concepto de “colaborador remoto” que ofrece la IA horizontal En el futuro, la IA horizontal podría evolucionar hacia una forma en la que, como un trabajador remoto, reciba una computadora y cuentas, y pueda buscar y utilizar por sí misma los datos necesarios. La UI con la que muchos usuarios ya están familiarizados, como la de ChatGPT, podría fortalecerse gradualmente y crear condiciones para una adopción rápida en las empresas. Como la IA horizontal absorbe de inmediato funciones diversas cada vez que mejora el modelo, le resulta más fácil mantener una ventaja competitiva frente a la IA vertical. Caso previo: la experiencia con AcademicGPT En la etapa de GPT-3.5 se lanzó AcademicGPT para superar la limitación de entradas largas, pero cuando GPT-4 empezó a ofrecer entradas largas por defecto, la solución existente quedó rápidamente obsoleta. Como dijo Jared, partner de YC: “la primera generación de apps de LLM fue superada en su mayoría por la siguiente generación de modelos”. Incluso la IA vertical que ofrece varias funciones al mismo tiempo corre el riesgo de pasar por el mismo proceso cuando el rendimiento del modelo avance. Análisis de las 7 Powers de Helmer En esta sección se examina si la IA vertical puede competir con la IA horizontal a través de las 7 ventajas competitivas de Hamilton Helmer (Switching Costs, Counter-Positioning, Scale Economies, Network Economies, Brand Power, Process Power, Cornered Resource). Switching Cost (costo de cambio) Aunque los usuarios se acostumbren a la UI o al flujo de trabajo de una solución de IA vertical específica, la IA horizontal puede aplicarse de forma sencilla “como si se contratara a un nuevo empleado”, mediante onboarding. Como cada vez más empresas ya adoptan soluciones de IA horizontal como ChatGPT, es posible que el proceso de cambio no sea difícil. También en precio, la IA horizontal puede integrar varias soluciones verticales, por lo que se espera un efecto de reducción de costos. Counter Positioning (reposicionamiento inverso) La IA vertical puede ofrecer valor personalizado como solución especializada para un mercado específico, pero a medida que los modelos mejoren, la IA horizontal podría mostrar un mejor rendimiento general. Cada vez que incorpora un modelo nuevo, la IA vertical enfrenta el dilema de perder diferenciación por sus “restricciones”, o de parecerse al final a un modelo horizontal si elimina esas restricciones. Scale Economy (economías de escala) Al igual que el SaaS, la IA vertical también puede reducir costos con la escala, pero la IA horizontal tiene además la ventaja de distribuir costos al integrar múltiples áreas. Al aplicar en usos diversos modelos horizontales desarrollados mediante grandes inversiones en I+D, puede acelerarse aún más la reducción de costos. Network Economy (efecto de red) Tanto la IA vertical como la horizontal pueden mejorar con base en datos de usuarios, pero la IA horizontal tiene la gran ventaja de obtener feedback de una base de usuarios mucho más amplia y así elevar el rendimiento general del modelo. Como mejora el modelo en su conjunto aprovechando datos acumulados en distintas áreas, puede avanzar a una velocidad difícil de igualar para la IA vertical. Brand Power (poder de marca) El poder de marca es una ventaja difícil de conseguir en la etapa de una startup pequeña. Empresas como OpenAI o Google, que ya tienen una gran influencia de marca, son la excepción, pero para la mayoría de las startups de IA vertical es difícil usar la marca como arma competitiva. Process Power (poder de proceso) El poder de proceso también es una ventaja que suelen obtener grandes empresas a través de sistemas operativos refinados durante mucho tiempo. En la etapa inicial de una startup, esta categoría prácticamente no aplica. Cornered Resource (recurso exclusivo) Un recurso exclusivo solo se convierte en una gran ventaja competitiva cuando una sola empresa posee ciertos datos o recursos, y estos son absolutamente necesarios en ese campo. Muchas startups de IA afirman tener “datos exclusivos”, pero en la práctica a menudo esos datos no son realmente exclusivos o el modelo puede entrenarse suficientemente incluso sin ellos. Como excepción, las empresas que aseguren un recurso verdaderamente exclusivo podrían mantener su competitividad a pesar del avance de la IA horizontal. Cierre En última instancia, incluso en escenarios donde la IA vertical disfruta de la ventaja del pionero, si la IA horizontal alcanza un mejor rendimiento, será difícil sostener a la mayoría de las soluciones de IA vertical. Entre las 7 Powers de Helmer, solo en los casos en que se asegure un verdadero “Cornered Resource” la IA vertical podría conservar impulso a largo plazo. Así como AcademicGPT se desplomó rápidamente tras el lanzamiento de GPT-4, incluso la IA vertical reforzada con múltiples funciones podría terminar siguiendo un patrón similar cuando el modelo mejore. En el siguiente capítulo (capítulo 3), se analizará en detalle cuándo y cómo podría materializarse una IA horizontal en forma de “colaborador remoto”, así como las barreras técnicas, regulatorias, de confianza y económicas que lo dificultan. Capítulo 3: Una nota al pie de la historia (A Footnote in History) Se publicó una entrevista en la que el CEO de Anthropic explica el concepto de “colaborador virtual (virtual collaborator)”. Esto es similar a lo que el autor llama en esta serie un “producto de IA horizontal (horizontal AI product)”. Se espera que OpenAI anuncie pronto “Operator”, y según benchmarks filtrados, supera ampliamente a Claude en rendimiento (en el benchmark OSWorld, Claude 22%, Operator 38%). Esta mejora de rendimiento está dentro de lo esperado, y el autor mantiene sin cambios su predicción de hace 3 meses. En el capítulo anterior se explicó por qué las aplicaciones de IA vertical tienen dificultades para mantener su competitividad. La diferencia de rendimiento frente a soluciones de IA general se reduce. Si los productos de IA horizontal se vuelven competitivos, a los productos de IA vertical casi no les quedan formas de defenderse. La pregunta importante: “¿Cuándo ocurrirá la transición de la IA vertical a la IA horizontal?”. Si fuera dentro de 10 años, hoy todavía podría tener sentido desarrollar IA vertical. Pero si el cambio llega en 1 a 2 años, se necesita una estrategia completamente distinta. La transición de IA vertical a IA horizontal no ocurrirá al mismo tiempo en todas las industrias. Sin embargo, como los mercados en los que hoy se concentra la mayoría de las startups de IA son áreas relativamente simples, se espera que el cambio ocurra en momentos similares en las principales industrias. Se proyecta que para 2027 será difícil que los productos de IA vertical sobrevivan en la mayoría de las industrias. “Adopción (adoption)” significa qué producto eligen los usuarios cuando resuelven un problema nuevo o cambian la forma de resolver uno existente. No se consideran los siguientes elementos: Cuota de mercado: puede verse afectada por contratos existentes, etc. Tamaño absoluto: aunque el mercado crecerá a medida que la IA abra nuevos casos de uso, este análisis solo considera cambios relativos. Valor potencial: se evalúa qué solución elige la gente en el momento actual, sin incluir posibilidades de mejora futura. Por ejemplo, si el flujo se desplaza de A a B, significa que antes se prefería A, pero ahora B se considera una mejor opción. Conceptos de IA vertical/horizontal y workflow/agentes La IA "vertical" y la IA "horizontal" se refieren a distintos tipos de productos de IA "Workflow" y "agent" también son conceptos para clasificar productos de IA En este documento, los conceptos de workflow y agent dentro de los productos de IA horizontal se explican como una sola categoría Es probable que una misma empresa desarrolle un producto que incluya ambas funciones Por ejemplo, ChatGPT puede agregar funciones de agente mientras mantiene su base existente de workflow El pasado (1) La etapa pre-ChatGPT fue una situación en la que el software tradicional dominaba el mercado (2) Con el lanzamiento de ChatGPT, apareció el primer producto de IA horizontal verdaderamente significativo (3) Tras la aparición de la API de GPT-3.5, comenzaron a lanzarse por primera vez varios productos verticales especializados en IA Este año (4) Se espera que en 2025 el rendimiento de los modelos se estabilice lo suficiente como para usarse como agentes prácticos Hasta ahora, los agentes se habían usado solo en proyectos de investigación o pruebas limitadas, pero se prevé su adopción plena También es posible que los productos verticales de workflow existentes se transformen en agentes de IA (5) Incluso si aparecen los agentes, se espera que los workflows verticales mantengan una posición dominante hasta 2025 Influyen tanto el hábito de los usuarios de evitar cambiar herramientas ya adoptadas como la inercia de los desarrolladores de seguir aprovechando los activos de ingeniería construidos hasta ahora (6) Se proyecta que los principales productos de IA horizontal, como ChatGPT, Claude y Gemini, ampliarán sus funciones y cubrirán más áreas verticales Es posible que las funciones especializadas existentes de los productos de IA vertical sean absorbidas rápidamente por los productos de IA horizontal ChatGPT ya ha empezado a integrarse con aplicaciones de escritorio Futuro cercano (7) Se espera que la brecha de capacidades entre los agentes horizontales de IA y los trabajadores humanos se reduzca gradualmente Aunque no alcancen un nivel experto, se estima que lograrán suficiente rendimiento para automatizar una parte considerable del trabajo administrativo general Como resultado, la razón de existir de las soluciones verticales de IA podría disminuir Ejemplos concretos: Los usuarios individuales podrían delegar a agentes horizontales tareas complejas como la declaración de impuestos o la preparación para buscar empleo Las empresas podrían reemplazar o reducir en gran medida al personal junior Podrían aparecer casos en los que una sola persona genere valor de nivel unicornio (8) Se prevé que el software tradicional siga conservando valor como interfaz que los agentes pueden usar Puede resultar más rentable que los agentes aprovechen el software existente en lugar de crear todo el software de nuevo por sí mismos El análisis indica que, en particular, el software de propósito general y horizontal tiene más probabilidades de sobrevivir (9) Se espera que los productos de IA vertical que sobrevivan sean una minoría con recursos defensivos mencionados en el capítulo 2, como datos exclusivos o patentes También podrían vender esos recursos a un valor elevado 2024: ¿se detuvo el progreso? La afirmación de que hubo un estancamiento de los modelos de IA en 2024 se considera poco convincente Incluso antes del lanzamiento de o3, el rendimiento de los modelos había seguido mejorando de forma constante en diversas áreas, incluidos GPT-4, Claude y los modelos Open Weight Los puntajes en benchmarks como ARC-AGI y GPQA Diamond venían mejorando de forma radical Anthropic evolucionó rápidamente de Claude 2 a Claude 3 y luego a Claude 3.5 Sonnet, y surgieron especulaciones de que utilizó internamente mejoras no publicadas Por ello, se considera que falta fundamento para sostener que 2024 fue un año en el que se detuvo la mejora de los modelos de IA Obstáculos potenciales Model Stagnation: aunque en 2024 no hubo estancamiento, existe la preocupación de que el avance de los modelos pueda frenarse después de 2025 Ilya Sutskever mencionó en NeurIPS los límites del enfoque tradicional de pre-training, pero al mismo tiempo sugirió que existen otras vías, como el test-time compute Los principales laboratorios y empresas de IA siguen invirtiendo activamente en enormes recursos de cómputo Regulation: si surgen regulaciones inesperadas, podrían imponerse restricciones al avance de la IA Trust Barriers: existen preocupaciones de los usuarios sobre la estabilidad y confiabilidad de los agentes Se observa que, tal como ocurrió históricamente con el miedo a la automatización de los elevadores, estas barreras podrían superarse con el tiempo AI Labs Hesitate: puede haber casos en los que Anthropic u OpenAI mantengan ciertas interacciones de usuario parcialmente limitadas, incluso si cuentan con la capacidad técnica real Expensive Inference: como en el caso de o3, la inferencia de alto rendimiento puede requerir costos muy elevados Sin embargo, el costo de inferencia está bajando con el tiempo, y también es probable que los agentes no apliquen el mismo nivel de inferencia de alto rendimiento a todas las tareas Al considerar en conjunto estos factores, aunque predecir el progreso tecnológico sigue siendo difícil, se estima que a las startups de IA vertical no les queda mucho tiempo Se presenta una curva de valor en forma de U, según la cual el valor basado en la ingeniería existente puede desaparecer rápidamente a medida que los modelos de IA se vuelven más avanzados Notas de referencia Se explica que la expansión del test-time compute mostrada en o3 era un resultado que ya se podía prever a partir de investigaciones previas Como demostró el caso de AlphaZero, en entornos verificables el rendimiento puede alcanzar rápidamente niveles sobrehumanos Se analiza que o3 sobresale en áreas como programación y matemáticas, pero en otras, como la escritura creativa, no muestra una gran diferencia frente a o1 La implicación para los fundadores es que, en lugar de desarrollar nueva IA vertical, podría ser más conveniente orientarse hacia otras direcciones que manejen recursos más amplios o exclusivos Capítulo 4: Eres un mago (You’re a wizard Harry) El fundador es como un mago Tiene la capacidad de crear algo de la nada Para iniciar una nueva empresa se necesita pensamiento original Palabras de Paul Graham (PG): "Las ideas no solo deben ser correctas, también deben ser originales. No deberías empezar algo que a todos ya les parece una buena idea". Muchos fundadores están perdiendo la capacidad de pensar de forma independiente, cegados por el impresionante crecimiento de ingresos de sus colegas Cuando todos hacen lo mismo y parece estar funcionando, se vuelve difícil pensar por cuenta propia El autor intenta pensar de forma independiente y espera que estas ideas suenen mal El futuro de los agentes horizontales y la competencia Se espera que los agentes horizontales que dominen la capa de aplicaciones de IA sean desarrollados por los laboratorios de IA Las diferencias en el rendimiento de los modelos podrían producir un ganador único, pero es más probable una competencia feroz entre Anthropic, OpenAI, GDM y xAI Esto provoca en el corto plazo una competencia de precios que beneficia al usuario final Aunque los laboratorios de IA no capturen mucho valor monetario en el corto plazo, se espera que sigan ocupando una posición muy poderosa Por lo tanto, es razonable que los fundadores piensen sus startups en el contexto de su relación con estos laboratorios Un enfoque como cliente Como se discutió en el capítulo 2, es posible construir productos verticales de IA que usen APIs de LLM, pero eso solo es viable cuando existe acceso exclusivo a recursos importantes Para construir un producto vertical de IA, se debe dedicar un enorme esfuerzo a encontrar esos recursos Enfoque como competidor Si los agentes horizontales son el futuro, ¿por qué no construir uno? Se revisan tres enfoques Capturar el mercado primero Los laboratorios de IA solo competirán seriamente con los flujos de trabajo verticales cuando los modelos sean lo bastante confiables como para crear agentes horizontales con un esfuerzo mínimo de ingeniería En teoría, se podría entrar al mercado antes que los laboratorios aplicando esfuerzo de ingeniería a modelos anteriores, pero eso no es seguro Leopold Aschenbrenner cree que este esfuerzo podría tomar más tiempo que construir el siguiente modelo: "podría pasar tiempo antes de que muchos trabajadores remotos puedan automatizar tareas, y mientras tanto el modelo intermedio quizá aún no esté totalmente aprovechado ni integrado" Sin importar quién entre primero al mercado, se espera que esa ventaja no dure mucho Wrapper de API para agentes Un roommate preguntó: "¿Es que no hay nadie en el mundo con habilidades de UI?" Esto sugiere dos problemas: 1) los márgenes son insostenibles por el costo del API, 2) los laboratorios no publican sus mejores modelos (ChatGPT usa modelos propietarios para búsqueda, navegación web, etc.) Actualmente nadie usa el API de GPT para competir directamente con ChatGPT, y se espera que este patrón se repita también con los agentes horizontales Modelos open source Los modelos open source podrían ofrecer otra ruta Perplexity demuestra que se puede competir con los laboratorios en productos horizontales Sin embargo, los modelos open source funcionan bien en benchmarks simples, pero tienen dificultades en tareas complejas de agentes Llama-3.1-405b queda bastante por detrás de los modelos de vanguardia en MLE-bench En Andon Labs se especializan en este tipo de benchmarks, y eso coincide con lo que vemos Deepseek V3 y R1 se lanzaron con resultados muy impresionantes, pero o3 también, y se sabe que Anthropic internamente tiene versiones mejores Los modelos open source pueden acercarse al estado del arte, pero es dudoso que lo superen Aun así, podrían ser suficientes para competir en el juego horizontal El costo de inferencia seguirá siendo muy alto Enfoque como proveedor Si los laboratorios de IA realmente se vuelven así de poderosos, ser su proveedor es una gran posición Claramente van a necesitar mucho poder de cómputo y electricidad Si el análisis de Leo es correcto, podrían necesitar más de lo esperado Esta oportunidad requiere conocimiento especializado de la industria, lo que quizá no sea algo natural para fundadores hoy ubicados en la capa de aplicaciones de IA Pero recuerda que eres un mago Los laboratorios también compran datos a terceros Scale AI está demostrando que esto es un gran negocio Sin embargo, hay dudas sobre si los laboratorios de IA podrán hacer funcionar el "self-play" AlphaZero fue entrenado sin datos externos, y eso se considera el santo grial de los futuros modelos de IA Si no logran hacer funcionar el self-play, la alternativa sería combinar varios datasets de entrenamiento posteriores En ese mundo, vender datos probablemente sería una buena opción Enfoque como contribuidor del ecosistema Lo último que vale la pena considerar en relación con los laboratorios de IA es convertirse en un contribuidor del ecosistema Eso significa construir herramientas que ayuden a los agentes horizontales, pero lo importante es que deben estar separadas del agente en sí Como se mostró en el capítulo 3, el software tradicional va a persistir porque los agentes necesitan interfaces eficientes Los agentes pueden escribir su propio software, pero el costo de inferencia podría volver eso poco práctico Sin embargo, los jugadores del ecosistema corren el riesgo de comoditizarse, y la mayor parte del valor podría capturarse en otro lugar Esto dependerá de qué tan alto sea el costo de inferencia (inference cost) de ejecutar agentes horizontales Si el costo de inferencia es bajo, será más común que los agentes generen por sí mismos el software que necesitan ¿Y si los agentes horizontales de IA llegan tarde? El timeline es muy importante Si los agentes horizontales recién fueran competitivos dentro de 10 años, construir ahora flujos de trabajo verticales de IA sería una gran idea Ese tiempo bastaría para crear una empresa grande y sólida Pero, considerando la velocidad de avance de los laboratorios de IA, 10 años no es realista Entonces, ¿qué tal 4 años? Cuatro años quizá no alcancen para construir una gran empresa, pero sí ofrecen suficientes oportunidades de iteración Empezar en la capa de aplicaciones de IA podría incluso facilitar luego girar hacia un proveedor o un jugador del ecosistema Epílogo: ¿es un error de YC (Y Combinator)? A simple vista, podría parecer que YC está tomando malas decisiones Actualmente YC está concentrando la mayor parte de sus inversiones en productos verticales de IA Pero hay una alta probabilidad de que este mercado desaparezca pronto Sin embargo, el autor no tiene suficiente experiencia en VC (venture capital), así que no puede sacar una conclusión firme Solo está confundido y compartiendo sus dudas YC dice que sigue una estrategia de inversión relativamente neutral Invierte en gente inteligente y espera que encuentre las mejores ideas Es una gran estrategia, y cientos de fundadores podrían predecir mejor el futuro que los 14 socios de YC Pero al autor le preocupa que el sistema de batch de YC pueda fomentar una mentalidad de corto plazo En YC es muy importante establecer metas semanales, y avanzar dentro de un grupo grande ayuda con la motivación Pero si no hay suficiente diversidad de ideas, eso también puede fomentar una visión de corto plazo Si haces un producto vertical de IA, puedes llegar rápido a 5,000 dólares de MRR Pero ¿esa es realmente una forma de construir un negocio sostenible? Si el autor estuviera ahora en un batch de YC, probablemente sentiría la tentación de hacer un producto vertical de IA Además, en el podcast de YC "The Light Cone" hay mucho contenido que defiende los productos verticales de IA

(lukaspetersson.com)

30 puntos por xguru 2025-02-10 | 1 comentarios | Compartir por WhatsApp

Resumen en un solo texto de la serie de 4 artículos del fundador de la startup de AI Safety Andon Labs (YC W24), Lukas Petersson
- Históricamente, en el campo de la IA, los enfoques generales siempre han terminado ganando
- Los fundadores actuales en el campo de las aplicaciones de IA están repitiendo los errores que cometieron los investigadores de IA del pasado
- Mejores modelos de IA harán posibles aplicaciones de IA de propósito general y, al mismo tiempo, reducirán el valor agregado del software relacionado con esos modelos
Capítulo 1: La historia se repite
Capítulo 2: Sin ventaja competitiva
Capítulo 3: Las huellas de la historia
Capítulo 4: Eres un mago

Capítulo 1: La historia se repite (History Repeats Itself)

tl;dr:

Los avances recientes en IA han hecho posibles nuevos productos para resolver diversos problemas
Sin embargo, la mayoría de los productos operan dentro de las capacidades limitadas de los modelos actuales y no aprovechan la verdadera fortaleza de la IA: la flexibilidad
La historia de la IA muestra repetidamente que los enfoques generales siempre terminan ganando. Richard Sutton lo enfatiza en "The Bitter Lesson"
Los fundadores de IA de hoy tienden a repetir los mismos errores que cometieron los investigadores de IA en el pasado

Resumen del ensayo de Richard Sutton: The Bitter Lesson. (traducción al coreano)

Presenta las siguientes lecciones:
- Los investigadores de IA intentan incorporar conocimiento dentro del agente
- Eso funciona y resulta satisfactorio en el corto plazo
- A largo plazo, el progreso se estanca e incluso termina obstaculizando avances posteriores
- Al final, los avances llegan ampliando la capacidad de cómputo a partir del enfoque opuesto
Advierte que este patrón se ha observado repetidamente en la investigación en IA y que todavía no ha terminado

Los productos de IA y The Bitter Lesson

Los productos de IA por lo general están compuestos por un modelo de IA y el software que lo rodea
Hay dos formas de mejorar el rendimiento:
1. Trabajo de ingeniería para reducir errores restringiendo el software
2. Esperar a que salgan modelos mejores
A medida que los modelos mejoran, el valor del trabajo de ingeniería disminuye
Un ejemplo de esto es cómo el lanzamiento de nuevos modelos de OpenAI redujo el valor de la ingeniería de prompts

Tipos de restricciones y productos de IA

Los elementos de restricción en los productos de IA pueden clasificarse en dos tipos:
- Especificidad: software enfocado en un problema particular (solución vertical)
- Autonomía: capacidad de la IA para ejecutar tareas por sí sola
A partir de esto, los productos de IA pueden clasificarse según especificidad (Vertical vs. Horizontal) y autonomía (Workflow vs. Agent)
- Vertical Workflow
  - Sistema que opera en una secuencia fija para resolver un problema específico
  - Harvey es un caso representativo: un sistema de flujo de trabajo diseñado para manejar problemas en un ámbito estrecho, como tareas legales específicas
- Vertical Agent
  - Sistema que opera de manera autónoma dentro de un área de trabajo específica y toma decisiones por su cuenta durante el proceso
  - Devin es un caso representativo: realiza tareas repetitivas usando herramientas y datos limitados, y ajusta los pasos según sea necesario
- Horizontal Workflow
  - Sistema de flujo de trabajo general que puede resolver distintos tipos de problemas
  - ChatGPT es un caso representativo: responde a varios tipos de entrada siguiendo procedimientos predefinidos, pero sin autonomía completa
- Horizontal Agent
  - Sistema completamente autónomo capaz de abordar diversos problemas
  - Claude computer-use es un caso representativo: usa el software estándar de la empresa para realizar tareas según las instrucciones del usuario y resolver problemas de forma similar a un humano

Conexión entre Vertical Workflow y The Bitter Lesson

La mayoría de los productos presentados en Demo Day corresponden a la forma de Vertical Workflow
- La confiabilidad de los modelos actuales aún no es suficiente, lo que dificulta otros enfoques
- Hay una tendencia a limitar incluso problemas complejos a Vertical Workflow para obtener un rendimiento aceptable
El trabajo de ingeniería puede mejorar estas soluciones, pero tiene límites
- Para problemas que no pueden resolverse con los modelos actuales, una mejor estrategia es esperar modelos más avanzados
- Observación de Leopold Aschenbrenner: es posible que el tiempo de espera por mejores modelos sea más corto que el trabajo de ingeniería

Relación entre The Bitter Lesson y los productos actuales de IA

Los investigadores de IA diseñaron soluciones basadas en conocimiento para lograr un “rendimiento aceptable”, pero al final las soluciones generales que aprovechaban más recursos computacionales las superaron
La forma actual de desarrollar productos de IA se parece a ese mismo patrón

Aplicación de las cuatro observaciones de Bitter Lesson y los tipos de restricciones

Las cuatro observaciones principales mencionadas en Bitter Lesson también se reflejan claramente en las restricciones de autonomía y especificidad de los productos de IA.
Explicadas según cada tipo de restricción, quedan así:

Primera observación: los investigadores de IA intentan incorporar conocimiento dentro del agente

Restricción de autonomía:
- Los desarrolladores experimentan con agentes autónomos, pero su confiabilidad es baja
- En su lugar, hardcodean los pasos de trabajo como un workflow para que sigan el mismo procedimiento con el que ellos mismos resolverían el problema
Restricción de especificidad:
- Los desarrolladores intentan crear un sistema general de análisis de documentos, pero enfrentan dificultades por problemas de confiabilidad
- En su lugar, se enfocan en tipos específicos de documentos, como estados financieros, y hardcodean métricas concretas y reglas de validación

Segunda observación: en el corto plazo funciona y les da satisfacción a los investigadores

Restricción de autonomía:
- Hardcodear el workflow aumenta la estabilidad
Restricción de especificidad:
- Especializarse para manejar solo un conjunto reducido de documentos y métricas mejora la precisión

Tercera observación: a largo plazo el progreso se estanca e incluso termina siendo un obstáculo

Restricción de autonomía:
- Los workflows hardcodeados no pueden manejar situaciones nuevas, lo que produce resultados inexactos
Restricción de especificidad:
- Un sistema que solo puede tratar problemas específicos no puede manejar tareas relacionadas, como documentos fusionados o análisis de llamadas de resultados
- Hace falta un sistema especializado separado para cada tarea

Cuarta observación: los avances llegan gracias a la ampliación de los recursos computacionales

Restricción de autonomía:
- Los nuevos modelos encuentran dinámicamente el enfoque adecuado, corrigen errores cuando es necesario y hacen posibles agentes autónomos confiables
Restricción de especificidad:
- Los nuevos modelos pueden comprender de forma integral todos los documentos de negocio y extraer la información relevante, por lo que los sistemas especializados dejan de ser necesarios
En problemas que requieren autonomía, los productos más autónomos ofrecen mejor desempeño
Al tratar espacios de entrada amplios y complejos, los productos menos especializados dan mejores resultados

Cierre: startups de IA y The Bitter Lesson

Este texto es la primera parte de una serie de cuatro artículos que explora el papel de las startups en la IA, y destaca el patrón histórico en el que los modelos de IA apoyados en conocimiento de dominio han sido reemplazados de forma constante por modelos que aprovechan recursos computacionales
Los productos de IA actuales se parecen de forma sorprendente a ese patrón
Desarrollar software para compensar las limitaciones de los modelos actuales es una estrategia con altas probabilidades de fracasar, especialmente cuando los modelos avanzan rápidamente
Señalamiento de Jarred, socio de YC: las apps de LLM de workflow vertical de primera generación están siendo reemplazadas por la siguiente generación de modelos GPT
Consejo de Sam Altman: es importante construir startups que no le teman al lanzamiento de mejores modelos, sino que puedan esperarlo con optimismo
Muchos fundadores en la capa de aplicaciones de IA se entusiasman esperando nuevos lanzamientos de modelos, pero eso puede ser una señal peligrosa
- Si se lanzan modelos mejores, es muy probable que se reduzca su ventaja competitiva actual
- En particular, este riesgo se vuelve aún más evidente desde la perspectiva del rendimiento del producto, cuando se trata de resolver problemas más difíciles con mayor eficacia
En el siguiente texto se explorará otra dimensión, la adopción de mercado, y se discutirá por qué un mejor rendimiento no garantiza necesariamente el éxito comercial

Capítulo 2: Sin ventaja competitiva (No Powers)

tl;dr:

En la historia de la IA, ha habido muchos casos en los que los enfoques que intentaban compensar las limitaciones de los modelos con conocimiento de dominio terminaron siendo superados por enfoques más generalizados que aprovechan recursos computacionales.
La IA vertical (vertical AI) entra primero al mercado al mejorar la precisión mediante flujos de trabajo específicos predefinidos para compensar las limitaciones de los modelos actuales.
La IA horizontal (horizontal AI) utiliza modelos de propósito general como ChatGPT y sigue evolucionando, por lo que cada mejora del modelo podría traducirse en un mejor desempeño en múltiples áreas.
A largo plazo, la IA horizontal podría imponerse sobre la IA vertical, que opera con múltiples restricciones, al ofrecer mayor rendimiento y flexibilidad.

Dificultad del problema y curva de rendimiento

La Figure 1 muestra un ejemplo simple en el que la IA vertical entra primero al mercado, pero la IA horizontal, a medida que mejora el modelo, termina superando su rendimiento.
Cuando la dificultad del problema es alta (Figure 2), la IA vertical ni siquiera alcanza un nivel de rendimiento suficiente, y solo cuando mejora la IA horizontal el problema puede resolverse.
En este momento, los problemas a los que puede aplicarse la IA vertical son relativamente “problemas de baja dificultad”; en esta categoría puede beneficiarse del efecto de entrada temprana, pero su competitividad de largo plazo es incierta.

El concepto de “colaborador remoto” que ofrece la IA horizontal

En el futuro, la IA horizontal podría evolucionar hacia una forma en la que, como un trabajador remoto, reciba una computadora y cuentas, y pueda buscar y utilizar por sí misma los datos necesarios.
La UI con la que muchos usuarios ya están familiarizados, como la de ChatGPT, podría fortalecerse gradualmente y crear condiciones para una adopción rápida en las empresas.
Como la IA horizontal absorbe de inmediato funciones diversas cada vez que mejora el modelo, le resulta más fácil mantener una ventaja competitiva frente a la IA vertical.

Caso previo: la experiencia con AcademicGPT

En la etapa de GPT-3.5 se lanzó AcademicGPT para superar la limitación de entradas largas, pero cuando GPT-4 empezó a ofrecer entradas largas por defecto, la solución existente quedó rápidamente obsoleta.
Como dijo Jared, partner de YC: “la primera generación de apps de LLM fue superada en su mayoría por la siguiente generación de modelos”.
Incluso la IA vertical que ofrece varias funciones al mismo tiempo corre el riesgo de pasar por el mismo proceso cuando el rendimiento del modelo avance.

Análisis de las 7 Powers de Helmer

En esta sección se examina si la IA vertical puede competir con la IA horizontal a través de las 7 ventajas competitivas de Hamilton Helmer (Switching Costs, Counter-Positioning, Scale Economies, Network Economies, Brand Power, Process Power, Cornered Resource).
Switching Cost (costo de cambio)
- Aunque los usuarios se acostumbren a la UI o al flujo de trabajo de una solución de IA vertical específica, la IA horizontal puede aplicarse de forma sencilla “como si se contratara a un nuevo empleado”, mediante onboarding.
- Como cada vez más empresas ya adoptan soluciones de IA horizontal como ChatGPT, es posible que el proceso de cambio no sea difícil.
- También en precio, la IA horizontal puede integrar varias soluciones verticales, por lo que se espera un efecto de reducción de costos.
Counter Positioning (reposicionamiento inverso)
- La IA vertical puede ofrecer valor personalizado como solución especializada para un mercado específico, pero a medida que los modelos mejoren, la IA horizontal podría mostrar un mejor rendimiento general.
- Cada vez que incorpora un modelo nuevo, la IA vertical enfrenta el dilema de perder diferenciación por sus “restricciones”, o de parecerse al final a un modelo horizontal si elimina esas restricciones.
Scale Economy (economías de escala)
- Al igual que el SaaS, la IA vertical también puede reducir costos con la escala, pero la IA horizontal tiene además la ventaja de distribuir costos al integrar múltiples áreas.
- Al aplicar en usos diversos modelos horizontales desarrollados mediante grandes inversiones en I+D, puede acelerarse aún más la reducción de costos.
Network Economy (efecto de red)
- Tanto la IA vertical como la horizontal pueden mejorar con base en datos de usuarios, pero la IA horizontal tiene la gran ventaja de obtener feedback de una base de usuarios mucho más amplia y así elevar el rendimiento general del modelo.
- Como mejora el modelo en su conjunto aprovechando datos acumulados en distintas áreas, puede avanzar a una velocidad difícil de igualar para la IA vertical.
Brand Power (poder de marca)
- El poder de marca es una ventaja difícil de conseguir en la etapa de una startup pequeña.
- Empresas como OpenAI o Google, que ya tienen una gran influencia de marca, son la excepción, pero para la mayoría de las startups de IA vertical es difícil usar la marca como arma competitiva.
Process Power (poder de proceso)
- El poder de proceso también es una ventaja que suelen obtener grandes empresas a través de sistemas operativos refinados durante mucho tiempo.
- En la etapa inicial de una startup, esta categoría prácticamente no aplica.
Cornered Resource (recurso exclusivo)
- Un recurso exclusivo solo se convierte en una gran ventaja competitiva cuando una sola empresa posee ciertos datos o recursos, y estos son absolutamente necesarios en ese campo.
- Muchas startups de IA afirman tener “datos exclusivos”, pero en la práctica a menudo esos datos no son realmente exclusivos o el modelo puede entrenarse suficientemente incluso sin ellos.
- Como excepción, las empresas que aseguren un recurso verdaderamente exclusivo podrían mantener su competitividad a pesar del avance de la IA horizontal.

Cierre

En última instancia, incluso en escenarios donde la IA vertical disfruta de la ventaja del pionero, si la IA horizontal alcanza un mejor rendimiento, será difícil sostener a la mayoría de las soluciones de IA vertical.
Entre las 7 Powers de Helmer, solo en los casos en que se asegure un verdadero “Cornered Resource” la IA vertical podría conservar impulso a largo plazo.
Así como AcademicGPT se desplomó rápidamente tras el lanzamiento de GPT-4, incluso la IA vertical reforzada con múltiples funciones podría terminar siguiendo un patrón similar cuando el modelo mejore.
En el siguiente capítulo (capítulo 3), se analizará en detalle cuándo y cómo podría materializarse una IA horizontal en forma de “colaborador remoto”, así como las barreras técnicas, regulatorias, de confianza y económicas que lo dificultan.

Capítulo 3: Una nota al pie de la historia (A Footnote in History)

Se publicó una entrevista en la que el CEO de Anthropic explica el concepto de “colaborador virtual (virtual collaborator)”.
Esto es similar a lo que el autor llama en esta serie un “producto de IA horizontal (horizontal AI product)”.
Se espera que OpenAI anuncie pronto “Operator”, y según benchmarks filtrados, supera ampliamente a Claude en rendimiento (en el benchmark OSWorld, Claude 22%, Operator 38%).
Esta mejora de rendimiento está dentro de lo esperado, y el autor mantiene sin cambios su predicción de hace 3 meses.
En el capítulo anterior se explicó por qué las aplicaciones de IA vertical tienen dificultades para mantener su competitividad.
- La diferencia de rendimiento frente a soluciones de IA general se reduce.
- Si los productos de IA horizontal se vuelven competitivos, a los productos de IA vertical casi no les quedan formas de defenderse.
La pregunta importante: “¿Cuándo ocurrirá la transición de la IA vertical a la IA horizontal?”.
- Si fuera dentro de 10 años, hoy todavía podría tener sentido desarrollar IA vertical.
- Pero si el cambio llega en 1 a 2 años, se necesita una estrategia completamente distinta.
La transición de IA vertical a IA horizontal no ocurrirá al mismo tiempo en todas las industrias.
Sin embargo, como los mercados en los que hoy se concentra la mayoría de las startups de IA son áreas relativamente simples, se espera que el cambio ocurra en momentos similares en las principales industrias.
Se proyecta que para 2027 será difícil que los productos de IA vertical sobrevivan en la mayoría de las industrias.
“Adopción (adoption)” significa qué producto eligen los usuarios cuando resuelven un problema nuevo o cambian la forma de resolver uno existente.
No se consideran los siguientes elementos:
- Cuota de mercado: puede verse afectada por contratos existentes, etc.
- Tamaño absoluto: aunque el mercado crecerá a medida que la IA abra nuevos casos de uso, este análisis solo considera cambios relativos.
- Valor potencial: se evalúa qué solución elige la gente en el momento actual, sin incluir posibilidades de mejora futura.
Por ejemplo, si el flujo se desplaza de A a B, significa que antes se prefería A, pero ahora B se considera una mejor opción.

Conceptos de IA vertical/horizontal y workflow/agentes

La IA "vertical" y la IA "horizontal" se refieren a distintos tipos de productos de IA
"Workflow" y "agent" también son conceptos para clasificar productos de IA
En este documento, los conceptos de workflow y agent dentro de los productos de IA horizontal se explican como una sola categoría
- Es probable que una misma empresa desarrolle un producto que incluya ambas funciones
- Por ejemplo, ChatGPT puede agregar funciones de agente mientras mantiene su base existente de workflow

El pasado

(1) La etapa pre-ChatGPT fue una situación en la que el software tradicional dominaba el mercado
(2) Con el lanzamiento de ChatGPT, apareció el primer producto de IA horizontal verdaderamente significativo
(3) Tras la aparición de la API de GPT-3.5, comenzaron a lanzarse por primera vez varios productos verticales especializados en IA

Este año

(4) Se espera que en 2025 el rendimiento de los modelos se estabilice lo suficiente como para usarse como agentes prácticos
- Hasta ahora, los agentes se habían usado solo en proyectos de investigación o pruebas limitadas, pero se prevé su adopción plena
- También es posible que los productos verticales de workflow existentes se transformen en agentes de IA
(5) Incluso si aparecen los agentes, se espera que los workflows verticales mantengan una posición dominante hasta 2025
- Influyen tanto el hábito de los usuarios de evitar cambiar herramientas ya adoptadas como la inercia de los desarrolladores de seguir aprovechando los activos de ingeniería construidos hasta ahora
(6) Se proyecta que los principales productos de IA horizontal, como ChatGPT, Claude y Gemini, ampliarán sus funciones y cubrirán más áreas verticales
- Es posible que las funciones especializadas existentes de los productos de IA vertical sean absorbidas rápidamente por los productos de IA horizontal
- ChatGPT ya ha empezado a integrarse con aplicaciones de escritorio

Futuro cercano

(7) Se espera que la brecha de capacidades entre los agentes horizontales de IA y los trabajadores humanos se reduzca gradualmente
- Aunque no alcancen un nivel experto, se estima que lograrán suficiente rendimiento para automatizar una parte considerable del trabajo administrativo general
- Como resultado, la razón de existir de las soluciones verticales de IA podría disminuir
- Ejemplos concretos:
  - Los usuarios individuales podrían delegar a agentes horizontales tareas complejas como la declaración de impuestos o la preparación para buscar empleo
  - Las empresas podrían reemplazar o reducir en gran medida al personal junior
  - Podrían aparecer casos en los que una sola persona genere valor de nivel unicornio
(8) Se prevé que el software tradicional siga conservando valor como interfaz que los agentes pueden usar
- Puede resultar más rentable que los agentes aprovechen el software existente en lugar de crear todo el software de nuevo por sí mismos
- El análisis indica que, en particular, el software de propósito general y horizontal tiene más probabilidades de sobrevivir
(9) Se espera que los productos de IA vertical que sobrevivan sean una minoría con recursos defensivos mencionados en el capítulo 2, como datos exclusivos o patentes
- También podrían vender esos recursos a un valor elevado

2024: ¿se detuvo el progreso?

La afirmación de que hubo un estancamiento de los modelos de IA en 2024 se considera poco convincente
- Incluso antes del lanzamiento de o3, el rendimiento de los modelos había seguido mejorando de forma constante en diversas áreas, incluidos GPT-4, Claude y los modelos Open Weight
- Los puntajes en benchmarks como ARC-AGI y GPQA Diamond venían mejorando de forma radical
Anthropic evolucionó rápidamente de Claude 2 a Claude 3 y luego a Claude 3.5 Sonnet, y surgieron especulaciones de que utilizó internamente mejoras no publicadas
Por ello, se considera que falta fundamento para sostener que 2024 fue un año en el que se detuvo la mejora de los modelos de IA

Obstáculos potenciales

Model Stagnation: aunque en 2024 no hubo estancamiento, existe la preocupación de que el avance de los modelos pueda frenarse después de 2025
- Ilya Sutskever mencionó en NeurIPS los límites del enfoque tradicional de pre-training, pero al mismo tiempo sugirió que existen otras vías, como el test-time compute
- Los principales laboratorios y empresas de IA siguen invirtiendo activamente en enormes recursos de cómputo
Regulation: si surgen regulaciones inesperadas, podrían imponerse restricciones al avance de la IA
Trust Barriers: existen preocupaciones de los usuarios sobre la estabilidad y confiabilidad de los agentes
- Se observa que, tal como ocurrió históricamente con el miedo a la automatización de los elevadores, estas barreras podrían superarse con el tiempo
AI Labs Hesitate: puede haber casos en los que Anthropic u OpenAI mantengan ciertas interacciones de usuario parcialmente limitadas, incluso si cuentan con la capacidad técnica real
Expensive Inference: como en el caso de o3, la inferencia de alto rendimiento puede requerir costos muy elevados
- Sin embargo, el costo de inferencia está bajando con el tiempo, y también es probable que los agentes no apliquen el mismo nivel de inferencia de alto rendimiento a todas las tareas
Al considerar en conjunto estos factores, aunque predecir el progreso tecnológico sigue siendo difícil, se estima que a las startups de IA vertical no les queda mucho tiempo
Se presenta una curva de valor en forma de U, según la cual el valor basado en la ingeniería existente puede desaparecer rápidamente a medida que los modelos de IA se vuelven más avanzados

Notas de referencia

Se explica que la expansión del test-time compute mostrada en o3 era un resultado que ya se podía prever a partir de investigaciones previas
Como demostró el caso de AlphaZero, en entornos verificables el rendimiento puede alcanzar rápidamente niveles sobrehumanos
Se analiza que o3 sobresale en áreas como programación y matemáticas, pero en otras, como la escritura creativa, no muestra una gran diferencia frente a o1
La implicación para los fundadores es que, en lugar de desarrollar nueva IA vertical, podría ser más conveniente orientarse hacia otras direcciones que manejen recursos más amplios o exclusivos

Capítulo 4: Eres un mago (You’re a wizard Harry)

El fundador es como un mago

Tiene la capacidad de crear algo de la nada
Para iniciar una nueva empresa se necesita pensamiento original
Palabras de Paul Graham (PG): "Las ideas no solo deben ser correctas, también deben ser originales. No deberías empezar algo que a todos ya les parece una buena idea".
Muchos fundadores están perdiendo la capacidad de pensar de forma independiente, cegados por el impresionante crecimiento de ingresos de sus colegas
Cuando todos hacen lo mismo y parece estar funcionando, se vuelve difícil pensar por cuenta propia
El autor intenta pensar de forma independiente y espera que estas ideas suenen mal

El futuro de los agentes horizontales y la competencia

Se espera que los agentes horizontales que dominen la capa de aplicaciones de IA sean desarrollados por los laboratorios de IA
Las diferencias en el rendimiento de los modelos podrían producir un ganador único, pero es más probable una competencia feroz entre Anthropic, OpenAI, GDM y xAI
Esto provoca en el corto plazo una competencia de precios que beneficia al usuario final
Aunque los laboratorios de IA no capturen mucho valor monetario en el corto plazo, se espera que sigan ocupando una posición muy poderosa
Por lo tanto, es razonable que los fundadores piensen sus startups en el contexto de su relación con estos laboratorios

Un enfoque como cliente

Como se discutió en el capítulo 2, es posible construir productos verticales de IA que usen APIs de LLM, pero eso solo es viable cuando existe acceso exclusivo a recursos importantes
Para construir un producto vertical de IA, se debe dedicar un enorme esfuerzo a encontrar esos recursos

Enfoque como competidor

Si los agentes horizontales son el futuro, ¿por qué no construir uno? Se revisan tres enfoques
Capturar el mercado primero
- Los laboratorios de IA solo competirán seriamente con los flujos de trabajo verticales cuando los modelos sean lo bastante confiables como para crear agentes horizontales con un esfuerzo mínimo de ingeniería
- En teoría, se podría entrar al mercado antes que los laboratorios aplicando esfuerzo de ingeniería a modelos anteriores, pero eso no es seguro
- Leopold Aschenbrenner cree que este esfuerzo podría tomar más tiempo que construir el siguiente modelo: "podría pasar tiempo antes de que muchos trabajadores remotos puedan automatizar tareas, y mientras tanto el modelo intermedio quizá aún no esté totalmente aprovechado ni integrado"
- Sin importar quién entre primero al mercado, se espera que esa ventaja no dure mucho
Wrapper de API para agentes
- Un roommate preguntó: "¿Es que no hay nadie en el mundo con habilidades de UI?"
- Esto sugiere dos problemas: 1) los márgenes son insostenibles por el costo del API, 2) los laboratorios no publican sus mejores modelos (ChatGPT usa modelos propietarios para búsqueda, navegación web, etc.)
- Actualmente nadie usa el API de GPT para competir directamente con ChatGPT, y se espera que este patrón se repita también con los agentes horizontales
Modelos open source
- Los modelos open source podrían ofrecer otra ruta
- Perplexity demuestra que se puede competir con los laboratorios en productos horizontales
- Sin embargo, los modelos open source funcionan bien en benchmarks simples, pero tienen dificultades en tareas complejas de agentes
- Llama-3.1-405b queda bastante por detrás de los modelos de vanguardia en MLE-bench
- En Andon Labs se especializan en este tipo de benchmarks, y eso coincide con lo que vemos
- Deepseek V3 y R1 se lanzaron con resultados muy impresionantes, pero o3 también, y se sabe que Anthropic internamente tiene versiones mejores
- Los modelos open source pueden acercarse al estado del arte, pero es dudoso que lo superen
- Aun así, podrían ser suficientes para competir en el juego horizontal
- El costo de inferencia seguirá siendo muy alto

Enfoque como proveedor

Si los laboratorios de IA realmente se vuelven así de poderosos, ser su proveedor es una gran posición
Claramente van a necesitar mucho poder de cómputo y electricidad
Si el análisis de Leo es correcto, podrían necesitar más de lo esperado
Esta oportunidad requiere conocimiento especializado de la industria, lo que quizá no sea algo natural para fundadores hoy ubicados en la capa de aplicaciones de IA
Pero recuerda que eres un mago
Los laboratorios también compran datos a terceros
Scale AI está demostrando que esto es un gran negocio
Sin embargo, hay dudas sobre si los laboratorios de IA podrán hacer funcionar el "self-play"
AlphaZero fue entrenado sin datos externos, y eso se considera el santo grial de los futuros modelos de IA
Si no logran hacer funcionar el self-play, la alternativa sería combinar varios datasets de entrenamiento posteriores
En ese mundo, vender datos probablemente sería una buena opción

Enfoque como contribuidor del ecosistema

Lo último que vale la pena considerar en relación con los laboratorios de IA es convertirse en un contribuidor del ecosistema
Eso significa construir herramientas que ayuden a los agentes horizontales, pero lo importante es que deben estar separadas del agente en sí
Como se mostró en el capítulo 3, el software tradicional va a persistir porque los agentes necesitan interfaces eficientes
Los agentes pueden escribir su propio software, pero el costo de inferencia podría volver eso poco práctico
Sin embargo, los jugadores del ecosistema corren el riesgo de comoditizarse, y la mayor parte del valor podría capturarse en otro lugar
Esto dependerá de qué tan alto sea el costo de inferencia (inference cost) de ejecutar agentes horizontales
- Si el costo de inferencia es bajo, será más común que los agentes generen por sí mismos el software que necesitan

¿Y si los agentes horizontales de IA llegan tarde?

El timeline es muy importante
- Si los agentes horizontales recién fueran competitivos dentro de 10 años, construir ahora flujos de trabajo verticales de IA sería una gran idea
- Ese tiempo bastaría para crear una empresa grande y sólida
Pero, considerando la velocidad de avance de los laboratorios de IA, 10 años no es realista
- Entonces, ¿qué tal 4 años?
- Cuatro años quizá no alcancen para construir una gran empresa, pero sí ofrecen suficientes oportunidades de iteración
- Empezar en la capa de aplicaciones de IA podría incluso facilitar luego girar hacia un proveedor o un jugador del ecosistema

Epílogo: ¿es un error de YC (Y Combinator)?

A simple vista, podría parecer que YC está tomando malas decisiones
- Actualmente YC está concentrando la mayor parte de sus inversiones en productos verticales de IA
- Pero hay una alta probabilidad de que este mercado desaparezca pronto
Sin embargo, el autor no tiene suficiente experiencia en VC (venture capital), así que no puede sacar una conclusión firme
- Solo está confundido y compartiendo sus dudas
YC dice que sigue una estrategia de inversión relativamente neutral
- Invierte en gente inteligente y espera que encuentre las mejores ideas
- Es una gran estrategia, y cientos de fundadores podrían predecir mejor el futuro que los 14 socios de YC
Pero al autor le preocupa que el sistema de batch de YC pueda fomentar una mentalidad de corto plazo
- En YC es muy importante establecer metas semanales, y avanzar dentro de un grupo grande ayuda con la motivación
- Pero si no hay suficiente diversidad de ideas, eso también puede fomentar una visión de corto plazo
- Si haces un producto vertical de IA, puedes llegar rápido a 5,000 dólares de MRR
- Pero ¿esa es realmente una forma de construir un negocio sostenible?
- Si el autor estuviera ahora en un batch de YC, probablemente sentiría la tentación de hacer un producto vertical de IA
- Además, en el podcast de YC "The Light Cone" hay mucho contenido que defiende los productos verticales de IA

1 comentarios

zkdlfrlwl2 2025-02-14

La distinción y explicación entre Vertical AI y Horizontal AI me parecieron interesantes.

La amarga lección de un fundador de IA (Bitter Lesson)

Capítulo 1: La historia se repite (History Repeats Itself)

tl;dr:

Resumen del ensayo de Richard Sutton: The Bitter Lesson. (traducción al coreano)

Los productos de IA y The Bitter Lesson

Tipos de restricciones y productos de IA

Conexión entre Vertical Workflow y The Bitter Lesson

Relación entre The Bitter Lesson y los productos actuales de IA

Aplicación de las cuatro observaciones de Bitter Lesson y los tipos de restricciones

Cierre: startups de IA y The Bitter Lesson

Capítulo 2: Sin ventaja competitiva (No Powers)

tl;dr:

Dificultad del problema y curva de rendimiento

El concepto de “colaborador remoto” que ofrece la IA horizontal

Caso previo: la experiencia con AcademicGPT

Análisis de las 7 Powers de Helmer

Switching Cost (costo de cambio)

Counter Positioning (reposicionamiento inverso)

Scale Economy (economías de escala)

Network Economy (efecto de red)

Brand Power (poder de marca)

Process Power (poder de proceso)

Cornered Resource (recurso exclusivo)

Cierre

Capítulo 3: Una nota al pie de la historia (A Footnote in History)

Conceptos de IA vertical/horizontal y workflow/agentes

El pasado

Este año

Futuro cercano

2024: ¿se detuvo el progreso?

Obstáculos potenciales

Notas de referencia

Capítulo 4: Eres un mago (You’re a wizard Harry)

El fundador es como un mago

El futuro de los agentes horizontales y la competencia

Un enfoque como cliente

Enfoque como competidor

Enfoque como proveedor

Enfoque como contribuidor del ecosistema

¿Y si los agentes horizontales de IA llegan tarde?

Epílogo: ¿es un error de YC (Y Combinator)?

Lecturas relacionadas

1 comentarios