Acto o1 de la IA generativa: comienza la era del razonamiento de agentes

xguru · 2024-10-21T11:06:01+09:00

A medida que la revolución de la IA generativa entra en su segundo año, la investigación está evolucionando del "pensamiento rápido" al "pensamiento lento" El "pensamiento rápido" se refiere a respuestas rápidas preentrenadas, y el "pensamiento lento" se refiere al razonamiento durante la inferencia Esta evolución está dando lugar a un nuevo tipo de aplicaciones de agentes A medida que se estabiliza la capa base del mercado de IA generativa, un pequeño grupo de grandes actores como Microsoft/OpenAI, AWS/Anthropic, Meta y Google/DeepMind está liderando el mercado Solo los grandes actores con motores económicos y enormes cantidades de capital siguen en competencia La estructura misma del mercado se está consolidando, y la predicción del next-token será barata y abundante A medida que se estabiliza la estructura del mercado de LLM, surge una nueva frontera El enfoque está puesto en desarrollar y escalar una capa de razonamiento donde se prioriza la forma de pensar de "sistema 2" Inspirada en modelos como AlphaGo, esta capa busca dotar a los sistemas de IA de razonamiento cuidadoso, resolución de problemas y funciones cognitivas que van más allá de la simple coincidencia de patrones Nuevas arquitecturas cognitivas e interfaces de usuario están moldeando la forma en que estas capacidades de razonamiento se transmiten al usuario y permiten la interacción Strawberry Fields Forever La actualización de modelo más importante de 2024 es o1 de OpenAI (antes conocido como Q* y también llamado Strawberry) Esto no solo significa que OpenAI volvió a colocarse en la parte alta del leaderboard de calidad de modelos, sino que también representa una mejora significativa sobre la arquitectura predominante En concreto, es el primer modelo con una verdadera "capacidad de razonamiento general" lograda mediante cómputo en tiempo de inferencia Modelos preentrenados vs. cómputo en tiempo de inferencia Los modelos preentrenados realizan next token prediction usando enormes cantidades de datos La propiedad emergente de la escala es un razonamiento básico, pero ese razonamiento es muy limitado El cómputo en tiempo de inferencia significa pedirle al modelo que se detenga y piense antes de dar una respuesta Para ello, se requiere más cómputo durante la inferencia La parte de "detenerse y pensar" es precisamente el razonamiento Comparación entre AlphaGo y los LLM AlphaGo creó uno de los momentos más importantes en la historia del deep learning al enfrentarse a la leyenda del baduk Lee Sedol en Seúl en marzo de 2016 AlphaGo mostró al mundo una IA que "piensa", algo que va más allá de simplemente imitar patrones Diferencias entre AlphaGo y los sistemas de IA para juegos anteriores Al igual que los LLM, AlphaGo fue preentrenado para imitar a expertos humanos mediante una base de datos de alrededor de 30 millones de jugadas de partidas anteriores y autojuego Sin embargo, en lugar de ofrecer una respuesta inmediata salida del modelo preentrenado, AlphaGo se toma tiempo para detenerse y pensar Durante la inferencia, AlphaGo ejecuta búsquedas o simulaciones sobre una amplia gama de posibles escenarios futuros, evalúa esos escenarios y luego responde con el escenario (o respuesta) de mayor valor esperado Cuanto más tiempo se le da a AlphaGo, mejor es su desempeño Sin cómputo en tiempo de inferencia, AlphaGo no puede vencer a los mejores jugadores humanos Por qué es difícil replicar AlphaGo en los LLM Es difícil construir una función de valor (value function) que evalúe las respuestas En baduk, se puede simular la partida hasta el final y ver quién gana, y luego calcular el valor esperado de la siguiente jugada En programación, se puede probar el código y verificar si funciona Pero es difícil evaluar cosas como un borrador de ensayo, un itinerario de viaje o un resumen de términos clave de un documento largo Esa es la razón por la que, con las metodologías actuales, el razonamiento es difícil, y también por la que Strawberry es relativamente fuerte en áreas cercanas a la lógica (como programación, matemáticas y ciencia), pero no tanto en dominios abiertos y no estructurados (como la escritura) Investigación para mejorar la capacidad de razonamiento del modelo Strawberry Aunque la implementación real de Strawberry está fuertemente protegida, la idea central está relacionada con aprendizaje por refuerzo sobre las cadenas de pensamiento generadas por el modelo Auditar las cadenas de pensamiento del modelo sugiere que está ocurriendo algo fundamental e interesante, similar a la forma en que los humanos piensan y razonan Por ejemplo, o1 está mostrando la capacidad de retroceder cuando se atasca, como una propiedad emergente del escalado en tiempo de inferencia También muestra la capacidad de pensar sobre problemas como lo haría un humano (por ejemplo, visualizar puntos en una esfera para resolver un problema de geometría) y de pensar sobre problemas de maneras nuevas (por ejemplo, resolver problemas de concursos de programación de una forma distinta a la humana) El equipo de investigación tiene muchas ideas para hacer avanzar el cómputo en tiempo de inferencia, como nuevos métodos para calcular funciones de recompensa y nuevas formas de cerrar la brecha entre generator y verifier, con el fin de mejorar la capacidad de razonamiento del modelo En otras palabras, el aprendizaje por refuerzo profundo vuelve a cobrar protagonismo, y en conjunto está haciendo posible una nueva capa de razonamiento Salto del System 1 al System 2 Thinking El salto desde respuestas instintivas preentrenadas ("sistema 1") hacia un razonamiento más profundo y deliberado ("sistema 2") es la próxima frontera de la IA No basta con que un modelo simplemente sepa algo El modelo necesita detenerse, evaluar y razonar para tomar decisiones en tiempo real El preentrenamiento corresponde a la capa de sistema 1 Ya sea aprendiendo millones de jugadas de baduk en AlphaGo o petabytes de texto a escala de internet en un LLM, el objetivo del preentrenamiento es imitar patrones como el juego humano o el lenguaje Pero la imitación, por poderosa que sea, no es verdadero razonamiento En especial, no puede pensar adecuadamente ante situaciones complejas y nuevas que quedan fuera del dataset de entrenamiento El pensamiento de sistema 2 es el foco de la investigación más reciente en IA Cuando el modelo "se detiene y piensa", no solo genera patrones aprendidos ni escupe predicciones basadas en datos pasados Genera un rango de posibilidades, considera resultados potenciales y toma decisiones basadas en razonamiento Uso adecuado del pensamiento de sistema 1 y sistema 2 Para muchas tareas, el pensamiento de sistema 1 es suficiente (por ejemplo, pensar más tiempo no ayuda a responder cuál es la capital de Bután) Pero en problemas más complejos, como avances en matemáticas o biología, una respuesta rápida e instintiva no basta Ese tipo de progreso requiere pensamiento profundo, resolución creativa de problemas y, sobre todo, tiempo Lo mismo ocurre con la IA. Para resolver los problemas más difíciles y significativos, debe ir más allá de respuestas rápidas dentro del dataset de entrenamiento y dedicar tiempo a producir el razonamiento reflexivo que define el progreso humano Nueva ley de escalado: comienza la competencia por el razonamiento La idea más importante del paper de o1 de OpenAI es que ha aparecido una nueva ley de escalado La ley de escalado del preentrenamiento de LLM El preentrenamiento de LLM sigue una ley de escalado bien entendida Cuanto más cómputo y datos se usen en el preentrenamiento del modelo, mejor será el desempeño La nueva ley de escalado del cómputo en tiempo de inferencia El paper de o1 abrió una nueva dimensión para expandir el cómputo Cuanto más tiempo de inferencia (o cómputo en "test time") se le dé al modelo, mejor será su capacidad de razonamiento ¿Qué pasaría si un modelo pudiera pensar durante horas, días o décadas? ¿Podría resolver la hipótesis de Riemann? ¿Podría responder la última pregunta de Asimov? Cambio de grandes clústeres de preentrenamiento hacia la nube de inferencia Este cambio nos moverá del mundo de los grandes clústeres de preentrenamiento al de la nube de inferencia La nube de inferencia es un entorno capaz de escalar el cómputo dinámicamente según la complejidad de la tarea ¿Un solo modelo llegará a dominarlo todo? ¿Qué ocurrirá a medida que OpenAI, Anthropic, Google y Meta expandan la capa de razonamiento y desarrollen máquinas de razonamiento más potentes? ¿Un solo modelo llegará a dominarlo todo? Una hipótesis era que una sola empresa de modelos se volvería tan poderosa que absorbería a todas las demás aplicaciones Hasta ahora, esta predicción ha resultado equivocada en dos aspectos Primero, en la capa de modelos hay muchos competidores que compiten constantemente por capacidades SOTA Es posible que alguien logre una mejora continua de sí mismo mediante autoaprendizaje amplio en múltiples dominios y consiga despegar, pero todavía no hay evidencia de eso Más bien, la capa de modelos es un campo de competencia feroz, y el precio por token de GPT-4 ha caído 98% desde el último Developer Day Segundo, los modelos están teniendo dificultades para avanzar hacia la capa de aplicaciones Salvo ChatGPT, en general los modelos no han logrado consolidarse como productos revolucionarios en la capa de aplicaciones Porque el mundo real es complejo Los grandes investigadores no quieren entender flujos de trabajo detallados end-to-end para cada función posible de cada mercado vertical posible Para los investigadores, resulta atractivo y económicamente razonable detenerse en la API y dejar la complejidad del mundo real al ecosistema de desarrolladores Esto es una buena noticia para la capa de aplicaciones El mundo real complejo: la necesidad de arquitecturas cognitivas personalizadas La forma en que, como científico, planeas y ejecutas acciones para alcanzar un objetivo es muy distinta de la forma en que trabajas como ingeniero de software Incluso la manera de trabajar como ingeniero de software también varía entre distintas empresas Aunque los laboratorios siguen empujando más los límites del razonamiento horizontal de propósito general, todavía se necesita razonamiento específico de aplicación o de dominio para ofrecer agentes de IA realmente útiles El complejo mundo real requiere una cantidad considerable de razonamiento específico de dominio y de aplicación que no puede codificarse eficientemente en un modelo general La aparición de la arquitectura cognitiva La arquitectura cognitiva se refiere a la forma en que piensa un sistema: el flujo de código e interacciones con modelos que toma la entrada del usuario para ejecutar acciones o generar respuestas Por ejemplo, en Factory, cada producto "droid" tiene una arquitectura cognitiva personalizada que imita cómo piensa un humano para resolver tareas específicas, como revisar pull requests o redactar y ejecutar planes de migración para actualizaciones de servicios entre backends Los droids de Factory analizan todas las dependencias, proponen cambios de código relevantes, agregan pruebas unitarias e incorporan a una persona para la revisión Luego, tras la aprobación, ejecutan los cambios en todos los archivos del entorno de desarrollo y, si pasan todas las pruebas, fusionan el código Esto se parece a la forma humana de pensar, compuesta por una serie de tareas separadas, en lugar de una sola respuesta generalizada y tipo caja negra ¿Qué está pasando en App? Si quieres iniciar un negocio de IA, ¿a qué capa deberías apuntar? Para competir en la capa de infraestructura, hay que vencer a NVIDIA y a los hyperscalers Para competir en la capa de modelos, hay que vencer a OpenAI y a Mark Zuckerberg Para competir en la capa de aplicaciones, hay que vencer a TI empresarial y a los integradores globales de sistemas La competencia en la capa de aplicaciones parece la más viable La oportunidad en la capa de aplicaciones Los modelos fundacionales parecen magia, pero también son complejos Las empresas tradicionales no pueden lidiar con cajas negras, alucinaciones y flujos de trabajo torpes Los consumidores ven un prompt vacío y no saben qué pedir Esa es la oportunidad de la capa de aplicaciones Hace dos años, muchas empresas de la capa de aplicaciones eran criticadas por ser "solo wrappers sobre GPT-3" Hoy, esos wrappers han demostrado ser una de las pocas formas sanas de construir valor sostenible Lo que comenzó como un "wrapper" evolucionó hacia una "arquitectura cognitiva" Características de las empresas de IA de la capa de aplicaciones No se trata simplemente de poner una UI encima de un modelo fundacional Por lo general, cuentan con una arquitectura cognitiva sofisticada que incluye: múltiples modelos fundacionales con algún tipo de mecanismo de enrutamiento en la parte superior bases de datos vectoriales y/o de grafos para RAG guardrails para garantizar el cumplimiento lógica de aplicación que imita la forma de razonar a través de flujos de trabajo Service-as-a-Software La transición a la nube fue "Software-as-a-Service". Las empresas de software se convirtieron en proveedores de servicios en la nube, y eso representó una oportunidad de 350 mil millones de dólares Gracias al razonamiento de agentes, la transición de la IA es "Service-as-a-Software". Las empresas de software están convirtiendo la fuerza laboral en software Esto significa que el mercado objetivo no es el mercado de software, sino el mercado de servicios de varios billones de dólares Lo que significa vender trabajo Una buena muestra de esto es la empresa Sierra Las empresas B2C implementan Sierra en sus sitios web para conversar con sus clientes El job-to-be-done es resolver los problemas de los clientes Sierra cobra por cada caso resuelto No existe algo como un "seat". Tú tienes un trabajo que debe hacerse, Sierra se encarga de ese trabajo y cobra en consecuencia Ese es el verdadero norte de muchas empresas de IA La ventaja de Sierra y los desafíos de otras compañías Sierra tiene la ventaja de un modo de falla elegante (escalar a un agente humano) No todas las empresas tienen esa suerte El nuevo patrón consiste en desplegar primero con piloto humano (human-in-the-loop) y luego aprovechar esa experiencia para encontrar oportunidades de despliegue en piloto automático (human-out-of-the-loop) GitHub Copilot es un buen ejemplo de esto Empieza a surgir un nuevo tipo de aplicaciones de agentes Con las nuevas capacidades de razonamiento de la IA generativa, empieza a surgir un nuevo tipo de aplicaciones de agentes Curiosamente, estas empresas de la capa de aplicaciones se ven distintas de las anteriores empresas de la nube: Las empresas de la nube apuntaban a ingresos de software, mientras que las empresas de IA apuntan a ingresos de servicios Las empresas de la nube vendían software ($/seat), mientras que las empresas de IA venden trabajo ($/resultado) Las empresas de la nube favorecían un enfoque bottom-up con distribución sin fricción, mientras que las empresas de IA adoptan cada vez más un enfoque top-down con modelos de entrega high-touch y high-trust Ejemplos de aplicaciones de agentes que están surgiendo en todos los sectores de la economía del conocimiento Harvey: abogado de IA Glean: asistente de trabajo con IA Factory: ingeniero de software con IA Abridge: documentalista médico con IA XBOW: pentester con IA Sierra: agente de soporte al cliente con IA Al reducir el costo marginal de prestar estos servicios a un nivel similar al de la fuerte caída en los costos de razonamiento, las aplicaciones de agentes están expandiendo y creando nuevos mercados XBOW es un buen ejemplo: XBOW está creando un "pentester" de IA Un "pentest" o prueba de penetración es un ciberataque simulado contra un sistema informático que una empresa realiza para evaluar sus propios sistemas de seguridad Antes de la IA generativa, como el pentesting humano era caro (trabajo manual realizado por personal especializado), las empresas solo contrataban pentesters en situaciones limitadas, por ejemplo cuando era necesario para cumplimiento Sin embargo, XBOW ahora está demostrando pentests automatizados basados en los LLM de razonamiento más avanzados, con un desempeño comparable al de los pentesters humanos más capacitados Esto amplía el mercado del pentesting y abre la posibilidad de pruebas continuas para empresas de todos los tamaños y tipos ¿Qué impacto tiene esto en la industria del SaaS? Cuando nos reunimos con LPs a principios de este año, la pregunta que más recibimos fue: “¿La transición a la IA va a destruir a las empresas de nube existentes?” Empezamos con una suposición base firme: “No” La pelea clásica entre startups y empresas establecidas se parece a una carrera en la que las startups construyen distribución y las incumbentes construyen producto ¿Podrán las empresas jóvenes con productos geniales llegar a los clientes antes de que las empresas establecidas, que ya son dueñas del cliente, lancen productos geniales? Dado que la mayor parte de la magia de la IA proviene de los modelos fundacionales, nuestra suposición base era “No” Las empresas establecidas tienen tanto acceso a los modelos fundacionales como las startups, y además cuentan con las ventajas existentes de datos y distribución, por lo que les irá bien La principal oportunidad para las startups no es reemplazar a las empresas de software existentes, sino atacar el conjunto de tareas que pueden automatizarse Pero ya no estamos tan seguros Véase lo mencionado arriba sobre arquitecturas cognitivas Hace falta una enorme cantidad de ingeniería para convertir las capacidades brutas de los modelos en soluciones de negocio end-to-end convincentes y confiables ¿Estaremos subestimando drásticamente lo que significa ser “AI native”? Hace 20 años, las empresas de software on-premise se burlaban de la idea de SaaS “No es gran cosa. ¡Nosotros también podemos operar nuestros propios servidores y ofrecer esto por internet!” Conceptualmente era simple, pero después vino una reinvención total del negocio: EPD pasó del modelo en cascada y los PRD al desarrollo ágil y las pruebas AB GTM pasó de ventas enterprise top-down y cenas con steak a PLG bottom-up y analítica de producto El modelo de negocio pasó de ASP altos y flujos de mantenimiento a NDR alto y precios basados en uso Muy pocas empresas on-premise lograron hacer la transición con éxito ¿Podría la IA ser un punto de inflexión similar al de SaaS? ¿La oportunidad de la IA podría consistir en vender trabajo mientras al mismo tiempo reemplaza software? Con Day.ai, pudimos echar un vistazo al futuro Day es un CRM AI native Los integradores de sistemas ganan miles de millones de dólares configurando Salesforce según las necesidades de sus clientes Day genera automáticamente un CRM perfectamente adaptado al negocio del cliente solo con acceso al correo y al calendario, además de las respuestas a un cuestionario de una página Todavía no tiene todas las funciones, pero la magia de un CRM autogenerado que siempre se mantiene actualizado sin intervención humana ya está haciendo que la gente decida cambiarse Industria de inversión ¿En qué están dedicando su tiempo y su capital los inversionistas? Infraestructura Esta área pertenece a los hyperscalers Está impulsada más por comportamientos de teoría de juegos que por análisis económicos No es un espacio adecuado para inversionistas de venture capital Modelos Es un área donde participan hyperscalers e inversionistas financieros (FI) Los hyperscalers invierten aprovechando el balance de sus activos para obtener retornos que luego vuelven como gasto de cómputo en el negocio cloud Los inversionistas financieros están influidos por un sesgo de “admiración por la ciencia” Estos modelos son muy interesantes y los equipos son excelentes, pero se ignora la lógica económica Herramientas para desarrolladores y software de infraestructura Menos interesantes para inversionistas estratégicos, pero más atractivos para inversionistas de venture capital Durante la transición a la nube, en esta capa surgieron unas 15 empresas con ingresos superiores a 1.000 millones de dólares Se espera que ocurra algo similar en la transición a la IA Aplicaciones La capa más interesante para los inversionistas de venture capital Durante la transición a la nube, surgieron unas 20 empresas de la capa de aplicaciones con ingresos superiores a 1.000 millones de dólares En la transición móvil apareció una cantidad similar de empresas, y se espera una tendencia parecida en esta transición a la IA Reflexiones finales En la siguiente etapa de la IA generativa, se espera que el impacto de la I+D de razonamiento se propague rápida y profundamente hacia la capa de aplicaciones Las arquitecturas cognitivas existentes incluían principalmente técnicas de “deslimitación” (unhobbling), pero ahora estas capacidades se están incorporando al propio modelo, por lo que se espera que las aplicaciones basadas en agentes se vuelvan más sofisticadas y robustas En los laboratorios, el cómputo de Reasoning e Inference-Time seguirá siendo un tema importante, y ahora que han aparecido nuevas leyes de escalamiento, comienza la próxima competencia Sin embargo, en dominios específicos sigue siendo difícil recopilar datos del mundo real y codificar arquitecturas cognitivas especializadas para el dominio y la aplicación Los proveedores de aplicaciones de last mile podrían tener ventaja para resolver estos problemas En adelante, podrían aparecer sistemas multiagente como Droid de Factory y expandirse como una forma de modelar procesos de razonamiento y aprendizaje social Se espera que los sistemas multiagente puedan lograr más trabajo al formar equipos capaces de manejar varias tareas al mismo tiempo El momento que muchas personas esperan es el ‘Move 37’ de la IA generativa, es decir, el momento en que un sistema de IA general muestre un comportamiento superhumano e inesperado, como lo hizo AlphaGo en su partida contra Lee Sedol Que llegue ese momento no significa que la IA “adquiera conciencia”, pero sí que podría tener la capacidad de simular los procesos de percepción, razonamiento y acción para explorar de formas originales y útiles Esto podría ser AGI (autonomía completa de la inteligencia artificial), y no sería un evento único, sino algo que conduciría a la siguiente etapa de la tecnología

(sequoiacap.com)

30 puntos por xguru 2024-10-21 | 4 comentarios | Compartir por WhatsApp

A medida que la revolución de la IA generativa entra en su segundo año, la investigación está evolucionando del "pensamiento rápido" al "pensamiento lento"
- El "pensamiento rápido" se refiere a respuestas rápidas preentrenadas, y el "pensamiento lento" se refiere al razonamiento durante la inferencia
- Esta evolución está dando lugar a un nuevo tipo de aplicaciones de agentes
A medida que se estabiliza la capa base del mercado de IA generativa, un pequeño grupo de grandes actores como Microsoft/OpenAI, AWS/Anthropic, Meta y Google/DeepMind está liderando el mercado
- Solo los grandes actores con motores económicos y enormes cantidades de capital siguen en competencia
- La estructura misma del mercado se está consolidando, y la predicción del next-token será barata y abundante
A medida que se estabiliza la estructura del mercado de LLM, surge una nueva frontera
- El enfoque está puesto en desarrollar y escalar una capa de razonamiento donde se prioriza la forma de pensar de "sistema 2"
- Inspirada en modelos como AlphaGo, esta capa busca dotar a los sistemas de IA de razonamiento cuidadoso, resolución de problemas y funciones cognitivas que van más allá de la simple coincidencia de patrones
- Nuevas arquitecturas cognitivas e interfaces de usuario están moldeando la forma en que estas capacidades de razonamiento se transmiten al usuario y permiten la interacción

Strawberry Fields Forever

La actualización de modelo más importante de 2024 es o1 de OpenAI (antes conocido como Q* y también llamado Strawberry)
- Esto no solo significa que OpenAI volvió a colocarse en la parte alta del leaderboard de calidad de modelos, sino que también representa una mejora significativa sobre la arquitectura predominante
- En concreto, es el primer modelo con una verdadera "capacidad de razonamiento general" lograda mediante cómputo en tiempo de inferencia
Modelos preentrenados vs. cómputo en tiempo de inferencia
- Los modelos preentrenados realizan next token prediction usando enormes cantidades de datos
- La propiedad emergente de la escala es un razonamiento básico, pero ese razonamiento es muy limitado
- El cómputo en tiempo de inferencia significa pedirle al modelo que se detenga y piense antes de dar una respuesta
- Para ello, se requiere más cómputo durante la inferencia
- La parte de "detenerse y pensar" es precisamente el razonamiento

Comparación entre AlphaGo y los LLM

AlphaGo creó uno de los momentos más importantes en la historia del deep learning al enfrentarse a la leyenda del baduk Lee Sedol en Seúl en marzo de 2016
- AlphaGo mostró al mundo una IA que "piensa", algo que va más allá de simplemente imitar patrones
Diferencias entre AlphaGo y los sistemas de IA para juegos anteriores
- Al igual que los LLM, AlphaGo fue preentrenado para imitar a expertos humanos mediante una base de datos de alrededor de 30 millones de jugadas de partidas anteriores y autojuego
- Sin embargo, en lugar de ofrecer una respuesta inmediata salida del modelo preentrenado, AlphaGo se toma tiempo para detenerse y pensar
- Durante la inferencia, AlphaGo ejecuta búsquedas o simulaciones sobre una amplia gama de posibles escenarios futuros, evalúa esos escenarios y luego responde con el escenario (o respuesta) de mayor valor esperado
- Cuanto más tiempo se le da a AlphaGo, mejor es su desempeño
- Sin cómputo en tiempo de inferencia, AlphaGo no puede vencer a los mejores jugadores humanos
Por qué es difícil replicar AlphaGo en los LLM
- Es difícil construir una función de valor (value function) que evalúe las respuestas
- En baduk, se puede simular la partida hasta el final y ver quién gana, y luego calcular el valor esperado de la siguiente jugada
- En programación, se puede probar el código y verificar si funciona
- Pero es difícil evaluar cosas como un borrador de ensayo, un itinerario de viaje o un resumen de términos clave de un documento largo
- Esa es la razón por la que, con las metodologías actuales, el razonamiento es difícil, y también por la que Strawberry es relativamente fuerte en áreas cercanas a la lógica (como programación, matemáticas y ciencia), pero no tanto en dominios abiertos y no estructurados (como la escritura)
Investigación para mejorar la capacidad de razonamiento del modelo Strawberry
- Aunque la implementación real de Strawberry está fuertemente protegida, la idea central está relacionada con aprendizaje por refuerzo sobre las cadenas de pensamiento generadas por el modelo
- Auditar las cadenas de pensamiento del modelo sugiere que está ocurriendo algo fundamental e interesante, similar a la forma en que los humanos piensan y razonan
- Por ejemplo, o1 está mostrando la capacidad de retroceder cuando se atasca, como una propiedad emergente del escalado en tiempo de inferencia
- También muestra la capacidad de pensar sobre problemas como lo haría un humano (por ejemplo, visualizar puntos en una esfera para resolver un problema de geometría) y de pensar sobre problemas de maneras nuevas (por ejemplo, resolver problemas de concursos de programación de una forma distinta a la humana)
- El equipo de investigación tiene muchas ideas para hacer avanzar el cómputo en tiempo de inferencia, como nuevos métodos para calcular funciones de recompensa y nuevas formas de cerrar la brecha entre generator y verifier, con el fin de mejorar la capacidad de razonamiento del modelo
- En otras palabras, el aprendizaje por refuerzo profundo vuelve a cobrar protagonismo, y en conjunto está haciendo posible una nueva capa de razonamiento

Salto del System 1 al System 2 Thinking

El salto desde respuestas instintivas preentrenadas ("sistema 1") hacia un razonamiento más profundo y deliberado ("sistema 2") es la próxima frontera de la IA
No basta con que un modelo simplemente sepa algo
El modelo necesita detenerse, evaluar y razonar para tomar decisiones en tiempo real
El preentrenamiento corresponde a la capa de sistema 1
- Ya sea aprendiendo millones de jugadas de baduk en AlphaGo o petabytes de texto a escala de internet en un LLM, el objetivo del preentrenamiento es imitar patrones como el juego humano o el lenguaje
- Pero la imitación, por poderosa que sea, no es verdadero razonamiento
- En especial, no puede pensar adecuadamente ante situaciones complejas y nuevas que quedan fuera del dataset de entrenamiento
El pensamiento de sistema 2 es el foco de la investigación más reciente en IA
- Cuando el modelo "se detiene y piensa", no solo genera patrones aprendidos ni escupe predicciones basadas en datos pasados
- Genera un rango de posibilidades, considera resultados potenciales y toma decisiones basadas en razonamiento
Uso adecuado del pensamiento de sistema 1 y sistema 2
- Para muchas tareas, el pensamiento de sistema 1 es suficiente (por ejemplo, pensar más tiempo no ayuda a responder cuál es la capital de Bután)
- Pero en problemas más complejos, como avances en matemáticas o biología, una respuesta rápida e instintiva no basta
- Ese tipo de progreso requiere pensamiento profundo, resolución creativa de problemas y, sobre todo, tiempo
- Lo mismo ocurre con la IA. Para resolver los problemas más difíciles y significativos, debe ir más allá de respuestas rápidas dentro del dataset de entrenamiento y dedicar tiempo a producir el razonamiento reflexivo que define el progreso humano

Nueva ley de escalado: comienza la competencia por el razonamiento

La idea más importante del paper de o1 de OpenAI es que ha aparecido una nueva ley de escalado
La ley de escalado del preentrenamiento de LLM
- El preentrenamiento de LLM sigue una ley de escalado bien entendida
- Cuanto más cómputo y datos se usen en el preentrenamiento del modelo, mejor será el desempeño
La nueva ley de escalado del cómputo en tiempo de inferencia
- El paper de o1 abrió una nueva dimensión para expandir el cómputo
- Cuanto más tiempo de inferencia (o cómputo en "test time") se le dé al modelo, mejor será su capacidad de razonamiento
¿Qué pasaría si un modelo pudiera pensar durante horas, días o décadas?
- ¿Podría resolver la hipótesis de Riemann?
- ¿Podría responder la última pregunta de Asimov?
Cambio de grandes clústeres de preentrenamiento hacia la nube de inferencia
- Este cambio nos moverá del mundo de los grandes clústeres de preentrenamiento al de la nube de inferencia
- La nube de inferencia es un entorno capaz de escalar el cómputo dinámicamente según la complejidad de la tarea

¿Un solo modelo llegará a dominarlo todo?

¿Qué ocurrirá a medida que OpenAI, Anthropic, Google y Meta expandan la capa de razonamiento y desarrollen máquinas de razonamiento más potentes?
¿Un solo modelo llegará a dominarlo todo?
Una hipótesis era que una sola empresa de modelos se volvería tan poderosa que absorbería a todas las demás aplicaciones
- Hasta ahora, esta predicción ha resultado equivocada en dos aspectos
- Primero, en la capa de modelos hay muchos competidores que compiten constantemente por capacidades SOTA
  - Es posible que alguien logre una mejora continua de sí mismo mediante autoaprendizaje amplio en múltiples dominios y consiga despegar, pero todavía no hay evidencia de eso
  - Más bien, la capa de modelos es un campo de competencia feroz, y el precio por token de GPT-4 ha caído 98% desde el último Developer Day
- Segundo, los modelos están teniendo dificultades para avanzar hacia la capa de aplicaciones
  - Salvo ChatGPT, en general los modelos no han logrado consolidarse como productos revolucionarios en la capa de aplicaciones
  - Porque el mundo real es complejo
  - Los grandes investigadores no quieren entender flujos de trabajo detallados end-to-end para cada función posible de cada mercado vertical posible
  - Para los investigadores, resulta atractivo y económicamente razonable detenerse en la API y dejar la complejidad del mundo real al ecosistema de desarrolladores
  - Esto es una buena noticia para la capa de aplicaciones

El mundo real complejo: la necesidad de arquitecturas cognitivas personalizadas

La forma en que, como científico, planeas y ejecutas acciones para alcanzar un objetivo es muy distinta de la forma en que trabajas como ingeniero de software
Incluso la manera de trabajar como ingeniero de software también varía entre distintas empresas
Aunque los laboratorios siguen empujando más los límites del razonamiento horizontal de propósito general, todavía se necesita razonamiento específico de aplicación o de dominio para ofrecer agentes de IA realmente útiles
El complejo mundo real requiere una cantidad considerable de razonamiento específico de dominio y de aplicación que no puede codificarse eficientemente en un modelo general
La aparición de la arquitectura cognitiva
- La arquitectura cognitiva se refiere a la forma en que piensa un sistema: el flujo de código e interacciones con modelos que toma la entrada del usuario para ejecutar acciones o generar respuestas
- Por ejemplo, en Factory, cada producto "droid" tiene una arquitectura cognitiva personalizada que imita cómo piensa un humano para resolver tareas específicas, como revisar pull requests o redactar y ejecutar planes de migración para actualizaciones de servicios entre backends
- Los droids de Factory analizan todas las dependencias, proponen cambios de código relevantes, agregan pruebas unitarias e incorporan a una persona para la revisión
- Luego, tras la aprobación, ejecutan los cambios en todos los archivos del entorno de desarrollo y, si pasan todas las pruebas, fusionan el código
- Esto se parece a la forma humana de pensar, compuesta por una serie de tareas separadas, en lugar de una sola respuesta generalizada y tipo caja negra

¿Qué está pasando en App?

Si quieres iniciar un negocio de IA, ¿a qué capa deberías apuntar?
- Para competir en la capa de infraestructura, hay que vencer a NVIDIA y a los hyperscalers
- Para competir en la capa de modelos, hay que vencer a OpenAI y a Mark Zuckerberg
- Para competir en la capa de aplicaciones, hay que vencer a TI empresarial y a los integradores globales de sistemas
- La competencia en la capa de aplicaciones parece la más viable
La oportunidad en la capa de aplicaciones
- Los modelos fundacionales parecen magia, pero también son complejos
- Las empresas tradicionales no pueden lidiar con cajas negras, alucinaciones y flujos de trabajo torpes
- Los consumidores ven un prompt vacío y no saben qué pedir
- Esa es la oportunidad de la capa de aplicaciones
Hace dos años, muchas empresas de la capa de aplicaciones eran criticadas por ser "solo wrappers sobre GPT-3"
- Hoy, esos wrappers han demostrado ser una de las pocas formas sanas de construir valor sostenible
- Lo que comenzó como un "wrapper" evolucionó hacia una "arquitectura cognitiva"
Características de las empresas de IA de la capa de aplicaciones
- No se trata simplemente de poner una UI encima de un modelo fundacional
- Por lo general, cuentan con una arquitectura cognitiva sofisticada que incluye:
  - múltiples modelos fundacionales con algún tipo de mecanismo de enrutamiento en la parte superior
  - bases de datos vectoriales y/o de grafos para RAG
  - guardrails para garantizar el cumplimiento
  - lógica de aplicación que imita la forma de razonar a través de flujos de trabajo

Service-as-a-Software

La transición a la nube fue "Software-as-a-Service". Las empresas de software se convirtieron en proveedores de servicios en la nube, y eso representó una oportunidad de 350 mil millones de dólares
Gracias al razonamiento de agentes, la transición de la IA es "Service-as-a-Software". Las empresas de software están convirtiendo la fuerza laboral en software
Esto significa que el mercado objetivo no es el mercado de software, sino el mercado de servicios de varios billones de dólares
Lo que significa vender trabajo
- Una buena muestra de esto es la empresa Sierra
- Las empresas B2C implementan Sierra en sus sitios web para conversar con sus clientes
- El job-to-be-done es resolver los problemas de los clientes
- Sierra cobra por cada caso resuelto
- No existe algo como un "seat". Tú tienes un trabajo que debe hacerse, Sierra se encarga de ese trabajo y cobra en consecuencia
- Ese es el verdadero norte de muchas empresas de IA
La ventaja de Sierra y los desafíos de otras compañías
- Sierra tiene la ventaja de un modo de falla elegante (escalar a un agente humano)
- No todas las empresas tienen esa suerte
- El nuevo patrón consiste en desplegar primero con piloto humano (human-in-the-loop) y luego aprovechar esa experiencia para encontrar oportunidades de despliegue en piloto automático (human-out-of-the-loop)
- GitHub Copilot es un buen ejemplo de esto

Empieza a surgir un nuevo tipo de aplicaciones de agentes

Con las nuevas capacidades de razonamiento de la IA generativa, empieza a surgir un nuevo tipo de aplicaciones de agentes
Curiosamente, estas empresas de la capa de aplicaciones se ven distintas de las anteriores empresas de la nube:
- Las empresas de la nube apuntaban a ingresos de software, mientras que las empresas de IA apuntan a ingresos de servicios
- Las empresas de la nube vendían software ($/seat), mientras que las empresas de IA venden trabajo ($/resultado)
- Las empresas de la nube favorecían un enfoque bottom-up con distribución sin fricción, mientras que las empresas de IA adoptan cada vez más un enfoque top-down con modelos de entrega high-touch y high-trust
Ejemplos de aplicaciones de agentes que están surgiendo en todos los sectores de la economía del conocimiento
- Harvey: abogado de IA
- Glean: asistente de trabajo con IA
- Factory: ingeniero de software con IA
- Abridge: documentalista médico con IA
- XBOW: pentester con IA
- Sierra: agente de soporte al cliente con IA
Al reducir el costo marginal de prestar estos servicios a un nivel similar al de la fuerte caída en los costos de razonamiento, las aplicaciones de agentes están expandiendo y creando nuevos mercados
XBOW es un buen ejemplo:
- XBOW está creando un "pentester" de IA
- Un "pentest" o prueba de penetración es un ciberataque simulado contra un sistema informático que una empresa realiza para evaluar sus propios sistemas de seguridad
- Antes de la IA generativa, como el pentesting humano era caro (trabajo manual realizado por personal especializado), las empresas solo contrataban pentesters en situaciones limitadas, por ejemplo cuando era necesario para cumplimiento
- Sin embargo, XBOW ahora está demostrando pentests automatizados basados en los LLM de razonamiento más avanzados, con un desempeño comparable al de los pentesters humanos más capacitados
- Esto amplía el mercado del pentesting y abre la posibilidad de pruebas continuas para empresas de todos los tamaños y tipos

¿Qué impacto tiene esto en la industria del SaaS?

Cuando nos reunimos con LPs a principios de este año, la pregunta que más recibimos fue: “¿La transición a la IA va a destruir a las empresas de nube existentes?”
Empezamos con una suposición base firme: “No”
- La pelea clásica entre startups y empresas establecidas se parece a una carrera en la que las startups construyen distribución y las incumbentes construyen producto
- ¿Podrán las empresas jóvenes con productos geniales llegar a los clientes antes de que las empresas establecidas, que ya son dueñas del cliente, lancen productos geniales?
- Dado que la mayor parte de la magia de la IA proviene de los modelos fundacionales, nuestra suposición base era “No”
- Las empresas establecidas tienen tanto acceso a los modelos fundacionales como las startups, y además cuentan con las ventajas existentes de datos y distribución, por lo que les irá bien
- La principal oportunidad para las startups no es reemplazar a las empresas de software existentes, sino atacar el conjunto de tareas que pueden automatizarse
Pero ya no estamos tan seguros
- Véase lo mencionado arriba sobre arquitecturas cognitivas
- Hace falta una enorme cantidad de ingeniería para convertir las capacidades brutas de los modelos en soluciones de negocio end-to-end convincentes y confiables
- ¿Estaremos subestimando drásticamente lo que significa ser “AI native”?
Hace 20 años, las empresas de software on-premise se burlaban de la idea de SaaS
- “No es gran cosa. ¡Nosotros también podemos operar nuestros propios servidores y ofrecer esto por internet!”
- Conceptualmente era simple, pero después vino una reinvención total del negocio:
  - EPD pasó del modelo en cascada y los PRD al desarrollo ágil y las pruebas AB
  - GTM pasó de ventas enterprise top-down y cenas con steak a PLG bottom-up y analítica de producto
  - El modelo de negocio pasó de ASP altos y flujos de mantenimiento a NDR alto y precios basados en uso
- Muy pocas empresas on-premise lograron hacer la transición con éxito
¿Podría la IA ser un punto de inflexión similar al de SaaS? ¿La oportunidad de la IA podría consistir en vender trabajo mientras al mismo tiempo reemplaza software?
Con Day.ai, pudimos echar un vistazo al futuro
- Day es un CRM AI native
- Los integradores de sistemas ganan miles de millones de dólares configurando Salesforce según las necesidades de sus clientes
- Day genera automáticamente un CRM perfectamente adaptado al negocio del cliente solo con acceso al correo y al calendario, además de las respuestas a un cuestionario de una página
- Todavía no tiene todas las funciones, pero la magia de un CRM autogenerado que siempre se mantiene actualizado sin intervención humana ya está haciendo que la gente decida cambiarse

Industria de inversión

¿En qué están dedicando su tiempo y su capital los inversionistas?
Infraestructura
- Esta área pertenece a los hyperscalers
- Está impulsada más por comportamientos de teoría de juegos que por análisis económicos
- No es un espacio adecuado para inversionistas de venture capital
Modelos
- Es un área donde participan hyperscalers e inversionistas financieros (FI)
- Los hyperscalers invierten aprovechando el balance de sus activos para obtener retornos que luego vuelven como gasto de cómputo en el negocio cloud
- Los inversionistas financieros están influidos por un sesgo de “admiración por la ciencia”
- Estos modelos son muy interesantes y los equipos son excelentes, pero se ignora la lógica económica
Herramientas para desarrolladores y software de infraestructura
- Menos interesantes para inversionistas estratégicos, pero más atractivos para inversionistas de venture capital
- Durante la transición a la nube, en esta capa surgieron unas 15 empresas con ingresos superiores a 1.000 millones de dólares
- Se espera que ocurra algo similar en la transición a la IA
Aplicaciones
- La capa más interesante para los inversionistas de venture capital
- Durante la transición a la nube, surgieron unas 20 empresas de la capa de aplicaciones con ingresos superiores a 1.000 millones de dólares
- En la transición móvil apareció una cantidad similar de empresas, y se espera una tendencia parecida en esta transición a la IA

Reflexiones finales

En la siguiente etapa de la IA generativa, se espera que el impacto de la I+D de razonamiento se propague rápida y profundamente hacia la capa de aplicaciones
Las arquitecturas cognitivas existentes incluían principalmente técnicas de “deslimitación” (unhobbling), pero ahora estas capacidades se están incorporando al propio modelo, por lo que se espera que las aplicaciones basadas en agentes se vuelvan más sofisticadas y robustas
En los laboratorios, el cómputo de Reasoning e Inference-Time seguirá siendo un tema importante, y ahora que han aparecido nuevas leyes de escalamiento, comienza la próxima competencia
Sin embargo, en dominios específicos sigue siendo difícil recopilar datos del mundo real y codificar arquitecturas cognitivas especializadas para el dominio y la aplicación
Los proveedores de aplicaciones de last mile podrían tener ventaja para resolver estos problemas
En adelante, podrían aparecer sistemas multiagente como Droid de Factory y expandirse como una forma de modelar procesos de razonamiento y aprendizaje social
Se espera que los sistemas multiagente puedan lograr más trabajo al formar equipos capaces de manejar varias tareas al mismo tiempo
El momento que muchas personas esperan es el ‘Move 37’ de la IA generativa, es decir, el momento en que un sistema de IA general muestre un comportamiento superhumano e inesperado, como lo hizo AlphaGo en su partida contra Lee Sedol
Que llegue ese momento no significa que la IA “adquiera conciencia”, pero sí que podría tener la capacidad de simular los procesos de percepción, razonamiento y acción para explorar de formas originales y útiles
Esto podría ser AGI (autonomía completa de la inteligencia artificial), y no sería un evento único, sino algo que conduciría a la siguiente etapa de la tecnología

4 comentarios

lsw4uto 2024-11-11

Espero con interés ver qué problemas podremos resolver con una inteligencia artificial cada vez más inteligente.

aer0700 2024-10-27

Si un modelo pudiera pensar durante mucho tiempo y resolver la hipótesis de Riemann, el impacto sería enorme.

pmc7777 2024-10-21

Para competir en la capa de modelos, hay que vencer a OpenAI y a Mark Zuckerberg

Me da un poco de risa que mencionen a Zuckerberg y no a Meta jajaja

kotzen 2024-10-21

Por si acaso, como no aparece explícitamente en el resumen, lo escribo aquí: el sistema 1 y el sistema 2 son conceptos que aparecen en el libro Pensar rápido, pensar despacio. Sistema 1: pensamiento rápido que lleva a actuar de forma inconsciente o intuitiva, sin reflexionar en profundidad; p. ej., conducir, caminar. Sistema 2: pensamiento lento que requiere razonar lógicamente y pensar con detenimiento; p. ej., cálculo mental.