La pila moderna de IA: principios de diseño para el futuro de las arquitecturas de IA empresarial

xguru · 2024-01-29T11:05:01+09:00

Definición de la pila moderna de IA Capa 1: Cómputo y modelos fundacionales - Incluye los propios modelos fundacionales y la infraestructura para entrenarlos, afinarlos, optimizarlos e implementarlos Capa 2: Datos - Incluye la infraestructura que conecta los LLM con el contexto adecuado dentro de los sistemas de datos empresariales, e incorpora componentes clave como preprocesamiento de datos, ETL y pipelines de datos, bases de datos vectoriales, almacenes de metadatos y cachés de contexto Capa 3: Implementación - Incluye herramientas que ayudan a los desarrolladores a gestionar y orquestar aplicaciones de IA. Frameworks de agentes, gestión de prompts, enrutamiento y orquestación de modelos Capa 4: Observabilidad - Incluye soluciones para monitorear el comportamiento en tiempo de ejecución de los LLM y protegerlos contra amenazas La nueva curva de madurez de la IA La estructura del mercado y las tecnologías que definen la pila moderna de IA están evolucionando rápidamente, y ya han surgido componentes clave y líderes del sector Antes de los LLM, el desarrollo de ML era lineal y “centrado en el modelo”, pero los LLM impulsaron un cambio hacia un enfoque “centrado en el producto”, permitiendo que equipos sin experiencia especializada en ML integren IA en sus productos A medida que la pila de IA madura, los equipos de desarrollo buscan personalizar la experiencia de IA mediante datos específicos de la empresa o del cliente Curva de madurez de la IA Etapa 1: Closed-source models only solo modelos cerrados A inicios de 2023, el costo y el esfuerzo de ingeniería se concentraban principalmente en el propio modelo fundacional, con solo personalizaciones simples encima de él, como prompt engineering o aprendizaje tipo few-shot Proveedores líderes de modelos cerrados como OpenAI y Anthropic obtuvieron tracción temprana en esta etapa y se consolidaron como los primeros ganadores de la pila moderna de IA Etapa 2: Retrieval-augmented generation generación aumentada por recuperación El enfoque pasó a la capa de datos como centro del esfuerzo de las aplicaciones de IA, en lugar de la capa de modelos En particular, la popularización de RAG requiere una infraestructura de capa de datos más robusta, como la base de datos vectorial Pinecone y el motor de preprocesamiento de datos Unstructured La mayoría de las empresas y startups están actualmente en esta etapa Etapa 3: Hybrid model deployment implementación de modelos híbridos Empresas líderes como Typeface y Descript comenzaron a complementar el uso de modelos cerrados con open source para tareas especializadas de gran volumen Proveedores de implementación de modelos como Modal, Baseten y Fireworks empezaron a ganar una tracción considerable Etapa 4 y más allá: Custom models modelos personalizados Todavía hay pocas empresas lo suficientemente avanzadas como para construir sus propios modelos, o que realmente necesiten hacerlo, pero en el futuro aumentarán los casos de uso en grandes empresas que quieran aprovechar la pila en mayor profundidad Empresas como Predibase y Lamini, que ofrecen herramientas para fine-tuning con eficiencia de memoria —incluyendo cuantización de 4 bits, QLoRA y paginación/offload de memoria— ayudarán a habilitar esta etapa Cuatro principios clave de diseño para la nueva pila de infraestructura de IA La revolución de la IA no solo está detonando demanda por una nueva pila de infraestructura, sino que también está reconfigurando la forma en que las empresas abordan el desarrollo de aplicaciones, el gasto en I+D y la composición de los equipos Principios clave de diseño: 1. La mayor parte del gasto se destina a inferencia y entrenamiento Al inicio de la revolución de los LLM, parecía que todas las empresas podrían algún día entrenar su propio modelo de lenguaje a gran escala Modelos como BloombergGPT, anunciado en marzo de 2023 (un LLM de 50b entrenado específicamente con datos financieros), se veían como un anticipo de una avalancha de LLM empresariales y verticales Pero esa avalancha no ocurrió Según una encuesta reciente de Menlo Ventures sobre IA empresarial, casi el 95% del gasto total en IA se está destinando al tiempo de ejecución y al preentrenamiento Esta proporción solo se invierte en proveedores de modelos fundacionales a gran escala como Anthropic. En la capa de aplicaciones, incluso constructores sofisticados de IA como Writer destinan más del 80% de su cómputo a inferencia, no a entrenamiento 2. Vivimos en un mundo multi-modelo Ningún modelo único puede “gobernarlos a todos” El 60% de las empresas usa varios modelos y enruta los prompts hacia el modelo con mejor desempeño Un enfoque multi-modelo elimina la dependencia de un solo modelo, ofrece mayor control y reduce costos 3. RAG es el enfoque arquitectónico dominante Los LLM son excelentes motores de razonamiento, pero tienen conocimiento limitado del dominio y de la empresa Para crear experiencias de IA útiles, los equipos están implementando rápidamente técnicas de aumento de conocimiento, comenzando por retrieval-augmented generation (RAG) RAG le da “memoria” específica de la empresa al modelo base mediante bases de datos vectoriales como Pinecone Esta técnica va muy por delante de otras formas de personalización hoy en producción, como fine-tuning, low-rank adaptation o adapters, que operan principalmente en la capa del modelo y no en la capa de datos Esta tendencia continuará, y se espera que nuevas partes del plano de datos —incluidos motores de preprocesamiento de datos (por ejemplo, Cleanlab) y pipelines ETL (por ejemplo, Unstructured)— se integren en la arquitectura de tiempo de ejecución 4. Ahora todos los desarrolladores son desarrolladores de IA A nivel mundial hay 30 millones de desarrolladores, pero solo 300 mil ingenieros de ML y 30 mil investigadores de ML Entre quienes están impulsando la innovación en la frontera del ML, se estima que solo unas 50 personas en todo el mundo saben cómo construir sistemas al nivel de GPT-4 o Claude 2 Frente a esta realidad, la buena noticia es que tareas que antes requerían años de investigación básica y conocimiento sofisticado de ML ahora pueden ser completadas en días o semanas por desarrolladores convencionales que construyen sistemas de datos sobre LLM preentrenados potentes Productos como Einstein GPT de Salesforce (AI CoPilot para ventas) e Intuit Assist (asistente financiero basado en IA generativa) fueron construidos principalmente por equipos ligeros compuestos por ingenieros de IA, es decir, ingenieros full stack tradicionales que trabajan en el plano de datos de la pila moderna de IA Próximos pasos La pila moderna de IA está evolucionando rápidamente, y hay varios desarrollos que se espera continúen este año Las aplicaciones de IA de próxima generación están probando RAG más avanzado RAG es el rey hoy, pero este enfoque no está exento de problemas Muchas implementaciones siguen usando técnicas ingenuas de embeddings y recuperación, incluyendo fragmentación de documentos basada en cantidad de tokens, indexación ineficiente y algoritmos de ranking deficientes Presentan problemas como fragmentación de contexto, alucinaciones, rareza de entidades y recuperación ineficiente Para resolver esto, las arquitecturas de próxima generación están probando RAG más avanzado: razonamiento Chain-Of-Thought, razonamiento Tree-Of-Thought, Reflexion y recuperación basada en reglas Los modelos pequeños tendrán un papel más importante en la pila moderna de IA A medida que los desarrolladores de aplicaciones de IA profundicen más en la pila moderna de IA, se espera un aumento de modelos más granulares y específicos por tarea Se expandirán los modelos afinados para tareas concretas en áreas donde los modelos cerrados más grandes son difíciles de manejar o demasiado costosos La infraestructura para construir pipelines de ML y hacer fine-tuning será muy importante en esta etapa, a medida que las empresas creen sus propios modelos específicos por tarea Las técnicas de cuantización ofrecidas por Ollama y ggml ayudarán a los equipos a aprovechar al máximo las mejoras de velocidad que ofrecen los modelos pequeños Están surgiendo nuevas herramientas para observabilidad y evaluación de modelos Durante la mayor parte de 2023, el logging y la evaluación o no se realizaban, o se hacían manualmente, o se apoyaban en benchmarks académicos que suelen ser el punto de partida de la mayoría de las aplicaciones empresariales Según una investigación de Criteo, cerca del 70% de las empresas que adoptaron IA revisan los resultados mediante evaluación humana como técnica principal, debido al alto nivel de riesgo Los clientes esperan resultados de alta calidad y tienen derecho a ello, y las empresas saben bien que pueden perder la confianza del cliente por culpa de las alucinaciones Por eso, la observabilidad y la evaluación representan una oportunidad clave para nuevas herramientas Ya están apareciendo enfoques prometedores como Braintrust, Patronus, Log10 y AgentOps La arquitectura se moverá hacia lo serverless Como ocurre con otros sistemas de datos empresariales, la pila moderna de IA está avanzando hacia un modelo serverless con el tiempo Aquí se distingue entre un serverless tipo “máquinas temporales” (por ejemplo, funciones lambda) y un verdadero serverless scale-to-zero (por ejemplo, la arquitectura de Neon para Postgres) En el caso del serverless scale-to-zero, al abstraer la infraestructura, los desarrolladores reducen la complejidad operativa de ejecutar aplicaciones, pueden iterar más rápido, y las empresas solo pagan por disponibilidad frente al cómputo, logrando una optimización significativa de recursos El paradigma serverless se aplicará a todas las partes de la pila moderna de IA Pinecone adoptó este enfoque como arquitectura moderna para cómputo vectorial Neon hace lo mismo para Postgres, Momento para caching, y Baseten y Modal para inferencia

(menlovc.com)

28 puntos por xguru 2024-01-29 | 6 comentarios | Compartir por WhatsApp

Definición de la pila moderna de IA

Capa 1: Cómputo y modelos fundacionales - Incluye los propios modelos fundacionales y la infraestructura para entrenarlos, afinarlos, optimizarlos e implementarlos
Capa 2: Datos - Incluye la infraestructura que conecta los LLM con el contexto adecuado dentro de los sistemas de datos empresariales, e incorpora componentes clave como preprocesamiento de datos, ETL y pipelines de datos, bases de datos vectoriales, almacenes de metadatos y cachés de contexto
Capa 3: Implementación - Incluye herramientas que ayudan a los desarrolladores a gestionar y orquestar aplicaciones de IA. Frameworks de agentes, gestión de prompts, enrutamiento y orquestación de modelos
Capa 4: Observabilidad - Incluye soluciones para monitorear el comportamiento en tiempo de ejecución de los LLM y protegerlos contra amenazas

La nueva curva de madurez de la IA

La estructura del mercado y las tecnologías que definen la pila moderna de IA están evolucionando rápidamente, y ya han surgido componentes clave y líderes del sector
Antes de los LLM, el desarrollo de ML era lineal y “centrado en el modelo”, pero los LLM impulsaron un cambio hacia un enfoque “centrado en el producto”, permitiendo que equipos sin experiencia especializada en ML integren IA en sus productos
A medida que la pila de IA madura, los equipos de desarrollo buscan personalizar la experiencia de IA mediante datos específicos de la empresa o del cliente
Curva de madurez de la IA
- Etapa 1: Closed-source models only solo modelos cerrados
  - A inicios de 2023, el costo y el esfuerzo de ingeniería se concentraban principalmente en el propio modelo fundacional, con solo personalizaciones simples encima de él, como prompt engineering o aprendizaje tipo few-shot
  - Proveedores líderes de modelos cerrados como OpenAI y Anthropic obtuvieron tracción temprana en esta etapa y se consolidaron como los primeros ganadores de la pila moderna de IA
- Etapa 2: Retrieval-augmented generation generación aumentada por recuperación
  - El enfoque pasó a la capa de datos como centro del esfuerzo de las aplicaciones de IA, en lugar de la capa de modelos
  - En particular, la popularización de RAG requiere una infraestructura de capa de datos más robusta, como la base de datos vectorial Pinecone y el motor de preprocesamiento de datos Unstructured
  - La mayoría de las empresas y startups están actualmente en esta etapa
- Etapa 3: Hybrid model deployment implementación de modelos híbridos
  - Empresas líderes como Typeface y Descript comenzaron a complementar el uso de modelos cerrados con open source para tareas especializadas de gran volumen
  - Proveedores de implementación de modelos como Modal, Baseten y Fireworks empezaron a ganar una tracción considerable
- Etapa 4 y más allá: Custom models modelos personalizados
  - Todavía hay pocas empresas lo suficientemente avanzadas como para construir sus propios modelos, o que realmente necesiten hacerlo, pero en el futuro aumentarán los casos de uso en grandes empresas que quieran aprovechar la pila en mayor profundidad
  - Empresas como Predibase y Lamini, que ofrecen herramientas para fine-tuning con eficiencia de memoria —incluyendo cuantización de 4 bits, QLoRA y paginación/offload de memoria— ayudarán a habilitar esta etapa

Cuatro principios clave de diseño para la nueva pila de infraestructura de IA

La revolución de la IA no solo está detonando demanda por una nueva pila de infraestructura, sino que también está reconfigurando la forma en que las empresas abordan el desarrollo de aplicaciones, el gasto en I+D y la composición de los equipos
Principios clave de diseño:
- 1. La mayor parte del gasto se destina a inferencia y entrenamiento
  - Al inicio de la revolución de los LLM, parecía que todas las empresas podrían algún día entrenar su propio modelo de lenguaje a gran escala
  - Modelos como BloombergGPT, anunciado en marzo de 2023 (un LLM de 50b entrenado específicamente con datos financieros), se veían como un anticipo de una avalancha de LLM empresariales y verticales
  - Pero esa avalancha no ocurrió
  - Según una encuesta reciente de Menlo Ventures sobre IA empresarial, casi el 95% del gasto total en IA se está destinando al tiempo de ejecución y al preentrenamiento
  - Esta proporción solo se invierte en proveedores de modelos fundacionales a gran escala como Anthropic. En la capa de aplicaciones, incluso constructores sofisticados de IA como Writer destinan más del 80% de su cómputo a inferencia, no a entrenamiento
- 2. Vivimos en un mundo multi-modelo
  - Ningún modelo único puede “gobernarlos a todos”
  - El 60% de las empresas usa varios modelos y enruta los prompts hacia el modelo con mejor desempeño
  - Un enfoque multi-modelo elimina la dependencia de un solo modelo, ofrece mayor control y reduce costos
- 3. RAG es el enfoque arquitectónico dominante
  - Los LLM son excelentes motores de razonamiento, pero tienen conocimiento limitado del dominio y de la empresa
  - Para crear experiencias de IA útiles, los equipos están implementando rápidamente técnicas de aumento de conocimiento, comenzando por retrieval-augmented generation (RAG)
  - RAG le da “memoria” específica de la empresa al modelo base mediante bases de datos vectoriales como Pinecone
  - Esta técnica va muy por delante de otras formas de personalización hoy en producción, como fine-tuning, low-rank adaptation o adapters, que operan principalmente en la capa del modelo y no en la capa de datos
  - Esta tendencia continuará, y se espera que nuevas partes del plano de datos —incluidos motores de preprocesamiento de datos (por ejemplo, Cleanlab) y pipelines ETL (por ejemplo, Unstructured)— se integren en la arquitectura de tiempo de ejecución
- 4. Ahora todos los desarrolladores son desarrolladores de IA
  - A nivel mundial hay 30 millones de desarrolladores, pero solo 300 mil ingenieros de ML y 30 mil investigadores de ML
  - Entre quienes están impulsando la innovación en la frontera del ML, se estima que solo unas 50 personas en todo el mundo saben cómo construir sistemas al nivel de GPT-4 o Claude 2
  - Frente a esta realidad, la buena noticia es que tareas que antes requerían años de investigación básica y conocimiento sofisticado de ML ahora pueden ser completadas en días o semanas por desarrolladores convencionales que construyen sistemas de datos sobre LLM preentrenados potentes
  - Productos como Einstein GPT de Salesforce (AI CoPilot para ventas) e Intuit Assist (asistente financiero basado en IA generativa) fueron construidos principalmente por equipos ligeros compuestos por ingenieros de IA, es decir, ingenieros full stack tradicionales que trabajan en el plano de datos de la pila moderna de IA

Próximos pasos

La pila moderna de IA está evolucionando rápidamente, y hay varios desarrollos que se espera continúen este año
Las aplicaciones de IA de próxima generación están probando RAG más avanzado
- RAG es el rey hoy, pero este enfoque no está exento de problemas
- Muchas implementaciones siguen usando técnicas ingenuas de embeddings y recuperación, incluyendo fragmentación de documentos basada en cantidad de tokens, indexación ineficiente y algoritmos de ranking deficientes
- Presentan problemas como fragmentación de contexto, alucinaciones, rareza de entidades y recuperación ineficiente
- Para resolver esto, las arquitecturas de próxima generación están probando RAG más avanzado: razonamiento Chain-Of-Thought, razonamiento Tree-Of-Thought, Reflexion y recuperación basada en reglas
Los modelos pequeños tendrán un papel más importante en la pila moderna de IA
- A medida que los desarrolladores de aplicaciones de IA profundicen más en la pila moderna de IA, se espera un aumento de modelos más granulares y específicos por tarea
- Se expandirán los modelos afinados para tareas concretas en áreas donde los modelos cerrados más grandes son difíciles de manejar o demasiado costosos
- La infraestructura para construir pipelines de ML y hacer fine-tuning será muy importante en esta etapa, a medida que las empresas creen sus propios modelos específicos por tarea
- Las técnicas de cuantización ofrecidas por Ollama y ggml ayudarán a los equipos a aprovechar al máximo las mejoras de velocidad que ofrecen los modelos pequeños
Están surgiendo nuevas herramientas para observabilidad y evaluación de modelos
- Durante la mayor parte de 2023, el logging y la evaluación o no se realizaban, o se hacían manualmente, o se apoyaban en benchmarks académicos que suelen ser el punto de partida de la mayoría de las aplicaciones empresariales
- Según una investigación de Criteo, cerca del 70% de las empresas que adoptaron IA revisan los resultados mediante evaluación humana como técnica principal, debido al alto nivel de riesgo
- Los clientes esperan resultados de alta calidad y tienen derecho a ello, y las empresas saben bien que pueden perder la confianza del cliente por culpa de las alucinaciones
- Por eso, la observabilidad y la evaluación representan una oportunidad clave para nuevas herramientas
- Ya están apareciendo enfoques prometedores como Braintrust, Patronus, Log10 y AgentOps
La arquitectura se moverá hacia lo serverless
- Como ocurre con otros sistemas de datos empresariales, la pila moderna de IA está avanzando hacia un modelo serverless con el tiempo
- Aquí se distingue entre un serverless tipo “máquinas temporales” (por ejemplo, funciones lambda) y un verdadero serverless scale-to-zero (por ejemplo, la arquitectura de Neon para Postgres)
- En el caso del serverless scale-to-zero, al abstraer la infraestructura, los desarrolladores reducen la complejidad operativa de ejecutar aplicaciones, pueden iterar más rápido, y las empresas solo pagan por disponibilidad frente al cómputo, logrando una optimización significativa de recursos
- El paradigma serverless se aplicará a todas las partes de la pila moderna de IA
- Pinecone adoptó este enfoque como arquitectura moderna para cómputo vectorial
- Neon hace lo mismo para Postgres, Momento para caching, y Baseten y Modal para inferencia

6 comentarios

hyeonseokoh94 2024-01-31

Buen artículo y entretenido.

galadbran 2024-01-30

https://es.news.hada.io/topic?id=6658 Neon - Postgres serverless de código abierto

kaistj 2024-01-30

Ojalá que en medio de los cambios se creen muchas oportunidades nuevas~
En una buena dirección

dlehals2 2024-01-29

¿De verdad solo hay unos 30 millones de desarrolladores en todo el mundo??

xguru 2024-01-29

Según un informe de Evans Data Corporation que suele citarse mucho, para 2022 eran alrededor de 26.3 millones.
https://www.evansdata.com/press/viewRelease.php?pressID=339

Aunque los desarrolladores que usan GitHub ya superaron los 100 millones, parece difícil considerar que todos sean desarrolladores.
https://github.blog/2023-01-25-100-million-developers-and-counting/