Definición de la pila moderna de IA
- Capa 1: Cómputo y modelos fundacionales - Incluye los propios modelos fundacionales y la infraestructura para entrenarlos, afinarlos, optimizarlos e implementarlos
- Capa 2: Datos - Incluye la infraestructura que conecta los LLM con el contexto adecuado dentro de los sistemas de datos empresariales, e incorpora componentes clave como preprocesamiento de datos, ETL y pipelines de datos, bases de datos vectoriales, almacenes de metadatos y cachés de contexto
- Capa 3: Implementación - Incluye herramientas que ayudan a los desarrolladores a gestionar y orquestar aplicaciones de IA. Frameworks de agentes, gestión de prompts, enrutamiento y orquestación de modelos
- Capa 4: Observabilidad - Incluye soluciones para monitorear el comportamiento en tiempo de ejecución de los LLM y protegerlos contra amenazas
La nueva curva de madurez de la IA
- La estructura del mercado y las tecnologías que definen la pila moderna de IA están evolucionando rápidamente, y ya han surgido componentes clave y líderes del sector
- Antes de los LLM, el desarrollo de ML era lineal y “centrado en el modelo”, pero los LLM impulsaron un cambio hacia un enfoque “centrado en el producto”, permitiendo que equipos sin experiencia especializada en ML integren IA en sus productos
- A medida que la pila de IA madura, los equipos de desarrollo buscan personalizar la experiencia de IA mediante datos específicos de la empresa o del cliente
- Curva de madurez de la IA
- Etapa 1: Closed-source models only solo modelos cerrados
- A inicios de 2023, el costo y el esfuerzo de ingeniería se concentraban principalmente en el propio modelo fundacional, con solo personalizaciones simples encima de él, como prompt engineering o aprendizaje tipo few-shot
- Proveedores líderes de modelos cerrados como OpenAI y Anthropic obtuvieron tracción temprana en esta etapa y se consolidaron como los primeros ganadores de la pila moderna de IA
- Etapa 2: Retrieval-augmented generation generación aumentada por recuperación
- El enfoque pasó a la capa de datos como centro del esfuerzo de las aplicaciones de IA, en lugar de la capa de modelos
- En particular, la popularización de RAG requiere una infraestructura de capa de datos más robusta, como la base de datos vectorial Pinecone y el motor de preprocesamiento de datos Unstructured
- La mayoría de las empresas y startups están actualmente en esta etapa
- Etapa 3: Hybrid model deployment implementación de modelos híbridos
- Empresas líderes como Typeface y Descript comenzaron a complementar el uso de modelos cerrados con open source para tareas especializadas de gran volumen
- Proveedores de implementación de modelos como Modal, Baseten y Fireworks empezaron a ganar una tracción considerable
- Etapa 4 y más allá: Custom models modelos personalizados
- Todavía hay pocas empresas lo suficientemente avanzadas como para construir sus propios modelos, o que realmente necesiten hacerlo, pero en el futuro aumentarán los casos de uso en grandes empresas que quieran aprovechar la pila en mayor profundidad
- Empresas como Predibase y Lamini, que ofrecen herramientas para fine-tuning con eficiencia de memoria —incluyendo cuantización de 4 bits, QLoRA y paginación/offload de memoria— ayudarán a habilitar esta etapa
Cuatro principios clave de diseño para la nueva pila de infraestructura de IA
- La revolución de la IA no solo está detonando demanda por una nueva pila de infraestructura, sino que también está reconfigurando la forma en que las empresas abordan el desarrollo de aplicaciones, el gasto en I+D y la composición de los equipos
- Principios clave de diseño:
- 1. La mayor parte del gasto se destina a inferencia y entrenamiento
- Al inicio de la revolución de los LLM, parecía que todas las empresas podrían algún día entrenar su propio modelo de lenguaje a gran escala
- Modelos como BloombergGPT, anunciado en marzo de 2023 (un LLM de 50b entrenado específicamente con datos financieros), se veían como un anticipo de una avalancha de LLM empresariales y verticales
- Pero esa avalancha no ocurrió
- Según una encuesta reciente de Menlo Ventures sobre IA empresarial, casi el 95% del gasto total en IA se está destinando al tiempo de ejecución y al preentrenamiento
- Esta proporción solo se invierte en proveedores de modelos fundacionales a gran escala como Anthropic. En la capa de aplicaciones, incluso constructores sofisticados de IA como Writer destinan más del 80% de su cómputo a inferencia, no a entrenamiento
- 2. Vivimos en un mundo multi-modelo
- Ningún modelo único puede “gobernarlos a todos”
- El 60% de las empresas usa varios modelos y enruta los prompts hacia el modelo con mejor desempeño
- Un enfoque multi-modelo elimina la dependencia de un solo modelo, ofrece mayor control y reduce costos
- 3. RAG es el enfoque arquitectónico dominante
- Los LLM son excelentes motores de razonamiento, pero tienen conocimiento limitado del dominio y de la empresa
- Para crear experiencias de IA útiles, los equipos están implementando rápidamente técnicas de aumento de conocimiento, comenzando por retrieval-augmented generation (RAG)
- RAG le da “memoria” específica de la empresa al modelo base mediante bases de datos vectoriales como Pinecone
- Esta técnica va muy por delante de otras formas de personalización hoy en producción, como fine-tuning, low-rank adaptation o adapters, que operan principalmente en la capa del modelo y no en la capa de datos
- Esta tendencia continuará, y se espera que nuevas partes del plano de datos —incluidos motores de preprocesamiento de datos (por ejemplo, Cleanlab) y pipelines ETL (por ejemplo, Unstructured)— se integren en la arquitectura de tiempo de ejecución
- 4. Ahora todos los desarrolladores son desarrolladores de IA
- A nivel mundial hay 30 millones de desarrolladores, pero solo 300 mil ingenieros de ML y 30 mil investigadores de ML
- Entre quienes están impulsando la innovación en la frontera del ML, se estima que solo unas 50 personas en todo el mundo saben cómo construir sistemas al nivel de GPT-4 o Claude 2
- Frente a esta realidad, la buena noticia es que tareas que antes requerían años de investigación básica y conocimiento sofisticado de ML ahora pueden ser completadas en días o semanas por desarrolladores convencionales que construyen sistemas de datos sobre LLM preentrenados potentes
- Productos como Einstein GPT de Salesforce (AI CoPilot para ventas) e Intuit Assist (asistente financiero basado en IA generativa) fueron construidos principalmente por equipos ligeros compuestos por ingenieros de IA, es decir, ingenieros full stack tradicionales que trabajan en el plano de datos de la pila moderna de IA
Próximos pasos
- La pila moderna de IA está evolucionando rápidamente, y hay varios desarrollos que se espera continúen este año
- Las aplicaciones de IA de próxima generación están probando RAG más avanzado
- RAG es el rey hoy, pero este enfoque no está exento de problemas
- Muchas implementaciones siguen usando técnicas ingenuas de embeddings y recuperación, incluyendo fragmentación de documentos basada en cantidad de tokens, indexación ineficiente y algoritmos de ranking deficientes
- Presentan problemas como fragmentación de contexto, alucinaciones, rareza de entidades y recuperación ineficiente
- Para resolver esto, las arquitecturas de próxima generación están probando RAG más avanzado: razonamiento Chain-Of-Thought, razonamiento Tree-Of-Thought, Reflexion y recuperación basada en reglas
- Los modelos pequeños tendrán un papel más importante en la pila moderna de IA
- A medida que los desarrolladores de aplicaciones de IA profundicen más en la pila moderna de IA, se espera un aumento de modelos más granulares y específicos por tarea
- Se expandirán los modelos afinados para tareas concretas en áreas donde los modelos cerrados más grandes son difíciles de manejar o demasiado costosos
- La infraestructura para construir pipelines de ML y hacer fine-tuning será muy importante en esta etapa, a medida que las empresas creen sus propios modelos específicos por tarea
- Las técnicas de cuantización ofrecidas por Ollama y ggml ayudarán a los equipos a aprovechar al máximo las mejoras de velocidad que ofrecen los modelos pequeños
- Están surgiendo nuevas herramientas para observabilidad y evaluación de modelos
- Durante la mayor parte de 2023, el logging y la evaluación o no se realizaban, o se hacían manualmente, o se apoyaban en benchmarks académicos que suelen ser el punto de partida de la mayoría de las aplicaciones empresariales
- Según una investigación de Criteo, cerca del 70% de las empresas que adoptaron IA revisan los resultados mediante evaluación humana como técnica principal, debido al alto nivel de riesgo
- Los clientes esperan resultados de alta calidad y tienen derecho a ello, y las empresas saben bien que pueden perder la confianza del cliente por culpa de las alucinaciones
- Por eso, la observabilidad y la evaluación representan una oportunidad clave para nuevas herramientas
- Ya están apareciendo enfoques prometedores como Braintrust, Patronus, Log10 y AgentOps
- La arquitectura se moverá hacia lo serverless
- Como ocurre con otros sistemas de datos empresariales, la pila moderna de IA está avanzando hacia un modelo serverless con el tiempo
- Aquí se distingue entre un serverless tipo “máquinas temporales” (por ejemplo, funciones lambda) y un verdadero serverless scale-to-zero (por ejemplo, la arquitectura de Neon para Postgres)
- En el caso del serverless scale-to-zero, al abstraer la infraestructura, los desarrolladores reducen la complejidad operativa de ejecutar aplicaciones, pueden iterar más rápido, y las empresas solo pagan por disponibilidad frente al cómputo, logrando una optimización significativa de recursos
- El paradigma serverless se aplicará a todas las partes de la pila moderna de IA
- Pinecone adoptó este enfoque como arquitectura moderna para cómputo vectorial
- Neon hace lo mismo para Postgres, Momento para caching, y Baseten y Modal para inferencia
6 comentarios
Buen artículo y entretenido.
https://es.news.hada.io/topic?id=6658 Neon - Postgres serverless de código abierto
Ojalá que en medio de los cambios se creen muchas oportunidades nuevas~
En una buena dirección
¿De verdad solo hay unos 30 millones de desarrolladores en todo el mundo??
Según un informe de Evans Data Corporation que suele citarse mucho, para 2022 eran alrededor de 26.3 millones.
https://www.evansdata.com/press/viewRelease.php?pressID=339
Aunque los desarrolladores que usan GitHub ya superaron los 100 millones, parece difícil considerar que todos sean desarrolladores.
https://github.blog/2023-01-25-100-million-developers-and-counting/
Ya veo, es menos de lo que pensaba. Mientras tanto, busqué la población mundial y resulta que es de 7.8 mil millones de personas... ¿en qué momento aumentó tanto? jaja