El auge de la infraestructura de datos para IA

(felicis.com)

16 puntos por xguru 2024-11-25 | Aún no hay comentarios. | Compartir por WhatsApp

"Estamos al comienzo de una nueva revolución industrial. En lugar de producir electricidad, producimos inteligencia artificial... el [código abierto] permite que todas las empresas puedan convertirse en empresas de inteligencia artificial" - Jensen Huang

Extraer información de documentos no es un concepto nuevo. Sin embargo, la IA generativa (GenAI) requiere grandes volúmenes de datos de alta calidad
Los datos son importantes tanto para el entrenamiento como para la inferencia, y no solo crecen en escala, sino que se expanden de texto y datos tabulares a video, imágenes y audio
También se observa un aumento en los datos espaciales, como imágenes satelitales y datos de sensores robóticos
¿Cuáles son las nuevas áreas dentro de la capa de datos que la IA puede reinventar de forma más inmediata?
- extracción y pipelines de datos no estructurados, Retrieval-Augmented Generation (RAG), curación de datos, almacenamiento de datos, memoria de inteligencia artificial
El propósito de este artículo es analizar el panorama de la infraestructura de datos para IA, compartir las tendencias más recientes y hablar sobre las áreas de innovación más prometedoras

Estado actual de la infraestructura de datos para IA

Se busca visualizar de forma sencilla el flujo de datos en la cadena de valor de datos para IA y explicar el proceso de datos durante el entrenamiento y la inferencia
La cadena de valor de la infraestructura de datos se clasifica en seis áreas principales
- Fuentes de datos (Sources)
- Ingesta y transformación de datos (Ingestion & Transformation)
- Almacenamiento (Storage)
- Entrenamiento (Training)
- Inferencia (Inference)
- Servicios de datos (Data Services)

Fuentes de datos

Datos de aplicaciones: extraídos de Salesforce, ServiceNow, etc.
Datos en tiempo real: sensores, manufactura, datos médicos
Bases de datos OLTP: datos transaccionales como Oracle y MongoDB
Datos sintéticos: datos generados artificialmente que no se recopilan del mundo real (e.g., Mostly AI, Datagen, Tonic)
- Son rentables y ventajosos desde el punto de vista del cumplimiento de datos
- Sin embargo, tienen limitaciones para optimizar el rendimiento del modelo debido a su escasa representación de datos con anomalías estadísticas
Datos web: recopilación de datos públicos mediante web scraping (e.g., Browse AI, Apify)
- Son esenciales para entrenar modelos de datos a gran escala, pero existe la posibilidad de que los datos públicos se agoten (estimado entre 2026 y 2032)

Ingesta y transformación de datos

Un pipeline de datos es el proceso de transferir datos desde su origen hasta su destino y transformarlos para que sean analizables
- ETL/ELT: enfoque tradicional (procesamiento por lotes, procesamiento en streaming)
- Ingeniería de features/pipelines: en ML, se usa principalmente para procesar datos tabulares
- Pipelines de datos no estructurados: integran los procesos de extracción, transformación y almacenamiento para organizar y guardar datos no estructurados
Tipos de pipeline
- Procesamiento por lotes: extracción y carga de datos en intervalos específicos
- Procesamiento en streaming: carga de datos en tiempo real (Kafka, Flink, etc.)
Herramientas y frameworks
- Streaming (Kafka, Confluent), motores de procesamiento (Databricks, Flink), herramientas de orquestación (Astronomer, Dagster, Airflow, Prefect, etc.)
- Herramientas de etiquetado: LabelBox, Scale AI, etc. (es importante el etiquetado de datos de prueba)
  - Lotes: ETL (Airbyte, Fivetran), transformación (dbt, coalesce)
  - Procesamiento de datos no estructurados: Datavolo, Unstructured, LlamaIndex, etc.

Almacenamiento de datos

Enfoque tradicional: almacenamiento en data warehouses
Datos para uso de IA:
- uso de estructuras de data lake y lakehouse
- almacenamiento de embeddings de datos mediante bases de datos vectoriales
Herramientas principales:
- Data lake: Databricks, Onehouse, Tabular, Amazon S3, GCS, etc.
  - Vector DB: Pinecone, Chroma, Milvus, Weaviete, etc.

Entrenamiento de modelos

Métodos de aprendizaje:
- aprendizaje supervisado, no supervisado y por refuerzo
Proceso de entrenamiento de modelos de lenguaje a gran escala (LLM):
- preentrenamiento: reconocimiento de patrones de datos mediante aprendizaje no supervisado
- aprendizaje supervisado: optimización del rendimiento
- aprendizaje por refuerzo (RLHF): mejora del rendimiento mediante retroalimentación humana
Validación y evaluación:
- evaluación de la idoneidad del modelo mediante precisión, exactitud, minimización de pérdida, etc.
Etapa final:
- pruebas de seguridad, gobernanza y verificación de cumplimiento
Herramientas principales:
- Training: TensorFlow, Modular
  - Evaluation: neptune.ai, Weights & Biases
  - MLOps: Databricks, H2O.ai, DataRobot, Dataiku, DOMINO
  - Model: OpenAI, Cohere, Mistral AI, Runway

Inferencia de modelos

Proceso:
- entrada del prompt → tokenización/vectorización → procesamiento de datos → generación de salida
Personalización:
- integración entre bases de datos vectoriales y LLM
- generación de resultados únicos que reflejan el contexto del usuario
Consideraciones esenciales:
- seguridad de datos, calidad del modelo y cumplimiento
Herramientas principales:
- Tooling: ANON, E2B
- Memory: MemGPT, cognee.ai
- RAG Framework: LangCHain, LlamaIndex, contextual.ai, databricks
- Agent/App: ChatGPT, Claude, character.ai, Decagon, NormAi

Servicios de datos

Categorías:
- Seguridad de datos: control de acceso, prevención de fuga de datos (Rubrik, eureka, imperva, sentra, Dig, Cyera, Varonis, BigID)
- Visibilidad de datos: monitoreo de la calidad y el rendimiento de pipelines de datos (Anomalo, datologyai, OBSERVE, MonteCarlo, Cleanlab, Scale AI, onum, metaplane)
- Catálogo de datos: centralización de metadatos, organización de activos de datos (atlan, Alation, Collibra, Informatica, Acryl Data, CastorDoc, select star, data.world)
Conclusión:
- Cuanto mejor estén organizados los datos, más eficientes serán la seguridad, la visibilidad y la gestión

[Reconfiguración de los datos por la IA]

Se observan innovaciones en las siguientes áreas de la infraestructura de datos debido a la IA:

1. Pipelines de datos no estructurados para agentes y aplicaciones de IA

El auge de los pipelines de datos no estructurados:
- aumenta la demanda de usar datos internos no estructurados en aplicaciones de IA conversacional y agentes
- los pipelines de datos no estructurados incluyen procesos similares a los pipelines de datos tradicionales: extracción, transformación, indexación y almacenamiento
Fuentes principales de datos:
- texto en PDF, bases de conocimiento, imágenes, etc.
- datos que principalmente respaldan casos de uso de IA conversacional
Elementos diferenciadores:
- la diferencia frente a los pipelines existentes aparece en la etapa de transformación:
  - chunking de datos: dividir los datos en unidades pequeñas
  - extracción de metadatos: generar los datos necesarios para indexar
  - embeddings: convertir cada chunk de datos en forma vectorial para almacenarlo
Factores de éxito:
- la elección de la estrategia de chunking y del modelo de embeddings influye de forma importante en la precisión de recuperación de datos
- aparición de modelos de embeddings especializados por dominio: por ejemplo, modelos especializados en código o contenido legal
Uso de bases de datos compatibles con vectores:
- permiten almacenar datos no estructurados y convertirlos en un formato consultable
- hacen posible personalizar LLM mediante RAG (Retrieval-Augmented Generation) y agentes
Observaciones clave
- los equipos están probando diversas estrategias de chunking
- aumentan gradualmente los modelos de embeddings especializados por dominio y contribuyen a mejorar precisión y rendimiento
- las empresas buscan herramientas que conviertan sus datos a formatos fáciles de consultar

2. Retrieval-Augmented Generation (RAG)

Resumen de RAG:
- RAG es un flujo de trabajo arquitectónico que usa datos personalizados para mejorar la eficiencia de las aplicaciones con LLM
- Cómo funciona:
  - carga los datos y los "indexa" para procesar consultas
  - la consulta filtra los datos más relevantes con base en el índice
  - el contexto filtrado y la consulta se envían al LLM como prompt para generar una respuesta
- permite activar los datos como parte de la experiencia del producto
Principales ventajas de RAG:
- Proporciona información actualizada:
  - los LLM están limitados por sus datos de preentrenamiento, por lo que pueden generar respuestas desactualizadas o inexactas
  - RAG accede a fuentes externas de información para ofrecer respuestas más recientes
- Refuerza la factualidad:
  - RAG compensa los problemas de los LLM cuando no pueden proporcionar información exacta
  - utiliza bases de conocimiento seleccionadas para ofrecer información más confiable
- Proporciona fuentes:
  - permite añadir citas y anotaciones a las respuestas del LLM
  - mejora la confianza del usuario

3. Curación de datos para mejorar el rendimiento de entrenamiento e inferencia

Curación de datos: proceso de filtrar y estructurar datasets para lograr el mejor rendimiento posible en entrenamiento e inferencia
- tareas principales:
  - clasificación de texto
  - aplicación de filtros NSFW
  - eliminación de duplicados
  - optimización del tamaño de lote
  - optimización de fuentes basada en rendimiento
  - aumento de datos mediante datos sintéticos
Insights del anuncio de Meta Llama-3:
- Curación de datos de entrenamiento:
  - "para entrenar los mejores modelos de lenguaje, es importante curar datasets grandes y de alta calidad"
  - Meta desarrolló el siguiente pipeline de filtrado de datos:
    - filtros heurísticos
    - filtros NSFW
    - eliminación de duplicados semánticos
    - clasificadores de texto para predecir la calidad de los datos
- Curación de datos para fine-tuning:
  - "las mayores mejoras en la calidad del modelo se logran curando cuidadosamente los datos y revisando las anotaciones de anotadores humanos mediante múltiples etapas de aseguramiento de calidad"
Efectos de la curación de datos:
- según el equipo de investigación de Meta AI:
  - la curación reduce el tiempo de entrenamiento hasta en 20%
  - mejora la exactitud downstream
  - ofrece una vía para mejorar el rendimiento del modelo incluso en un escenario de agotamiento de datos de internet
Dirección futura:
- para el entrenamiento y el fine-tuning de modelos, serán importantes los filtros automatizados de alta calidad, la eliminación de duplicados y los clasificadores
- empresas como Datology AI están trabajando para hacerlo realidad

4. Almacenamiento de datos para IA

Hay tres tendencias principales en la forma de almacenar datos para IA:
- bases de datos vectoriales
- auge de los data lakes
- aumento de la inversión en lakehouses
Importancia de las bases de datos vectoriales:
- las bases de datos vectoriales son vistas como una de las tecnologías clave del boom de la IA
- son adecuadas para almacenar embeddings de datos (representaciones numéricas):
  - convierten y almacenan datos no estructurados (imágenes, audio, video, etc.) en forma numérica
  - permiten búsqueda semántica (por ejemplo, al buscar "dog" también puede devolver "wolf" o "puppy")
- Formas de las bases de datos vectoriales:
  - bases de datos vectoriales nativas: diseñadas exclusivamente para almacenamiento vectorial
  - extensiones de bases de datos existentes: añaden soporte vectorial a bases ya existentes
- Caso de uso: personalización de LLM
  - se pueden almacenar y recuperar como embeddings vectoriales los datos personalizados de una empresa
  - los agentes de IA pueden usar esta estructura para ofrecer experiencias personalizadas
Data lakes y lakehouses
- Auge de los data lakes:
  - la mayoría de las empresas almacenan grandes volúmenes de datos en data lakes
  - el uso de data lakes es indispensable para desarrollar IA personalizada
- Arquitectura lakehouse:
  - ofrece una arquitectura para gestionar y consultar de forma efectiva los data lakes
  - organiza los datos con formatos de tabla abiertos:
    - como Iceberg, Delta Lake y Hudi
  - mejora la organización de los datos y el rendimiento de las consultas
- El papel de Databricks:
  - Databricks adquirió Tabular e integró a los equipos de desarrollo de Delta Lake e Iceberg
  - dificulta la entrada de competidores y lidera el avance de la tecnología lakehouse

5. Memoria de IA

El auge de la memoria de IA:
- tras el anuncio de la función de memoria de ChatGPT, la memoria de IA surgió como un tema central de discusión
- los sistemas de IA estándar carecen de una memoria episódica sólida y de continuidad entre interacciones:
  - los sistemas actuales están, en cierto sentido, en un estado de amnesia de corto plazo
  - esto limita el razonamiento secuencial complejo y el intercambio de conocimiento en sistemas multiagente
Memoria en sistemas multiagente
- a medida que evolucionan hacia sistemas multiagente, se necesita un sistema de gestión de memoria entre agentes
- Requisitos funcionales:
  - soporte para guardar recuerdos por agente y acceder a ellos entre sesiones
  - inclusión de controles de acceso y privacidad
  - memoria compartida entre agentes:
    - un agente puede aprovechar la experiencia de otro
    - mejora la capacidad de toma de decisiones
- se necesita memoria jerárquica:
  - almacenar la memoria por niveles según frecuencia de acceso, importancia y costo
MemGPT: framework líder en gestión de memoria de IA
- visión de MemGPT: que los LLM lideren la evolución de los sistemas operativos (OS) de próxima generación
- Resumen de arquitectura:
  - Tipos de memoria:
    - memoria de contexto principal: similar a la memoria principal (RAM)
    - memoria de contexto externa: similar a memoria en disco/almacenamiento en disco
Importancia de la memoria de IA
- respalda personalización, aprendizaje y reflexión, y es esencial para el avance de las aplicaciones de IA
- mejora la capacidad de resolver tareas complejas mediante colaboración e intercambio de memoria entre agentes

Oportunidades en las cargas de trabajo de IA

Cargas de trabajo de IA e infraestructura de datos:
- aunque el auge de GenAI no ha transformado todos los aspectos de la infraestructura de datos, la aparición de las siguientes tecnologías representa un desarrollo muy interesante:
  - extracción y pipelines de datos no estructurados
  - Retrieval-Augmented Generation (RAG)
  - curación de datos
  - almacenamiento de datos
  - memoria de IA
Estrategia de inversión de Felicis
- Enfoque en el futuro de la IA y la infraestructura de datos:
  - invierte en startups relacionadas con las capas de datos e infraestructura
  - principales casos de inversión:
    - Datology: curación de datos
    - Metaplane: observabilidad de datos
    - MotherDuck: data warehouse serverless
    - Weights & Biases: herramienta de seguimiento de experimentos
Potencial de crecimiento del mercado de IA
- Escalabilidad:
  - el mercado de IA se está expandiendo ampliamente, desde chatbots hasta flujos de trabajo multiagente
  - esto apenas está comenzando y todavía hay mucho espacio para más avances
- Importancia de las soluciones de datos:
  - las soluciones de datos son clave para las aplicaciones de IA exitosas
  - se espera la construcción de grandes negocios de datos que respalden cargas de trabajo de IA

El auge de la infraestructura de datos para IA

Estado actual de la infraestructura de datos para IA

Fuentes de datos

Ingesta y transformación de datos

Almacenamiento de datos

Entrenamiento de modelos

Inferencia de modelos

Servicios de datos

[Reconfiguración de los datos por la IA]

1. Pipelines de datos no estructurados para agentes y aplicaciones de IA

2. Retrieval-Augmented Generation (RAG)

3. Curación de datos para mejorar el rendimiento de entrenamiento e inferencia

4. Almacenamiento de datos para IA

5. Memoria de IA

Oportunidades en las cargas de trabajo de IA

Lecturas relacionadas

Aún no hay comentarios.