El auge de la infraestructura de datos para IA
(felicis.com)> "Estamos al comienzo de una nueva revolución industrial. En lugar de producir electricidad, producimos inteligencia artificial... el [código abierto] permite que todas las empresas puedan convertirse en empresas de inteligencia artificial" - Jensen Huang
- Extraer información de documentos no es un concepto nuevo. Sin embargo, la IA generativa (GenAI) requiere grandes volúmenes de datos de alta calidad
- Los datos son importantes tanto para el entrenamiento como para la inferencia, y no solo crecen en escala, sino que se expanden de texto y datos tabulares a video, imágenes y audio
- También se observa un aumento en los datos espaciales, como imágenes satelitales y datos de sensores robóticos
- ¿Cuáles son las nuevas áreas dentro de la capa de datos que la IA puede reinventar de forma más inmediata?
- extracción y pipelines de datos no estructurados, Retrieval-Augmented Generation (RAG), curación de datos, almacenamiento de datos, memoria de inteligencia artificial
- El propósito de este artículo es analizar el panorama de la infraestructura de datos para IA, compartir las tendencias más recientes y hablar sobre las áreas de innovación más prometedoras
Estado actual de la infraestructura de datos para IA
- Se busca visualizar de forma sencilla el flujo de datos en la cadena de valor de datos para IA y explicar el proceso de datos durante el entrenamiento y la inferencia
- La cadena de valor de la infraestructura de datos se clasifica en seis áreas principales
- Fuentes de datos (Sources)
- Ingesta y transformación de datos (Ingestion & Transformation)
- Almacenamiento (Storage)
- Entrenamiento (Training)
- Inferencia (Inference)
- Servicios de datos (Data Services)
Fuentes de datos
- Datos de aplicaciones: extraídos de Salesforce, ServiceNow, etc.
- Datos en tiempo real: sensores, manufactura, datos médicos
- Bases de datos OLTP: datos transaccionales como Oracle y MongoDB
- Datos sintéticos: datos generados artificialmente que no se recopilan del mundo real (e.g., Mostly AI, Datagen, Tonic)
- Son rentables y ventajosos desde el punto de vista del cumplimiento de datos
- Sin embargo, tienen limitaciones para optimizar el rendimiento del modelo debido a su escasa representación de datos con anomalías estadísticas
- Datos web: recopilación de datos públicos mediante web scraping (e.g., Browse AI, Apify)
- Son esenciales para entrenar modelos de datos a gran escala, pero existe la posibilidad de que los datos públicos se agoten (estimado entre 2026 y 2032)
Ingesta y transformación de datos
- Un pipeline de datos es el proceso de transferir datos desde su origen hasta su destino y transformarlos para que sean analizables
- ETL/ELT: enfoque tradicional (procesamiento por lotes, procesamiento en streaming)
- Ingeniería de features/pipelines: en ML, se usa principalmente para procesar datos tabulares
- Pipelines de datos no estructurados: integran los procesos de extracción, transformación y almacenamiento para organizar y guardar datos no estructurados
- Tipos de pipeline
- Procesamiento por lotes: extracción y carga de datos en intervalos específicos
- Procesamiento en streaming: carga de datos en tiempo real (Kafka, Flink, etc.)
- Herramientas y frameworks
- Streaming (Kafka, Confluent), motores de procesamiento (Databricks, Flink), herramientas de orquestación (Astronomer, Dagster, Airflow, Prefect, etc.)
- Herramientas de etiquetado: LabelBox, Scale AI, etc. (es importante el etiquetado de datos de prueba)
- Lotes: ETL (Airbyte, Fivetran), transformación (dbt, coalesce)
- Procesamiento de datos no estructurados: Datavolo, Unstructured, LlamaIndex, etc.
Almacenamiento de datos
- Enfoque tradicional: almacenamiento en data warehouses
- Datos para uso de IA:
- uso de estructuras de data lake y lakehouse
- almacenamiento de embeddings de datos mediante bases de datos vectoriales
- Herramientas principales:
- Data lake: Databricks, Onehouse, Tabular, Amazon S3, GCS, etc.
- Vector DB: Pinecone, Chroma, Milvus, Weaviete, etc.
- Data lake: Databricks, Onehouse, Tabular, Amazon S3, GCS, etc.
Entrenamiento de modelos
- Métodos de aprendizaje:
- aprendizaje supervisado, no supervisado y por refuerzo
- Proceso de entrenamiento de modelos de lenguaje a gran escala (LLM):
- preentrenamiento: reconocimiento de patrones de datos mediante aprendizaje no supervisado
- aprendizaje supervisado: optimización del rendimiento
- aprendizaje por refuerzo (RLHF): mejora del rendimiento mediante retroalimentación humana
- Validación y evaluación:
- evaluación de la idoneidad del modelo mediante precisión, exactitud, minimización de pérdida, etc.
- Etapa final:
- pruebas de seguridad, gobernanza y verificación de cumplimiento
- Herramientas principales:
- Training: TensorFlow, Modular
- Evaluation: neptune.ai, Weights & Biases
- MLOps: Databricks, H2O.ai, DataRobot, Dataiku, DOMINO
- Model: OpenAI, Cohere, Mistral AI, Runway
- Training: TensorFlow, Modular
Inferencia de modelos
- Proceso:
- entrada del prompt → tokenización/vectorización → procesamiento de datos → generación de salida
- Personalización:
- integración entre bases de datos vectoriales y LLM
- generación de resultados únicos que reflejan el contexto del usuario
- Consideraciones esenciales:
- seguridad de datos, calidad del modelo y cumplimiento
- Herramientas principales:
- Tooling: ANON, E2B
- Memory: MemGPT, cognee.ai
- RAG Framework: LangCHain, LlamaIndex, contextual.ai, databricks
- Agent/App: ChatGPT, Claude, character.ai, Decagon, NormAi
Servicios de datos
- Categorías:
- Seguridad de datos: control de acceso, prevención de fuga de datos (Rubrik, eureka, imperva, sentra, Dig, Cyera, Varonis, BigID)
- Visibilidad de datos: monitoreo de la calidad y el rendimiento de pipelines de datos (Anomalo, datologyai, OBSERVE, MonteCarlo, Cleanlab, Scale AI, onum, metaplane)
- Catálogo de datos: centralización de metadatos, organización de activos de datos (atlan, Alation, Collibra, Informatica, Acryl Data, CastorDoc, select star, data.world)
- Conclusión:
- Cuanto mejor estén organizados los datos, más eficientes serán la seguridad, la visibilidad y la gestión
[Reconfiguración de los datos por la IA]
Se observan innovaciones en las siguientes áreas de la infraestructura de datos debido a la IA:
1. Pipelines de datos no estructurados para agentes y aplicaciones de IA
- El auge de los pipelines de datos no estructurados:
- aumenta la demanda de usar datos internos no estructurados en aplicaciones de IA conversacional y agentes
- los pipelines de datos no estructurados incluyen procesos similares a los pipelines de datos tradicionales: extracción, transformación, indexación y almacenamiento
- Fuentes principales de datos:
- texto en PDF, bases de conocimiento, imágenes, etc.
- datos que principalmente respaldan casos de uso de IA conversacional
- Elementos diferenciadores:
- la diferencia frente a los pipelines existentes aparece en la etapa de transformación:
- chunking de datos: dividir los datos en unidades pequeñas
- extracción de metadatos: generar los datos necesarios para indexar
- embeddings: convertir cada chunk de datos en forma vectorial para almacenarlo
- la diferencia frente a los pipelines existentes aparece en la etapa de transformación:
- Factores de éxito:
- la elección de la estrategia de chunking y del modelo de embeddings influye de forma importante en la precisión de recuperación de datos
- aparición de modelos de embeddings especializados por dominio: por ejemplo, modelos especializados en código o contenido legal
- Uso de bases de datos compatibles con vectores:
- permiten almacenar datos no estructurados y convertirlos en un formato consultable
- hacen posible personalizar LLM mediante RAG (Retrieval-Augmented Generation) y agentes
- Observaciones clave
- los equipos están probando diversas estrategias de chunking
- aumentan gradualmente los modelos de embeddings especializados por dominio y contribuyen a mejorar precisión y rendimiento
- las empresas buscan herramientas que conviertan sus datos a formatos fáciles de consultar
2. Retrieval-Augmented Generation (RAG)
- Resumen de RAG:
- RAG es un flujo de trabajo arquitectónico que usa datos personalizados para mejorar la eficiencia de las aplicaciones con LLM
- Cómo funciona:
- carga los datos y los "indexa" para procesar consultas
- la consulta filtra los datos más relevantes con base en el índice
- el contexto filtrado y la consulta se envían al LLM como prompt para generar una respuesta
- permite activar los datos como parte de la experiencia del producto
- Principales ventajas de RAG:
- Proporciona información actualizada:
- los LLM están limitados por sus datos de preentrenamiento, por lo que pueden generar respuestas desactualizadas o inexactas
- RAG accede a fuentes externas de información para ofrecer respuestas más recientes
- Refuerza la factualidad:
- RAG compensa los problemas de los LLM cuando no pueden proporcionar información exacta
- utiliza bases de conocimiento seleccionadas para ofrecer información más confiable
- Proporciona fuentes:
- permite añadir citas y anotaciones a las respuestas del LLM
- mejora la confianza del usuario
- Proporciona información actualizada:
3. Curación de datos para mejorar el rendimiento de entrenamiento e inferencia
- Curación de datos: proceso de filtrar y estructurar datasets para lograr el mejor rendimiento posible en entrenamiento e inferencia
- tareas principales:
- clasificación de texto
- aplicación de filtros NSFW
- eliminación de duplicados
- optimización del tamaño de lote
- optimización de fuentes basada en rendimiento
- aumento de datos mediante datos sintéticos
- tareas principales:
- Insights del anuncio de Meta Llama-3:
- Curación de datos de entrenamiento:
- "para entrenar los mejores modelos de lenguaje, es importante curar datasets grandes y de alta calidad"
- Meta desarrolló el siguiente pipeline de filtrado de datos:
- filtros heurísticos
- filtros NSFW
- eliminación de duplicados semánticos
- clasificadores de texto para predecir la calidad de los datos
- Curación de datos para fine-tuning:
- "las mayores mejoras en la calidad del modelo se logran curando cuidadosamente los datos y revisando las anotaciones de anotadores humanos mediante múltiples etapas de aseguramiento de calidad"
- Curación de datos de entrenamiento:
- Efectos de la curación de datos:
- según el equipo de investigación de Meta AI:
- la curación reduce el tiempo de entrenamiento hasta en 20%
- mejora la exactitud downstream
- ofrece una vía para mejorar el rendimiento del modelo incluso en un escenario de agotamiento de datos de internet
- según el equipo de investigación de Meta AI:
- Dirección futura:
- para el entrenamiento y el fine-tuning de modelos, serán importantes los filtros automatizados de alta calidad, la eliminación de duplicados y los clasificadores
- empresas como Datology AI están trabajando para hacerlo realidad
4. Almacenamiento de datos para IA
- Hay tres tendencias principales en la forma de almacenar datos para IA:
- bases de datos vectoriales
- auge de los data lakes
- aumento de la inversión en lakehouses
- Importancia de las bases de datos vectoriales:
- las bases de datos vectoriales son vistas como una de las tecnologías clave del boom de la IA
- son adecuadas para almacenar embeddings de datos (representaciones numéricas):
- convierten y almacenan datos no estructurados (imágenes, audio, video, etc.) en forma numérica
- permiten búsqueda semántica (por ejemplo, al buscar "dog" también puede devolver "wolf" o "puppy")
- Formas de las bases de datos vectoriales:
- bases de datos vectoriales nativas: diseñadas exclusivamente para almacenamiento vectorial
- extensiones de bases de datos existentes: añaden soporte vectorial a bases ya existentes
- Caso de uso: personalización de LLM
- se pueden almacenar y recuperar como embeddings vectoriales los datos personalizados de una empresa
- los agentes de IA pueden usar esta estructura para ofrecer experiencias personalizadas
- Data lakes y lakehouses
- Auge de los data lakes:
- la mayoría de las empresas almacenan grandes volúmenes de datos en data lakes
- el uso de data lakes es indispensable para desarrollar IA personalizada
- Arquitectura lakehouse:
- ofrece una arquitectura para gestionar y consultar de forma efectiva los data lakes
- organiza los datos con formatos de tabla abiertos:
- como Iceberg, Delta Lake y Hudi
- mejora la organización de los datos y el rendimiento de las consultas
- El papel de Databricks:
- Databricks adquirió Tabular e integró a los equipos de desarrollo de Delta Lake e Iceberg
- dificulta la entrada de competidores y lidera el avance de la tecnología lakehouse
- Auge de los data lakes:
5. Memoria de IA
- El auge de la memoria de IA:
- tras el anuncio de la función de memoria de ChatGPT, la memoria de IA surgió como un tema central de discusión
- los sistemas de IA estándar carecen de una memoria episódica sólida y de continuidad entre interacciones:
- los sistemas actuales están, en cierto sentido, en un estado de amnesia de corto plazo
- esto limita el razonamiento secuencial complejo y el intercambio de conocimiento en sistemas multiagente
- Memoria en sistemas multiagente
- a medida que evolucionan hacia sistemas multiagente, se necesita un sistema de gestión de memoria entre agentes
- Requisitos funcionales:
- soporte para guardar recuerdos por agente y acceder a ellos entre sesiones
- inclusión de controles de acceso y privacidad
- memoria compartida entre agentes:
- un agente puede aprovechar la experiencia de otro
- mejora la capacidad de toma de decisiones
- se necesita memoria jerárquica:
- almacenar la memoria por niveles según frecuencia de acceso, importancia y costo
- MemGPT: framework líder en gestión de memoria de IA
- visión de MemGPT: que los LLM lideren la evolución de los sistemas operativos (OS) de próxima generación
- Resumen de arquitectura:
- Tipos de memoria:
- memoria de contexto principal: similar a la memoria principal (RAM)
- memoria de contexto externa: similar a memoria en disco/almacenamiento en disco
- Tipos de memoria:
- Importancia de la memoria de IA
- respalda personalización, aprendizaje y reflexión, y es esencial para el avance de las aplicaciones de IA
- mejora la capacidad de resolver tareas complejas mediante colaboración e intercambio de memoria entre agentes
Oportunidades en las cargas de trabajo de IA
- Cargas de trabajo de IA e infraestructura de datos:
- aunque el auge de GenAI no ha transformado todos los aspectos de la infraestructura de datos, la aparición de las siguientes tecnologías representa un desarrollo muy interesante:
- extracción y pipelines de datos no estructurados
- Retrieval-Augmented Generation (RAG)
- curación de datos
- almacenamiento de datos
- memoria de IA
- aunque el auge de GenAI no ha transformado todos los aspectos de la infraestructura de datos, la aparición de las siguientes tecnologías representa un desarrollo muy interesante:
- Estrategia de inversión de Felicis
- Enfoque en el futuro de la IA y la infraestructura de datos:
- invierte en startups relacionadas con las capas de datos e infraestructura
- principales casos de inversión:
- Datology: curación de datos
- Metaplane: observabilidad de datos
- MotherDuck: data warehouse serverless
- Weights & Biases: herramienta de seguimiento de experimentos
- Enfoque en el futuro de la IA y la infraestructura de datos:
- Potencial de crecimiento del mercado de IA
- Escalabilidad:
- el mercado de IA se está expandiendo ampliamente, desde chatbots hasta flujos de trabajo multiagente
- esto apenas está comenzando y todavía hay mucho espacio para más avances
- Importancia de las soluciones de datos:
- las soluciones de datos son clave para las aplicaciones de IA exitosas
- se espera la construcción de grandes negocios de datos que respalden cargas de trabajo de IA
- Escalabilidad:
Aún no hay comentarios.