16 puntos por xguru 2024-11-25 | Aún no hay comentarios. | Compartir por WhatsApp

> "Estamos al comienzo de una nueva revolución industrial. En lugar de producir electricidad, producimos inteligencia artificial... el [código abierto] permite que todas las empresas puedan convertirse en empresas de inteligencia artificial" - Jensen Huang

  • Extraer información de documentos no es un concepto nuevo. Sin embargo, la IA generativa (GenAI) requiere grandes volúmenes de datos de alta calidad
  • Los datos son importantes tanto para el entrenamiento como para la inferencia, y no solo crecen en escala, sino que se expanden de texto y datos tabulares a video, imágenes y audio
  • También se observa un aumento en los datos espaciales, como imágenes satelitales y datos de sensores robóticos
  • ¿Cuáles son las nuevas áreas dentro de la capa de datos que la IA puede reinventar de forma más inmediata?
    • extracción y pipelines de datos no estructurados, Retrieval-Augmented Generation (RAG), curación de datos, almacenamiento de datos, memoria de inteligencia artificial
  • El propósito de este artículo es analizar el panorama de la infraestructura de datos para IA, compartir las tendencias más recientes y hablar sobre las áreas de innovación más prometedoras

Estado actual de la infraestructura de datos para IA

  • Se busca visualizar de forma sencilla el flujo de datos en la cadena de valor de datos para IA y explicar el proceso de datos durante el entrenamiento y la inferencia
  • La cadena de valor de la infraestructura de datos se clasifica en seis áreas principales
    • Fuentes de datos (Sources)
    • Ingesta y transformación de datos (Ingestion & Transformation)
    • Almacenamiento (Storage)
    • Entrenamiento (Training)
    • Inferencia (Inference)
    • Servicios de datos (Data Services)

Fuentes de datos

  • Datos de aplicaciones: extraídos de Salesforce, ServiceNow, etc.
  • Datos en tiempo real: sensores, manufactura, datos médicos
  • Bases de datos OLTP: datos transaccionales como Oracle y MongoDB
  • Datos sintéticos: datos generados artificialmente que no se recopilan del mundo real (e.g., Mostly AI, Datagen, Tonic)
    • Son rentables y ventajosos desde el punto de vista del cumplimiento de datos
    • Sin embargo, tienen limitaciones para optimizar el rendimiento del modelo debido a su escasa representación de datos con anomalías estadísticas
  • Datos web: recopilación de datos públicos mediante web scraping (e.g., Browse AI, Apify)
    • Son esenciales para entrenar modelos de datos a gran escala, pero existe la posibilidad de que los datos públicos se agoten (estimado entre 2026 y 2032)

Ingesta y transformación de datos

  • Un pipeline de datos es el proceso de transferir datos desde su origen hasta su destino y transformarlos para que sean analizables
    • ETL/ELT: enfoque tradicional (procesamiento por lotes, procesamiento en streaming)
    • Ingeniería de features/pipelines: en ML, se usa principalmente para procesar datos tabulares
    • Pipelines de datos no estructurados: integran los procesos de extracción, transformación y almacenamiento para organizar y guardar datos no estructurados
  • Tipos de pipeline
    • Procesamiento por lotes: extracción y carga de datos en intervalos específicos
    • Procesamiento en streaming: carga de datos en tiempo real (Kafka, Flink, etc.)
  • Herramientas y frameworks
    • Streaming (Kafka, Confluent), motores de procesamiento (Databricks, Flink), herramientas de orquestación (Astronomer, Dagster, Airflow, Prefect, etc.)
    • Herramientas de etiquetado: LabelBox, Scale AI, etc. (es importante el etiquetado de datos de prueba)
      • Lotes: ETL (Airbyte, Fivetran), transformación (dbt, coalesce)
      • Procesamiento de datos no estructurados: Datavolo, Unstructured, LlamaIndex, etc.

Almacenamiento de datos

  • Enfoque tradicional: almacenamiento en data warehouses
  • Datos para uso de IA:
    • uso de estructuras de data lake y lakehouse
    • almacenamiento de embeddings de datos mediante bases de datos vectoriales
  • Herramientas principales:
    • Data lake: Databricks, Onehouse, Tabular, Amazon S3, GCS, etc.
      • Vector DB: Pinecone, Chroma, Milvus, Weaviete, etc.

Entrenamiento de modelos

  • Métodos de aprendizaje:
    • aprendizaje supervisado, no supervisado y por refuerzo
  • Proceso de entrenamiento de modelos de lenguaje a gran escala (LLM):
    • preentrenamiento: reconocimiento de patrones de datos mediante aprendizaje no supervisado
    • aprendizaje supervisado: optimización del rendimiento
    • aprendizaje por refuerzo (RLHF): mejora del rendimiento mediante retroalimentación humana
  • Validación y evaluación:
    • evaluación de la idoneidad del modelo mediante precisión, exactitud, minimización de pérdida, etc.
  • Etapa final:
    • pruebas de seguridad, gobernanza y verificación de cumplimiento
  • Herramientas principales:
    • Training: TensorFlow, Modular
      • Evaluation: neptune.ai, Weights & Biases
      • MLOps: Databricks, H2O.ai, DataRobot, Dataiku, DOMINO
      • Model: OpenAI, Cohere, Mistral AI, Runway

Inferencia de modelos

  • Proceso:
    • entrada del prompt → tokenización/vectorización → procesamiento de datos → generación de salida
  • Personalización:
    • integración entre bases de datos vectoriales y LLM
    • generación de resultados únicos que reflejan el contexto del usuario
  • Consideraciones esenciales:
    • seguridad de datos, calidad del modelo y cumplimiento
  • Herramientas principales:
    • Tooling: ANON, E2B
    • Memory: MemGPT, cognee.ai
    • RAG Framework: LangCHain, LlamaIndex, contextual.ai, databricks
    • Agent/App: ChatGPT, Claude, character.ai, Decagon, NormAi

Servicios de datos

  • Categorías:
    • Seguridad de datos: control de acceso, prevención de fuga de datos (Rubrik, eureka, imperva, sentra, Dig, Cyera, Varonis, BigID)
    • Visibilidad de datos: monitoreo de la calidad y el rendimiento de pipelines de datos (Anomalo, datologyai, OBSERVE, MonteCarlo, Cleanlab, Scale AI, onum, metaplane)
    • Catálogo de datos: centralización de metadatos, organización de activos de datos (atlan, Alation, Collibra, Informatica, Acryl Data, CastorDoc, select star, data.world)
  • Conclusión:
    • Cuanto mejor estén organizados los datos, más eficientes serán la seguridad, la visibilidad y la gestión

[Reconfiguración de los datos por la IA]

Se observan innovaciones en las siguientes áreas de la infraestructura de datos debido a la IA:

1. Pipelines de datos no estructurados para agentes y aplicaciones de IA

  • El auge de los pipelines de datos no estructurados:
    • aumenta la demanda de usar datos internos no estructurados en aplicaciones de IA conversacional y agentes
    • los pipelines de datos no estructurados incluyen procesos similares a los pipelines de datos tradicionales: extracción, transformación, indexación y almacenamiento
  • Fuentes principales de datos:
    • texto en PDF, bases de conocimiento, imágenes, etc.
    • datos que principalmente respaldan casos de uso de IA conversacional
  • Elementos diferenciadores:
    • la diferencia frente a los pipelines existentes aparece en la etapa de transformación:
      • chunking de datos: dividir los datos en unidades pequeñas
      • extracción de metadatos: generar los datos necesarios para indexar
      • embeddings: convertir cada chunk de datos en forma vectorial para almacenarlo
  • Factores de éxito:
    • la elección de la estrategia de chunking y del modelo de embeddings influye de forma importante en la precisión de recuperación de datos
    • aparición de modelos de embeddings especializados por dominio: por ejemplo, modelos especializados en código o contenido legal
  • Uso de bases de datos compatibles con vectores:
    • permiten almacenar datos no estructurados y convertirlos en un formato consultable
    • hacen posible personalizar LLM mediante RAG (Retrieval-Augmented Generation) y agentes
  • Observaciones clave
    • los equipos están probando diversas estrategias de chunking
    • aumentan gradualmente los modelos de embeddings especializados por dominio y contribuyen a mejorar precisión y rendimiento
    • las empresas buscan herramientas que conviertan sus datos a formatos fáciles de consultar

2. Retrieval-Augmented Generation (RAG)

  • Resumen de RAG:
    • RAG es un flujo de trabajo arquitectónico que usa datos personalizados para mejorar la eficiencia de las aplicaciones con LLM
    • Cómo funciona:
      • carga los datos y los "indexa" para procesar consultas
      • la consulta filtra los datos más relevantes con base en el índice
      • el contexto filtrado y la consulta se envían al LLM como prompt para generar una respuesta
    • permite activar los datos como parte de la experiencia del producto
  • Principales ventajas de RAG:
    • Proporciona información actualizada:
      • los LLM están limitados por sus datos de preentrenamiento, por lo que pueden generar respuestas desactualizadas o inexactas
      • RAG accede a fuentes externas de información para ofrecer respuestas más recientes
    • Refuerza la factualidad:
      • RAG compensa los problemas de los LLM cuando no pueden proporcionar información exacta
      • utiliza bases de conocimiento seleccionadas para ofrecer información más confiable
    • Proporciona fuentes:
      • permite añadir citas y anotaciones a las respuestas del LLM
      • mejora la confianza del usuario

3. Curación de datos para mejorar el rendimiento de entrenamiento e inferencia

  • Curación de datos: proceso de filtrar y estructurar datasets para lograr el mejor rendimiento posible en entrenamiento e inferencia
    • tareas principales:
      • clasificación de texto
      • aplicación de filtros NSFW
      • eliminación de duplicados
      • optimización del tamaño de lote
      • optimización de fuentes basada en rendimiento
      • aumento de datos mediante datos sintéticos
  • Insights del anuncio de Meta Llama-3:
    • Curación de datos de entrenamiento:
      • "para entrenar los mejores modelos de lenguaje, es importante curar datasets grandes y de alta calidad"
      • Meta desarrolló el siguiente pipeline de filtrado de datos:
        • filtros heurísticos
        • filtros NSFW
        • eliminación de duplicados semánticos
        • clasificadores de texto para predecir la calidad de los datos
    • Curación de datos para fine-tuning:
      • "las mayores mejoras en la calidad del modelo se logran curando cuidadosamente los datos y revisando las anotaciones de anotadores humanos mediante múltiples etapas de aseguramiento de calidad"
  • Efectos de la curación de datos:
    • según el equipo de investigación de Meta AI:
      • la curación reduce el tiempo de entrenamiento hasta en 20%
      • mejora la exactitud downstream
      • ofrece una vía para mejorar el rendimiento del modelo incluso en un escenario de agotamiento de datos de internet
  • Dirección futura:
    • para el entrenamiento y el fine-tuning de modelos, serán importantes los filtros automatizados de alta calidad, la eliminación de duplicados y los clasificadores
    • empresas como Datology AI están trabajando para hacerlo realidad

4. Almacenamiento de datos para IA

  • Hay tres tendencias principales en la forma de almacenar datos para IA:
    • bases de datos vectoriales
    • auge de los data lakes
    • aumento de la inversión en lakehouses
  • Importancia de las bases de datos vectoriales:
    • las bases de datos vectoriales son vistas como una de las tecnologías clave del boom de la IA
    • son adecuadas para almacenar embeddings de datos (representaciones numéricas):
      • convierten y almacenan datos no estructurados (imágenes, audio, video, etc.) en forma numérica
      • permiten búsqueda semántica (por ejemplo, al buscar "dog" también puede devolver "wolf" o "puppy")
    • Formas de las bases de datos vectoriales:
      • bases de datos vectoriales nativas: diseñadas exclusivamente para almacenamiento vectorial
      • extensiones de bases de datos existentes: añaden soporte vectorial a bases ya existentes
    • Caso de uso: personalización de LLM
      • se pueden almacenar y recuperar como embeddings vectoriales los datos personalizados de una empresa
      • los agentes de IA pueden usar esta estructura para ofrecer experiencias personalizadas
  • Data lakes y lakehouses
    • Auge de los data lakes:
      • la mayoría de las empresas almacenan grandes volúmenes de datos en data lakes
      • el uso de data lakes es indispensable para desarrollar IA personalizada
    • Arquitectura lakehouse:
      • ofrece una arquitectura para gestionar y consultar de forma efectiva los data lakes
      • organiza los datos con formatos de tabla abiertos:
        • como Iceberg, Delta Lake y Hudi
      • mejora la organización de los datos y el rendimiento de las consultas
    • El papel de Databricks:
      • Databricks adquirió Tabular e integró a los equipos de desarrollo de Delta Lake e Iceberg
      • dificulta la entrada de competidores y lidera el avance de la tecnología lakehouse

5. Memoria de IA

  • El auge de la memoria de IA:
    • tras el anuncio de la función de memoria de ChatGPT, la memoria de IA surgió como un tema central de discusión
    • los sistemas de IA estándar carecen de una memoria episódica sólida y de continuidad entre interacciones:
      • los sistemas actuales están, en cierto sentido, en un estado de amnesia de corto plazo
      • esto limita el razonamiento secuencial complejo y el intercambio de conocimiento en sistemas multiagente
  • Memoria en sistemas multiagente
    • a medida que evolucionan hacia sistemas multiagente, se necesita un sistema de gestión de memoria entre agentes
    • Requisitos funcionales:
      • soporte para guardar recuerdos por agente y acceder a ellos entre sesiones
      • inclusión de controles de acceso y privacidad
      • memoria compartida entre agentes:
        • un agente puede aprovechar la experiencia de otro
        • mejora la capacidad de toma de decisiones
    • se necesita memoria jerárquica:
      • almacenar la memoria por niveles según frecuencia de acceso, importancia y costo
  • MemGPT: framework líder en gestión de memoria de IA
    • visión de MemGPT: que los LLM lideren la evolución de los sistemas operativos (OS) de próxima generación
    • Resumen de arquitectura:
      • Tipos de memoria:
        • memoria de contexto principal: similar a la memoria principal (RAM)
        • memoria de contexto externa: similar a memoria en disco/almacenamiento en disco
  • Importancia de la memoria de IA
    • respalda personalización, aprendizaje y reflexión, y es esencial para el avance de las aplicaciones de IA
    • mejora la capacidad de resolver tareas complejas mediante colaboración e intercambio de memoria entre agentes

Oportunidades en las cargas de trabajo de IA

  • Cargas de trabajo de IA e infraestructura de datos:
    • aunque el auge de GenAI no ha transformado todos los aspectos de la infraestructura de datos, la aparición de las siguientes tecnologías representa un desarrollo muy interesante:
      • extracción y pipelines de datos no estructurados
      • Retrieval-Augmented Generation (RAG)
      • curación de datos
      • almacenamiento de datos
      • memoria de IA
  • Estrategia de inversión de Felicis
    • Enfoque en el futuro de la IA y la infraestructura de datos:
      • invierte en startups relacionadas con las capas de datos e infraestructura
      • principales casos de inversión:
        • Datology: curación de datos
        • Metaplane: observabilidad de datos
        • MotherDuck: data warehouse serverless
        • Weights & Biases: herramienta de seguimiento de experimentos
  • Potencial de crecimiento del mercado de IA
    • Escalabilidad:
      • el mercado de IA se está expandiendo ampliamente, desde chatbots hasta flujos de trabajo multiagente
      • esto apenas está comenzando y todavía hay mucho espacio para más avances
    • Importancia de las soluciones de datos:
      • las soluciones de datos son clave para las aplicaciones de IA exitosas
      • se espera la construcción de grandes negocios de datos que respalden cargas de trabajo de IA

Aún no hay comentarios.

Aún no hay comentarios.