- Biblioteca moderna de dataframes en Python diseñada para IA
- Creada para organizar datos no estructurados en conjuntos de datos y hacer wrangling a gran escala en una máquina local
- Se integra con el stack de datos posmoderno sin abstraer ni ocultar los modelos de IA ni las llamadas a API
Características principales
- Repositorio de Source of Truth
- Procesa datos no estructurados desde S3, GCP, Azure y sistemas de archivos locales sin copias duplicadas
- Soporte para datos multimodales: imágenes, video, texto, PDF, JSON, CSV, parquet, etc.
- Unifica archivos y metadatos en datasets persistentes, versionados y orientados a columnas
- Pipeline de datos amigable con Python
- Trabaja con objetos de Python y campos de objetos
- Paralelización integrada y operaciones fuera de memoria, sin SQL ni Spark
- Enriquecimiento y procesamiento de datos
- Genera metadatos usando modelos de IA locales y APIs de LLM
- Filtra, hace joins y agrupa según metadatos. Busca con embeddings vectoriales
- Entrega datasets a Pytorch o Tensorflow, o los exporta de nuevo al repositorio
- Eficiencia
- Paralelización, trabajo fuera de memoria y caché de datos
- Operaciones vectorizadas sobre campos de objetos de Python: suma, conteo, promedio, etc.
- Búsqueda vectorial optimizada
Aún no hay comentarios.