14 puntos por xguru 2024-10-20 | Aún no hay comentarios. | Compartir por WhatsApp
  • Biblioteca moderna de dataframes en Python diseñada para IA
  • Creada para organizar datos no estructurados en conjuntos de datos y hacer wrangling a gran escala en una máquina local
  • Se integra con el stack de datos posmoderno sin abstraer ni ocultar los modelos de IA ni las llamadas a API

Características principales

  • Repositorio de Source of Truth
    • Procesa datos no estructurados desde S3, GCP, Azure y sistemas de archivos locales sin copias duplicadas
    • Soporte para datos multimodales: imágenes, video, texto, PDF, JSON, CSV, parquet, etc.
    • Unifica archivos y metadatos en datasets persistentes, versionados y orientados a columnas
  • Pipeline de datos amigable con Python
    • Trabaja con objetos de Python y campos de objetos
    • Paralelización integrada y operaciones fuera de memoria, sin SQL ni Spark
  • Enriquecimiento y procesamiento de datos
    • Genera metadatos usando modelos de IA locales y APIs de LLM
    • Filtra, hace joins y agrupa según metadatos. Busca con embeddings vectoriales
    • Entrega datasets a Pytorch o Tensorflow, o los exporta de nuevo al repositorio
  • Eficiencia
    • Paralelización, trabajo fuera de memoria y caché de datos
    • Operaciones vectorizadas sobre campos de objetos de Python: suma, conteo, promedio, etc.
    • Búsqueda vectorial optimizada

Aún no hay comentarios.

Aún no hay comentarios.