aipack: generador de Parquet con chunking semántico neutral basado en BGE-M3 + servidor MCP
(github.com/rkttu)Lanzamos la primera versión del framework aipack, que realiza chunking semántico usando BGE-M3, MarkItDown y un parser de estructura Markdown, y guarda el resultado en archivos Parquet. Fue diseñado para implementar RAG sobre la base de un formato de archivo reutilizable en cualquier momento, manteniendo un estado neutral e independiente del modelo y la base de datos, e incluso permitiendo ejecutar un servidor MCP.
El objetivo de aipack es poner el foco en crear un entorno que permita implementar RAG sin depender de NPU o GPU y que, al mismo tiempo, sea fácil de ampliar hacia distintas arquitecturas de RAG en el futuro. Bajo la premisa de que “si puedes generar archivos Parquet de alta calidad, puedes hacer cualquier cosa”, este es un proyecto experimental que intenta desacoplar (decoupling) el pipeline de RAG que se usa comúnmente en la industria.
Es una implementación de una idea que venía pensando desde hace tiempo, así que todavía tiene muchas partes algo verdes, pero si me comparten mucho feedback y opiniones, con base en eso intentaré seguir desarrollándolo para convertirlo en un mejor proyecto.
Aún no hay comentarios.