- Herramienta de código abierto que permite buscar y gestionar de forma unificada datos multimodales como imágenes, PDF y videos
- Optimizada para procesar documentos técnicos y visuales mejor que los enfoques RAG tradicionales
- Usa embeddings de ColPali para tratar páginas completas como si fueran imágenes, y ofrece búsqueda semántica que entiende el diseño, la tipografía y el contexto visual
- Permite crear un grafo de conocimiento especializado por dominio capaz de vincular entidades entre múltiples documentos, con posibilidad de usar prompts del sistema personalizados o preentrenados
- Busca distintos tipos de documentos como PDF, imágenes y videos mediante una sola API, y también soporta MCP
- La extracción de metadatos es rápida y escalable, y también soporta bounding boxes, clasificación y más
- Posibilita la integración con flujos de trabajo como Google Suite, Slack y Confluence
- También incluye Cache-Augmented-Generation basada en caché KV, que mejora la velocidad de generación basada en documentos
- Las funciones básicas se ofrecen como código abierto bajo licencia MIT, por lo que se puede empezar gratis; algunas funciones avanzadas son de pago y se ofrecen bajo el namespace
ee
Introducción a conceptos y funciones principales
-
Búsqueda multimodal (ColPali)
- Procesa cada página PDF como imagen y genera una representación multivectorial por página, en lugar de trabajar con una sola unidad de token de texto
- Puede comprender y buscar imágenes, PDF, videos y también estructuras visuales como tablas, diagramas y formatos
- Soporta consultas multimodales unificadas a través de un solo endpoint
-
- Permite crear un grafo de conocimiento especializado por dominio con una sola línea de código
- Se pueden usar prompts preconfigurados o personalizados
-
Extracción de metadatos rápida y escalable (Rules Processing)
- Extrae automáticamente bounding boxes, etiquetas e información de clasificación dentro de los documentos
- Procesa grandes volúmenes de documentos de forma rápida y estable
-
- Soporta integración directa con Google Workspace, Slack y Confluence
-
- Crea una caché KV por documento para mejorar la velocidad de generación
- Útil en entornos con muchas consultas repetidas
2 comentarios
Probé usar esto hace unos meses, pero terminó necesitando muchos más recursos de GPU de lo que esperaba y también bajaba bastante el rendimiento, así que era difícil adoptarlo en una empresa pequeña. Incluso buscando con 2 GPUs A10 tardaba entre 30 segundos y 1 minuto, da miedo,,