20 puntos por xguru 2025-05-29 | 2 comentarios | Compartir por WhatsApp
  • Herramienta de código abierto que permite buscar y gestionar de forma unificada datos multimodales como imágenes, PDF y videos
    • Optimizada para procesar documentos técnicos y visuales mejor que los enfoques RAG tradicionales
  • Usa embeddings de ColPali para tratar páginas completas como si fueran imágenes, y ofrece búsqueda semántica que entiende el diseño, la tipografía y el contexto visual
  • Permite crear un grafo de conocimiento especializado por dominio capaz de vincular entidades entre múltiples documentos, con posibilidad de usar prompts del sistema personalizados o preentrenados
  • Busca distintos tipos de documentos como PDF, imágenes y videos mediante una sola API, y también soporta MCP
  • La extracción de metadatos es rápida y escalable, y también soporta bounding boxes, clasificación y más
  • Posibilita la integración con flujos de trabajo como Google Suite, Slack y Confluence
  • También incluye Cache-Augmented-Generation basada en caché KV, que mejora la velocidad de generación basada en documentos
  • Las funciones básicas se ofrecen como código abierto bajo licencia MIT, por lo que se puede empezar gratis; algunas funciones avanzadas son de pago y se ofrecen bajo el namespace ee

Introducción a conceptos y funciones principales

  • Búsqueda multimodal (ColPali)

    • Procesa cada página PDF como imagen y genera una representación multivectorial por página, en lugar de trabajar con una sola unidad de token de texto
    • Puede comprender y buscar imágenes, PDF, videos y también estructuras visuales como tablas, diagramas y formatos
    • Soporta consultas multimodales unificadas a través de un solo endpoint
  • Grafo de conocimiento (Knowledge Graphs)

    • Permite crear un grafo de conocimiento especializado por dominio con una sola línea de código
    • Se pueden usar prompts preconfigurados o personalizados
  • Extracción de metadatos rápida y escalable (Rules Processing)

    • Extrae automáticamente bounding boxes, etiquetas e información de clasificación dentro de los documentos
    • Procesa grandes volúmenes de documentos de forma rápida y estable
  • Varias integraciones (Integrations)

    • Soporta integración directa con Google Workspace, Slack y Confluence
  • Generación basada en caché (Cache-Augmented-Generation)

    • Crea una caché KV por documento para mejorar la velocidad de generación
    • Útil en entornos con muchas consultas repetidas

2 comentarios

 
blizard4479 2025-05-29

Probé usar esto hace unos meses, pero terminó necesitando muchos más recursos de GPU de lo que esperaba y también bajaba bastante el rendimiento, así que era difícil adoptarlo en una empresa pequeña. Incluso buscando con 2 GPUs A10 tardaba entre 30 segundos y 1 minuto, da miedo,,

 
[Este comentario fue ocultado.]