VectorDB - la base de datos vectorial desarrollada por Kagi Search

(vectordb.com)

14 puntos por GN⁺ 2023-11-27 | 1 comentarios | Compartir por WhatsApp

VectorDB es un paquete de Python para almacenar y buscar texto, que utiliza técnicas de chunking, embeddings y búsqueda vectorial
Ofrece una interfaz fácil de usar y es adecuado para almacenar, buscar y gestionar datos de texto asociados con metadatos
Está diseñado para casos de uso donde la baja latencia es esencial

Instalación y uso

VectorDB es open source, y se puede consultar el código y la documentación completa en GitHub.
Se puede instalar con el comando pip install vectordb2.
Se usa creando un objeto de memoria, almacenando texto y metadatos, y luego recuperando los chunks relacionados.

Importancia de la búsqueda vectorial y los embeddings

Al trabajar con modelos de lenguaje de gran escala, la búsqueda vectorial y los embeddings permiten una recuperación de información eficiente y precisa.
Convierten el texto en vectores de alta dimensión para permitir comparaciones y búsquedas rápidas, y capturan el significado semántico para mejorar la calidad de los resultados de búsqueda.

Ejemplo

Usando el objeto Memory, se configura una estrategia de chunking y se almacenan texto y metadatos sobre machine learning e inteligencia artificial.
Para una consulta específica, se recuperan los n chunks más relevantes y se muestran los resultados.

Opinión de GN⁺

Lo más importante de este artículo es que VectorDB es un paquete de Python que permite almacenar y buscar datos de texto de manera eficiente. Al usar búsqueda vectorial y tecnologías de embeddings, puede recuperar información de forma rápida y precisa en grandes conjuntos de datos, lo que sugiere aplicaciones en diversos campos como la toma de decisiones basada en datos y el procesamiento de lenguaje natural. Esta tecnología será cada vez más importante en la sociedad moderna, donde el volumen de datos sigue creciendo, y por eso puede ser un tema interesante para personas interesadas en ingeniería de software, ciencia de datos e inteligencia artificial.

1 comentarios

GN⁺ 2023-11-27

Opiniones de Hacker News

Opinión del desarrollador:
- Este producto no es una base de datos real, sino un wrapper que corre localmente basado en embeddings y FAISS/mrpt.
- Ofrece valores predeterminados razonables a través de mucho benchmarking para minimizar la latencia.
- Comparte un cuaderno de Colab de ejemplo para filtrar el contenido del feed RSS de Kagi Small Web según los intereses del usuario.
Opinión sobre FAISS:
- FAISS es una biblioteca de búsqueda vectorial que ofrece una API simple.
- Si no necesitas bibliotecas pesadas como PyTorch, Tensorflow o Transformers, que VectorDB requiere, FAISS puede ser una mejor opción.
Opinión sobre la integración con Postgres:
- Los equipos que ya usan Postgres como almacenamiento operativo deberían usar la extensión PGVector.
- Tener los datos y la funcionalidad de búsqueda vectorial juntos reduce lo que hay que administrar en el stack tecnológico.
Retroalimentación positiva sobre la búsqueda de Kagi:
- Después de usar la búsqueda de Kagi durante unos meses, el resultado ha sido sorprendente.
- Si esta tecnología es la que impulsa la búsqueda de Kagi, hay motivos para ser optimista.
Preguntas sobre almacenamiento de datos y limitaciones:
- Hay curiosidad sobre dónde se almacenan los datos y cómo se persisten.
- También preguntan qué limitaciones tiene esta tecnología y si funciona bien con textos de 500-1000 palabras y con colecciones de texto que no sean oraciones.
Curiosidad sobre el uso del lenguaje Crystal:
- Hay interés en saber por qué no se utilizó el lenguaje Crystal.
Pregunta sobre comparaciones entre bases de datos vectoriales:
- Se pregunta si existe algún material que compare varias vector DB, cómo elegir según distintos casos de uso y en qué se diferencian.
Interés en el framework "al mínimo":
- Resulta interesante eliminar la dependencia de los transformadores de HF y personalizar el chunking.
- No es una crítica al proyecto, sino una observación sobre partes que podrían resultar útiles.
Pregunta sobre la generación de embeddings:
- Se pregunta qué se usa realmente para generar los embeddings.
Compartieron un enlace de blog sobre bases de datos vectoriales:
- Se compartió un enlace de blog que sostiene que no se necesita una base de datos vectorial.