ir - motor de búsqueda local alternativo a qmd (con soporte de preprocesamiento en coreano)
(github.com/vlwkaos)Mientras usaba qmd existente, encontré algunos problemas y creé un motor de búsqueda local para reemplazarlo.
La incomodidad de tener que hacer indexing/embedding de todas las colecciones de una sola vez en una única base de datos sqlite
-> Al separar esto, es posible gestionar las colecciones por proyecto, y también resulta más fluida la actualización del índice cuando varios agentes trabajan al mismo tiempo.
El problema de que solo soporte el preprocesamiento básico orientado al inglés
-> Soporta agregar directamente preprocessors basados en i/o de comandos. En el repositorio dejé lindera-ko, que fue el que mostró mejor rendimiento tras varias pruebas comparativas. Para instalarlo, revisa la guía.
El problema de que tarde mucho al hacer cold loading del modelo para búsqueda híbrida cuando falla la prueba de brecha BM25
-> Un daemon se ejecuta y mantiene el modelo cargado en memoria.
Comparado con qmd, es más de 20 veces más rápido en estado warm,
y a diferencia de qmd, que no tiene benchmarks sobre la puntuación de relevancia,
se hizo un pequeño ajuste de score sobre un corpus real.
Como es la primera publicación, pueden surgir problemas; agradecería que me los comentaran o que registraran un issue.
Guía en coreano: https://github.com/vlwkaos/ir/blob/main/README.ko.md
2 comentarios
Me preocupaban las limitaciones de QMD, así que esto me genera expectativas.
Oh, ¡lo usaré muy bien!