FLAMEHAVEN FileSearch v1.3.1 – Eliminación de dependencias de ML y gran rediseño del motor de búsqueda semántica
(github.com/flamehaven01)FLAMEHAVEN FileSearch es un proyecto open source que comenzó con la pregunta:
👉 “¿Se puede hacer que un RAG para búsqueda de documentos sea ligero, reproducible y completamente self-hosted?”
Actualmente tiene ⭐ 81 stars / 🍴 11 forks; es un proyecto pequeño, pero ha mantenido mejoras claras en cada release.
Este lanzamiento v1.3.1 no es solo una simple adición de funciones,
👉 es una actualización que rompe la idea de que “búsqueda semántica = stack pesado de ML”.
🔍 Resumen del proyecto en una línea
-
Motor de búsqueda RAG self-hosted
-
Al subir documentos (PDF/DOCX/MD/TXT), ofrece búsqueda por palabras clave + semántica + híbrida
-
Funciona localmente sin una base de datos vectorial externa
-
Puede ejecutarse en menos de 3 minutos con una sola línea de Docker
✨ Actualizaciones clave de v1.3.1 (puntos que les gustarán a los desarrolladores)
1️⃣ Eliminación total de dependencias de ML (el cambio más grande)
-
Eliminación completa de sentence-transformers / torch
-
Introducción de DSP v2.0 (Deterministic Semantic Projection), implementado internamente
-
✔️ generación de vectores < 1 ms
-
✔️ sin latencia de inicialización (antes 2 minutos → ahora inmediato)
-
Es búsqueda semántica, pero funciona de forma determinista sin frameworks de ML
2️⃣ Optimización de memoria y rendimiento
-
Cuantización de vectores int8
→ 75% menos uso de memoria -
Más de 30% de mejora en velocidad del cálculo de similitud coseno
-
Más de 90% de compresión de metadatos (Gravitas-Pack)
-
Puede operarse sin problema incluso en un servidor personal o una VM interna
3️⃣ Expansión de modos de búsqueda
-
Soporte para modos de búsqueda keyword / semantic / hybrid
-
Incluye typo correction + query refinement
-
Totalmente backward-compatible con la API existente
4️⃣ Estabilidad y confiabilidad
-
El framework de pruebas cambió de pytest → unittest
-
19/19 pruebas aprobadas (0.33s)
-
Eliminación de timeouts e inestabilidad en CI
🔐 Funciones de producción que se mantienen
-
Autenticación y gestión de permisos basadas en API Key
-
Rate limiting / Audit log
-
Batch search (1~100 queries)
-
Caché opcional con Redis
-
Métricas de Prometheus
👀 Especialmente adecuado para
-
Equipos que necesitan un RAG local para búsqueda de documentos internos
-
Entornos donde es difícil subir datos a un SaaS externo (como Pinecone)
-
Desarrolladores que están en la etapa de “el PoC ya funciona, pero ¿cómo lo operamos?”
-
Ingenieros que priorizan reproducibilidad / costos / control
🔗 GitHub
👉 https://github.com/flamehaven01/Flamehaven-Filesearch
---Si lo pruebas y te resulta útil, dejar una ⭐ sería de gran ayuda.
Se agradecen opiniones, feedback y PR.
Aún no hay comentarios.