Flamehaven FileSearch — motor de búsqueda de documentos RAG de código abierto y autoalojable
(github.com/flamehaven01)🔥Flamehaven FileSearch
- Flamehaven FileSearch es un motor de búsqueda semántica de código abierto y autoalojable que permite a cualquiera construir un sistema RAG (Retrieval-Augmented Generation) basado en documentos en solo 5 minutos.
- Funciona sobre Python, FastAPI y SQLite, y utiliza Google Gemini Embedding para realizar preguntas y respuestas en lenguaje natural sobre diversos documentos como PDF/DOCX/TXT/MD.
¿Por qué se creó?
- La mayoría de las implementaciones RAG de código abierto funcionan bien en entornos como Colab o Jupyter, pero su estructura suele ser compleja o carecen de estabilidad para desplegarlas y operarlas en un servidor real.
- Flamehaven FileSearch fue diseñado con el objetivo de ser una “pila RAG ligera que realmente funciona”, para que investigadores, startups y desarrolladores individuales puedan experimentar de inmediato con búsqueda semántica usando sus propios datos.
¿Por qué vale la pena prestarle atención?
- Autonomía total: no depende de servidores externos ni de la nube, y todos los datos se almacenan localmente.
- Estructura centrada en desarrolladores: Python SDK + REST API, con documentación Swagger generada automáticamente sobre FastAPI.
- Distribución como paquete en PyPI: se puede instalar directamente desde PyPI — instalación totalmente automática con una sola línea:
pip install flamehaven-filesearch[api]. - Ejecución inmediata: después de instalarlo, puedes iniciar el servidor de inmediato con el comando
flamehaven-apiy probar la API en el navegador desde/docs. - Escalabilidad: almacenamiento en SQLite, arquitectura de plugins y soporte para despliegue con Docker.
- Amigable para educación e investigación: usa embeddings de Gemini, ideal para practicar búsqueda semántica basada en los LLM más recientes.
¿Qué incluye? (puntos destacados)
-
Python SDK:
from flamehaven_filesearch import FlamehavenFileSearch→ ofrece funciones completas para carga de documentos / búsqueda / administración de stores.
-
REST API: endpoints
/upload,/search,/stores+ Swagger UI. -
Soporte para Docker:
docker run -e GEMINI_API_KEY=... -p 8000:8000 flamehaven/filesearch:latest -
Estructura:
core(motor)/api(FastAPI)/data(SQLite)/examples/docs
Probarlo rápidamente
1️⃣ Paquete en PyPI
Flamehaven FileSearch se puede instalar directamente a través de PyPI.
Ver la versión más reciente: https://pypi.org/project/flamehaven-filesearch
pip install flamehaven-filesearch[api]
2️⃣ Instalación
pip install flamehaven-filesearch[api]
export GEMINI_API_KEY="your-google-gemini-key"
flamehaven-api
3️⃣ Carga de documentos y búsqueda
curl -X POST "http://localhost:8000/upload" -F "file=@handbook.pdf"
curl "http://localhost:8000/search?q=vacation+policy"
4️⃣ Ejemplo de uso del SDK
from flamehaven_filesearch import FlamehavenFileSearch
fs = FlamehavenFileSearch()
fs.upload_file("handbook.pdf")
print(fs.search("vacation policy")["answer"])
Rendimiento y especificaciones
- Entorno: Ubuntu 22.04 / 2vCPU / 4GB RAM / SSD
- Carga de un PDF de 10MB → aproximadamente 5 segundos
- Respuesta promedio de búsqueda → 2 segundos (al citar 5 fuentes)
- Eliminación/creación de stores → menos de 1 segundo
- Sobrecarga de almacenamiento → aproximadamente 5 % del tamaño del documento
Hoja de ruta
- v1.1 : caché y gestión de cuotas
- v1.2 : búsqueda por lotes + streaming por WebSocket
- v2.0 : soporte para documentos multilingües, panel de analítica
- A futuro : integración con vector DBs Pinecone/Weaviate, OCR, stores colaborativos
Licencia
- MIT License (completamente de código abierto)
🛡️ Aviso de seguridad y cuenta de Flamehaven en GitHub
Recientemente se detectaron intentos de inicio de sesión sospechosos en la cuenta de GitHub de Flamehaven (esta cuenta), por lo que la cuenta quedó en estado de suspensión. Actualmente se está verificando el problema en colaboración con el equipo de seguridad de GitHub.
A raíz de este incidente, las cuentas que incluyen dir2md, flashrecord, crom-efficient y Arr-medic-cyp3a4, entre otras, permanecerán temporalmente fuera de uso.
Ofrecemos nuestras más sinceras disculpas por las molestias ocasionadas y agradecemos su comprensión hasta que se complete la revisión de seguridad.
Aún no hay comentarios.