29 puntos por flamehaven01 2025-11-13 | Aún no hay comentarios. | Compartir por WhatsApp

🔥Flamehaven FileSearch

  • Flamehaven FileSearch es un motor de búsqueda semántica de código abierto y autoalojable que permite a cualquiera construir un sistema RAG (Retrieval-Augmented Generation) basado en documentos en solo 5 minutos.
  • Funciona sobre Python, FastAPI y SQLite, y utiliza Google Gemini Embedding para realizar preguntas y respuestas en lenguaje natural sobre diversos documentos como PDF/DOCX/TXT/MD.

¿Por qué se creó?

  • La mayoría de las implementaciones RAG de código abierto funcionan bien en entornos como Colab o Jupyter, pero su estructura suele ser compleja o carecen de estabilidad para desplegarlas y operarlas en un servidor real.
  • Flamehaven FileSearch fue diseñado con el objetivo de ser una “pila RAG ligera que realmente funciona”, para que investigadores, startups y desarrolladores individuales puedan experimentar de inmediato con búsqueda semántica usando sus propios datos.

¿Por qué vale la pena prestarle atención?

  • Autonomía total: no depende de servidores externos ni de la nube, y todos los datos se almacenan localmente.
  • Estructura centrada en desarrolladores: Python SDK + REST API, con documentación Swagger generada automáticamente sobre FastAPI.
  • Distribución como paquete en PyPI: se puede instalar directamente desde PyPI — instalación totalmente automática con una sola línea: pip install flamehaven-filesearch[api].
  • Ejecución inmediata: después de instalarlo, puedes iniciar el servidor de inmediato con el comando flamehaven-api y probar la API en el navegador desde /docs.
  • Escalabilidad: almacenamiento en SQLite, arquitectura de plugins y soporte para despliegue con Docker.
  • Amigable para educación e investigación: usa embeddings de Gemini, ideal para practicar búsqueda semántica basada en los LLM más recientes.

¿Qué incluye? (puntos destacados)

  • Python SDK: from flamehaven_filesearch import FlamehavenFileSearch

    → ofrece funciones completas para carga de documentos / búsqueda / administración de stores.

  • REST API: endpoints /upload, /search, /stores + Swagger UI.

  • Soporte para Docker: docker run -e GEMINI_API_KEY=... -p 8000:8000 flamehaven/filesearch:latest

  • Estructura: core(motor) / api(FastAPI) / data(SQLite) / examples / docs


Probarlo rápidamente

1️⃣ Paquete en PyPI

Flamehaven FileSearch se puede instalar directamente a través de PyPI.

Ver la versión más reciente: https://pypi.org/project/flamehaven-filesearch

pip install flamehaven-filesearch[api]  

2️⃣ Instalación

pip install flamehaven-filesearch[api]  
export GEMINI_API_KEY="your-google-gemini-key"  
flamehaven-api  
  

3️⃣ Carga de documentos y búsqueda

curl -X POST "http://localhost:8000/upload"; -F "file=@handbook.pdf"  
curl "http://localhost:8000/search?q=vacation+policy";  
  

4️⃣ Ejemplo de uso del SDK

from flamehaven_filesearch import FlamehavenFileSearch  
fs = FlamehavenFileSearch()  
fs.upload_file("handbook.pdf")  
print(fs.search("vacation policy")["answer"])  
  

Rendimiento y especificaciones

  • Entorno: Ubuntu 22.04 / 2vCPU / 4GB RAM / SSD
  • Carga de un PDF de 10MB → aproximadamente 5 segundos
  • Respuesta promedio de búsqueda → 2 segundos (al citar 5 fuentes)
  • Eliminación/creación de stores → menos de 1 segundo
  • Sobrecarga de almacenamiento → aproximadamente 5 % del tamaño del documento

Hoja de ruta

  • v1.1 : caché y gestión de cuotas
  • v1.2 : búsqueda por lotes + streaming por WebSocket
  • v2.0 : soporte para documentos multilingües, panel de analítica
  • A futuro : integración con vector DBs Pinecone/Weaviate, OCR, stores colaborativos

Licencia

  • MIT License (completamente de código abierto)

🛡️ Aviso de seguridad y cuenta de Flamehaven en GitHub

Recientemente se detectaron intentos de inicio de sesión sospechosos en la cuenta de GitHub de Flamehaven (esta cuenta), por lo que la cuenta quedó en estado de suspensión. Actualmente se está verificando el problema en colaboración con el equipo de seguridad de GitHub.

A raíz de este incidente, las cuentas que incluyen dir2md, flashrecord, crom-efficient y Arr-medic-cyp3a4, entre otras, permanecerán temporalmente fuera de uso.

Ofrecemos nuestras más sinceras disculpas por las molestias ocasionadas y agradecemos su comprensión hasta que se complete la revisión de seguridad.

Aún no hay comentarios.

Aún no hay comentarios.