Código abierto de la startup fallida Buzee – aplicación de búsqueda de archivos

(github.com/gsidhu)

11 puntos por GN⁺ 2024-12-16 | 3 comentarios | Compartir por WhatsApp

Buzee es una aplicación de búsqueda de texto completo que puede usarse en Mac y Windows
Una herramienta que permite a los usuarios realizar búsquedas Full-Text rápidas en todos sus documentos, imágenes, audios, videos, carpetas e historial del navegador
Permite buscar documentos y carpetas locales por palabra clave, tiempo, tipo o una combinación de estos
Es posible excluir archivos o carpetas específicas de la indexación, o excluir solo su contenido
Se puede mostrar/ocultar la app usando un atajo global (⎇ / Alt + Space).
Navegación rápida dentro de la app hacia la búsqueda (⌘ / Ctrl + F or K) y hacia el scratchpad (⌘ / Ctrl + Shift + S).
Permite ver estadísticas sobre archivos y ofrece perfiles únicos de documentos
Funciones secundarias: extracción de texto de PDF e imágenes, uso de scratchpad, sincronización automática de cambios en el sistema de archivos
Paquete de instalación ligero y bajo uso de memoria
Formatos de archivo compatibles
- Documentos: csv, docx, key, md, numbers, pages, pdf, pptx, txt, xlsx, xls
- Imágenes: jpg, jpeg, png, gif
- Libros: epub, mobi, azw3, pdf
- Audio: mp3, wav, aac, flac, ogg
- Video: mp4, mkv, avi, mov, wmv
Código abierto basado en Rust + NodeJS + Tauri

Búsqueda semántica

Incluir/excluir en la búsqueda

Se puede usar un filtro por tipo de archivo o escribirlo directamente en la consulta de búsqueda (ej.: invoice pdf).
Usa comillas en las palabras clave para buscar frases exactas (ej.: "annual report").
Usa un guion antes de las palabras clave que quieras excluir de la búsqueda (ej.: "annual report" -2022 -pdf).

Buscar por tiempo

Se puede usar un filtro de rango de fechas o especificar un período de fecha/hora en la consulta de búsqueda.
Ej.: **last month** pdf invoice, annual report ppt **this year**.

Compilar desde el código fuente

Buzee ofrece el mejor rendimiento en Mac, y no ha sido suficientemente probado en Windows y Linux.
Después de instalar Rust y NodeJS, se puede ejecutar la app en modo de desarrollo usando los comandos npm install y cargo install.

TODO / problemas conocidos

Hace falta mejorar varias funciones, como mostrar el texto coincidente en los resultados de búsqueda y soportar consultas complejas en la búsqueda del historial del navegador.
También hace falta desarrollar nuevas funciones, como agregar 'tags' a los documentos, crear una vista de 'dashboard' y añadir pruebas al código base.

Stack tecnológico

Backend: Rust, Tauri v2, SQLite, Tantivy.
Frontend: Svelte 4, TypeScript, TailwindCSS.

Arquitectura

Todos los metadatos de archivos se almacenan en la tabla document de SQLite.
Se crea un índice de texto completo en la tabla metadata y se almacena en Tantivy.
El historial de Firefox, Chrome y Arc se consulta a través de sus respectivas bases de datos de historial.

Licencia

Licencia MIT.

3 comentarios

dhlee0305 2024-12-16

Aunque es la versión 0.1.1, así que dudé un poco... por ahora funciona sin problemas.
Eso sí, como la estoy usando en una PC, no sé si será porque está configurada para usar pocos recursos, pero la velocidad de indexación se siente lenta.
Además, resulta cómodo que encuentre texto dentro de los archivos, incluidas las imágenes. Tiene un ligero aire a Google Desktop.

xguru 2024-12-16

recoll - herramienta de búsqueda de texto completo para escritorio

GN⁺ 2024-12-16

Comentarios de Hacker News

Un usuario pidió que compartieran la historia de por qué fracasó y qué harían diferente si empezaran hoy. También planteó si la razón por la que fracasan varios startups de búsqueda universal es la falta de mercado o problemas de adaptación
Agradecen que lo hayan hecho open source, pero señalan que no tiene funciones de búsqueda con IA. Consideran que la app tiene una base sólida, aunque necesita más trabajo para ser realmente práctica
Explican que usan un programa llamado Recoll para buscar distintos tipos de archivos. Destacan que puede encontrar documentos de MS-Word guardados en carpetas de Thunderbird y abrir archivos PDF con doble clic
Mencionan un problema por el cual no se puede descargar, y dicen que sería útil en entornos donde Windows Search no funciona porque el volumen de registros electrónicos es demasiado grande. Subrayan la necesidad de gestionar los archivos electrónicos
Comparten una foto de su perro junto con la broma de que no usarían un programa llamado Labrador Retriever
Mencionan que era un intento de implementar funciones similares a Microsoft SharePoint, y señalan que el problema de negocio es convencer a empresas centradas en MS. Preguntan si sería posible construir un producto encima de SharePoint
Señalan que el enlace de descarga no funciona y sugieren que un proyecto cuyo principal valor es la GUI debería incluir capturas de pantalla
Proponen como opción usar una extensión de duckdb para ejecutar SQL sobre el sistema de archivos y así hacer búsquedas complejas de archivos
Piden recomendaciones de una app que pueda buscar en Google Drive, GitHub, GitLab, Box.com y archivos locales
Agradecen que lo hayan hecho open source, pero señalan que falta documentación. Dicen que están construyendo un sistema de documentación con IA y piden permiso para escribir la documentación y crear un PR. Presentan el proyecto AkiraDocs