bigset - ¿Y si tuvieras todos los datos del mundo?
(github.com/tinyfish-io)- Herramienta de código abierto que genera datasets estructurados desde la web en vivo con una sola frase en lenguaje natural y los actualiza automáticamente según la frecuencia configurada
- Ejemplo: "Lista de empresas de YC que actualmente están contratando ingenieros, con etapa de inversión, ubicación y número de vacantes públicas"
- Infiere automáticamente el esquema a partir de la frase de entrada: decide nombres de columnas, tipos, clave primaria e incluso dónde encontrarlos en la web
- Un agente autónomo investiga la web en vivo y devuelve una tabla tras contrastar y verificar con fuentes reales, además de eliminar duplicados
- Cuando el agente orquestador detecta entidades, agentes secundarios se distribuyen en paralelo para investigar y verificar cada una
- Los resultados se pueden descargar en CSV / XLSX y explorar desde la interfaz
- Al configurar una frecuencia de actualización (30 minutos, 6 horas, 12 horas, diaria, semanal), el agente se vuelve a ejecutar según el calendario y mantiene el dataset actualizado
- Ya sea una persona o un agente de IA, toda interacción con la web termina convirtiéndose en datos (precios, empresas, contrataciones, investigación, disponibilidad, inventario, etc.)
- Esos datos están dispersos en múltiples páginas, y esto resuelve la recolección de datos cruzados entre categorías que las herramientas tradicionales de scraping, las APIs de búsqueda o las herramientas de LeadGen no logran cubrir
— Ya no hace falta hacer o integrar manualmente búsqueda/extracción/diseño de esquema/eliminación de duplicados/verificación/trabajos programados cada vez
- Esos datos están dispersos en múltiples páginas, y esto resuelve la recolección de datos cruzados entre categorías que las herramientas tradicionales de scraping, las APIs de búsqueda o las herramientas de LeadGen no logran cubrir
- También permite crear y exportar datasets desde la CLI en terminal
bigset create "..." --rows 30 --wait --csv
- Aun así, sigue en etapa experimental, por lo que la inferencia de esquema no siempre es perfecta. Solo es apto para datos públicos
- Stack tecnológico
- Frontend: Next.js 16, React 19, Tailwind 4
- Backend: Fastify, TypeScript (runner de agentes)
- Autenticación: autenticación local (desarrollo), Clerk (nube)
- Base de datos: Convex (self-hosted)
- Recolección de datos: TinyFish API (Search, Fetch, Browser)
- Orquestación de IA: workflows de Mastra + Vercel AI SDK + OpenRouter → Claude Sonnet (inferencia de esquema + agente de populate)
- Vista de tablas: TanStack Table + virtualización con react-window
- Exportación: CSV (integrado) + XLSX (SheetJS, importación dinámica)
- Analítica: PostHog — eventos, repetición de sesiones, seguimiento de errores (opcional)
- Licencia AGPL-3.0
Aún no hay comentarios.