bigset - ¿Y si tuvieras todos los datos del mundo?

xguru · 2026-06-23T09:31:01+09:00

Herramienta de código abierto que genera datasets estructurados desde la web en vivo con una sola frase en lenguaje natural y los actualiza automáticamente según la frecuencia configurada Ejemplo: "Lista de empresas de YC que actualmente están contratando ingenieros, con etapa de inversión, ubicación y número de vacantes públicas" Infiere automáticamente el esquema a partir de la frase de entrada: decide nombres de columnas, tipos, clave primaria e incluso dónde encontrarlos en la web Un agente autónomo investiga la web en vivo y devuelve una tabla tras contrastar y verificar con fuentes reales, además de eliminar duplicados Cuando el agente orquestador detecta entidades, agentes secundarios se distribuyen en paralelo para investigar y verificar cada una Los resultados se pueden descargar en CSV / XLSX y explorar desde la interfaz Al configurar una frecuencia de actualización (30 minutos, 6 horas, 12 horas, diaria, semanal), el agente se vuelve a ejecutar según el calendario y mantiene el dataset actualizado Ya sea una persona o un agente de IA, toda interacción con la web termina convirtiéndose en datos (precios, empresas, contrataciones, investigación, disponibilidad, inventario, etc.) Esos datos están dispersos en múltiples páginas, y esto resuelve la recolección de datos cruzados entre categorías que las herramientas tradicionales de scraping, las APIs de búsqueda o las herramientas de LeadGen no logran cubrir — Ya no hace falta hacer o integrar manualmente búsqueda/extracción/diseño de esquema/eliminación de duplicados/verificación/trabajos programados cada vez También permite crear y exportar datasets desde la CLI en terminal bigset create "..." --rows 30 --wait --csv Aun así, sigue en etapa experimental, por lo que la inferencia de esquema no siempre es perfecta. Solo es apto para datos públicos Stack tecnológico Frontend: Next.js 16, React 19, Tailwind 4 Backend: Fastify, TypeScript (runner de agentes) Autenticación: autenticación local (desarrollo), Clerk (nube) Base de datos: Convex (self-hosted) Recolección de datos: TinyFish API (Search, Fetch, Browser) Orquestación de IA: workflows de Mastra + Vercel AI SDK + OpenRouter → Claude Sonnet (inferencia de esquema + agente de populate) Vista de tablas: TanStack Table + virtualización con react-window Exportación: CSV (integrado) + XLSX (SheetJS, importación dinámica) Analítica: PostHog — eventos, repetición de sesiones, seguimiento de errores (opcional) Licencia AGPL-3.0

(github.com/tinyfish-io)

8 puntos por xguru 4 시간 전 | Aún no hay comentarios. | Compartir por WhatsApp

Herramienta de código abierto que genera datasets estructurados desde la web en vivo con una sola frase en lenguaje natural y los actualiza automáticamente según la frecuencia configurada
- Ejemplo: "Lista de empresas de YC que actualmente están contratando ingenieros, con etapa de inversión, ubicación y número de vacantes públicas"
Infiere automáticamente el esquema a partir de la frase de entrada: decide nombres de columnas, tipos, clave primaria e incluso dónde encontrarlos en la web
Un agente autónomo investiga la web en vivo y devuelve una tabla tras contrastar y verificar con fuentes reales, además de eliminar duplicados
- Cuando el agente orquestador detecta entidades, agentes secundarios se distribuyen en paralelo para investigar y verificar cada una
Los resultados se pueden descargar en CSV / XLSX y explorar desde la interfaz
Al configurar una frecuencia de actualización (30 minutos, 6 horas, 12 horas, diaria, semanal), el agente se vuelve a ejecutar según el calendario y mantiene el dataset actualizado
Ya sea una persona o un agente de IA, toda interacción con la web termina convirtiéndose en datos (precios, empresas, contrataciones, investigación, disponibilidad, inventario, etc.)
- Esos datos están dispersos en múltiples páginas, y esto resuelve la recolección de datos cruzados entre categorías que las herramientas tradicionales de scraping, las APIs de búsqueda o las herramientas de LeadGen no logran cubrir
  — Ya no hace falta hacer o integrar manualmente búsqueda/extracción/diseño de esquema/eliminación de duplicados/verificación/trabajos programados cada vez
También permite crear y exportar datasets desde la CLI en terminal
- bigset create "..." --rows 30 --wait --csv
Aun así, sigue en etapa experimental, por lo que la inferencia de esquema no siempre es perfecta. Solo es apto para datos públicos
Stack tecnológico
- Frontend: Next.js 16, React 19, Tailwind 4
- Backend: Fastify, TypeScript (runner de agentes)
- Autenticación: autenticación local (desarrollo), Clerk (nube)
- Base de datos: Convex (self-hosted)
- Recolección de datos: TinyFish API (Search, Fetch, Browser)
- Orquestación de IA: workflows de Mastra + Vercel AI SDK + OpenRouter → Claude Sonnet (inferencia de esquema + agente de populate)
- Vista de tablas: TanStack Table + virtualización con react-window
- Exportación: CSV (integrado) + XLSX (SheetJS, importación dinámica)
- Analítica: PostHog — eventos, repetición de sesiones, seguimiento de errores (opcional)
Licencia AGPL-3.0

bigset - ¿Y si tuvieras todos los datos del mundo?

Lecturas relacionadas

Aún no hay comentarios.