8 puntos por xguru 4 시간 전 | Aún no hay comentarios. | Compartir por WhatsApp
  • Herramienta de código abierto que genera datasets estructurados desde la web en vivo con una sola frase en lenguaje natural y los actualiza automáticamente según la frecuencia configurada
    • Ejemplo: "Lista de empresas de YC que actualmente están contratando ingenieros, con etapa de inversión, ubicación y número de vacantes públicas"
  • Infiere automáticamente el esquema a partir de la frase de entrada: decide nombres de columnas, tipos, clave primaria e incluso dónde encontrarlos en la web
  • Un agente autónomo investiga la web en vivo y devuelve una tabla tras contrastar y verificar con fuentes reales, además de eliminar duplicados
    • Cuando el agente orquestador detecta entidades, agentes secundarios se distribuyen en paralelo para investigar y verificar cada una
  • Los resultados se pueden descargar en CSV / XLSX y explorar desde la interfaz
  • Al configurar una frecuencia de actualización (30 minutos, 6 horas, 12 horas, diaria, semanal), el agente se vuelve a ejecutar según el calendario y mantiene el dataset actualizado
  • Ya sea una persona o un agente de IA, toda interacción con la web termina convirtiéndose en datos (precios, empresas, contrataciones, investigación, disponibilidad, inventario, etc.)
    • Esos datos están dispersos en múltiples páginas, y esto resuelve la recolección de datos cruzados entre categorías que las herramientas tradicionales de scraping, las APIs de búsqueda o las herramientas de LeadGen no logran cubrir
      — Ya no hace falta hacer o integrar manualmente búsqueda/extracción/diseño de esquema/eliminación de duplicados/verificación/trabajos programados cada vez
  • También permite crear y exportar datasets desde la CLI en terminal
    • bigset create "..." --rows 30 --wait --csv
  • Aun así, sigue en etapa experimental, por lo que la inferencia de esquema no siempre es perfecta. Solo es apto para datos públicos
  • Stack tecnológico
    • Frontend: Next.js 16, React 19, Tailwind 4
    • Backend: Fastify, TypeScript (runner de agentes)
    • Autenticación: autenticación local (desarrollo), Clerk (nube)
    • Base de datos: Convex (self-hosted)
    • Recolección de datos: TinyFish API (Search, Fetch, Browser)
    • Orquestación de IA: workflows de Mastra + Vercel AI SDK + OpenRouter → Claude Sonnet (inferencia de esquema + agente de populate)
    • Vista de tablas: TanStack Table + virtualización con react-window
    • Exportación: CSV (integrado) + XLSX (SheetJS, importación dinámica)
    • Analítica: PostHog — eventos, repetición de sesiones, seguimiento de errores (opcional)
  • Licencia AGPL-3.0

Aún no hay comentarios.

Aún no hay comentarios.