web_harvester, el recolector web que te dice “qué cambió” si lo dejas corriendo (extensión de Chrome + CLI en Python)

(chromewebstore.google.com)

1 puntos por nsjokt 4 시간 전 | Aún no hay comentarios. | Compartir por WhatsApp

Después de crear varios crawlers, siempre hubo algo que me molestó. La mayoría raspa una vez y termina ahí, así que para responder lo que realmente da curiosidad —“qué cambió desde ayer” (baja de precio, productos nuevos, cambios de ranking, cambios en reseñas)— había que volver a entrar cada vez y comparar manualmente.

web_harvester se enfoca en avisarte justamente de esos “cambios” mientras sigue corriendo. Como acumula los mismos ítems por fecha en Google Sheets/CSV/Excel/SQL, no queda solo una fila, sino la tendencia. Y cuando aparece un cambio significativo, llega de inmediato por webhook de Slack/Discord o por correo electrónico. El intervalo de recolección se configura manualmente y, por defecto, está en baja frecuencia.

También puse atención en la parte no-code. La exploración automática de campos encuentra en la página candidatos de valores (nombre, precio, etc.) y los muestra; basta con marcarlos para hacer el mapeo, así que el código necesario es 0.

Lo más interesante a nivel técnico fue el motor de recon. ¿Este sitio tiene JSON-LD? ¿Todo está dentro de __NEXT_DATA__? ¿O al final hay que raspar el DOM? Me cansé de abrir las herramientas de desarrollo y comprobarlo a mano cada vez, así que intenté llevar esa decisión al código. Toma una página de ejemplo y hace un diagnóstico automático en 5 modos (JSON-LD · variables de window como __NEXT_DATA__ · repetición en DOM · Google af-data/af-one) para elegir la ruta de extracción más barata y menos frágil ante cambios en la UI. Los sitios SSR o con JSON incrustado en el documento se procesan del lado del servidor de forma ligera, y las páginas dinámicas o con login se obtienen con la sesión del propio Chrome del usuario (navegador real) para ejecutar el mismo código de extracción. El núcleo de extracción (mapeo de campos, conversión de tipos, extracción de ítems) está fijado con pruebas unitarias offline, así que refactorizar da menos miedo.

El principio de diseño quedó claro desde el inicio: datos públicos · permisos/sesión propios · baja frecuencia · respeto por robots. No hace bypass de captchas ni de proxies.

La forma del producto es un híbrido entre extensión Chrome MV3 y CLI en Python. Lo desarrollé y opero yo solo, así que seguramente todavía haya partes algo rústicas; agradecería muchísimo que lo prueben y me den feedback como “estaría bueno ver más resultados del diagnóstico recon” o “me gustaría más tipos de alertas de cambios”.

Instalación gratuita (Chrome Web Store) para probarlo de inmediato — recolección, exploración de campos y exportación a CSV/Sheets son gratis (Basic): https://chromewebstore.google.com/detail/…
Programación desatendida y alertas de cambios son Pro (pago único · 20% de lanzamiento aplicado automáticamente): https://joktnova.gumroad.com/l/figvr/LAUNCH20

Datos públicos · permisos propios · baja frecuencia · respeto por robots · sin bypass de captchas/proxies.

web_harvester, el recolector web que te dice “qué cambió” si lo dejas corriendo (extensión de Chrome + CLI en Python)

Lecturas relacionadas

Aún no hay comentarios.