El estado del web scraping en 2021

(mihaisplace.blog)

26 puntos por xguru 2021-10-05 | 1 comentarios | Compartir por WhatsApp

¿Qué es el web scraping?
¿Cuáles son los principales frameworks para web scraping?

→ Python: Scrapy, Beautiful Soup, MechanicalSoup

→ JS: Cheerio, Puppeteer, Apify SDK

→ Java: Jaunt, jsoup

→ Ruby: Kimurai

→ PHP: Goutte

Frameworks de web scraping de pago a nivel empresarial

→ Scraper API: soporta rotación de proxies, resolución de CAPTCHA y verificaciones anti-bot

→ Apify: ofrece miles de plugins desarrollados por la comunidad

→ Parsehub: herramienta no-code de apuntar y hacer clic mediante una app de escritorio

→ Diffbot: permite extraer datos con big data/machine learning a partir de datos recopilados de empresas, retail, noticias, foros y eventos en la web

→ Octoparse: como Parsehub, funciona con apuntar y hacer clic. Soporta rotación de IP, limpieza de datos con herramientas de expresiones regulares y scraping a gran escala

→ ScrapingBee: herramienta sin código que ofrece funciones complejas

Ejemplo de web scraping en Python: usando Beautiful Soup
Ejemplo en JavaScript (Node.js): búsqueda en Google con Puppeteer
Qué hacer y qué no hacer en web scraping

→ Usar solo una conexión IP

→ Hacer crawling fuera de las horas pico

→ Respetar los ToS del sitio

→ Cumplir las reglas de robots.txt

→ Si haces crawling para mostrar el contenido de otra forma, que sea una solución única y no una simple copia

→ Cumplir las reglas de GDPR / CCPA

1 comentarios

xguru 2021-10-05

También revisen el artículo "Web scraping is now legal" que está al final del texto.

Es el caso en el que LinkedIn pidió que se impidiera a la firma de análisis HiQ hacer crawling, pero un tribunal de Estados Unidos rechazó la solicitud.

https://medium.com/@tjwaterman99/…

El estado del web scraping en 2021

Lecturas relacionadas

1 comentarios