El estado del web scraping en 2021
(mihaisplace.blog)-
¿Qué es el web scraping?
-
¿Cuáles son los principales frameworks para web scraping?
→ Python: Scrapy, Beautiful Soup, MechanicalSoup
→ JS: Cheerio, Puppeteer, Apify SDK
→ Java: Jaunt, jsoup
→ Ruby: Kimurai
→ PHP: Goutte
- Frameworks de web scraping de pago a nivel empresarial
→ Scraper API: soporta rotación de proxies, resolución de CAPTCHA y verificaciones anti-bot
→ Apify: ofrece miles de plugins desarrollados por la comunidad
→ Parsehub: herramienta no-code de apuntar y hacer clic mediante una app de escritorio
→ Diffbot: permite extraer datos con big data/machine learning a partir de datos recopilados de empresas, retail, noticias, foros y eventos en la web
→ Octoparse: como Parsehub, funciona con apuntar y hacer clic. Soporta rotación de IP, limpieza de datos con herramientas de expresiones regulares y scraping a gran escala
→ ScrapingBee: herramienta sin código que ofrece funciones complejas
-
Ejemplo de web scraping en Python: usando Beautiful Soup
-
Ejemplo en JavaScript (Node.js): búsqueda en Google con Puppeteer
-
Qué hacer y qué no hacer en web scraping
→ Usar solo una conexión IP
→ Hacer crawling fuera de las horas pico
→ Respetar los ToS del sitio
→ Cumplir las reglas de robots.txt
→ Si haces crawling para mostrar el contenido de otra forma, que sea una solución única y no una simple copia
→ Cumplir las reglas de GDPR / CCPA
1 comentarios
También revisen el artículo "Web scraping is now legal" que está al final del texto.
Es el caso en el que LinkedIn pidió que se impidiera a la firma de análisis HiQ hacer crawling, pero un tribunal de Estados Unidos rechazó la solicitud.
https://medium.com/@tjwaterman99/…