26 puntos por xguru 2021-10-05 | 1 comentarios | Compartir por WhatsApp
  • ¿Qué es el web scraping?

  • ¿Cuáles son los principales frameworks para web scraping?

→ Python: Scrapy, Beautiful Soup, MechanicalSoup

→ JS: Cheerio, Puppeteer, Apify SDK

→ Java: Jaunt, jsoup

→ Ruby: Kimurai

→ PHP: Goutte

  • Frameworks de web scraping de pago a nivel empresarial

→ Scraper API: soporta rotación de proxies, resolución de CAPTCHA y verificaciones anti-bot

→ Apify: ofrece miles de plugins desarrollados por la comunidad

→ Parsehub: herramienta no-code de apuntar y hacer clic mediante una app de escritorio

→ Diffbot: permite extraer datos con big data/machine learning a partir de datos recopilados de empresas, retail, noticias, foros y eventos en la web

→ Octoparse: como Parsehub, funciona con apuntar y hacer clic. Soporta rotación de IP, limpieza de datos con herramientas de expresiones regulares y scraping a gran escala

→ ScrapingBee: herramienta sin código que ofrece funciones complejas

  • Ejemplo de web scraping en Python: usando Beautiful Soup

  • Ejemplo en JavaScript (Node.js): búsqueda en Google con Puppeteer

  • Qué hacer y qué no hacer en web scraping

→ Usar solo una conexión IP

→ Hacer crawling fuera de las horas pico

→ Respetar los ToS del sitio

→ Cumplir las reglas de robots.txt

→ Si haces crawling para mostrar el contenido de otra forma, que sea una solución única y no una simple copia

→ Cumplir las reglas de GDPR / CCPA

1 comentarios

 
xguru 2021-10-05

También revisen el artículo "Web scraping is now legal" que está al final del texto.

Es el caso en el que LinkedIn pidió que se impidiera a la firma de análisis HiQ hacer crawling, pero un tribunal de Estados Unidos rechazó la solicitud.

https://medium.com/@tjwaterman99/…