A 2022, ¿cuál es la mejor herramienta de web scraping?
(news.ycombinator.com)Respuestas a la pregunta en HN
- Playwright: como cada vez hay más páginas web que requieren ejecutar JS, una herramienta de automatización del navegador resulta cómoda
- Beautiful Soup: paquete de Python práctico para crear diversas apps de scraping
- En la shell: cURL + pup (markup) / cskit (CSV) / jq (JSON) / psql (DB)
- Browserflow: herramienta de automatización de tareas basada en navegador web
- curl-impersonate: versión fork que obtiene sitios web como si fuera un navegador
- Helium: Selenium-Python más fácil de usar
- undetected_chromedriver: Chromedriver personalizado de Selenium que pasa la verificación de bots de CloudFlare
- estela: clúster elástico de web scraping que funciona en Kubernetes
6 comentarios
Escuché que cuando el equipo de Puppeteer fue absorbido por Microsoft, básicamente se convirtió en Playwright.
Herramientas como Playwright y Scrapy me parecen buenas porque las empresas que las desarrollan les dan buen mantenimiento.
En lo personal, uso mucho el plugin
scrapy-playwright.Como no se ve a Puppeteer, supongo que muchos ya se pasaron a Playwright.
Incluso en los comentarios, la mayoría de quienes realmente lo han usado dicen que Playwright es bueno.
Mi voto es para Playwright
Uso Cloudflare HTMLRewriter con frecuencia.