39 puntos por xguru 2022-08-15 | 6 comentarios | Compartir por WhatsApp

Respuestas a la pregunta en HN

  • Playwright: como cada vez hay más páginas web que requieren ejecutar JS, una herramienta de automatización del navegador resulta cómoda
  • Beautiful Soup: paquete de Python práctico para crear diversas apps de scraping
  • En la shell: cURL + pup (markup) / cskit (CSV) / jq (JSON) / psql (DB)
  • Browserflow: herramienta de automatización de tareas basada en navegador web
  • curl-impersonate: versión fork que obtiene sitios web como si fuera un navegador
  • Helium: Selenium-Python más fácil de usar
  • undetected_chromedriver: Chromedriver personalizado de Selenium que pasa la verificación de bots de CloudFlare
  • estela: clúster elástico de web scraping que funciona en Kubernetes

6 comentarios

 
yangeok 2022-08-24

Escuché que cuando el equipo de Puppeteer fue absorbido por Microsoft, básicamente se convirtió en Playwright.

 
youth 2022-08-15

Herramientas como Playwright y Scrapy me parecen buenas porque las empresas que las desarrollan les dan buen mantenimiento.
En lo personal, uso mucho el plugin scrapy-playwright.

 
vwjdalsgkv 2022-08-15

Como no se ve a Puppeteer, supongo que muchos ya se pasaron a Playwright.

 
xguru 2022-08-16

Incluso en los comentarios, la mayoría de quienes realmente lo han usado dicen que Playwright es bueno.

 
jjpark78 2022-08-15

Mi voto es para Playwright

 
cometkim 2022-08-15

Uso Cloudflare HTMLRewriter con frecuencia.