Cómo evitar las comprobaciones de bots al hacer web scraping
(piprogramming.org)Basado en Selenium, pero también se puede aplicar en otros casos
-
Eliminar la bandera
navigator.webdriver -
Eliminar ciertas cadenas de texto de ChromeDriver / GeckoDriver
-
Cambiar la resolución, el User-Agent, etc.
-
Usar el flujo real de URLs. Evitar visitar enlaces invisibles
-
Cambiar la IP usando un proxy
-
Usar valores de retraso aleatorios
-
No usar un navegador headless (se puede comprobar revisando el permiso de notificaciones)
2 comentarios
En el caso 1, en Puppeteer hay sitios donde te detectan como bot aunque solo configures
true/false,así que dicen que es mejor eliminar la propiedad por completo, como abajo.
Es un buen punto :) Reemplacé el código