-
Mi servidor Git se volvió inestable por el crawler de IA de Amazon
-
Blog de soporte: Si disfrutas el blog, puedes apoyar a Xe en Patreon
-
Suscripción de Patreon: anuncio de EthicalAds
-
Corrección (2025-01-18 23:50 UTC): Escribí un proxy que realiza una verificación de prueba de trabajo antes de permitir solicitudes al servidor Gitea. Se llama Anubis y pronto escribiré una entrada en el blog al respecto. Por ahora puede verse en https://git.xeserv.us/. Está algo tosco, pero funciona lo suficientemente bien
-
Corrección (2025-01-18 19:00 UTC): Me rendí. Moví el servidor Gitea detrás de una VPN. Estoy trabajando en un proxy inverso con prueba de trabajo para proteger el servidor de los bots. Espero volver a ponerlo en línea pronto
-
Corrección (2025-01-17 17:50 UTC): Agregué el siguiente fragmento a la configuración de ingress:
nginx.ingress.kubernetes.io/configuration-snippet: | if ($http_user_agent ~* "(Amazon)" ){ return 418; }El bot sigue atacando desde otras IP. Aproximadamente el 10% de las solicitudes no tienen el user-agent de amazonbot. No sé qué debería hacer después. Odio el futuro
-
Solicitud de ayuda: Le pido a quien opere AmazonBot que agregue
git.xeserv.usa la lista de dominios bloqueados. Si conoces a alguien en Amazon, por favor hazle llegar este mensaje. Si quieren rastrear el servidor Git, por favor contáctenme para que puedan cubrir un costo equivalente a la actualización de hardware. No quiero cerrar el servidor Gitea al público, pero lo haré si es necesario. Bloquear bots crawlers de IA no tiene sentido. Los bots mienten, cambian su user-agent y usan direcciones IP residenciales como proxy. Quiero que las solicitudes se detengan -
Ya configuré el archivo
robots.txtpara bloquear a todos los bots:User-agent: * Disallow: /No sé qué más hacer
1 comentarios
Opinión de Hacker News
Se puede intentar resolver el problema pidiéndole a un abogado que redacte una carta de "cese y desistimiento" clara para enviársela a Amazon
Se propone bloquear a los rastreadores de IA agregando enlaces que una persona no visitaría en el sitio web y prohibiéndolos en
robots.txtLos bots de IA y SEO casi nunca respetan
robots.txty son difíciles de bloquearExiste la posibilidad de que otra entidad, y no Amazon, esté haciéndose pasar por un rastreador de IA
En un servidor personal, los rastreadores de IA han provocado un aumento brusco en el uso de CPU
robots.txty una lista de bloqueo basada en user-agent redujeron el problema, pero no está claro si seguirá asíHay quien opina que, en vez de bloquear a los rastreadores de IA, podría resolverse el problema sirviéndoles contenido dañino
Se plantea la posibilidad de que sea un ataque DDoS disfrazado de Amazon
El sitio Pinboard también sufrió un aumento repentino de tráfico por los rastreadores de IA y terminó caído
Hay quien espera que Amazon ofrezca créditos de AWS para compensar los costos por exceso de tráfico
Antes de configurar Nginx para bloquearlos, Bytespider y Amazonbot representaban el 80% del tráfico total