Mi servidor Git se volvió inestable por el crawler de IA de Amazon

(xeiaso.net)

1 puntos por GN⁺ 2025-01-19 | 1 comentarios | Compartir por WhatsApp

Mi servidor Git se volvió inestable por el crawler de IA de Amazon
Blog de soporte: Si disfrutas el blog, puedes apoyar a Xe en Patreon
Suscripción de Patreon: anuncio de EthicalAds
Corrección (2025-01-18 23:50 UTC): Escribí un proxy que realiza una verificación de prueba de trabajo antes de permitir solicitudes al servidor Gitea. Se llama Anubis y pronto escribiré una entrada en el blog al respecto. Por ahora puede verse en https://git.xeserv.us/. Está algo tosco, pero funciona lo suficientemente bien
Corrección (2025-01-18 19:00 UTC): Me rendí. Moví el servidor Gitea detrás de una VPN. Estoy trabajando en un proxy inverso con prueba de trabajo para proteger el servidor de los bots. Espero volver a ponerlo en línea pronto
Corrección (2025-01-17 17:50 UTC): Agregué el siguiente fragmento a la configuración de ingress:
```
nginx.ingress.kubernetes.io/configuration-snippet: |
  if ($http_user_agent ~* "(Amazon)" ){
    return 418;
  }
```
El bot sigue atacando desde otras IP. Aproximadamente el 10% de las solicitudes no tienen el user-agent de amazonbot. No sé qué debería hacer después. Odio el futuro
Solicitud de ayuda: Le pido a quien opere AmazonBot que agregue git.xeserv.us a la lista de dominios bloqueados. Si conoces a alguien en Amazon, por favor hazle llegar este mensaje. Si quieren rastrear el servidor Git, por favor contáctenme para que puedan cubrir un costo equivalente a la actualización de hardware. No quiero cerrar el servidor Gitea al público, pero lo haré si es necesario. Bloquear bots crawlers de IA no tiene sentido. Los bots mienten, cambian su user-agent y usan direcciones IP residenciales como proxy. Quiero que las solicitudes se detengan
Ya configuré el archivo robots.txt para bloquear a todos los bots:
```
User-agent: *
Disallow: /
```
No sé qué más hacer

1 comentarios

GN⁺ 2025-01-19

Opinión de Hacker News

Se puede intentar resolver el problema pidiéndole a un abogado que redacte una carta de "cese y desistimiento" clara para enviársela a Amazon
- Si Amazon no se detiene, se puede llamar su atención mediante una denuncia penal
Se propone bloquear a los rastreadores de IA agregando enlaces que una persona no visitaría en el sitio web y prohibiéndolos en robots.txt
- Si una dirección IP visita ese enlace, se la bloquea durante 24 horas
Los bots de IA y SEO casi nunca respetan robots.txt y son difíciles de bloquear
- Si un rastreador de IA quiere acceder, debería seguir las reglas o pagar el costo
Existe la posibilidad de que otra entidad, y no Amazon, esté haciéndose pasar por un rastreador de IA
- Resultan sospechosos los IP residenciales rotativos y las cadenas de user-agent cambiantes
En un servidor personal, los rastreadores de IA han provocado un aumento brusco en el uso de CPU
- robots.txt y una lista de bloqueo basada en user-agent redujeron el problema, pero no está claro si seguirá así
Hay quien opina que, en vez de bloquear a los rastreadores de IA, podría resolverse el problema sirviéndoles contenido dañino
- Si Amazon lo detecta, podría gastar dinero para solucionar el problema
Se plantea la posibilidad de que sea un ataque DDoS disfrazado de Amazon
- Resulta sospechoso que las solicitudes provengan de IP residenciales
El sitio Pinboard también sufrió un aumento repentino de tráfico por los rastreadores de IA y terminó caído
- Como no se puede bloquear por rango de IP, hubo que usar CAPTCHA
Hay quien espera que Amazon ofrezca créditos de AWS para compensar los costos por exceso de tráfico
- Se confía en que eso podría compensarse con ingresos publicitarios
Antes de configurar Nginx para bloquearlos, Bytespider y Amazonbot representaban el 80% del tráfico total
- ClaudeBot hizo que Redmine superara en un mes el tráfico acumulado de 5 años

Mi servidor Git se volvió inestable por el crawler de IA de Amazon

Mi servidor Git se volvió inestable por el crawler de IA de Amazon

Lecturas relacionadas

1 comentarios

Opinión de Hacker News