1 puntos por GN⁺ 2025-01-19 | 1 comentarios | Compartir por WhatsApp
  • Mi servidor Git se volvió inestable por el crawler de IA de Amazon

  • Blog de soporte: Si disfrutas el blog, puedes apoyar a Xe en Patreon

  • Suscripción de Patreon: anuncio de EthicalAds

  • Corrección (2025-01-18 23:50 UTC): Escribí un proxy que realiza una verificación de prueba de trabajo antes de permitir solicitudes al servidor Gitea. Se llama Anubis y pronto escribiré una entrada en el blog al respecto. Por ahora puede verse en https://git.xeserv.us/. Está algo tosco, pero funciona lo suficientemente bien

  • Corrección (2025-01-18 19:00 UTC): Me rendí. Moví el servidor Gitea detrás de una VPN. Estoy trabajando en un proxy inverso con prueba de trabajo para proteger el servidor de los bots. Espero volver a ponerlo en línea pronto

  • Corrección (2025-01-17 17:50 UTC): Agregué el siguiente fragmento a la configuración de ingress:

    nginx.ingress.kubernetes.io/configuration-snippet: |
      if ($http_user_agent ~* "(Amazon)" ){
        return 418;
      }
    

    El bot sigue atacando desde otras IP. Aproximadamente el 10% de las solicitudes no tienen el user-agent de amazonbot. No sé qué debería hacer después. Odio el futuro

  • Solicitud de ayuda: Le pido a quien opere AmazonBot que agregue git.xeserv.us a la lista de dominios bloqueados. Si conoces a alguien en Amazon, por favor hazle llegar este mensaje. Si quieren rastrear el servidor Git, por favor contáctenme para que puedan cubrir un costo equivalente a la actualización de hardware. No quiero cerrar el servidor Gitea al público, pero lo haré si es necesario. Bloquear bots crawlers de IA no tiene sentido. Los bots mienten, cambian su user-agent y usan direcciones IP residenciales como proxy. Quiero que las solicitudes se detengan

  • Ya configuré el archivo robots.txt para bloquear a todos los bots:

    User-agent: *
    Disallow: /
    

    No sé qué más hacer

1 comentarios

 
GN⁺ 2025-01-19
Opinión de Hacker News
  • Se puede intentar resolver el problema pidiéndole a un abogado que redacte una carta de "cese y desistimiento" clara para enviársela a Amazon

    • Si Amazon no se detiene, se puede llamar su atención mediante una denuncia penal
  • Se propone bloquear a los rastreadores de IA agregando enlaces que una persona no visitaría en el sitio web y prohibiéndolos en robots.txt

    • Si una dirección IP visita ese enlace, se la bloquea durante 24 horas
  • Los bots de IA y SEO casi nunca respetan robots.txt y son difíciles de bloquear

    • Si un rastreador de IA quiere acceder, debería seguir las reglas o pagar el costo
  • Existe la posibilidad de que otra entidad, y no Amazon, esté haciéndose pasar por un rastreador de IA

    • Resultan sospechosos los IP residenciales rotativos y las cadenas de user-agent cambiantes
  • En un servidor personal, los rastreadores de IA han provocado un aumento brusco en el uso de CPU

    • robots.txt y una lista de bloqueo basada en user-agent redujeron el problema, pero no está claro si seguirá así
  • Hay quien opina que, en vez de bloquear a los rastreadores de IA, podría resolverse el problema sirviéndoles contenido dañino

    • Si Amazon lo detecta, podría gastar dinero para solucionar el problema
  • Se plantea la posibilidad de que sea un ataque DDoS disfrazado de Amazon

    • Resulta sospechoso que las solicitudes provengan de IP residenciales
  • El sitio Pinboard también sufrió un aumento repentino de tráfico por los rastreadores de IA y terminó caído

    • Como no se puede bloquear por rango de IP, hubo que usar CAPTCHA
  • Hay quien espera que Amazon ofrezca créditos de AWS para compensar los costos por exceso de tráfico

    • Se confía en que eso podría compensarse con ingresos publicitarios
  • Antes de configurar Nginx para bloquearlos, Bytespider y Amazonbot representaban el 80% del tráfico total

    • ClaudeBot hizo que Redmine superara en un mes el tráfico acumulado de 5 años