14 puntos por GN⁺ 2024-12-31 | 1 comentarios | Compartir por WhatsApp
  • Un análisis reciente de los picos de carga y problemas de lentitud en la infraestructura web del proyecto diaspora (Discourse, Wiki, sitio web del proyecto, etc.) concluyó que la mayor parte del tráfico es generado por bots de rastreo de LLM
  • En los últimos 60 días hubo 11.3 millones de solicitudes (promedio de 2.19 req/s), y más del 70% provino de bots de rastreo relacionados con LLM
    • GPTBot/1.2: 24.6% (2.78 millones de solicitudes)
    • Amazonbot/0.1: 14.9% (1.69 millones de solicitudes)
    • ClaudeBot/1.0: 4.3% (490 mil solicitudes)
    • meta-externalagent/1.1: 2.2% (220 mil solicitudes)
  • Patrones de rastreo anómalos
    • Rastreo repetitivo: rastrean la misma página cada 6 horas
    • Ignoran robots.txt: no respetan en absoluto las reglas de restricción de rastreo
    • Rastreo ineficiente: rastrean masivamente datos sin sentido (por ejemplo, todo el historial de ediciones de la Wiki)
    • Picos de carga: en ciertos momentos generan más de 10 req/s, sobrecargando la base de datos y los servidores de MediaWiki
  • También es imposible defenderse
    • Cambio de IP: cambian constantemente de IP para evadir los límites de tasa
    • Cambio de cadena UA: modifican la cadena de User Agent del bot con textos arbitrarios para esquivar bloqueos
  • Los rastreadores tradicionales de buscadores como Googlebot y Bingbot muestran patrones de rastreo normales y eficientes.
    • Googlebot: 0.14% (16,600 solicitudes)
    • Bingbot: 0.14% (15,900 solicitudes)
  • Minimizan el rastreo duplicado y respetan las reglas de robots.txt

Resultados e impacto

  • Imposibilidad de ofrecer un servicio efectivo: los bots de rastreo de LLM deterioran gravemente la experiencia de los usuarios humanos
  • Sobrecarga del servidor: el servidor de base de datos y MediaWiki sufren repetidamente picos de carga
  • Prácticamente un DDoS de todo Internet: esta forma de rastreo provoca un desperdicio innecesario de recursos a nivel global

Conclusión

  • La infraestructura sigue bajo una carga constante debido a los patrones anómalos de tráfico de los bots de rastreo de LLM, y los intentos de defenderse no están siendo efectivos
  • Este problema va más allá del agotamiento personal y está afectando gravemente a todo el ecosistema de Internet

1 comentarios

 
GN⁺ 2024-12-31
Comentarios de Hacker News
  • Se comparte la experiencia de que el bot de IA de Meta rastreó un sitio web de forma excesiva y provocó la caída del servidor. Se explica cómo bloquearlo usando Cloudflare

    • Se menciona que la función de bloqueo de bots de IA de Cloudflare es útil
    • Se afirma que no tiene valor permitir que los bots de IA accedan al contenido
  • Se comparten datos de tráfico de bots generados en varias plataformas

    • Bots como Claude, Amazon, Data For SEO y ChatGPT generan mucho tráfico
    • Se explica que estos bots ignoran robots.txt o no aplican backoff incluso cuando hay latencia
  • Se discuten métodos para bloquear bots

    • Se describe el comportamiento de bots que cambian de IP o pasan a un User Agent que no parece de bot
    • Se comparte un enlace de GitHub que publica los rangos de IP de OpenAI
    • Se propone usar un plugin de WordPress para bloquear bots de IA
  • Se menciona el caso del cierre del foro CGTalk por problemas de recursos

    • Se señala que muchos foros se han trasladado a Slack y Discord para reducir la carga de operar servidores
  • Se sostiene que las empresas de IA deberían hacer scraping de forma más inteligente

    • Se menciona que el comportamiento de las empresas de IA es vergonzoso
  • Se expresa curiosidad por los ataques de poisoning

    • Se explora la posibilidad de confundir a los modelos de IA con contenido incorrecto escrito por humanos
  • Se comparte la experiencia de una app desplegada en GCP cuyos costos aumentaron por el tráfico de bots

    • Se sospecha que la causa fue haber compartido la app en Reddit
  • Se comparte la experiencia de rastreo en un foro grande

    • Se menciona que ChatGPT conoce bien la historia del foro
    • Se propone la idea de añadir texto que pueda influir en los LLMs
  • Se sostiene que el comportamiento de bots que ignoran robots.txt y perjudican el servicio podría considerarse ilegal

    • Se recomienda contactar a las autoridades locales encargadas de hacer cumplir las leyes cibernéticas