Las empresas de IA están generando la mayor parte del tráfico web

(pod.geraspora.de)

14 puntos por GN⁺ 2024-12-31 | 1 comentarios | Compartir por WhatsApp

Un análisis reciente de los picos de carga y problemas de lentitud en la infraestructura web del proyecto diaspora (Discourse, Wiki, sitio web del proyecto, etc.) concluyó que la mayor parte del tráfico es generado por bots de rastreo de LLM
En los últimos 60 días hubo 11.3 millones de solicitudes (promedio de 2.19 req/s), y más del 70% provino de bots de rastreo relacionados con LLM
- GPTBot/1.2: 24.6% (2.78 millones de solicitudes)
- Amazonbot/0.1: 14.9% (1.69 millones de solicitudes)
- ClaudeBot/1.0: 4.3% (490 mil solicitudes)
- meta-externalagent/1.1: 2.2% (220 mil solicitudes)
Patrones de rastreo anómalos
- Rastreo repetitivo: rastrean la misma página cada 6 horas
- Ignoran robots.txt: no respetan en absoluto las reglas de restricción de rastreo
- Rastreo ineficiente: rastrean masivamente datos sin sentido (por ejemplo, todo el historial de ediciones de la Wiki)
- Picos de carga: en ciertos momentos generan más de 10 req/s, sobrecargando la base de datos y los servidores de MediaWiki
También es imposible defenderse
- Cambio de IP: cambian constantemente de IP para evadir los límites de tasa
- Cambio de cadena UA: modifican la cadena de User Agent del bot con textos arbitrarios para esquivar bloqueos
Los rastreadores tradicionales de buscadores como Googlebot y Bingbot muestran patrones de rastreo normales y eficientes.
- Googlebot: 0.14% (16,600 solicitudes)
- Bingbot: 0.14% (15,900 solicitudes)
Minimizan el rastreo duplicado y respetan las reglas de robots.txt

Resultados e impacto

Imposibilidad de ofrecer un servicio efectivo: los bots de rastreo de LLM deterioran gravemente la experiencia de los usuarios humanos
Sobrecarga del servidor: el servidor de base de datos y MediaWiki sufren repetidamente picos de carga
Prácticamente un DDoS de todo Internet: esta forma de rastreo provoca un desperdicio innecesario de recursos a nivel global

Conclusión

La infraestructura sigue bajo una carga constante debido a los patrones anómalos de tráfico de los bots de rastreo de LLM, y los intentos de defenderse no están siendo efectivos
Este problema va más allá del agotamiento personal y está afectando gravemente a todo el ecosistema de Internet

1 comentarios

GN⁺ 2024-12-31

Comentarios de Hacker News

Se comparte la experiencia de que el bot de IA de Meta rastreó un sitio web de forma excesiva y provocó la caída del servidor. Se explica cómo bloquearlo usando Cloudflare
- Se menciona que la función de bloqueo de bots de IA de Cloudflare es útil
- Se afirma que no tiene valor permitir que los bots de IA accedan al contenido
Se comparten datos de tráfico de bots generados en varias plataformas
- Bots como Claude, Amazon, Data For SEO y ChatGPT generan mucho tráfico
- Se explica que estos bots ignoran robots.txt o no aplican backoff incluso cuando hay latencia
Se discuten métodos para bloquear bots
- Se describe el comportamiento de bots que cambian de IP o pasan a un User Agent que no parece de bot
- Se comparte un enlace de GitHub que publica los rangos de IP de OpenAI
- Se propone usar un plugin de WordPress para bloquear bots de IA
Se menciona el caso del cierre del foro CGTalk por problemas de recursos
- Se señala que muchos foros se han trasladado a Slack y Discord para reducir la carga de operar servidores
Se sostiene que las empresas de IA deberían hacer scraping de forma más inteligente
- Se menciona que el comportamiento de las empresas de IA es vergonzoso
Se expresa curiosidad por los ataques de poisoning
- Se explora la posibilidad de confundir a los modelos de IA con contenido incorrecto escrito por humanos
Se comparte la experiencia de una app desplegada en GCP cuyos costos aumentaron por el tráfico de bots
- Se sospecha que la causa fue haber compartido la app en Reddit
Se comparte la experiencia de rastreo en un foro grande
- Se menciona que ChatGPT conoce bien la historia del foro
- Se propone la idea de añadir texto que pueda influir en los LLMs
Se sostiene que el comportamiento de bots que ignoran robots.txt y perjudican el servicio podría considerarse ilegal
- Se recomienda contactar a las autoridades locales encargadas de hacer cumplir las leyes cibernéticas

Las empresas de IA están generando la mayor parte del tráfico web

Resultados e impacto

Conclusión

Lecturas relacionadas

1 comentarios

Comentarios de Hacker News