Las empresas de IA están generando la mayor parte del tráfico web
(pod.geraspora.de)- Un análisis reciente de los picos de carga y problemas de lentitud en la infraestructura web del proyecto diaspora (Discourse, Wiki, sitio web del proyecto, etc.) concluyó que la mayor parte del tráfico es generado por bots de rastreo de LLM
- En los últimos 60 días hubo 11.3 millones de solicitudes (promedio de 2.19 req/s), y más del 70% provino de bots de rastreo relacionados con LLM
- GPTBot/1.2: 24.6% (2.78 millones de solicitudes)
- Amazonbot/0.1: 14.9% (1.69 millones de solicitudes)
- ClaudeBot/1.0: 4.3% (490 mil solicitudes)
- meta-externalagent/1.1: 2.2% (220 mil solicitudes)
- Patrones de rastreo anómalos
- Rastreo repetitivo: rastrean la misma página cada 6 horas
- Ignoran
robots.txt: no respetan en absoluto las reglas de restricción de rastreo - Rastreo ineficiente: rastrean masivamente datos sin sentido (por ejemplo, todo el historial de ediciones de la Wiki)
- Picos de carga: en ciertos momentos generan más de 10 req/s, sobrecargando la base de datos y los servidores de MediaWiki
- También es imposible defenderse
- Cambio de IP: cambian constantemente de IP para evadir los límites de tasa
- Cambio de cadena UA: modifican la cadena de User Agent del bot con textos arbitrarios para esquivar bloqueos
- Los rastreadores tradicionales de buscadores como Googlebot y Bingbot muestran patrones de rastreo normales y eficientes.
- Googlebot: 0.14% (16,600 solicitudes)
- Bingbot: 0.14% (15,900 solicitudes)
- Minimizan el rastreo duplicado y respetan las reglas de
robots.txt
Resultados e impacto
- Imposibilidad de ofrecer un servicio efectivo: los bots de rastreo de LLM deterioran gravemente la experiencia de los usuarios humanos
- Sobrecarga del servidor: el servidor de base de datos y MediaWiki sufren repetidamente picos de carga
- Prácticamente un DDoS de todo Internet: esta forma de rastreo provoca un desperdicio innecesario de recursos a nivel global
Conclusión
- La infraestructura sigue bajo una carga constante debido a los patrones anómalos de tráfico de los bots de rastreo de LLM, y los intentos de defenderse no están siendo efectivos
- Este problema va más allá del agotamiento personal y está afectando gravemente a todo el ecosistema de Internet
1 comentarios
Comentarios de Hacker News
Se comparte la experiencia de que el bot de IA de Meta rastreó un sitio web de forma excesiva y provocó la caída del servidor. Se explica cómo bloquearlo usando Cloudflare
Se comparten datos de tráfico de bots generados en varias plataformas
robots.txto no aplican backoff incluso cuando hay latenciaSe discuten métodos para bloquear bots
Se menciona el caso del cierre del foro CGTalk por problemas de recursos
Se sostiene que las empresas de IA deberían hacer scraping de forma más inteligente
Se expresa curiosidad por los ataques de poisoning
Se comparte la experiencia de una app desplegada en GCP cuyos costos aumentaron por el tráfico de bots
Se comparte la experiencia de rastreo en un foro grande
Se sostiene que el comportamiento de bots que ignoran
robots.txty perjudican el servicio podría considerarse ilegal