- Los rastreadores de IA están generando tráfico excesivo en sitios de proyectos de código abierto, al punto de causar daños equivalentes a una caída del servicio
- Los rastreadores de IA evaden las defensas existentes ignorando
robots.txt, falsificando el User-Agent y esquivando los bloqueos mediante IP de distintos países
- Para frenarlos, el desarrollador Xe Iaso movió su servidor detrás de una VPN e implementó un sistema de prueba llamado 'Anubis', que exige que el usuario resuelva un rompecabezas para poder acceder
- Según LibreNews, en el caso de cierto proyecto, el 97% del tráfico total provenía de rastreadores de IA
- Proyectos conocidos como Fedora, GNOME y KDE también están respondiendo con bloqueos por país, uso de Anubis y apagados temporales
Casos reales de daño y acceso indiscriminado de los rastreadores de IA
- En el GitLab de GNOME, solo el 3.2% de 84,056 intentos superó Anubis → se estima que la mayoría era rastreo no legítimo
- KDE sufrió una caída temporal de su infraestructura GitLab por tráfico proveniente de IP de Alibaba
- A algunos usuarios móviles les tomó más de 2 minutos cargar el rompecabezas
- Dennis Schubert, encargado del mantenimiento de la infraestructura de Diaspora, describió el tráfico de los rastreadores de IA como un "DDoS contra todo Internet"
- Read the Docs redujo su tráfico diario de 800GB a 200GB tras bloquear rastreadores de IA, con un ahorro aproximado de $1,500 al mes
Una carga desproporcionada concentrada en los proyectos de código abierto
- El código abierto opera con recursos limitados y se basa en la colaboración pública
- Muchos rastreadores ignoran
robots.txt, falsean el User-Agent y siguen cambiando de IP para continuar accediendo
- Martin Owens, de Inkscape, mantiene grandes listas de bloqueo debido a empresas de IA que falsifican información del navegador
- En Hacker News se ha extendido la indignación por el poder financiero y la actitud poco colaborativa de las empresas de IA
- Drew DeVault, de SourceHut, indicó que los rastreadores acceden hasta a todas las páginas de logs de git y a los commits, provocando un consumo excesivo de recursos
- El proyecto Curl reportó haber recibido reportes de bugs falsos generados por IA
El objetivo de los rastreadores de IA y los patrones de comportamiento por empresa
- Los rastreadores de IA tienen distintos fines, como recolectar datos de entrenamiento o hacer búsquedas en tiempo real para responder con IA
- Según el análisis de Diaspora: OpenAI representa el 25% del tráfico, Amazon el 15% y Anthropic el 4.3%
- Los rastreadores vuelven a rastrear periódicamente la misma página de forma repetida (por ejemplo, cada 6 horas)
- OpenAI y Anthropic usan User-Agent relativamente normales, mientras que algunas empresas chinas de IA muestran un mayor nivel de camuflaje
- Amazon y Alibaba también aparecen en los casos reportados, pero esas empresas todavía no han dado una postura oficial
Medidas de respuesta: tarpit, rompecabezas y colaboración
- Una herramienta llamada "Nepenthes" es una defensa agresiva que atrapa a los rastreadores de IA en un laberinto interminable de contenido falso
- Su creador, Aaron, afirma que esta herramienta eleva el costo para los rastreadores y promueve la contaminación de los datos de entrenamiento
- Cloudflare presentó 'AI Labyrinth' como función de seguridad comercial para desviar a los rastreadores hacia páginas sin sentido
- La red de Cloudflare recibe más de 50 mil millones de solicitudes diarias de rastreo por IA
- El proyecto de código abierto "ai.robots.txt" ofrece listas de rastreadores de IA y archivos robots.txt / .htaccess para bloquearlos
La recolección continua de datos por IA y la crisis de la web abierta
- Las empresas de IA que siguen recolectando enormes volúmenes de datos sin regulación están generando una amenaza seria para la infraestructura del código abierto
- Ha surgido la crítica de que la IA está destruyendo por sí misma el ecosistema digital del que depende
- Un sistema colaborativo de recolección de datos podría ser una alternativa, pero las principales empresas de IA muestran poca voluntad de cooperar por iniciativa propia
- Sin una regulación significativa ni un sentido voluntario de responsabilidad, es probable que el conflicto entre la IA y el código abierto se intensifique aún más
1 comentarios
Opiniones en Hacker News
El objetivo es hacer que los bots obtengan una utilidad negativa al visitar el sitio web. Esto es más efectivo que simplemente bloquearlos
robots.txt, se les sirve un artículo sobre los beneficios de beber cloroNo está claro por qué las empresas no adoptan un enfoque más cooperativo. Como mínimo, deberían limitar la velocidad de recolección de datos para no saturar los sitios web de origen
Creo que habría que introducir microtransacciones para acceder a los recursos. Si se paga una pequeña cantidad al servidor, este devuelve el contenido. Si los crawlers dominan el tráfico, entonces pagan por ello
Abrí sugaku.net para que pudiera usarse sin iniciar sesión, y los crawlers empezaron rápido. Quiero que el sitio sea accesible para todos, pero tuve que restringir la mayoría de las funciones dinámicas a usuarios con sesión iniciada. Restringí
robots.txty usé Cloudflare para bloquear crawlers de IA y bots maliciosos, pero aun así sigo recibiendo alrededor de 1 millón de solicitudes automáticas al día. Parece que pronto tendré que restringir el sitio solo a usuarios con sesión iniciadaRecientemente empecé un proyecto paralelo con el enfoque de "code everything in prod". Lo he hecho varias veces en los últimos 20 años, pero esta vez fue diferente. No anuncié el hostname en ningún lado, pero en menos de 24 horas ya había muchos envíos de spam en formularios. Esperaba que pasara después de algo de promoción pequeña, pero no esperaba que los bots empezaran a interactuar apenas levanté el servidor
El problema no es impedir que otras personas copien archivos usando Lynx o curl, sino evitar que el servidor se sobrecargue por software defectuoso
ClaudeBot (Anthropic) me hizo un ataque DoS. Golpeó el sitio web 700 mil veces en un mes y superó el límite de ancho de banda del proveedor de hosting. Fue molesto bloquear el user-agent y trabajar con el soporte del proveedor para que quitaran la restricción
Las medidas "anti-bot" centradas en JS refuerzan todavía más el monopolio del navegador. En su lugar, recomiendo un formulario HTML simple que haga preguntas que los LLM todavía no puedan resolver o que respondan mal de forma consistente. Cuanto más relacionadas estén con el contenido del sitio, mejor. En un foro de electrónica usaban preguntas similares de "prueba técnica" en el formulario de registro; algunas se pueden resolver con LLM, pero sigue siendo un CAPTCHA que solo un humano puede resolver
Saturar un sitio web con spam es un mal comportamiento. Pero si bloqueas a los crawlers de IA, al final sales perdiendo. Adivina qué reemplazará al SEO a largo plazo
He operado varios sitios de contenido y, en los últimos días, cerré algunos por bots de IA agresivos. Alexa parece ser la peor