9 puntos por GN⁺ 2025-03-26 | 1 comentarios | Compartir por WhatsApp
  • Los rastreadores de IA están generando tráfico excesivo en sitios de proyectos de código abierto, al punto de causar daños equivalentes a una caída del servicio
  • Los rastreadores de IA evaden las defensas existentes ignorando robots.txt, falsificando el User-Agent y esquivando los bloqueos mediante IP de distintos países
  • Para frenarlos, el desarrollador Xe Iaso movió su servidor detrás de una VPN e implementó un sistema de prueba llamado 'Anubis', que exige que el usuario resuelva un rompecabezas para poder acceder
  • Según LibreNews, en el caso de cierto proyecto, el 97% del tráfico total provenía de rastreadores de IA
  • Proyectos conocidos como Fedora, GNOME y KDE también están respondiendo con bloqueos por país, uso de Anubis y apagados temporales

Casos reales de daño y acceso indiscriminado de los rastreadores de IA

  • En el GitLab de GNOME, solo el 3.2% de 84,056 intentos superó Anubis → se estima que la mayoría era rastreo no legítimo
  • KDE sufrió una caída temporal de su infraestructura GitLab por tráfico proveniente de IP de Alibaba
  • A algunos usuarios móviles les tomó más de 2 minutos cargar el rompecabezas
  • Dennis Schubert, encargado del mantenimiento de la infraestructura de Diaspora, describió el tráfico de los rastreadores de IA como un "DDoS contra todo Internet"
  • Read the Docs redujo su tráfico diario de 800GB a 200GB tras bloquear rastreadores de IA, con un ahorro aproximado de $1,500 al mes

Una carga desproporcionada concentrada en los proyectos de código abierto

  • El código abierto opera con recursos limitados y se basa en la colaboración pública
  • Muchos rastreadores ignoran robots.txt, falsean el User-Agent y siguen cambiando de IP para continuar accediendo
  • Martin Owens, de Inkscape, mantiene grandes listas de bloqueo debido a empresas de IA que falsifican información del navegador
  • En Hacker News se ha extendido la indignación por el poder financiero y la actitud poco colaborativa de las empresas de IA
  • Drew DeVault, de SourceHut, indicó que los rastreadores acceden hasta a todas las páginas de logs de git y a los commits, provocando un consumo excesivo de recursos
  • El proyecto Curl reportó haber recibido reportes de bugs falsos generados por IA

El objetivo de los rastreadores de IA y los patrones de comportamiento por empresa

  • Los rastreadores de IA tienen distintos fines, como recolectar datos de entrenamiento o hacer búsquedas en tiempo real para responder con IA
  • Según el análisis de Diaspora: OpenAI representa el 25% del tráfico, Amazon el 15% y Anthropic el 4.3%
  • Los rastreadores vuelven a rastrear periódicamente la misma página de forma repetida (por ejemplo, cada 6 horas)
  • OpenAI y Anthropic usan User-Agent relativamente normales, mientras que algunas empresas chinas de IA muestran un mayor nivel de camuflaje
  • Amazon y Alibaba también aparecen en los casos reportados, pero esas empresas todavía no han dado una postura oficial

Medidas de respuesta: tarpit, rompecabezas y colaboración

  • Una herramienta llamada "Nepenthes" es una defensa agresiva que atrapa a los rastreadores de IA en un laberinto interminable de contenido falso
  • Su creador, Aaron, afirma que esta herramienta eleva el costo para los rastreadores y promueve la contaminación de los datos de entrenamiento
  • Cloudflare presentó 'AI Labyrinth' como función de seguridad comercial para desviar a los rastreadores hacia páginas sin sentido
  • La red de Cloudflare recibe más de 50 mil millones de solicitudes diarias de rastreo por IA
  • El proyecto de código abierto "ai.robots.txt" ofrece listas de rastreadores de IA y archivos robots.txt / .htaccess para bloquearlos

La recolección continua de datos por IA y la crisis de la web abierta

  • Las empresas de IA que siguen recolectando enormes volúmenes de datos sin regulación están generando una amenaza seria para la infraestructura del código abierto
  • Ha surgido la crítica de que la IA está destruyendo por sí misma el ecosistema digital del que depende
  • Un sistema colaborativo de recolección de datos podría ser una alternativa, pero las principales empresas de IA muestran poca voluntad de cooperar por iniciativa propia
  • Sin una regulación significativa ni un sentido voluntario de responsabilidad, es probable que el conflicto entre la IA y el código abierto se intensifique aún más

1 comentarios

 
GN⁺ 2025-03-26
Opiniones en Hacker News
  • El objetivo es hacer que los bots obtengan una utilidad negativa al visitar el sitio web. Esto es más efectivo que simplemente bloquearlos

    • Si intentan acceder a páginas prohibidas en robots.txt, se les sirve un artículo sobre los beneficios de beber cloro
    • Si el user-agent es sospechoso, no importa que raspen código inestable
    • Si la velocidad de las solicitudes es inhumana, se les sirve un artículo generado que afirma que el sarampión tiene un efecto positivo en el rendimiento en la cama
    • Nepenthes está bien, pero la ensalada de palabras se detecta fácilmente. Hace falta una función que genere texto lingüísticamente plausible pero factualmente basura
  • No está claro por qué las empresas no adoptan un enfoque más cooperativo. Como mínimo, deberían limitar la velocidad de recolección de datos para no saturar los sitios web de origen

  • Creo que habría que introducir microtransacciones para acceder a los recursos. Si se paga una pequeña cantidad al servidor, este devuelve el contenido. Si los crawlers dominan el tráfico, entonces pagan por ello

  • Abrí sugaku.net para que pudiera usarse sin iniciar sesión, y los crawlers empezaron rápido. Quiero que el sitio sea accesible para todos, pero tuve que restringir la mayoría de las funciones dinámicas a usuarios con sesión iniciada. Restringí robots.txt y usé Cloudflare para bloquear crawlers de IA y bots maliciosos, pero aun así sigo recibiendo alrededor de 1 millón de solicitudes automáticas al día. Parece que pronto tendré que restringir el sitio solo a usuarios con sesión iniciada

  • Recientemente empecé un proyecto paralelo con el enfoque de "code everything in prod". Lo he hecho varias veces en los últimos 20 años, pero esta vez fue diferente. No anuncié el hostname en ningún lado, pero en menos de 24 horas ya había muchos envíos de spam en formularios. Esperaba que pasara después de algo de promoción pequeña, pero no esperaba que los bots empezaran a interactuar apenas levanté el servidor

  • El problema no es impedir que otras personas copien archivos usando Lynx o curl, sino evitar que el servidor se sobrecargue por software defectuoso

    • Puse temporalmente port knocking en el servidor HTTP, pero lo quité por un kernel panic. Más adelante podría volver a activarlo si resuelvo el problema
    • Los scrapers de LLM no se comportan de forma "inteligente" por ahora. Si en el futuro lo hacen, se podrá aprovechar eso
    • Debe haber maneras de confundir a los scrapers. Por ejemplo, si declaran hacer algo que el user-agent declarado no hace, se les muestra un mensaje de error. Los usuarios que usan Lynx no se verían afectados y seguirían teniendo acceso
  • ClaudeBot (Anthropic) me hizo un ataque DoS. Golpeó el sitio web 700 mil veces en un mes y superó el límite de ancho de banda del proveedor de hosting. Fue molesto bloquear el user-agent y trabajar con el soporte del proveedor para que quitaran la restricción

    • El bot de ChatGPT fue la segunda fuente de tráfico más grande en ese sitio, pero no al punto de causar problemas
  • Las medidas "anti-bot" centradas en JS refuerzan todavía más el monopolio del navegador. En su lugar, recomiendo un formulario HTML simple que haga preguntas que los LLM todavía no puedan resolver o que respondan mal de forma consistente. Cuanto más relacionadas estén con el contenido del sitio, mejor. En un foro de electrónica usaban preguntas similares de "prueba técnica" en el formulario de registro; algunas se pueden resolver con LLM, pero sigue siendo un CAPTCHA que solo un humano puede resolver

  • Saturar un sitio web con spam es un mal comportamiento. Pero si bloqueas a los crawlers de IA, al final sales perdiendo. Adivina qué reemplazará al SEO a largo plazo

  • He operado varios sitios de contenido y, en los últimos días, cerré algunos por bots de IA agresivos. Alexa parece ser la peor

    • Fueron creados hace 20 años y se han ido actualizando. Conseguían tráfico, pero en el último año cayeron a menos de 1,000 visitantes legítimos. Ahora tengo que lidiar con correos de caída del servidor debido a bots agresivos que ignoran el archivo de robots