1 puntos por GN⁺ 2025-03-21 | 1 comentarios | Compartir por WhatsApp
  • Drew DeVault (fundador de SourceHut) advirtió que los rastreadores de IA ignoran robots.txt y están causando fallas graves en SourceHut
  • La infraestructura de GitLab de KDE también quedó inaccesible debido a un ataque de rastreadores de IA originado en rangos de IP de Alibaba
  • Problemas de los rastreadores de IA
    • Los rastreadores de IA ignoran los requisitos de robots.txt
      • Rastrean todas las páginas y commits de git blame y git log
      • Generan solicitudes desde User-Agent aleatorios y decenas de miles de IP → se disfrazan como tráfico de usuarios normales
    • Es difícil bloquear a los rastreadores → tareas de alta prioridad se retrasan semanas o meses
  • Quejas de los administradores de sistemas
    • El problema de los rastreadores de IA no es un caso aislado, sino un problema generalizado
      • Muchos administradores de sistemas están viviendo el mismo problema
      • OpenAI y Anthropic configuran un User-Agent preciso, pero las empresas chinas de IA no lo hacen
  • Respuesta de KDE GitLab
    • Bloqueó bots disfrazados de MS Edge → solución temporal
    • GNOME aplicó limitación de velocidad para revisar merge requests y commits a usuarios no autenticados
    • Implementación de Anubis → permite el acceso solo después de que el navegador resuelva un desafío
  • Problemas de Anubis
    • También afecta a los usuarios → se requiere tiempo para resolver el desafío
      • Cuando se comparte un enlace en una sala de chat, se produce sobrecarga → tiempos de espera de 1 a 2 minutos
  • El 97% del tráfico son bots
    • En GNOME se registraron 81,000 solicitudes en dos horas y media → el 97% eran rastreadores de IA
    • Algunos proyectos redujeron su tráfico en un 75% después de bloquear rastreadores de IA
  • Problemas en otros proyectos FOSS
    • Fedora → bloqueó todas las IP de Brasil para detener rastreadores
    • Inkscape → los rastreadores falsificaban información del navegador → bloqueo masivo de IP
    • Frama Software → creó una lista de bloqueo de 460,000 IP
  • Proyectos para responder a los rastreadores de IA
    • ai.robots.txt → ofrece una lista abierta para bloquear rastreadores de IA
      • Configuración de archivos robots.txt y .htaccess → devuelve una página de error ante solicitudes de rastreadores de IA
  • Resultados del análisis de tráfico
    • En el caso de Diaspora, el 70% del tráfico era de rastreadores de IA
      • User-Agent de OpenAI: 25%
      • Amazon: 15%
      • Anthropic: 4.3%
    • La proporción de tráfico de los rastreadores de Google y Bing fue menor al 1%
  • Problema de los reportes de bugs generados por IA
    • En el proyecto Curl surgió el problema de reportes de bugs generados por IA
      • La mayoría de los bugs reportados eran problemas de alucinación (hallucination)
    • CPython, pip, urllib3 y Requests → consumen tiempo procesando reportes de seguridad generados por IA
      • Su fiabilidad es baja → pero aun así deben verificarse → aumenta la carga para los mantenedores

Conclusión

  • Los rastreadores de IA y los reportes de bugs generados por IA imponen una gran carga sobre la comunidad de código abierto
  • Los proyectos de código abierto tienen menos recursos que los productos comerciales y, al estar basados en comunidad, son más vulnerables a este tipo de problemas

1 comentarios

 
GN⁺ 2025-03-21
Opiniones en Hacker News
  • Muchas personas que operan infraestructura de internet a gran escala están teniendo experiencias similares

    • Se comparte una publicación sobre el abuso de los rastreadores de IA, que reúne y organiza estos problemas en un solo lugar
    • Algunas startups resolvieron el problema y reembolsaron los costos, pero Facebook no responde los correos
  • Fastly está ofreciendo servicios de seguridad gratuitos a proyectos FOSS

    • Últimamente han aumentado las solicitudes relacionadas con el scraping de IA
  • Sorprende ver su propio proyecto aparecer en la imagen de vista previa

    • Está desplegando el proyecto en xeiaso.net para comprobar cómo funciona en un entorno real
  • No solo la infraestructura FOSS está en riesgo, sino también el acceso anónimo a internet en sí

    • Los nuevos bots pueden resolver captchas y comportarse como usuarios reales
    • Existe la posibilidad de que los sitios empiecen a exigir autenticación con tarjeta de crédito o con algo como Worldcoin
  • Recientemente, una instancia de Forgejo fue atacada

    • El disco se llenó de archivos zip generados, y al bloquear los rangos de IP de Alibaba Cloud el ataque disminuyó
    • Se recomienda cambiar la configuración DISABLE_DOWNLOAD_SOURCE_ARCHIVES a true
  • En el pasado, se creó robots.txt para resolver problemas con los motores de búsqueda, pero los nuevos indexadores lo están ignorando

    • Se argumenta que hacen falta sanciones legales
  • El dominio de Google y la publicidad sobre la web se debilitará

    • Debido a los captchas, los motores de búsqueda no podrán indexar sitios, y eso reducirá el valor de los motores de búsqueda
  • Se usa LLaMa para generar publicaciones contradictorias y provocar confusión informativa

  • VideoLAN también está siendo atacado en sus foros y Gitlab por bots de empresas de IA

    • La mayoría de los bots ignoran robots.txt
  • Podría surgir una web que no sea indexada por los motores de búsqueda

    • Como solución frente al scraping de LLM, se propone exigir prueba de trabajo