La infraestructura FOSS está siendo atacada por empresas de IA

(thelibre.news)

1 puntos por GN⁺ 2025-03-21 | 1 comentarios | Compartir por WhatsApp

Drew DeVault (fundador de SourceHut) advirtió que los rastreadores de IA ignoran robots.txt y están causando fallas graves en SourceHut
La infraestructura de GitLab de KDE también quedó inaccesible debido a un ataque de rastreadores de IA originado en rangos de IP de Alibaba
Problemas de los rastreadores de IA
- Los rastreadores de IA ignoran los requisitos de robots.txt
  - Rastrean todas las páginas y commits de git blame y git log
  - Generan solicitudes desde User-Agent aleatorios y decenas de miles de IP → se disfrazan como tráfico de usuarios normales
- Es difícil bloquear a los rastreadores → tareas de alta prioridad se retrasan semanas o meses
Quejas de los administradores de sistemas
- El problema de los rastreadores de IA no es un caso aislado, sino un problema generalizado
  - Muchos administradores de sistemas están viviendo el mismo problema
  - OpenAI y Anthropic configuran un User-Agent preciso, pero las empresas chinas de IA no lo hacen
Respuesta de KDE GitLab
- Bloqueó bots disfrazados de MS Edge → solución temporal
- GNOME aplicó limitación de velocidad para revisar merge requests y commits a usuarios no autenticados
- Implementación de Anubis → permite el acceso solo después de que el navegador resuelva un desafío
Problemas de Anubis
- También afecta a los usuarios → se requiere tiempo para resolver el desafío
  - Cuando se comparte un enlace en una sala de chat, se produce sobrecarga → tiempos de espera de 1 a 2 minutos
El 97% del tráfico son bots
- En GNOME se registraron 81,000 solicitudes en dos horas y media → el 97% eran rastreadores de IA
- Algunos proyectos redujeron su tráfico en un 75% después de bloquear rastreadores de IA
Problemas en otros proyectos FOSS
- Fedora → bloqueó todas las IP de Brasil para detener rastreadores
- Inkscape → los rastreadores falsificaban información del navegador → bloqueo masivo de IP
- Frama Software → creó una lista de bloqueo de 460,000 IP
Proyectos para responder a los rastreadores de IA
- ai.robots.txt → ofrece una lista abierta para bloquear rastreadores de IA
  - Configuración de archivos robots.txt y .htaccess → devuelve una página de error ante solicitudes de rastreadores de IA
Resultados del análisis de tráfico
- En el caso de Diaspora, el 70% del tráfico era de rastreadores de IA
  - User-Agent de OpenAI: 25%
  - Amazon: 15%
  - Anthropic: 4.3%
- La proporción de tráfico de los rastreadores de Google y Bing fue menor al 1%
Problema de los reportes de bugs generados por IA
- En el proyecto Curl surgió el problema de reportes de bugs generados por IA
  - La mayoría de los bugs reportados eran problemas de alucinación (hallucination)
- CPython, pip, urllib3 y Requests → consumen tiempo procesando reportes de seguridad generados por IA
  - Su fiabilidad es baja → pero aun así deben verificarse → aumenta la carga para los mantenedores

Conclusión

Los rastreadores de IA y los reportes de bugs generados por IA imponen una gran carga sobre la comunidad de código abierto
Los proyectos de código abierto tienen menos recursos que los productos comerciales y, al estar basados en comunidad, son más vulnerables a este tipo de problemas

1 comentarios

GN⁺ 2025-03-21

Opiniones en Hacker News

Muchas personas que operan infraestructura de internet a gran escala están teniendo experiencias similares
- Se comparte una publicación sobre el abuso de los rastreadores de IA, que reúne y organiza estos problemas en un solo lugar
- Algunas startups resolvieron el problema y reembolsaron los costos, pero Facebook no responde los correos
Fastly está ofreciendo servicios de seguridad gratuitos a proyectos FOSS
- Últimamente han aumentado las solicitudes relacionadas con el scraping de IA
Sorprende ver su propio proyecto aparecer en la imagen de vista previa
- Está desplegando el proyecto en xeiaso.net para comprobar cómo funciona en un entorno real
No solo la infraestructura FOSS está en riesgo, sino también el acceso anónimo a internet en sí
- Los nuevos bots pueden resolver captchas y comportarse como usuarios reales
- Existe la posibilidad de que los sitios empiecen a exigir autenticación con tarjeta de crédito o con algo como Worldcoin
Recientemente, una instancia de Forgejo fue atacada
- El disco se llenó de archivos zip generados, y al bloquear los rangos de IP de Alibaba Cloud el ataque disminuyó
- Se recomienda cambiar la configuración DISABLE_DOWNLOAD_SOURCE_ARCHIVES a true
En el pasado, se creó robots.txt para resolver problemas con los motores de búsqueda, pero los nuevos indexadores lo están ignorando
- Se argumenta que hacen falta sanciones legales
El dominio de Google y la publicidad sobre la web se debilitará
- Debido a los captchas, los motores de búsqueda no podrán indexar sitios, y eso reducirá el valor de los motores de búsqueda
Se usa LLaMa para generar publicaciones contradictorias y provocar confusión informativa
VideoLAN también está siendo atacado en sus foros y Gitlab por bots de empresas de IA
- La mayoría de los bots ignoran robots.txt
Podría surgir una web que no sea indexada por los motores de búsqueda
- Como solución frente al scraping de LLM, se propone exigir prueba de trabajo

La infraestructura FOSS está siendo atacada por empresas de IA

Conclusión

Lecturas relacionadas

1 comentarios

Opiniones en Hacker News