- Drew DeVault (fundador de SourceHut) advirtió que los rastreadores de IA ignoran robots.txt y están causando fallas graves en SourceHut
- La infraestructura de GitLab de KDE también quedó inaccesible debido a un ataque de rastreadores de IA originado en rangos de IP de Alibaba
- Problemas de los rastreadores de IA
- Los rastreadores de IA ignoran los requisitos de robots.txt
- Rastrean todas las páginas y commits de git blame y git log
- Generan solicitudes desde User-Agent aleatorios y decenas de miles de IP → se disfrazan como tráfico de usuarios normales
- Es difícil bloquear a los rastreadores → tareas de alta prioridad se retrasan semanas o meses
- Quejas de los administradores de sistemas
- El problema de los rastreadores de IA no es un caso aislado, sino un problema generalizado
- Muchos administradores de sistemas están viviendo el mismo problema
- OpenAI y Anthropic configuran un User-Agent preciso, pero las empresas chinas de IA no lo hacen
- Respuesta de KDE GitLab
- Bloqueó bots disfrazados de MS Edge → solución temporal
- GNOME aplicó limitación de velocidad para revisar merge requests y commits a usuarios no autenticados
- Implementación de Anubis → permite el acceso solo después de que el navegador resuelva un desafío
- Problemas de Anubis
- También afecta a los usuarios → se requiere tiempo para resolver el desafío
- Cuando se comparte un enlace en una sala de chat, se produce sobrecarga → tiempos de espera de 1 a 2 minutos
- El 97% del tráfico son bots
- En GNOME se registraron 81,000 solicitudes en dos horas y media → el 97% eran rastreadores de IA
- Algunos proyectos redujeron su tráfico en un 75% después de bloquear rastreadores de IA
- Problemas en otros proyectos FOSS
- Fedora → bloqueó todas las IP de Brasil para detener rastreadores
- Inkscape → los rastreadores falsificaban información del navegador → bloqueo masivo de IP
- Frama Software → creó una lista de bloqueo de 460,000 IP
- Proyectos para responder a los rastreadores de IA
- ai.robots.txt → ofrece una lista abierta para bloquear rastreadores de IA
- Configuración de archivos robots.txt y .htaccess → devuelve una página de error ante solicitudes de rastreadores de IA
- Resultados del análisis de tráfico
- En el caso de Diaspora, el 70% del tráfico era de rastreadores de IA
- User-Agent de OpenAI: 25%
- Amazon: 15%
- Anthropic: 4.3%
- La proporción de tráfico de los rastreadores de Google y Bing fue menor al 1%
- Problema de los reportes de bugs generados por IA
- En el proyecto Curl surgió el problema de reportes de bugs generados por IA
- La mayoría de los bugs reportados eran problemas de alucinación (hallucination)
- CPython, pip, urllib3 y Requests → consumen tiempo procesando reportes de seguridad generados por IA
- Su fiabilidad es baja → pero aun así deben verificarse → aumenta la carga para los mantenedores
Conclusión
- Los rastreadores de IA y los reportes de bugs generados por IA imponen una gran carga sobre la comunidad de código abierto
- Los proyectos de código abierto tienen menos recursos que los productos comerciales y, al estar basados en comunidad, son más vulnerables a este tipo de problemas
1 comentarios
Opiniones en Hacker News
Muchas personas que operan infraestructura de internet a gran escala están teniendo experiencias similares
Fastly está ofreciendo servicios de seguridad gratuitos a proyectos FOSS
Sorprende ver su propio proyecto aparecer en la imagen de vista previa
No solo la infraestructura FOSS está en riesgo, sino también el acceso anónimo a internet en sí
Recientemente, una instancia de Forgejo fue atacada
DISABLE_DOWNLOAD_SOURCE_ARCHIVESa trueEn el pasado, se creó
robots.txtpara resolver problemas con los motores de búsqueda, pero los nuevos indexadores lo están ignorandoEl dominio de Google y la publicidad sobre la web se debilitará
Se usa LLaMa para generar publicaciones contradictorias y provocar confusión informativa
VideoLAN también está siendo atacado en sus foros y Gitlab por bots de empresas de IA
robots.txtPodría surgir una web que no sea indexada por los motores de búsqueda