- Software para atrapar rastreadores web, dirigido especialmente a los rastreadores que extraen datos para modelos de lenguaje de gran tamaño (LLM).
- Genera una secuencia infinita de páginas para que el rastreador no pueda salir.
- Añade demoras intencionales para evitar que el rastreador sobrecargue el servidor, y puede usar Markov-babble para inducir al rastreador a recolectar datos.
- Este software fue diseñado con fines maliciosos y se requiere precaución al usarlo.
- Advertencia
- Los rastreadores de LLM son muy persistentes, y al usar este software se les seguirá sirviendo los datos que buscan.
- No hay forma de distinguir entre los rastreadores para motores de búsqueda y los rastreadores que entrenan modelos de IA, y al usar este software es muy probable que el sitio desaparezca de los resultados de búsqueda.
- Uso
- Se recomienda ocultar el tarpit detrás de Nginx o Apache.
- El tarpit se configura usando encabezados HTTP, y se proporciona como ejemplo un fragmento de configuración de nginx.
- Instalación
- Se puede instalar con Docker o manualmente.
- Requiere Lua, SQLite, OpenSSL y varios módulos de Lua.
- Después de la instalación, se puede iniciar ajustando el archivo
config.yml.
- Bootstrap de Markov Babbler
- La función Markov requiere un corpus entrenado, y puede entrenarse usando diversas fuentes de texto.
- Los datos de entrenamiento pueden añadirse enviándolos a un endpoint POST.
- Estadísticas
- Proporciona varios endpoints de estadísticas en formato JSON, y permite revisar direcciones IP y cadenas de user-agent.
- Uso defensivo de Nepenthes
- Mediante enlaces en el sitio hacia la ubicación de Nepenthes, se evita que los rastreadores accedan al contenido real.
- Se puede usar la lista de direcciones IP recopiladas para bloquear rastreadores.
- Uso ofensivo de Nepenthes
- En lugar de bloquear rastreadores, se les puede servir la mayor cantidad posible de datos para interferir con los modelos de IA.
- Archivo de configuración
- Se describen todas las directivas posibles del archivo
config.yaml.
- Se puede ajustar el comportamiento de Nepenthes mediante diversas configuraciones.
1 comentarios
Opiniones en Hacker News
Hay comentarios sobre cómo probar una vulnerabilidad de DDOS reflectivo en el crawler de ChatGPT. Esta vulnerabilidad puede hacer que una sola solicitud HTTP provoque 5000 solicitudes HTTP
Se comparte la experiencia de haber operado en el pasado un motel para bots, mencionando casos en los que los crawlers quedaban atrapados durante días
Se comparte la experiencia de un sitio web sin fines de lucro que tuvo que cerrar temporalmente debido al crawling agresivo de un bot de Amazon
robots.txtHay comentarios de que un tarpít puede ralentizar el crawling, pero que no tendrá mucho efecto a menos que muchos sitios lo usen
Hay comentarios de que un generador de texto aleatorio basado en cadenas de Markov probablemente no sería un gran problema para los crawlers de entrenamiento de LLM
Hay comentarios de que actualmente aparece un error 502 Bad Gateway, y no está claro si fue clasificado como un crawler web de IA o si es simplemente sobrecarga
Hay comentarios de que será fácil filtrarlo a menos que este concepto se vuelva popular
Ya existen sitios web "infinitos" en internet, y los crawlers establecen un número de páginas a rastrear por dominio
Como enfoque simple, se está considerando enviar 100 solicitudes HTTP incorrectas por cada solicitud HTTP incorrecta que llegue
Hay comentarios de que los sitios que apliquen este software probablemente desaparecerán de todos los resultados de búsqueda