Nepenthes - Una trampa para atrapar rastreadores web de IA

(zadzmo.org)

5 puntos por GN⁺ 2025-01-17 | 1 comentarios | Compartir por WhatsApp

Software para atrapar rastreadores web, dirigido especialmente a los rastreadores que extraen datos para modelos de lenguaje de gran tamaño (LLM).
- Genera una secuencia infinita de páginas para que el rastreador no pueda salir.
- Añade demoras intencionales para evitar que el rastreador sobrecargue el servidor, y puede usar Markov-babble para inducir al rastreador a recolectar datos.
- Este software fue diseñado con fines maliciosos y se requiere precaución al usarlo.
Advertencia
- Los rastreadores de LLM son muy persistentes, y al usar este software se les seguirá sirviendo los datos que buscan.
- No hay forma de distinguir entre los rastreadores para motores de búsqueda y los rastreadores que entrenan modelos de IA, y al usar este software es muy probable que el sitio desaparezca de los resultados de búsqueda.
Uso
- Se recomienda ocultar el tarpit detrás de Nginx o Apache.
- El tarpit se configura usando encabezados HTTP, y se proporciona como ejemplo un fragmento de configuración de nginx.
Instalación
- Se puede instalar con Docker o manualmente.
- Requiere Lua, SQLite, OpenSSL y varios módulos de Lua.
- Después de la instalación, se puede iniciar ajustando el archivo config.yml.
Bootstrap de Markov Babbler
- La función Markov requiere un corpus entrenado, y puede entrenarse usando diversas fuentes de texto.
- Los datos de entrenamiento pueden añadirse enviándolos a un endpoint POST.
Estadísticas
- Proporciona varios endpoints de estadísticas en formato JSON, y permite revisar direcciones IP y cadenas de user-agent.
Uso defensivo de Nepenthes
- Mediante enlaces en el sitio hacia la ubicación de Nepenthes, se evita que los rastreadores accedan al contenido real.
- Se puede usar la lista de direcciones IP recopiladas para bloquear rastreadores.
Uso ofensivo de Nepenthes
- En lugar de bloquear rastreadores, se les puede servir la mayor cantidad posible de datos para interferir con los modelos de IA.
Archivo de configuración
- Se describen todas las directivas posibles del archivo config.yaml.
- Se puede ajustar el comportamiento de Nepenthes mediante diversas configuraciones.

1 comentarios

GN⁺ 2025-01-17

Opiniones en Hacker News

Hay comentarios sobre cómo probar una vulnerabilidad de DDOS reflectivo en el crawler de ChatGPT. Esta vulnerabilidad puede hacer que una sola solicitud HTTP provoque 5000 solicitudes HTTP
- OpenAI y Microsoft ignoraron esta vulnerabilidad, y el proceso de reporte fue muy difícil
- Se recomienda no explotar esta vulnerabilidad por razones legales
Se comparte la experiencia de haber operado en el pasado un motel para bots, mencionando casos en los que los crawlers quedaban atrapados durante días
- La seguridad suele ser una consideración posterior, y la lucha contra los crawlers es una competencia interminable
Se comparte la experiencia de un sitio web sin fines de lucro que tuvo que cerrar temporalmente debido al crawling agresivo de un bot de Amazon
- Siteground restauró el sitio y luego se añadió el bot de Amazon al robots.txt
- Se expresa frustración por la situación actual y se plantea la duda de si un tarpít o las leyes podrían ser una solución
Hay comentarios de que un tarpít puede ralentizar el crawling, pero que no tendrá mucho efecto a menos que muchos sitios lo usen
- Es difícil identificar a los bots maliciosos y existe el riesgo de quedar excluido de los resultados de búsqueda
Hay comentarios de que un generador de texto aleatorio basado en cadenas de Markov probablemente no sería un gran problema para los crawlers de entrenamiento de LLM
- Usar texto repetitivo y absurdo podría ser más efectivo que la contaminación aleatoria
Hay comentarios de que actualmente aparece un error 502 Bad Gateway, y no está claro si fue clasificado como un crawler web de IA o si es simplemente sobrecarga
Hay comentarios de que será fácil filtrarlo a menos que este concepto se vuelva popular
- Las grandes empresas podrían formar equipos para bloquear este tipo de software
Ya existen sitios web "infinitos" en internet, y los crawlers establecen un número de páginas a rastrear por dominio
- Los sitios populares reciben mucho crawling, pero los sitios poco conocidos reciben poco
Como enfoque simple, se está considerando enviar 100 solicitudes HTTP incorrectas por cada solicitud HTTP incorrecta que llegue
Hay comentarios de que los sitios que apliquen este software probablemente desaparecerán de todos los resultados de búsqueda
- Eso podría ser un bug o una feature

Nepenthes - Una trampa para atrapar rastreadores web de IA

Lecturas relacionadas

1 comentarios

Opiniones en Hacker News