5 puntos por GN⁺ 2025-01-17 | 1 comentarios | Compartir por WhatsApp
  • Software para atrapar rastreadores web, dirigido especialmente a los rastreadores que extraen datos para modelos de lenguaje de gran tamaño (LLM).
    • Genera una secuencia infinita de páginas para que el rastreador no pueda salir.
    • Añade demoras intencionales para evitar que el rastreador sobrecargue el servidor, y puede usar Markov-babble para inducir al rastreador a recolectar datos.
    • Este software fue diseñado con fines maliciosos y se requiere precaución al usarlo.
  • Advertencia
    • Los rastreadores de LLM son muy persistentes, y al usar este software se les seguirá sirviendo los datos que buscan.
    • No hay forma de distinguir entre los rastreadores para motores de búsqueda y los rastreadores que entrenan modelos de IA, y al usar este software es muy probable que el sitio desaparezca de los resultados de búsqueda.
  • Uso
    • Se recomienda ocultar el tarpit detrás de Nginx o Apache.
    • El tarpit se configura usando encabezados HTTP, y se proporciona como ejemplo un fragmento de configuración de nginx.
  • Instalación
    • Se puede instalar con Docker o manualmente.
    • Requiere Lua, SQLite, OpenSSL y varios módulos de Lua.
    • Después de la instalación, se puede iniciar ajustando el archivo config.yml.
  • Bootstrap de Markov Babbler
    • La función Markov requiere un corpus entrenado, y puede entrenarse usando diversas fuentes de texto.
    • Los datos de entrenamiento pueden añadirse enviándolos a un endpoint POST.
  • Estadísticas
    • Proporciona varios endpoints de estadísticas en formato JSON, y permite revisar direcciones IP y cadenas de user-agent.
  • Uso defensivo de Nepenthes
    • Mediante enlaces en el sitio hacia la ubicación de Nepenthes, se evita que los rastreadores accedan al contenido real.
    • Se puede usar la lista de direcciones IP recopiladas para bloquear rastreadores.
  • Uso ofensivo de Nepenthes
    • En lugar de bloquear rastreadores, se les puede servir la mayor cantidad posible de datos para interferir con los modelos de IA.
  • Archivo de configuración
    • Se describen todas las directivas posibles del archivo config.yaml.
    • Se puede ajustar el comportamiento de Nepenthes mediante diversas configuraciones.

1 comentarios

 
GN⁺ 2025-01-17
Opiniones en Hacker News
  • Hay comentarios sobre cómo probar una vulnerabilidad de DDOS reflectivo en el crawler de ChatGPT. Esta vulnerabilidad puede hacer que una sola solicitud HTTP provoque 5000 solicitudes HTTP

    • OpenAI y Microsoft ignoraron esta vulnerabilidad, y el proceso de reporte fue muy difícil
    • Se recomienda no explotar esta vulnerabilidad por razones legales
  • Se comparte la experiencia de haber operado en el pasado un motel para bots, mencionando casos en los que los crawlers quedaban atrapados durante días

    • La seguridad suele ser una consideración posterior, y la lucha contra los crawlers es una competencia interminable
  • Se comparte la experiencia de un sitio web sin fines de lucro que tuvo que cerrar temporalmente debido al crawling agresivo de un bot de Amazon

    • Siteground restauró el sitio y luego se añadió el bot de Amazon al robots.txt
    • Se expresa frustración por la situación actual y se plantea la duda de si un tarpít o las leyes podrían ser una solución
  • Hay comentarios de que un tarpít puede ralentizar el crawling, pero que no tendrá mucho efecto a menos que muchos sitios lo usen

    • Es difícil identificar a los bots maliciosos y existe el riesgo de quedar excluido de los resultados de búsqueda
  • Hay comentarios de que un generador de texto aleatorio basado en cadenas de Markov probablemente no sería un gran problema para los crawlers de entrenamiento de LLM

    • Usar texto repetitivo y absurdo podría ser más efectivo que la contaminación aleatoria
  • Hay comentarios de que actualmente aparece un error 502 Bad Gateway, y no está claro si fue clasificado como un crawler web de IA o si es simplemente sobrecarga

  • Hay comentarios de que será fácil filtrarlo a menos que este concepto se vuelva popular

    • Las grandes empresas podrían formar equipos para bloquear este tipo de software
  • Ya existen sitios web "infinitos" en internet, y los crawlers establecen un número de páginas a rastrear por dominio

    • Los sitios populares reciben mucho crawling, pero los sitios poco conocidos reciben poco
  • Como enfoque simple, se está considerando enviar 100 solicitudes HTTP incorrectas por cada solicitud HTTP incorrecta que llegue

  • Hay comentarios de que los sitios que apliquen este software probablemente desaparecerán de todos los resultados de búsqueda

    • Eso podría ser un bug o una feature