1 puntos por GN⁺ 2024-06-16 | 1 comentarios | Compartir por WhatsApp
  • El autor escribió ayer sobre cómo bloquear bots de IA en su servidor, y hoy hizo lo mismo para MacStories
  • Después de terminar la configuración, Federico pudo citar una publicación específica de MacStories desde el sitio Perplexity
  • El autor aplicó los siguientes cambios en su sitio:
    • 30 de marzo: empezó a bloquear bots como PerplexityBot en robots.txt
    • 14 de junio: añadió bloqueo del lado del servidor en nginx. Todas las coincidencias devuelven una respuesta 403 Forbidden
  • El autor asume que todas las empresas de IA ignoran robots.txt, y calcula que esas solicitudes que hizo desde marzo no habrían tenido efecto
  • Como publicó el artículo sobre bloqueo de bots de IA después de aplicar las medidas de bloqueo, Perplexity no debería haber podido acceder al sitio si realmente enviara su User Agent
  • Sin embargo, al preguntarle a Perplexity sobre esa publicación, recibió un resumen perfecto que incluía detalles imposibles de conocer solo por suposiciones
  • El autor pensó que quizás lo había configurado mal porque solo había probado el spoofing del User Agent de Chrome
  • Pero cuando probó el código usando PerplexityBot, el User Agent que Perplexity afirma usar en sus solicitudes, obtuvo la respuesta 403 esperada, así que no había ningún problema con la configuración de nginx
  • Cuando el autor le preguntó a Perplexity AI cómo había podido acceder al sitio a pesar de robots.txt, Perplexity AI respondió que no tiene la capacidad de rastrear ni acceder a contenido bloqueado por robots.txt, y que no sería ético acceder o resumir contenido restringido
  • Sin embargo, Lewis confirmó que Perplexity está usando la siguiente cadena de User Agent, que no incluye PerplexityBot:
    Mozilla/5.0 (Windows NT 10.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/111.0.0.0 Safari/537.3  
    
  • El autor también activó los logs de acceso y, al hacerle una pregunta a Perplexity, confirmó lo mismo que Lewis: el User Agent no incluía un User Agent personalizado
  • Perplexity está usando un navegador headless para extraer contenido, ignorando robots.txt y sin enviar la cadena correcta de User Agent
  • Como estos navegadores headless aparentemente no están dentro del rango de IPs de Perplexity, tampoco es posible bloquear su rango de IPs
  • El autor no quiere que las empresas de IA recojan sus publicaciones gratis, pero ya no le queda ninguna otra medida por tomar
  • El autor se unió al Discord de Perplexity, se presentó en el canal de introducción y envió un bug en el canal de errores
  • Como siguiente paso está considerando una solicitud bajo GDPR, aunque no está seguro

Opinión de GN⁺

  • La importancia de bloquear bots de IA: para evitar que los bots de IA usen sin permiso el contenido de un sitio, se necesitan métodos de bloqueo adecuados.
  • Verificación del User Agent: si los bots de IA no usan el User Agent correcto, es importante detectarlo y bloquearlos.
  • Las limitaciones de robots.txt: como muchos bots de IA pueden ignorar el archivo robots.txt, se necesitan métodos adicionales de bloqueo del lado del servidor.
  • Privacidad: conviene considerar formas de impedir el acceso no autorizado de bots de IA mediante regulaciones como GDPR.
  • Soluciones alternativas: usar otras soluciones para bloquear bots de IA o herramientas de seguridad también puede ser una buena manera de proteger el sitio.

1 comentarios

 
GN⁺ 2024-06-16
Opiniones en Hacker News
  • Debería ser posible impedir que los LLM entrenen con mis datos, y Perplexity debería facilitar que eso se pueda bloquear.
  • Prohibir que Perplexity entregue a los usuarios datos de mi sitio web mediante consultas web en tiempo real entra en un terreno riesgoso.
  • Los bloqueadores de anuncios, el modo lector y los lectores de pantalla también funcionan de una forma similar a Perplexity, y prohibirlo podría afectar a muchas herramientas.
  • No quiero que los dueños de sitios web usen DRM para forzar que un sitio se muestre solo de una manera específica.
  • Parece que se malinterpretó en qué momento se aplica el user agent de Perplexity.
  • Los dueños de sitios web no pueden decidir qué navegador usará una persona, y Perplexity no es la excepción.
  • Es problemático que Perplexity recopile datos a gran escala sin user agent, y debería dejar de hacerlo.
  • Debe distinguirse entre que una empresa de IA scrapee sitios web para entrenar modelos y que recupere una página web solicitada por un usuario.
  • Se proporciona un enlace a un artículo que trata el problema de que Perplexity tome y use contenido ajeno.
  • El crawler de Perplexity debería respetar robots.txt, pero el user agent no es un crawler, así que no necesita seguirlo.
  • No me importa que las empresas de IA scrapeen mi sitio web; dejaría que se lleven datos incorrectos.
  • Cualquiera que haya hecho web scraping sabrá por qué se miente sobre el user agent.
  • El CEO de Perplexity criticó a Google y OpenAI, pero quedó al descubierto que ellos tampoco seguían robots.txt y además ocultaban el user agent.
  • Se puede usar prompt injection invisible para impedir que las empresas de IA tomen mi contenido gratis.
  • No se puede llamar mentira a que Perplexity no siga estándares web voluntarios.