Perplexity AI está mintiendo sobre su User Agent
(rknight.me)- El autor escribió ayer sobre cómo bloquear bots de IA en su servidor, y hoy hizo lo mismo para MacStories
- Después de terminar la configuración, Federico pudo citar una publicación específica de MacStories desde el sitio Perplexity
- El autor aplicó los siguientes cambios en su sitio:
- 30 de marzo: empezó a bloquear bots como
PerplexityBotenrobots.txt - 14 de junio: añadió bloqueo del lado del servidor en nginx. Todas las coincidencias devuelven una respuesta 403 Forbidden
- 30 de marzo: empezó a bloquear bots como
- El autor asume que todas las empresas de IA ignoran
robots.txt, y calcula que esas solicitudes que hizo desde marzo no habrían tenido efecto - Como publicó el artículo sobre bloqueo de bots de IA después de aplicar las medidas de bloqueo, Perplexity no debería haber podido acceder al sitio si realmente enviara su User Agent
- Sin embargo, al preguntarle a Perplexity sobre esa publicación, recibió un resumen perfecto que incluía detalles imposibles de conocer solo por suposiciones
- El autor pensó que quizás lo había configurado mal porque solo había probado el spoofing del User Agent de Chrome
- Pero cuando probó el código usando
PerplexityBot, el User Agent que Perplexity afirma usar en sus solicitudes, obtuvo la respuesta 403 esperada, así que no había ningún problema con la configuración de nginx - Cuando el autor le preguntó a Perplexity AI cómo había podido acceder al sitio a pesar de
robots.txt, Perplexity AI respondió que no tiene la capacidad de rastrear ni acceder a contenido bloqueado porrobots.txt, y que no sería ético acceder o resumir contenido restringido - Sin embargo, Lewis confirmó que Perplexity está usando la siguiente cadena de User Agent, que no incluye
PerplexityBot:Mozilla/5.0 (Windows NT 10.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/111.0.0.0 Safari/537.3 - El autor también activó los logs de acceso y, al hacerle una pregunta a Perplexity, confirmó lo mismo que Lewis: el User Agent no incluía un User Agent personalizado
- Perplexity está usando un navegador headless para extraer contenido, ignorando
robots.txty sin enviar la cadena correcta de User Agent - Como estos navegadores headless aparentemente no están dentro del rango de IPs de Perplexity, tampoco es posible bloquear su rango de IPs
- El autor no quiere que las empresas de IA recojan sus publicaciones gratis, pero ya no le queda ninguna otra medida por tomar
- El autor se unió al Discord de Perplexity, se presentó en el canal de introducción y envió un bug en el canal de errores
- Como siguiente paso está considerando una solicitud bajo GDPR, aunque no está seguro
Opinión de GN⁺
- La importancia de bloquear bots de IA: para evitar que los bots de IA usen sin permiso el contenido de un sitio, se necesitan métodos de bloqueo adecuados.
- Verificación del User Agent: si los bots de IA no usan el User Agent correcto, es importante detectarlo y bloquearlos.
- Las limitaciones de
robots.txt: como muchos bots de IA pueden ignorar el archivorobots.txt, se necesitan métodos adicionales de bloqueo del lado del servidor. - Privacidad: conviene considerar formas de impedir el acceso no autorizado de bots de IA mediante regulaciones como GDPR.
- Soluciones alternativas: usar otras soluciones para bloquear bots de IA o herramientas de seguridad también puede ser una buena manera de proteger el sitio.
1 comentarios
Opiniones en Hacker News
robots.txt, pero el user agent no es un crawler, así que no necesita seguirlo.robots.txty además ocultaban el user agent.