- Perplexity usó un crawler web que ocultaba su identidad para eludir una directiva de no rastreo
- Se detectaron conductas como ignorar el archivo robots.txt y cambiar IP y User Agent de forma continua
- En una prueba con dominios nuevos se confirmó que Perplexity accedió al contenido del sitio pese a las configuraciones de restricción
- Cloudflare, para evitar este tipo de comportamiento, excluyó a Perplexity de su lista de bots verificados y ajustó sus reglas de gestión
- A diferencia de operadores de bots bien intencionados como OpenAI, se señaló como problemática la conducta encubierta de Perplexity
Resumen del uso de crawlers encubiertos por Perplexity
- Perplexity, como motor de respuestas basado en IA, inicialmente rastrea sitios web con un User Agent reportado oficialmente
- Sin embargo, al enfrentarse a bloqueos de red, cambia el User Agent para ocultar su identidad y también intenta acceder usando distintos ASN (números de sistema autónomo)
- En ese proceso se detectaron numerosos intentos de ignorar o ni siquiera solicitar el archivo robots.txt
Principios de confianza entre sitios web y crawlers y conductas problemáticas
- Durante décadas, Internet ha evolucionado sobre la base de la confianza, y los crawlers también deberían regirse por transparencia, propósito y reglas claras de comportamiento
- Los crawlers deben respetar las reglas y prioridades del propietario del sitio, y la conducta observada en este caso de Perplexity va en contra de ese principio
- Por ello, Cloudflare excluyó a Perplexity de la lista oficial de bots verificados y aplicó reglas de gestión adicionales para detectar y bloquear crawlers stealth
Casos de prueba y detección
- Cloudflare realizó pruebas sobre el comportamiento de rastreo de Perplexity creando un dominio nuevo
- Bloqueó el acceso automatizado con robots.txt y configuró reglas adicionales de WAF
- Bloqueó el User Agent e IP oficiales de Perplexity, pero aun así se confirmó que siguió recopilando el contenido del sitio con identidad oculta
- Perplexity intentó acceder al contenido tanto con su User Agent oficial como con uno stealth, y este último emula un navegador real (Chrome)
| Tipo |
Ejemplo de User Agent |
Solicitudes diarias |
| Oficial |
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Perplexity-User/1.0; +https://perplexity.ai/perplexity-user) |
20 a 25 millones |
| Encubierto |
Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/124.0.0.0 Safari/537.36 |
3 a 6 millones |
- Usó varias IP y ASN que no estaban en el rango IP oficial y fue cambiando IPs continuamente para intentar eludir políticas de bloqueo
- Como resultado, esta actividad se identificó en decenas de miles de dominios y millones de solicitudes, y Cloudflare la clasificó con señales de red y machine learning
Casos de elusión y límites del crawler encubierto
- Cuando se bloquea el crawler stealth, Perplexity intenta responder usando fuentes externas de otros sitios web, entre otros recursos
- Sin embargo, en esos casos también se observó una caída clara en el nivel de detalle del contenido
Criterios para operadores de bots de buena fe y buenas prácticas de OpenAI
- Un bot bien operado debería tener principios como transparencia, identificación clara, divulgación del objetivo de actividad, uso de bots separados por tipo de actividad y cumplimiento de reglas de webmaster como robots.txt
- OpenAI publica de forma transparente IP y User Agent oficiales, así como el propósito de su actividad de crawler, y respeta estrictamente robots.txt
- En pruebas reales, el crawler de ChatGPT también deja de intentar rastrear cuando detecta configuraciones disallow o bloqueos de red
- También adopta de forma activa métodos de autenticación estandarizados como Web Bot Auth
Medidas de protección y respuesta
- Todo crawling desde User Agents no declarados de Perplexity es detectado y bloqueado por el sistema de gestión de bots de Cloudflare
- Los clientes con reglas anti-bot o reglas de challenge ya activadas en Cloudflare ya cuentan con protección
- Las reglas de administración para bloquear crawlers stealth están disponibles para todos los clientes, incluidos los gratuitos
- Tras el anuncio de Content Independence Day, más de 2.5 millones de sitios web aplicaron políticas de no rastreo para IA
- Cloudflare está mejorando continuamente sus sistemas y tecnologías de respuesta frente a los intentos de evasión de operadores de bots en constante evolución
Esfuerzos de política y perspectivas futuras
- Cloudflare participa activamente en la discusión de estandarización de extensiones de robots.txt junto con expertos técnicos y de política de todo el mundo, incluyendo la IETF
- Avanza hacia el establecimiento de reglas de crawlers confiables, enfatizando transparencia y cumplimiento en un entorno de IA y crawlers que cambia rápidamente
Aún no hay comentarios.