4 puntos por GN⁺ 2025-08-05 | Aún no hay comentarios. | Compartir por WhatsApp
  • Perplexity usó un crawler web que ocultaba su identidad para eludir una directiva de no rastreo
  • Se detectaron conductas como ignorar el archivo robots.txt y cambiar IP y User Agent de forma continua
  • En una prueba con dominios nuevos se confirmó que Perplexity accedió al contenido del sitio pese a las configuraciones de restricción
  • Cloudflare, para evitar este tipo de comportamiento, excluyó a Perplexity de su lista de bots verificados y ajustó sus reglas de gestión
  • A diferencia de operadores de bots bien intencionados como OpenAI, se señaló como problemática la conducta encubierta de Perplexity

Resumen del uso de crawlers encubiertos por Perplexity

  • Perplexity, como motor de respuestas basado en IA, inicialmente rastrea sitios web con un User Agent reportado oficialmente
  • Sin embargo, al enfrentarse a bloqueos de red, cambia el User Agent para ocultar su identidad y también intenta acceder usando distintos ASN (números de sistema autónomo)
  • En ese proceso se detectaron numerosos intentos de ignorar o ni siquiera solicitar el archivo robots.txt

Principios de confianza entre sitios web y crawlers y conductas problemáticas

  • Durante décadas, Internet ha evolucionado sobre la base de la confianza, y los crawlers también deberían regirse por transparencia, propósito y reglas claras de comportamiento
  • Los crawlers deben respetar las reglas y prioridades del propietario del sitio, y la conducta observada en este caso de Perplexity va en contra de ese principio
  • Por ello, Cloudflare excluyó a Perplexity de la lista oficial de bots verificados y aplicó reglas de gestión adicionales para detectar y bloquear crawlers stealth

Casos de prueba y detección

  • Cloudflare realizó pruebas sobre el comportamiento de rastreo de Perplexity creando un dominio nuevo
    • Bloqueó el acceso automatizado con robots.txt y configuró reglas adicionales de WAF
    • Bloqueó el User Agent e IP oficiales de Perplexity, pero aun así se confirmó que siguió recopilando el contenido del sitio con identidad oculta
  • Perplexity intentó acceder al contenido tanto con su User Agent oficial como con uno stealth, y este último emula un navegador real (Chrome)
Tipo Ejemplo de User Agent Solicitudes diarias
Oficial Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Perplexity-User/1.0; +https://perplexity.ai/perplexity-user) 20 a 25 millones
Encubierto Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/124.0.0.0 Safari/537.36 3 a 6 millones
  • Usó varias IP y ASN que no estaban en el rango IP oficial y fue cambiando IPs continuamente para intentar eludir políticas de bloqueo
  • Como resultado, esta actividad se identificó en decenas de miles de dominios y millones de solicitudes, y Cloudflare la clasificó con señales de red y machine learning

Casos de elusión y límites del crawler encubierto

  • Cuando se bloquea el crawler stealth, Perplexity intenta responder usando fuentes externas de otros sitios web, entre otros recursos
  • Sin embargo, en esos casos también se observó una caída clara en el nivel de detalle del contenido

Criterios para operadores de bots de buena fe y buenas prácticas de OpenAI

  • Un bot bien operado debería tener principios como transparencia, identificación clara, divulgación del objetivo de actividad, uso de bots separados por tipo de actividad y cumplimiento de reglas de webmaster como robots.txt
  • OpenAI publica de forma transparente IP y User Agent oficiales, así como el propósito de su actividad de crawler, y respeta estrictamente robots.txt
  • En pruebas reales, el crawler de ChatGPT también deja de intentar rastrear cuando detecta configuraciones disallow o bloqueos de red
  • También adopta de forma activa métodos de autenticación estandarizados como Web Bot Auth

Medidas de protección y respuesta

  • Todo crawling desde User Agents no declarados de Perplexity es detectado y bloqueado por el sistema de gestión de bots de Cloudflare
  • Los clientes con reglas anti-bot o reglas de challenge ya activadas en Cloudflare ya cuentan con protección
  • Las reglas de administración para bloquear crawlers stealth están disponibles para todos los clientes, incluidos los gratuitos
  • Tras el anuncio de Content Independence Day, más de 2.5 millones de sitios web aplicaron políticas de no rastreo para IA
  • Cloudflare está mejorando continuamente sus sistemas y tecnologías de respuesta frente a los intentos de evasión de operadores de bots en constante evolución

Esfuerzos de política y perspectivas futuras

  • Cloudflare participa activamente en la discusión de estandarización de extensiones de robots.txt junto con expertos técnicos y de política de todo el mundo, incluyendo la IETF
  • Avanza hacia el establecimiento de reglas de crawlers confiables, enfatizando transparencia y cumplimiento en un entorno de IA y crawlers que cambia rápidamente

Aún no hay comentarios.

Aún no hay comentarios.