- Cloudflare introdujo una nueva configuración para bloquear por defecto a los scrapers de datos de A.I.
- Los propietarios de sitios web bloquearán automáticamente el rastreo de bots de IA a menos que otorguen permiso
- Refuerza el papel de proteger el contenido de internet en relación con la recopilación de datos de alta calidad necesarios para entrenar modelos de IA
- Los creadores de contenido y los medios siguen expresando preocupaciones por el uso no autorizado de sus datos
- Las disputas legales entre empresas de IA y dueños de contenido son cada vez más frecuentes
Cloudflare introduce una función de bloqueo predeterminado para scrapers de datos de IA
- Cloudflare es una empresa tecnológica que ofrece servicios de gestión de tráfico en línea y seguridad
- A medida que ha aumentado recientemente el fenómeno de empresas de IA que recopilan datos de sitios web sin autorización, Cloudflare introdujo una nueva configuración basada en permisos que permite a sus clientes bloquear automáticamente el acceso de scrapers de datos de IA
La nueva política predeterminada y sus cambios
- Con esta nueva función, los sitios web pueden bloquear por defecto el rastreo automático (scraping) de bots de IA
- Si se necesita el rastreo de datos, el propietario del sitio web debe otorgar manualmente el permiso de acceso por separado
- Antes, los bots que Cloudflare no consideraba hackers o actores maliciosos podían recopilar libremente información de los sitios web
Por qué Cloudflare cambió su política
- El CEO de Cloudflare, Matthew Prince, enfatizó que esta medida busca "proteger el contenido original en internet y reforzar los derechos de los publicadores web"
- Si las empresas de IA utilizan datos de internet sin autorización, surge el problema de que disminuye el incentivo para que los creadores de contenido produzcan nuevo contenido
- La red de Cloudflare procesa alrededor del 20% del tráfico de internet a nivel mundial
- Recientemente ha habido un aumento explosivo de la actividad de rastreadores de IA en la web, y esta política busca responder a ello
Se intensifica el conflicto en torno a los datos para IA y la industria
- OpenAI, Anthropic y Google, entre otros, compiten intensamente por la recopilación masiva de datos para desarrollar modelos de IA
- Los datos web de alta calidad desempeñan un papel clave en la sofisticación de los modelos de IA y en la calidad de sus resultados
- Como resultado, operadores de sitios web, medios y titulares de derechos protestan por la recopilación de datos sin autorización y sin compensación
Casos de expansión de disputas legales
- En junio de 2025, Reddit demandó a Anthropic, y en 2023 The New York Times demandó a OpenAI y Microsoft, respectivamente, por el uso no autorizado de datos para entrenamiento de IA y por infracción de derechos de autor
- OpenAI y Microsoft niegan estas acusaciones de infracción de derechos de autor
Conclusión
- La nueva política de bloqueo predeterminado de recopilación de datos de IA de Cloudflare tiene un impacto significativo en los estándares éticos y legales de acceso y uso de datos entre la industria de IA y los dueños de contenido
- Este cambio de política se está convirtiendo en un punto de inflexión importante para establecer estándares de protección de derechos sobre el contenido y consentimiento previo dentro del ecosistema de IA.
2 comentarios
Cloudflare implementa cobro por rastreo (pay-per-crawl) para bots de IA
Opiniones de Hacker News
robots.txtcambia automáticamente. No me queda claro si hay algún comportamiento adicional. Al archivorobots.txtse le agregan configuraciones para bloquear varios bots y crawlers de IA.User-agent: CCBot disallow: /, surge la duda de si CCBot (Common Crawl) es exclusivo para IA. CCBot ya estaba bloqueado desde hace tiempo en muchosrobots.txt. Me pregunto si Common Crawl realmente puede controlar hasta cómo se usa el contenido, y si CC depende del fair use, si de verdad tiene algún derecho para cobrar licencias o autorizar usos secundarios. También dudo que los términos de uso de los sitios permitan con frecuencia que el operador relicencie contenido ajeno (de los usuarios) para fines de LLM y comparta ingresos.robots.txtse sigue permitiendo, como excepción, el uso paraAI RAG (Retrieval Augmented Generation), aunque RAG perjudica los ingresos de los autores de forma mucho más inmediata que el entrenamiento de modelos de lenguaje.user-agentcontieneboty solicita cualquier archivo que no searobots.txt,humans.txtofavicon.ico, respondo con estado 444 (cierre inmediato de conexión). La mayoría de los motores de búsqueda manejan los bloques CIDR como blackhole. Supongo que quizá solo yo hago algo así.420 Enhance Your Calmenlace de referencia.robots.txty se comportan honestamente mediante reglas preconfiguradas, pero como algunas empresas como Perplexity ya están disfrazando su tráfico, surge la duda de si este tipo de bloqueo no termina perjudicando solo a los bots honestos y fomentando el encubrimiento. Este fenómeno, es decir, la carrera armamentista, lleva 20 años existiendo y no es nada nuevo. Gracias a las señales globales de Cloudflare, el scoring de bots y el fingerprinting de tráfico, la estructura está preparada para identificar bien incluso a bots de IA disfrazados. También se comparte un enlace explicativo relacionado ver blog.cloudflare.comrobots.txtni deluser agent, sino de un enfoque basado en analizar patrones de tráfico. Gracias a eso, para que mi herramienta funcionara tuve que agregar reglas de bypass aparte.robots.txthaces que un bot no sea clasificado como malicioso, queda algún margen para permitirlo a nivel de sitio, pero para todo lo demás se terminarán usando métodos propios de Cloudflare.robots.txt? Tal vez solo obedezcan con algunos crawlers públicos, pero persiste la sospecha de que por debajo siguen corriendo crawling oculto de otras maneras. Ya tienen antecedentes de haber raspado y usado ilegalmente libros, imágenes e incluso datos de usuarios.robots.txtno deja de ser una convención; no hay una obligación legal o técnica especialmente fuerte. Se podría dejar explícita en los términos de uso una cláusula de cumplimiento de la política derobots.txt, pero su efectividad real es dudosa.robots.txt, o si este solo debería aplicarse al uso de indexación.