3 puntos por GN⁺ 2025-07-03 | 2 comentarios | Compartir por WhatsApp
  • Cloudflare introdujo una nueva configuración para bloquear por defecto a los scrapers de datos de A.I.
  • Los propietarios de sitios web bloquearán automáticamente el rastreo de bots de IA a menos que otorguen permiso
  • Refuerza el papel de proteger el contenido de internet en relación con la recopilación de datos de alta calidad necesarios para entrenar modelos de IA
  • Los creadores de contenido y los medios siguen expresando preocupaciones por el uso no autorizado de sus datos
  • Las disputas legales entre empresas de IA y dueños de contenido son cada vez más frecuentes

Cloudflare introduce una función de bloqueo predeterminado para scrapers de datos de IA

  • Cloudflare es una empresa tecnológica que ofrece servicios de gestión de tráfico en línea y seguridad
  • A medida que ha aumentado recientemente el fenómeno de empresas de IA que recopilan datos de sitios web sin autorización, Cloudflare introdujo una nueva configuración basada en permisos que permite a sus clientes bloquear automáticamente el acceso de scrapers de datos de IA

La nueva política predeterminada y sus cambios

  • Con esta nueva función, los sitios web pueden bloquear por defecto el rastreo automático (scraping) de bots de IA
  • Si se necesita el rastreo de datos, el propietario del sitio web debe otorgar manualmente el permiso de acceso por separado
  • Antes, los bots que Cloudflare no consideraba hackers o actores maliciosos podían recopilar libremente información de los sitios web

Por qué Cloudflare cambió su política

  • El CEO de Cloudflare, Matthew Prince, enfatizó que esta medida busca "proteger el contenido original en internet y reforzar los derechos de los publicadores web"
  • Si las empresas de IA utilizan datos de internet sin autorización, surge el problema de que disminuye el incentivo para que los creadores de contenido produzcan nuevo contenido
  • La red de Cloudflare procesa alrededor del 20% del tráfico de internet a nivel mundial
  • Recientemente ha habido un aumento explosivo de la actividad de rastreadores de IA en la web, y esta política busca responder a ello

Se intensifica el conflicto en torno a los datos para IA y la industria

  • OpenAI, Anthropic y Google, entre otros, compiten intensamente por la recopilación masiva de datos para desarrollar modelos de IA
  • Los datos web de alta calidad desempeñan un papel clave en la sofisticación de los modelos de IA y en la calidad de sus resultados
  • Como resultado, operadores de sitios web, medios y titulares de derechos protestan por la recopilación de datos sin autorización y sin compensación

Casos de expansión de disputas legales

  • En junio de 2025, Reddit demandó a Anthropic, y en 2023 The New York Times demandó a OpenAI y Microsoft, respectivamente, por el uso no autorizado de datos para entrenamiento de IA y por infracción de derechos de autor
  • OpenAI y Microsoft niegan estas acusaciones de infracción de derechos de autor

Conclusión

  • La nueva política de bloqueo predeterminado de recopilación de datos de IA de Cloudflare tiene un impacto significativo en los estándares éticos y legales de acceso y uso de datos entre la industria de IA y los dueños de contenido
  • Este cambio de política se está convirtiendo en un punto de inflexión importante para establecer estándares de protección de derechos sobre el contenido y consentimiento previo dentro del ecosistema de IA.

2 comentarios

 
GN⁺ 2025-07-03
Opiniones de Hacker News
  • Un punto que mucha gente no percibe bien es que casi todo lo que hacemos en línea hasta ahora solo ha servido para darles datos de entrenamiento gratis a empresas como OpenAI y Anthropic, mientras que los humanos que realmente generaron el valor quedan desplazados. Creo que la dirección del argumento es 100% correcta, pero no me parece que esta solución sea especialmente innovadora, y expreso la esperanza de que hagan falta muchas más innovaciones para combatir el fenómeno del parasitismo de la IA.
    • Se argumenta que Cloudflare y empresas parecidas, más bien, están arruinando la libertad de internet. En la práctica, con demasiada frecuencia los sitios se vuelven lentos o quedan bloqueados con el pretexto de la verificación, generando una experiencia de carga lenta al nivel de 1998. Estamos entrando en una época en la que solo se puede usar con normalidad un navegador que permita a las empresas publicitarias rastrear y monetizar a los usuarios, y se critica a Cloudflare por no resolver el problema sino por meterse en medio para cobrar y deteriorar la calidad de toda la experiencia de internet.
    • Yo escribo en línea porque quiero compartir mis ideas, y me da igual si eso se usa como datos de entrenamiento para inteligencia artificial o si lo lee una persona; igual me deja satisfecho.
    • Yo creo que está 100% bien usar libremente datos públicos de internet para entrenar IA. Lo que de ninguna manera se puede tolerar es que el rastreo a una velocidad demasiado alta cargue tanto a sitios pequeños que vuelva difícil operarlos; considero que esto es una verdadera tragedia de los bienes comunes.
    • Soy escéptico de que Cloudflare realmente pueda bloquear por completo todo el scraping de datos para IA. Mi impresión es que este tipo de medidas, en la práctica, harán que el crawling sea más difícil y caro, impidiendo que se raspen todas las páginas todos los días a costa del editor, pero al final los datos de todos modos terminarán entrando en algún dataset por ahí.
  • Probé activar esa función y solo confirmé que robots.txt cambia automáticamente. No me queda claro si hay algún comportamiento adicional. Al archivo robots.txt se le agregan configuraciones para bloquear varios bots y crawlers de IA.
    • Al ver la línea User-agent: CCBot disallow: /, surge la duda de si CCBot (Common Crawl) es exclusivo para IA. CCBot ya estaba bloqueado desde hace tiempo en muchos robots.txt. Me pregunto si Common Crawl realmente puede controlar hasta cómo se usa el contenido, y si CC depende del fair use, si de verdad tiene algún derecho para cobrar licencias o autorizar usos secundarios. También dudo que los términos de uso de los sitios permitan con frecuencia que el operador relicencie contenido ajeno (de los usuarios) para fines de LLM y comparta ingresos.
    • Cloudflare dice que cambia la configuración predeterminada para proteger contenido original, pero curiosamente en la guía real de robots.txt se sigue permitiendo, como excepción, el uso para AI RAG (Retrieval Augmented Generation), aunque RAG perjudica los ingresos de los autores de forma mucho más inmediata que el entrenamiento de modelos de lenguaje.
    • También pienso que Google al final raspa datos tanto para indexar la web como para entrenar IA, y que eventualmente podría forzar esa elección. Si llega el punto en que un operador de sitio tenga que renunciar a aparecer en la búsqueda de Google por no cooperar con el entrenamiento de IA, surgiría un dilema muy delicado.
    • En mis sitios personales de hobby, si el user-agent contiene bot y solicita cualquier archivo que no sea robots.txt, humans.txt o favicon.ico, respondo con estado 444 (cierre inmediato de conexión). La mayoría de los motores de búsqueda manejan los bloques CIDR como blackhole. Supongo que quizá solo yo hago algo así.
    • Hay periódicos que no solo bloquearon crawlers de LLM, sino también la función de búsqueda de ChatGPT; comparado con eso, la configuración de Cloudflare es un valor predeterminado mucho más razonable.
  • Este titular puede inducir un poco a error. Por ahora, lo que pasó es que los sitios que usan Cloudflare pueden activar rápidamente un bloqueo total de bots de IA de forma "opt-in", pero no es el valor predeterminado ni se aplica automáticamente. El hecho de que Cloudflare, si quisiera, pudiera hacer una medida masiva así por su cuenta demuestra lo enorme que es su poder.
    • Aparece la pregunta de si de verdad no es el valor predeterminado. En la publicación oficial del blog de Cloudflare se menciona un cambio en la configuración predeterminada.
    • Ahora ya existe una relación hostil entre los bots de IA y los sitios web. Cloudflare solo está respondiendo a esa situación. ¿No va por la misma línea la defensa contra DDoS?
    • Da la impresión de que Cloudflare, más que ofrecer una defensa adecuada, solo vuelve internet más lento. Nunca me ha pasado no poder romper uno de sus challenges en menos de medio día. Creo que estas medidas son, al final, el primer paso para meterse en un mercado de intermediación para AI SEO. Interpreto la esencia de Cloudflare no como algo en favor de los sitios, sino como un intento de cobrar comisión en medio entre scrapers y publishers. Odio a Cloudflare.
  • El uso de datos que atiendo a través de Cloudflare se disparó de 20gb hace dos años a 100gb. Aunque los visitantes reales cayeron a menos de la mitad, el tráfico no hizo más que crecer, así que supongo que Cloudflare toma este tipo de medidas para reducir sus costos de recursos.
    • Se reconoce que, con tráfico a gran escala, el costo de ancho de banda es caro.
  • En HN a menudo se quejan de que el tráfico de bots vuelve lentos a los sitios web, pero como operador de un sitio no me queda muy claro. Si usas el caché de Cloudflare por defecto, la mayor parte del tráfico debería absorberse ahí y casi no habría carga sobre el servidor. Además, ¿no son hoy mucho más baratos los costos de CPU y ancho de banda? Me intriga por qué todos son tan sensibles con eso.
    • Yo también opero un sitio grande, con cientos de miles de páginas en 10 idiomas, millones de páginas en total, y cerca de 1000 RPS. Si un crawler de IA manda 100~200 RPS de golpe repartidos entre varias IP, golpeando endpoints costosos, y las medidas existentes de bloqueo de robots no alcanzan, el efecto termina siendo parecido al de un DDoS.
    • Yo también he tenido caídas por tráfico de IA. Aunque uses caché en varias capas, algunos endpoints públicos expuestos sin autenticación no se pueden cachear, y si los golpean repetidamente, el sitio termina cayéndose. Si millones de páginas regeneran miss de caché al mismo tiempo en poco tiempo, las solicitudes se acumulan y aparecen errores; los errores, a su vez, devuelven el sistema a un estado sin caché completa, generando un círculo vicioso. Si el tráfico de IA sigue pegándole a esos endpoints, el problema persiste.
    • El problema empieza desde asumir que usar Cloudflare es lo normal. ¿De verdad hemos llegado a una época en la que esto es un componente esencial incluso para operar un sitio simple?
    • El problema de tráfico de IA que la gente suele señalar se ha concentrado mucho en crawlers que golpean sin parar APIs del tipo “consultar todos los posts por rango de fechas”.
    • A mí también me resulta algo extraña una reacción tan fuerte, pero entiendo que quienes tienen sitios no optimizados quieran escapar de los crawlers de IA. Entre las herramientas relacionadas, la que parece haberse difundido más rápido es Anubis checker enlace de GitHub. Incluso considerando que el tráfico de IA viene de crawlers distribuidos, siento que hace falta más software open source para limitarlo de manera colaborativa. Se menciona que la web necesita más respuestas del estilo del código HTTP 420 Enhance Your Calm enlace de referencia.
  • Si las empresas de IA usan datos de muchos sitios web sin permiso, se perderá la motivación para producir contenido digital y, al final, la propia estructura de crecimiento de la IA terminará perjudicando otras actividades digitales, hasta destruir la web misma. (Curiosamente, para la IA la propia web es su “presa”).
    • Se opina que, dado que la tasa global de uso de bloqueadores de anuncios es del 30%, la lógica sobre el deterioro del contenido digital es un poco más compleja.
    • Si la IA no logra concretar lo que en última instancia quiere hacer —diversas interacciones con humanos y actividad económica—, entonces también terminará agotando sus recursos de datos.
    • Existe la visión de que, así como hoy el capitalismo tomó a las personas como principal objeto de explotación, la IA también está siguiendo estructuralmente un camino parecido.
  • Cloudflare puede detectar bots o crawlers de IA que respetan robots.txt y se comportan honestamente mediante reglas preconfiguradas, pero como algunas empresas como Perplexity ya están disfrazando su tráfico, surge la duda de si este tipo de bloqueo no termina perjudicando solo a los bots honestos y fomentando el encubrimiento. Este fenómeno, es decir, la carrera armamentista, lleva 20 años existiendo y no es nada nuevo. Gracias a las señales globales de Cloudflare, el scoring de bots y el fingerprinting de tráfico, la estructura está preparada para identificar bien incluso a bots de IA disfrazados. También se comparte un enlace explicativo relacionado ver blog.cloudflare.com
    • Ante la pregunta de si regular solo a los bots honestos y transparentes no hará que aumente aún más el crawling encubierto y disfrazado, creo que esta lucha ya lleva más de 20 años y que no es ni algo completamente nuevo ni una respuesta definitiva.
    • La opción Block AI Bots de Super Bot Fight Mode sí eliminó muy bien la mayor parte del tráfico de bots, y no dependía de robots.txt ni del user agent, sino de un enfoque basado en analizar patrones de tráfico. Gracias a eso, para que mi herramienta funcionara tuve que agregar reglas de bypass aparte.
    • Cloudflare sabe muy bien cómo hacer que usar internet sea bastante difícil para los usuarios que no le gustan. Si con robots.txt haces que un bot no sea clasificado como malicioso, queda algún margen para permitirlo a nivel de sitio, pero para todo lo demás se terminarán usando métodos propios de Cloudflare.
    • Para Cloudflare, los bots de IA que hacen scraping masivo en realidad son difíciles de ocultar, y se pueden distinguir con varias señales a nivel de fingerprinting y de red. De hecho, las grandes empresas ya se comunican directamente con Cloudflare, así que es de esperarse que al final existan distintos medios, como advertencias o respuestas de otro tipo.
  • ¿Las principales empresas de IA realmente respetarán robots.txt? Tal vez solo obedezcan con algunos crawlers públicos, pero persiste la sospecha de que por debajo siguen corriendo crawling oculto de otras maneras. Ya tienen antecedentes de haber raspado y usado ilegalmente libros, imágenes e incluso datos de usuarios.
    • También hay muchos crawlers pequeños que intentan hacerse pasar por grandes empresas para evitar bloqueos, así que distinguirlos es difícil.
    • Respetar robots.txt no deja de ser una convención; no hay una obligación legal o técnica especialmente fuerte. Se podría dejar explícita en los términos de uso una cláusula de cumplimiento de la política de robots.txt, pero su efectividad real es dudosa.
    • Buena parte de este tráfico quizá no sea scraping directo de la IA, sino que funcione así: un humano le hace una pregunta a la IA y en ese momento esta sale a investigar por internet. Hay confusión sobre si eso, como uso de investigación tipo navegador, debería entrar en el alcance de robots.txt, o si este solo debería aplicarse al uso de indexación.
    • Aunque no me entusiasma el papel de guardián de Cloudflare, sí está en una posición desde la que puede ejercer influencia real sobre las empresas de IA.
  • La lista actual de bots de IA bloqueados es muy corta enlace de referencia
    • En la explicación de Cloudflare, Common Crawl (CCBot) también aparece clasificado como AI Bot y entra en la opción de bloqueo. Pero Common Crawl no es en realidad un bot exclusivo para IA, sino una infraestructura de crawling abierta enlace de referencia
    • Cloudflare observa una enorme cantidad de tráfico web, así que la lista de bots detectados hasta ahora probablemente se centre en los que aparecen con mayor frecuencia, y parece que seguirán agregando los que vayan descubriendo. Quizá bloquear todos los crawlers sea imposible, pero si se toma internet completo como referencia, hay pocos lugares que puedan detectar tantos bots como Cloudflare.
    • Solo con este tipo de bloqueo, probablemente el tráfico de la mayoría de los sitios se reduciría a menos de la mitad.
  • Las grandes evoluciones de la web —el cercamiento de la web2, la vacuidad de la web3 y lo de ahora— parecen alejarse cada vez más de su papel como comunidad y repositorio de conocimiento. La calidad y la tecnología han seguido avanzando, pero también se ha perdido mucho en el camino.