Cloudflare introduce cobro por rastreo (`pay-per-crawl`) para bots de IA

(blog.cloudflare.com)

6 puntos por GN⁺ 2025-07-02 | 5 comentarios | Compartir por WhatsApp

Cloudflare anunció un nuevo servicio para que los propietarios de contenido puedan cobrar por el acceso de los rastreadores de IA
Los creadores de contenido podrán elegir entre tres opciones: permitir gratis, bloquear por completo o permitir acceso pagado
El cobro funciona con base en la respuesta estándar HTTP 402 Payment Required, y Cloudflare proporciona la infraestructura de pagos y liquidación
Los rastreadores y propietarios de contenido aseguran transparencia y seguridad mediante autenticación y pago programáticos
El servicio comenzará como beta privada y en el futuro planea ampliar el soporte a varios casos de uso y cobro dinámico

Cambio en el entorno de consumo de IA

Hasta ahora, muchos editores, creadores de contenido y dueños de sitios web solo podían elegir de forma binaria entre permitir todo el acceso de los rastreadores de IA o bloquearlo por completo
Cloudflare busca un entorno donde, con el principio de reforzar el control de los propietarios del contenido, se pueda bloquear a todos los rastreadores de IA, permitirlos gratis o dar acceso selectivo solo a los rastreadores deseados
A través de conversaciones con cientos de empresas de medios, publishers y grandes plataformas sociales, confirmó que existe una fuerte necesidad de permitir acceso a los rastreadores de IA, pero recibiendo una compensación
Antes había que negociar individualmente con cada rastreador para autorizar el acceso, pero para los sitios pequeños eso era prácticamente imposible por la falta de escala y poder de negociación

Introducción del modelo de 'cobro por rastreo' (`pay per crawl`)

Además de las opciones extremas de gratis o bloqueo, Cloudflare propone una tercera opción: cobrar por el acceso
Con esto, los propietarios de contenido podrán monetizar activos digitales a escala de Internet
La base técnica principal es el casi olvidado código de estado HTTP 402 Payment Required: si el rastreador expresa intención de pagar, se entrega el contenido con 200 OK; de lo contrario, se responde con 402 informando el precio
Cloudflare asume el rol de Merchant of Record, encargándose del procesamiento de pagos y de la infraestructura técnica

Control para publishers y políticas de precios

El publisher puede configurar una tarifa fija para todo el sitio
- Permitir (entrega gratuita)
- Cobrar (se entrega al pagar el precio configurado)
- Bloquear (sin acceso y con aviso de posible relación futura)
También se admiten políticas flexibles por rastreador, como excepciones de cobro, acceso gratuito o negociación individual
Se integra con las políticas de seguridad de Cloudflare (WAF, gestión de bots, etc.); primero se aplica el firewall existente y después actúan las reglas de pay per crawl

Protocolo de autenticación y pago: Web Bot Auth

Está diseñado para que solo ciertos rastreadores reciban autorización de pago y acceso, evitando la suplantación de identidad del rastreador (spoofing)
El rastreador debe generar un par de claves Ed25519, registrar un directorio de claves públicas en formato JWK y enviar la información a Cloudflare
La identidad y la intención de pago se prueban mediante los encabezados de firma de mensajes HTTP (Signature-Agent, Signature-Input, Signature)

Formas de acceso a contenido pagado

Se admiten dos protocolos
- Reactivo (primero descubrimiento): cuando el rastreador solicita una URL pagada, recibe una respuesta 402 con el precio; si acepta, vuelve a solicitarla incluyendo el encabezado crawler-exact-price
- Proactivo (primero intención): en la solicitud inicial envía el encabezado crawler-max-price con el límite máximo a pagar; si está por debajo del umbral, recibe 200 OK junto con el detalle del cobro
La negociación de precios y la expresión de intención de pago se soportan de forma programable

Liquidación y procesamiento financiero

Los operadores de rastreadores y los propietarios de contenido deben registrar la información de pago en sus cuentas de Cloudflare
Por cada solicitud de pago autenticada y cada respuesta 200 OK, se registra un evento de cobro; Cloudflare los consolida, factura al rastreador y liquida al publisher

El inicio de un cambio hacia la era de los agentes

pay per crawl simboliza la evolución de la tecnología de control del contenido en línea
Se espera que proteja a los creadores y abra nuevos BM (modelos de negocio) mediante una forma de valorar activos programables
A futuro se discuten múltiples ampliaciones, como cobro dinámico por tipo de contenido o ruta, tarifas basadas en el volumen de tráfico de IA y gestión de licencias a gran escala
Con la adopción de HTTP 402, será posible responder a un futuro donde las IA y los agentes negocien de forma programática las condiciones de acceso a recursos digitales

Guía de inicio

La función pay per crawl ya está disponible primero como beta privada
Los rastreadores y creadores de contenido interesados pueden consultar mediante un enlace de solicitud independiente
Cloudflare también ofrece defensa contra DDoS, aceleración del acceso a Internet, construcción de aplicaciones de Internet, bloqueo de hackers e implementación de Zero Trust

Información relacionada y tendencias adicionales

Continúa el movimiento para bloquear el rastreo gratuito de rastreadores, como en 'Content Independence Day', y Cloudflare sigue ampliando sus soluciones de gestión de robots
Entre 2024 y 2025, el tráfico de rastreadores de IA aumentó 18%, y se publicaron cifras de crecimiento de GPTBot de 305% y de Googlebot de 96%
También se introdujo al mismo tiempo una función reforzada de autenticación de rastreadores mediante firmas de mensajes basadas en clave pública

5 comentarios

youknowone 2025-07-02

Traducción: https://rosettalens.com/s/ko/introducing-pay-per-crawl

kimjoin2 2025-07-02

¿Cómo distinguen si es un bot de IA o no?

kimjoin2 2025-07-02

Más allá de si es IA o no, si se lo proponen tampoco se puede detectar el rastreo.

howudoin 2025-07-02

Cloudflare lo que quiere es ganar dinero
al final, todos los que quieran lucrar se van a juntar allá
el volumen de Cloudflare va a crecer
y los datos van a sufrir una caída en calidad
ya se vio la misma tendencia en todos los lugares donde hay dinero de por medio, como Naver, Instagram y YouTube

GN⁺ 2025-07-02

Opiniones en Hacker News

Creo que esta es la forma de micropagos que queríamos. Coinbase presentó recientemente una librería que usa criptomonedas y el código de estado 402; se llama x402 enlace al GitHub de x402
- Creo que el modelo de negocio de la web debería ser algo así en lugar de intermediarios publicitarios. La industria adtech ha explotado nuestros datos de forma permanente, ha contaminado los medios y ha dañado incluso a la democracia. Ojalá que dentro de unas décadas entendamos qué tan dañino fue el modelo publicitario actual y se pueda regular y castigar a esas empresas como se hizo con Big Tobacco. BAT de Brave también es un buen intento, pero x402 se siente como una solución más general. Aun así, por la mala imagen de las criptomonedas y por la enorme influencia de la industria publicitaria, no parece fácil que algo así se consolide
- No quiero usar criptomonedas, no quiero recibir contenido en criptomonedas y tampoco quiero pagar comisiones a intermediarios. Usar cripto para micropagos en realidad se siente como una forma de impulsar el ecosistema cripto. Además, es difícil que todo el mundo se ponga de acuerdo sobre con qué moneda pagar. Si cada sitio acepta una moneda distinta, o si todos tuvieran que aceptar solo una stablecoin, también sería difícil de controlar. El enfoque de Cloudflare es mejor. En este modelo paga quien obtiene ganancias, no se le cobra al usuario común. Y además no usa criptomonedas
- Ojalá me equivoque, pero siento que ya dejamos pasar la oportunidad de los micropagos. Si hubiera existido una estructura como la de las recargas prepago de los viejos feature phones, tipo “recárgale diez mil won al internet”, y que los sitios fueran descontando micropagos de ahí, creo que sí habría prendido bien. Pero ahora parece que ya hace falta demasiada infraestructura y demasiado acuerdo de todo el mercado para implementarlo, así que siento que ya se perdió el momento
- Esta tecnología me parece realmente interesante. Si entendí bien, me pregunto por qué el protocolo no está diseñado para responder de inmediato cuando se entrega la dirección y el monto del pago. Si los intentos posteriores quedaran bloqueados hasta que se devolviera un checksum del monto y de la dirección de la billetera, y un tercero pudiera verificar ese checksum, entonces cada servidor no tendría que implementar por su cuenta la lógica de verificación. Para construir una economía digital de verdad hacen falta dos cosas: 1) que el contenido solo pueda ser consumido por quien lo solicita y no se pueda copiar ni guardar, 2) que el contenido tenga un sistema de reputación o calificación dado por personas. Lo primero podría resolverse con DRM o cifrado homomórfico, y lo segundo con agencias de evaluación convertidas en DAO. Para participar en la DAO como evaluador se podría exigir compartir prueba de trayectoria basada en blockchain y hacer staking de una criptomoneda cara (= licencia) para aumentar la confianza. Igual que un índice de BitTorrent, se podría vincular contenido y evaluadores y eliminar también la publicidad intermediaria. Si esta estructura se completa, la gente con especialización podría participar en la creación de valor excluyendo a los intermediarios, y los humanos podrían volver a estar en el centro de la economía del contenido. Si se resuelve el problema del doble pago del contenido, cada persona podría seguir recibiendo recompensas de forma continua y desarrollar también su especialización fuera de línea. Por ejemplo, al buscar un buen libro o película uno consulta las calificaciones de Amazon o Goodreads, pero hoy quienes dan esas calificaciones no tienen un interés proporcional en ello. Si ese contenido de calificación ganara autoridad como una institución evaluadora, también podría aumentar el valor de cada obra individual. Todo el mundo tendría incentivos para preservar su propia reputación
- El concepto en sí no es nuevo. Yo mismo hice en 2018 un proyecto llamado ln-paywall que usaba el código de estado 402
A mí esto me parece un enfoque totalmente equivocado. Cloudflare básicamente solo dice “sigan rastreando como antes, pero ahora paguen más”, sin ofrecer un valor equivalente. El rastreo no es una ventaja competitiva para las empresas de IA ni para los nuevos motores de búsqueda. Solo cuesta dinero y dispersa la atención. Lo razonable sería que colaboraran compartiendo infraestructura. En vez de que cada empresa acceda por separado a los sitios, lo ideal sería un solo crawler que visite todos los sitios y que las empresas aporten en proporción a las URL que coincidan con sus propios filtros. En lugar de múltiples oleadas de tráfico, habría un crawler único, y si las reglas de robots.txt se hicieran cumplir técnica y contractualmente, el contenido no deseado no se entregaría; para saltarse eso tendrían que mantener técnicamente su propio crawler, lo cual sería bastante costoso. Aunque se agregue pago, igual es muy probable terminar pagando por una infinidad de páginas basura nunca vistas antes, así que el valor es dudoso. Con este modelo, para las empresas de IA o motores de búsqueda sería más barato y más fácil rastrear, y para los sitios sería posible reducir drásticamente la carga y bloquear mejor. Pero Cloudflare solo dice “paga”, y eso me parece falto de imaginación y poco convincente
- Creo que para ver la estructura correcta de incentivos aquí hay que mirar el otro lado del mercado. El problema para los productores de contenido no es que llegue tráfico a su sitio, sino no recibir una compensación adecuada por ese tráfico. Si ocho empresas visitaran todas las páginas de mi sitio diez veces al día pero me pagaran una tarifa de mercado, no habría ningún problema. Entonces esas ocho empresas sí tendrían incentivos para cooperar y unificar el rastreo, porque el costo ya no estaría externalizado. Ese enfoque, de hecho, suena más razonable para todos
- Common Crawl en realidad iba a cumplir ese papel, pero irónicamente las startups de IA se han llevado esos datos con tanta avidez que últimamente la carga ya es tan alta que prácticamente no se puede usar. Por problemas como este sí puede abrirse un mercado de servicios de rastreo web tercerizado, y desde el punto de vista de una empresa veo varias ventajas en externalizar los crawlers. Claro, todavía no está claro si esa necesidad es lo bastante grande como para formar un mercado importante, pero sí está claro que hace falta un acceso adecuado a datos web o capacidad de rastreo
- En contra de la idea de que el rastreo web no da ventaja competitiva a las empresas de IA, sí hay una ventaja clara en poder incorporar rápido información reciente o fuentes específicas. El problema es que cuando se llevan el contenido de los sitios no les pagan nada ni les envían tráfico, así que terminan destruyendo el ecosistema web. En especial, desde la perspectiva del sitio, aunque un bot de IA lea mi información, el valor que regresa a mí es cero
- Incluso si el tráfico de rastreo pagara algo de dinero, no habría problema en cubrir el costo de la infraestructura. Incluso antes era raro que un sitio cayera por tráfico alto. Últimamente pasa más bien que 1) cada vez más sitios bloquean directamente bots, scrapers, etc., o 2) los que no pueden hacerlo (porque el control de acceso es difícil o no tienen modelo de ingresos) reciben una avalancha. Si en una estructura así realmente se le pagara al sitio, al menos podría cubrir la carga causada por tráfico excesivo de bots y sacar algo más
- Aun así, creo que una estructura de costos así sí podría funcionar como incentivo directo para cooperar
Al final, por cosas como esta Google va a seguir teniendo ventaja también en IA. La mayoría sí quiere que Googlebot rastree sus sitios. Eso les trae tráfico, y Google usa ese índice también para entrenar IA. Puede ser monopólico, pero creo que beneficia a ambas partes. Pero si se trata de empresas como OpenAI, Anthropic o Meta, que rastrean sin dar ninguna compensación, casi nadie va a querer que rastreen su sitio. Por eso me parece oportuno este cambio de política de Cloudflare. Si esto funciona, también sería una oportunidad enorme para Cloudflare
- Por culpa de “AI Overview” de Google, el CTR está cayendo muchísimo. Antes, si Google rastreaba dos páginas, llegaba una visita; hace seis meses era 6:1 y ahora es 18:1. Lo que cambió fue AI Overviews. OpenAI está todavía peor: hace seis meses era 250:1 y ahora 1,500:1; la IA se está quedando con casi todo el tráfico que antes iba al enlace original. (Referencia en Twitter: https://twitter.com/ethanhays/status/1938651733976310151)
- Yo soy una startup, así que en realidad sí quiero que la IA rastree mi sitio. Cuando la gente le pregunte a ChatGPT “¿qué es $CompanyName?”, quiero que se reflejen bien las ventajas y el mensaje clave de nuestra empresa. El contenido SEO tradicional también puede terminar usándose como datos de entrenamiento para IA. Si le pides a una herramienta de IA que resuma pros y contras de algo en la web, muchas veces termina usando como fuente una lista tipo "top 10 tools for X" publicada por la propia empresa en su blog. Lo mismo aplica a grandes organizaciones como oficinas de turismo o a cualquier entidad que quiera difundir su punto de vista al mundo de manera persuasiva
- Mencionaste que OpenAI, Anthropic y Meta rastrean contenido escrito directamente por humanos sin dar ninguna compensación, pero en realidad para instituciones gubernamentales o grandes empresas a veces sí conviene ser rastreados. Por ejemplo, si una IA global responde a la pregunta “¿cómo puedo ver canguros?” recomendando un zoológico de Nueva Zelanda en vez de Australia, eso sería un problema. Es muy importante que la información correcta quede reflejada en los modelos de IA para poder influir sobre un público muy amplio
- Google también tiene proyectos como Google Books, así que a otras empresas occidentales les cuesta mucho más reunir materiales de entrenamiento a esa escala, mientras que las empresas chinas no suelen preocuparse tanto por los derechos de autor, y esa diferencia es grande
- No creo necesariamente que Google tenga ventaja en IA. Desde la perspectiva del consumidor, AI Overview de Google se equivoca muchísimo. Técnicamente podría ofrecer APIs excelentes, buena calidad o buenas funciones, pero la principal experiencia de IA que ve el usuario común no es gran cosa
La tecnología en sí está padre, pero no me gusta que todos los crawlers tengan que pasar por Cloudflare. Recuerdo que los desarrolladores de Google Chrome habían propuesto alguna vez una Web Monetization API, y si se introdujera una estructura de pagos descentralizada, no habría que depender de una sola empresa
- No tengo demasiada confianza en Cloudflare. Llevo mucho tiempo intentando meter mi lector RSS en su lista de Verified Bots, y ni siquiera está claro adónde va a parar la solicitud de soporte
Va en buena dirección, pero todavía le faltan muchas cosas. La estructura ideal sería cobrar tarifas diferenciadas según el uso. Por ejemplo, si alguien rastrea un sitio con fines de “investigación”, debería ser casi gratis. Si es “para entrenamiento de IA con fines comerciales”, debería ser muy caro. Me da pena haber llegado a pensar en algo así, pero ahora mismo el modelo anterior está prácticamente prohibido de facto, así que ya no es realista una apertura total y gratuita sin compensación. La verdad, si alguien construyera una biblioteca mundial donde toda la información fuera gratis, y junto con eso existiera un sistema de compensación por propiedad intelectual, creo que toda la humanidad saldría ganando. Vivimos en una época donde la mayoría de los límites técnicos ya se resolvieron, y aun así siguen estas restricciones de facto casi cartelizadas. Así que por ahora no queda otra más que decir: “entonces al menos paguen”
- Si esto pasa, al final mucha gente con fines de lucro va a encontrar y explotar todo tipo de huecos, revender datos contra la intención original o infiltrarse en el sistema. Por ejemplo, aunque digan “para investigación es gratis”, bastaría con decir “¡vengo a investigar!” mientras en realidad venden los datos a una empresa afiliada y ganan dinero con eso
- Aunque esa “biblioteca que comparte todos los datos gratis” parezca técnicamente posible, el problema clave es la sostenibilidad económica. Si el costo de acceso baja demasiado, se termina provocando copia infinita o abuso excesivo, y el sistema colapsa. De hecho, cierto nivel de restricción puede generar mejores incentivos para la cooperación y la mejora de calidad. (Como la estrategia r/K en biología.) Cuando hay restricciones, el valor por unidad es más alto, y eso puede favorecer la expansión de información y servicios de mayor calidad. Al final, las bibliotecas públicas físicas quizá estaban más cerca de ese punto óptimo
Siento que en HN están subestimando este tema, pero es un cambio enorme. El 20% de toda la web está en Cloudflare. Si esta función se ofrece a todos sus clientes, incluso a quienes tienen blogs gratis, entonces hasta los dueños de blogs podrían recibir dinero, lo cual sería interesante
- Siendo realistas, es muy probable que lo que reciban los blogueros sean fracciones de 0.1 centavo, y sospecho que Cloudflare se quedará con la mayor parte de las ganancias. Al final este sistema podría aplicarse a todo el mundo y crear una red cerrada tipo “Cloudflare-Net”, donde no se puede leer nada sin verificación de tarjeta de crédito. El mercado también podría fragmentarse entre infraestructuras competidoras como Akamai o AWS. Para los modelos de IA subiría el costo de rastrear, y esa carga terminaría trasladándose al usuario final (= todos nosotros). Al mismo tiempo, a las empresas pequeñas se les haría más difícil crear cosas nuevas. También bajaría la disponibilidad promedio de información para los modelos de IA. En el fondo, esto se conecta con el debate de la neutralidad de la red: una web que antes era abiertamente abierta va perdiendo esa apertura original y quedando sujeta a condiciones de pago o al gatekeeping corporativo. No es una noticia tan buena para toda la web como suena a primera vista
Me preocupa que pronto todo se convierta en pedir micropagos cada vez que usamos el navegador, y que el internet desaparezca
- Yo ya pierdo muchísimo tiempo por la detección de bots de Cloudflare. Uso Chrome + uBlock, y en cualquier momento seguro también me tocará una pantalla pidiendo pago. Si sale un CAPTCHA, simplemente dejo de usar ese sitio y me voy a otro
- De hecho, quizá hasta sea mejor que aguantar decenas de anuncios y paywalls
También hay que pensar en los casos donde los crawlers de IA se usan como herramientas de apoyo para navegación web de personas con discapacidad. Las funciones de automatización de UI ya se topan con muchísimos obstáculos en varios procesos de verificación
- El operador del sitio podría permitir este tipo de crawlers. El problema de actores maliciosos que se hacen pasar por bienintencionados ya existe, igual que cuando se quiere permitir el crawler web de Google pero bloquear el entrenamiento de Gemini, así que hace falta una solución técnica para eso
- No me queda claro qué significa exactamente que un usuario individual pueda “navegar” la web usando un crawler. Un navegador con IA no es automáticamente un crawler. Un crawler es una herramienta para recolectar en masa un sitio web entero
- Ya existe una tecnología estándar de accesibilidad llamada ARIA, y los sitios importantes ya la implementan. Para fines de accesibilidad la IA ni siquiera debería ser necesaria, ni debería usarse
Antes pensaba que una empresa que ofrecía búsquedas útiles en internet era una “buena empresa”. Y ahora parece que Cloudflare hace “cosas buenas” como defensa contra DDoS, CDN y protección frente a IA. Pero también es posible que terminemos odiando a estas empresas más adelante
- Cloudflare no es una empresa que todo el mundo odie, pero cuanto más crece su influencia, mayor es la tensión. Bluesky dijo “the company is tomorrow's adversary”, y Cloudflare también está creciendo como un “adversario” muy poderoso
- Mis amigos de la vida real ya odian a Cloudflare
- Se dice que hacen “cosas buenas” para internet, pero por toda la fricción de autenticación y verificación que mete Cloudflare, yo termino usando más un LLM que Stack Exchange
En general estoy de acuerdo con la idea, pero las grandes empresas van a encontrar rutas alternativas para obtener datos de todos modos (sobre todo Google, amparándose en que es un motor de búsqueda), y si esto realmente funciona, es muy probable que el costo termine trasladándose a nosotros, los usuarios finales
- Incluso si Google rastrea datos gratis con el pretexto de la búsqueda, me pregunto qué pasaría si en una segunda etapa se obligara a Google a pagar una tarifa por página. Se podrían definir por artículo distintas secciones inaccesibles para el crawler según la tarifa, de modo que por ejemplo las noticias principales exigieran un precio alto, mientras que la información general, el entrenamiento de LLM o la investigación interna tuvieran licencias distintas con precios explícitos según el uso. Si Cloudflare actuara como hub intermedio para millones de sitios, sería una estructura perfectamente posible
- Más publishers también van a empezar a bloquear a Googlebot. La razón es que Google ya les está quitando ingresos con sus respuestas de búsqueda con IA