Cloudflare /crawl permite rastrear un sitio web completo con una sola llamada a la API

(developers.cloudflare.com)

11 puntos por GN⁺ 2026-03-11 | 5 comentarios | Compartir por WhatsApp

Cloudflare ofrece en beta abierta el nuevo endpoint /crawl de Browser Rendering, que permite rastrear un sitio web completo con una sola llamada a la API
Al enviar una URL inicial, navega automáticamente por las páginas y las renderiza con un navegador sin interfaz, devolviendo los resultados en formatos HTML, Markdown y JSON
Ofrece varias funciones como salida JSON estructurada basada en Workers AI, controles de alcance como profundidad de rastreo, límite de páginas y patrones con comodines, además de rastreo incremental y modo estático
Cumple las reglas de robots.txt y también admite crawl-delay para evitar tráfico anómalo
Puede usarse para entrenamiento de modelos, creación de pipelines RAG e investigación y monitoreo de contenido en todo un sitio

Resumen del endpoint /crawl

El nuevo endpoint /crawl agregado al servicio Browser Rendering de Cloudflare ofrece la capacidad de explorar un sitio web completo y recopilar contenido con una sola llamada a la API
- El usuario envía una URL inicial, y el sistema sigue automáticamente los enlaces, renderiza las páginas y devuelve los resultados
- El formato de salida puede elegirse entre HTML, Markdown o JSON estructurado
Esta función está disponible en estado de beta abierta (open beta) y puede usarse tanto en los planes Workers Free como Paid
Las tareas de rastreo se realizan de forma asíncrona (asynchronous)
- Al enviar una URL, se recibe un job ID, y luego se pueden consultar los resultados cuando termine el procesamiento
- Las páginas se procesan secuencialmente, y los resultados completados pueden revisarse de forma progresiva

Funciones principales

Compatibilidad con múltiples formatos de salida
- Devuelve resultados en varios formatos como HTML, Markdown y JSON
- El formato JSON se ofrece como datos estructurados mediante Workers AI
Controles del alcance de rastreo (crawl scope controls)
- Permite configurar la profundidad de rastreo (depth), el límite de páginas y la inclusión/exclusión de patrones de URL
Descubrimiento automático de páginas (automatic page discovery)
- Descubre URL automáticamente a partir del sitemap, de los enlaces de la página o de ambos
Rastreo incremental (incremental crawling)
- Usa los parámetros modifiedSince y maxAge para omitir páginas sin cambios y así reducir tiempo y costo
Modo estático (static mode)
- Con render: false, obtiene solo el HTML estático sin iniciar el navegador, lo que permite un rastreo rápido de sitios estáticos
Bot con buen comportamiento (well-behaved bot)
- Respeta las directivas de robots.txt y también reconoce la configuración de crawl-delay

Casos de uso y documentación de referencia

Este endpoint es útil para la recolección de datos para entrenamiento de modelos, la construcción de pipelines RAG y la investigación y monitoreo del contenido de un sitio
Los usuarios pueden consultar la documentación del endpoint crawl para configurarlo
Si van a establecer su propio sitio como objetivo de rastreo, deben revisar las mejores prácticas de robots.txt y sitemap

Planes disponibles

Disponible tanto en los planes Workers Free como Paid

5 comentarios

hmmhmmhm 2026-03-11

Lo probé un poco por encima, pero parece que no puede saltarse los bloqueos anti-bots; por ahora creo que voy a seguir prefiriendo apify o zyte.. jaja

xguru 2026-03-11

¿Esto también se salta la función de bloqueo de bots de Cloudflare?
¿Están vendiendo tanto la lanza como el escudo??
Se siente medio raro jaja

eoeoe 2026-03-12

Ya empezó el juego de Everybody's Marble jajaja
La típica de anular la habilidad especial de no sé qué que invalida la habilidad de defender no sé qué carta....

cnaa97 2026-03-11

jajaja, está medio chistoso

GN⁺ 2026-03-11

Comentarios de Hacker News

Según mi experiencia, esto no funciona en páginas protegidas por Cloudflare
Lamentablemente, es como si ellos mismos crearan el problema y luego vendieran la solución
- Quizá estaría bien con solo pasar la bot protection de Azure
Me sorprende que Cloudflare no hospede una versión pre-scrapeada de los sitios web que usan su proxy
Por ejemplo, podrían ofrecer algo como https://www.example.com/cdn-cgi/cached-contents.json; al final, el contenido ya está en caché, así que no haría falta pasar por un servicio o API de scraping
Seguro hay razones para no hacerlo, pero aun así sorprende que no exista como opción predeterminada
- Publicar este tipo de volcado de caché rompería por completo las suposiciones de privacidad y copyright del original
  Se podría poner control de acceso, pero eso acabaría siendo crear una API de CDN compleja que nadie pidió, además de abrir problemas legales
  Entre un “JSON conveniente” y “entregarle todo el sitio a scrapers de IA” hay muy poca diferencia
- Convertir a JSON consume CPU, y si guardas el resultado el espacio de caché se duplica
  Si conviertes solo cuando hay una solicitud, puedes reducir las peticiones al origen y al mismo tiempo conservar la eficiencia del caché
  Cuando trabajaba en un CDN usábamos second hit caching para mejorar la tasa de aciertos: solo se guardaba en caché a partir de la segunda solicitud
- No es exactamente lo mismo, pero Cloudflare ya ofrece algo parecido
  Si activas Markdown for Agents, cuando un sistema de IA solicita text/markdown, convierte el HTML a Markdown en tiempo real
- De hecho, internamente quizá ya estén ofreciendo contenido público basado en caché de esta manera
- Aun así, esto puede servir para sitios simples, pero los sitios complejos como las SPA seguirán necesitando un servicio de scraping con renderizado en navegador
Que Cloudflare venda defensas contra scraping y al mismo tiempo venda un servicio de scraping se siente casi como crimen organizado
Solo pueden hacerlo por su influencia sobre gran parte de Internet
- No es así. Está explicado en la documentación oficial
- El DNS gratuito es solo una parte; el poder real está en los servicios de caché, enrutamiento y defensa DDoS
  El DNS sirve para recolectar datos y para la “buena imagen”
- No es que vendieran protección contra scraping, sino protección DDoS basada en la web
- Parece que Cloudflare quiere actuar como intermediario entre publishers y empresas de IA
  La idea sería que el publisher esté detrás de Cloudflare, y que si una empresa de IA quiere los datos, acceda pagando a través de Cloudflare
  El cliente principal no sería el usuario común, sino las empresas de IA
- El endpoint /crawl respeta robots.txt
  Es decir, las URL donde no se permite rastreo aparecen en la respuesta con "status": "disallowed"
Exponer un crawl endpoint estructurado se siente como una evolución natural de robots.txt o sitemap
Si más sitios ofrecieran este tipo de punto de entrada legible por máquinas, la indexación sería mucho más eficiente
Ahora mismo se desperdicia mucho porque los crawlers vuelven a explorar una y otra vez la misma estructura
- Si hubiéramos seguido usando REST, creo que el desperdicio en indexación sería mucho menor
  Yo prefiero diseñar APIs centradas en humanos, y que los proveedores de LLM optimicen encima de eso
- En realidad, el HTML semántico ya cumple esa función
  El HTML y el DOM son, por naturaleza, estructuras para que las lean las máquinas
  No hace falta inventar algo nuevo; basta con aprovechar bien la tecnología que ya existe
- Quienes se benefician del crawling ineficiente son solo los proveedores de soluciones anti-bot
- Pero una estructura así también podría empeorar los ataques a la cadena de suministro
  Podría usarse para mostrar una página normal a las personas y otra distinta a los bots
- Al final, mostrar contenido distinto a crawlers y a personas genera problemas fundamentales
Esto podría haber servido para archivado web, así que da pena que no tenga soporte para formato WARC
Habría sido útil para periodistas e investigadores
El servidor de origen todavía puede detectar y bloquear las solicitudes de Browser Rendering de Cloudflare
Se pueden distinguir por el header CF-Worker, y filtrarlas en reglas WAF o middleware
Eso sí, estas solicitudes vienen del ASN 13335 de Cloudflare y tienen bajo bot score, así que una defensa simple basada solo en score no funciona
Al final, los límites de velocidad a nivel de aplicación y el análisis de comportamiento son más efectivos
La tensión estructural existe, pero es parecida a cuando un motor de búsqueda ofrece herramientas para webmasters
- Como respetan robots.txt, ese es el método más simple
Me preguntaba si este crawler funciona antes o después de la lógica de bloqueo de bots
- Funciona antes: ver la documentación oficial
Pensé que estaría bien poder ofrecer una versión bien rastreada de mi sitio
Si les dieran esa función a los administradores del sitio, los crawlers podrían acceder pagando solo el costo de transferencia
Incluso podría implementarse ejecutando un trabajo de rastreo sobre mi propio sitio y publicándolo en un subdominio static.
- Pero no me queda claro para qué serviría eso
  Si el sitio es estático, entonces simplemente renderízalo como HTML y hospédalo; si es dinámico, no estoy seguro de qué sentido tendría un snapshot
  Quizá agregar caché sea un mejor enfoque
Últimamente da la impresión de que Cloudflare se está quedando con todas las funciones más interesantes
Me pregunto qué estará haciendo AWS
Esta función realmente impresiona
Cloudflare se está moviendo con anticipación hacia donde va el futuro