1 puntos por GN⁺ 2025-09-02 | 1 comentarios | Compartir por WhatsApp
  • Se agregó una página dedicada de AI Insights a Cloudflare Radar, que permite ver en una sola pantalla el tráfico de bots y crawlers de IA, la popularidad de servicios de IA generativa basada en DNS, las directivas de robots.txt y las tendencias de uso de modelos en Workers AI
  • El gráfico de tráfico de bots y crawlers de IA ofrece datos resumidos y series temporales de los principales UA con base en la lista de ai.robots.txt, y permite análisis detallado con Radar API y Data Explorer
  • El ranking de servicios de IA generativa usando datos DNS de 1.1.1.1 muestra los cambios diarios en la tendencia; permite confirmar variaciones bruscas de servicios emergentes, como el rápido ascenso de DeepSeek a finales de enero de 2025 (apareció el 26/1 → puesto 3 el 29/1)
  • El análisis de robots.txt agrega las directivas Allow/Disallow relacionadas con IA de los 10,000 dominios principales para visualizar tendencias de bloqueo por categoría, mostrando una amplia tendencia de no permitir en el sector de noticias y medios
  • La popularidad de modelos/tareas en Workers AI ofrece tendencias de uso por modelo y tarea y comparaciones por período con base en datos compartidos, ayudando a entender la evolución de un ecosistema de modelos que cambia rápidamente

Resumen general

  • Cloudflare creó una página de AI Insights en Radar para ofrecer de forma integrada tendencias de tráfico, popularidad de servicios, control de acceso y uso de modelos relacionados con IA
  • Las fuentes de datos incluyen tráfico DNS de 1.1.1.1, la lista de user-agents de ai.robots.txt, datos compartidos de Workers AI y la integración con API/Data Explorer de Radar

Tendencias de tráfico de bots y crawlers de IA

  • Se visualiza la actividad de los 5 principales bots/crawlers de IA por período para facilitar la comprensión de la intensidad de solicitudes y su periodicidad
    • El criterio de recopilación de user-agents toma como referencia la lista de ai.robots.txt y se actualiza de forma continua
    • Se admite acceso programático mediante endpoints de API de series temporales y resumen
  • En Data Explorer se puede explorar la tendencia general del conjunto completo de bots de IA
    • Los operadores pueden revisar tráfico anómalo según región, período y UA
    • Puede usarse para análisis de correlación con políticas internas de respuesta

Popularidad de los servicios de IA generativa

  • Con base en el volumen de solicitudes DNS de 1.1.1.1, se ofrece una clasificación relativa diaria de los servicios públicos de IA generativa
    • En las revisiones anuales de 2023/2024 se registró que ChatGPT mantuvo el puesto 1
    • A finales de enero de 2025 se observó una alta volatilidad en los puestos 6–10
  • DeepSeek apareció por primera vez el 26 de enero y subió rápidamente hasta el puesto 3 el 29 de enero
    • Se proporcionan datos de ranking de alta frecuencia útiles para detectar servicios emergentes de rápido crecimiento
    • En Radar API se puede acceder a la serie temporal de datos originales con el parámetro serviceCategory=Generative%20AI

Análisis de archivos robots.txt

  • Se recopilan periódicamente los 10,000 dominios principales para agregar las directivas Allow/Disallow relacionadas con IA
    • Los gráficos resumen por user-agent los casos de permitido/no permitido total y permitido/no permitido parcial
    • La categoría de noticias y medios muestra una amplia tendencia de no permitir a los UA de IA
  • Con base en las directivas Allow, el número de sitios con permiso explícito ha disminuido notablemente
    • Si no se especifica el UA y no hay wildcard, debe tenerse en cuenta el comportamiento predeterminado de permiso total
    • Radar API y Data Explorer permiten análisis filtrados por bot y por directiva

Popularidad de modelos y tareas en Workers AI

  • Se visualizan, con base en datos compartidos, las tendencias de uso de los modelos y tareas (Task) compatibles públicamente en Workers AI
    • La popularidad de modelos y la popularidad de tareas se ofrecen por separado en formato de serie temporal y resumen
    • En Data Explorer, la función timeCompare permite analizar los aumentos y disminuciones frente al mes anterior
  • Ejemplos de modelos: generación de texto, generación de imágenes, reconocimiento de voz, clasificación de imágenes y otras tareas variadas
    • Cuando se lanza un nuevo modelo potente, su visibilidad temprana puede aprovecharse para una respuesta anticipada

Conclusión e implicaciones

  • El ecosistema de IA muestra una volatilidad fuerte, con múltiples casos de servicios nuevos que crecen rápidamente en poco tiempo
    • Junto con la expansión de los servicios generativos, los temas de scraping de contenido, derechos de autor y control de acceso siguen en una relación de tensión constante
  • La página de AI Insights ofrece de forma integrada tráfico, popularidad, control de acceso y uso de modelos, por lo que resulta útil para que observadores del sector y profesionales identifiquen tendencias oportunas
    • Los operadores pueden construir un sistema de monitoreo y reporting automatizado mediante Radar API y Data Explorer
    • También pueden perfeccionar la respuesta ante bots de IA vinculando la estrategia de directivas en robots.txt con las políticas de CDN/seguridad

1 comentarios

 
GN⁺ 2025-09-02
Opiniones en Hacker News
  • OpenAI confirmó mediante WebBotAuth que su estado de autenticación está "In Progress"; parece que Cloudflare quiere posicionarse como el guardián de los "bots buenos". El simple hecho de que exista un estado "In Progress" ya es significativo; a otras empresas simplemente les dicen "No", pero a OpenAI le dicen "todavía no, pero ya le avisaron a CF de sus planes".
    • Parece que Cloudflare quiere monetizar por partida doble: le cobra a los usuarios de su CDN y ahora también quiere cobrar por el acceso al contenido de esos mismos usuarios. Ver a OpenAI recibir ese trato tiene algo de satisfactorio, pero no parece que esto vaya a terminar aquí. Me pregunto si Kagi u otros motores de búsqueda podrán seguir siendo baratos y útiles, y cómo servicios como Internet Archive van a operar en esta situación.
    • No entiendo por qué resulta tan sorprendente que Cloudflare esté bloqueando tráfico no deseado hacia sitios web. Ese siempre ha sido su modelo de negocio.
    • La verdad es que desde hace muchísimo tiempo hacía falta una forma más razonable de autenticar bots, y esto no se limita solo a los bots de IA.
    • Cloudflare básicamente ya se unió a la fila de guardianes de internet. Por ahora solo OpenAI está intentando conseguir esta autenticación, y parece que Amazon también lo está siguiendo en cierta medida. Ojalá otras empresas se resistan a estas exigencias.
    • Eastdakota (CEO de Cloudflare) dijo algo como: "Últimamente todos están ocupadísimos intentando meterse en el juego de la próxima era; puedo volver a hacerte un espacio en la mesa". Y Sam (probablemente del lado de OpenAI) respondió: "No sabía que me habían quitado el asiento". Entonces Eastdakota contestó algo del estilo: "No te lo quitaron del todo, pero ya estás en una situación de la que te vas a arrepentir".
  • Son datos realmente sorprendentes. En la gráfica de "Generative AI services popularity", era de esperarse que ChatGPT estuviera en primer lugar, pero sorprende que Character.AI esté en segundo, por delante de Anthropic, Perplexity y xAI. Creo que estos datos pueden estar muy influidos por la estrategia de caché DNS de cada servicio. Otra gráfica interesante es la de "Workers AI model popularity": llama-3-8b-instruct va en primer lugar desde abril con una cuota de 30% a 40%, y es raro ver un LLM pequeño tan popular. Yo habría pensado que modelos como m2m100-1.2b de Meta o Gemma 3 270M de Alphabet tendrían más uso. Probablemente se debe a que la gente usa el modelo más potente que puede subir a un worker de CF. Para un análisis más amplio de popularidad, recomiendo mi post del blog "LLM Assistant Census"
    Ver ranking de servicios de IA generativa
    Ver ranking de modelos de Workers AI
    LLM Assistant Census
    • Me pregunto por qué la caché DNS distorsionaría los resultados. Cuando Cloudflare hace proxy de un sitio puede ver todas las solicitudes HTTP, así que no parece que hayan hecho estas estadísticas solo con consultas DNS. En otro comentario salió el tema del DNS, así que me pregunto si falta algo en la forma en que recopilaron las estadísticas.
    • Character.AI es enormemente popular entre usuarios jóvenes, así que no sorprende tanto que haya quedado en segundo lugar.
  • Hace poco intenté averiguar hasta qué profundidad rastrea la web cada empresa, y el bot de OpenAI fue el más minucioso. Siguió 405 enlaces.
    Ver datos de rastreo en detalle
    • Estadística interesante. En mi honeypot, GPTBot llegó hasta una profundidad máxima de 92 niveles; supongo que mi sitio les resulta menos interesante.
  • Cloudflare decide por su cuenta cómo definir un AI Bot al momento de clasificar bots. Por ejemplo, CCBot de Common Crawl se usa para muchos fines distintos (ha sido citado en más de 10 mil artículos de investigación), pero Cloudflare simplemente lo considera un "AI Bot". Y sospecho que la mayoría de los operadores de sitios web en realidad no sabe bien qué bots entran en esa categoría ni por qué se eligieron esos bots.
  • Es triste ver que Firerox tenga 3.8% de cuota en "Top Browser & user agents".
    Estadísticas de navegadores de Cloudflare
    • A mi parecer, Firefox es el único de los cinco navegadores principales que no viene preinstalado por defecto. La mayoría de la gente no se siente lo bastante incómoda como para salirse de la opción predeterminada, así que más del 90% nunca llega a buscar un navegador alternativo como Firefox.
    • En sus primeros años, Firefox sí era un mejor navegador, y ganó cuota de mercado gracias a funciones reales que los navegadores existentes no ofrecían. El Firefox actual no es más que una imitación de Chrome sin diferenciación. Un usuario común que no sabe de complementos no tiene motivos para elegir Firefox. Si Firefox incorporara funciones realmente útiles —por ejemplo, bloqueo integrado de anuncios o elementos molestos— podría recuperar mercado, pero no parece que tenga intención de hacerlo.
    • No entiendo cómo alguien usa voluntariamente un navegador hecho por una empresa de publicidad. La mayoría de los usuarios de Chrome seguramente ni siquiera sabe eso, pero incluso entre quienes leen este tipo de publicaciones, muchos conocen la naturaleza de Google y Chrome y aun así los usan.
    • Me pregunto cuánto influirá en esa cuota el hecho de que Firefox sea clasificado automáticamente como bot en las estadísticas de Cloudflare y por eso quede fuera.
    • Firefox no entrega correctamente la información del user agent (quizá ni siquiera de forma predeterminada), así que esta cuota podría salir más baja de lo real.
  • Los datos del ranking de IA basados en solicitudes DNS son interesantes. Visto en bloques de 4 semanas, Character.AI se mantiene en segundo lugar los fines de semana, mientras Claude queda tercero, y entre semana ambos intercambian posiciones. Pero el gráfico muestra el cambio de ranking entre domingo y lunes, así que probablemente sea un efecto de la diferencia entre la zona horaria de EE. UU. y UTC.
  • Estos datos tienen un valor enorme tanto para las empresas de IA como para los publishers. Cloudflare obtiene una visibilidad sin precedentes sobre quién rastrea qué, cuándo y cuánto. Creo que pronto podrían convertir esto en productos premium de pago, como servicios prioritarios de autenticación de bots o análisis detallado de rastreo.
    • Esto va a ser una palanca muy grande para el crecimiento de Cloudflare. Su plan parece ser exprimir la mayor cantidad posible de ingresos de actores grandes como OpenAI.
  • Si alguien busca mediante la API de Anthropic y luego envía el tráfico del usuario al sitio enlazado tal cual, Cloudflare no podrá asociar esa búsqueda con Anthropic. Por eso, la proporción entre rastreo y tráfico referido podría diferir de la realidad.
  • Imagino que en estas estadísticas no estarán incluidos los rastreadores maliciosos que usan proxies residenciales y otros métodos para ocultar su identidad.
  • De verdad espero que nadie se someta a Cloudflare respecto a la autenticación de WebBotAuth y que este intento fracase.