7 puntos por GN⁺ 2024-09-24 | 2 comentarios | Compartir por WhatsApp
  • Cloudflare anunció que planea lanzar el próximo año un marketplace donde los propietarios de sitios web podrán vender acceso de scraping del contenido de sus sitios a proveedores de modelos de IA
  • Este marketplace es la etapa final de un plan más amplio del CEO de Cloudflare, Matthew Prince, para que los publishers puedan controlar mejor cómo y cuándo los bots de IA hacen scraping de sus sitios web
  • Como primer paso, Cloudflare lanzó AI Audit, una herramienta gratuita de observability
    • Los propietarios de sitios web reciben un dashboard con análisis sobre la frecuencia con la que los modelos de IA hacen scraping de su sitio
    • A través de AI Audit, los propietarios de sitios web pueden bloquear bots de IA o permitir scrapers web específicos
    • La demo de AI Audit permite a los propietarios de sitios web ver de dónde proviene cada scraper y ofrece una ventana opcional para ver con qué frecuencia proveedores de modelos de IA como OpenAI, Meta y Amazon visitan el sitio
  • Resolver un problema de la industria de la IA
    • Los proveedores de modelos de IA hacen scraping de miles de sitios web pequeños y los usan como fuente de información para impulsar sus LLM
    • La mayoría de los sitios web no recibe ninguna compensación, y eso puede romper el modelo de negocio de muchos sitios
    • Cloudflare lanzó un botón que permite a los propietarios de sitios web bloquear bots de IA
  • Reflejo de las necesidades de los clientes
    • Los clientes de Cloudflare pidieron herramientas para elegir qué modelos de IA pueden acceder a sus sitios
    • La nueva herramienta de Cloudflare permite bloquear algunos crawlers de IA mientras deja pasar otros
  • Objetivo del marketplace
    • El marketplace de Cloudflare permitirá que pequeños publishers negocien con proveedores de modelos de IA
    • Los sitios web podrán fijar una tarifa de scraping o pedir créditos a los laboratorios de IA
  • Impacto en el ecosistema de IA
    • La situación actual, en la que algunas empresas de IA no pagan nada por el contenido, no es sostenible
    • El CEO de Cloudflare cree que este marketplace será, en última instancia, beneficioso para el ecosistema de IA

Resumen de GN⁺

  • Cloudflare anunció planes para lanzar un marketplace donde los propietarios de sitios web podrán vender acceso de scraping del contenido de sus sitios a proveedores de modelos de IA
  • Con la herramienta AI Audit, los propietarios de sitios web pueden analizar con qué frecuencia los modelos de IA hacen scraping de su sitio
  • Este marketplace permitirá que pequeños publishers negocien con proveedores de modelos de IA, para que puedan recibir compensación por su contenido
  • Esto podría contribuir a mejorar la sostenibilidad del ecosistema de IA

2 comentarios

 
yangeok 2024-10-01

La intención es buena.

 
GN⁺ 2024-09-24
Opiniones en Hacker News
  • Common Crawl está incluido en la lista de "Providers" junto con OpenAI y Antropic

    • Common Crawl se usa para muchos fines además del entrenamiento de IA
    • Es una fuente principal de contenido para la Wayback Machine
    • El objetivo del proyecto Common Crawl es que, en lugar de que varias empresas operen rastreadores por separado, Common Crawl recopile los datos y los ofrezca en un formato estándar
    • Si CloudFlare restringe el acceso al contenido, el impacto podría ser grande
    • Podríamos llegar a un mundo donde la mayoría de los sitios web usen productos de seguridad para restringir el acceso
  • OpenFoodFacts, OpenStreetMap y Wikipedia reciben ataques DDoS

    • Aunque los datos se pueden descargar gratis, los bots igual lo raspan todo
    • Esto genera tráfico innecesario y aumenta los costos
    • No es un problema de derechos de autor, sino de la ineficiencia de los bots y la indiferencia de los operadores
    • Hace falta una solución
  • Impedir el crawling podría ser una tarea inútil

    • Esta función podría fortalecer aún más a los grandes jugadores que ya han rastreado muchos datos
    • Los falsos positivos y el exceso de captchas podrían afectar a los usuarios
  • Cloudflare ofrece un servicio para proteger contra el abuso de una nueva manera

    • Cloudflare coopera con los abusadores para formar un "marketplace"
    • Si no usas el servicio de Cloudflare, el abuso continuará
    • Esto podría parecerse a exigir dinero de protección
  • Dudas sobre el futuro de la World Wide Web

    • Parecía que duraría para siempre, pero algún día podría desaparecer como IRC
    • La época dorada ya pasó, y la "IA" podría ser el comienzo del fin
  • Más detalles en el blog de Cloudflare

    • La demo de AI Audit permite a los dueños de sitios web ver cómo los modelos de IA raspan su sitio
    • Se puede ver cuántas veces los scrapers de OpenAI, Meta, Amazon y otros visitaron el sitio
  • Ejemplo de Bingeclock usando AI Audit

    • Cambios interesantes durante las 48 horas posteriores al anuncio de Cloudflare
    • El programa de pagos es interesante, pero el sitio web podría volverse ineficiente por la disminución del tráfico
    • Es probable que los scrapers de IA hagan solo el pago mínimo
  • Siguiente paso: generar contenido usando IA generativa y recibir pago cuando Cloudflare lo escanee

  • Raspar repetidamente el mismo sitio es un gran desperdicio

    • Si Cloudflare pudiera gestionar los cambios y actualizaciones, se ahorrarían muchos recursos
    • El sitio notifica directamente a Cloudflare sobre los cambios, y Cloudflare se los transmite a la IA
    • La IA compra los cambios, y Cloudflare le paga al sitio mientras se queda con un margen