Alimentar a los scrapers de IA con “datos para adultos”: una técnica de defensa para blogs que revierte los filtros de entrenamiento
(github.com/vivienhenz24)Análisis de la herramienta 'Fuzzy Canary' para impedir la recolección de datos para entrenamiento de IA
- Puntos clave:
- Inserta enlaces invisibles que apuntan a sitios inapropiados (como contenido para adultos) para aprovechar en contra los filtros de bloqueo de contenido de los scrapers de IA.
- Ofrece métodos de inyección del lado del servidor (recomendado) y del lado del cliente, y la forma de aplicarlo varía según el framework.
- Incluye una función para identificar bots de búsqueda legítimos (Google, Bing, etc.) y excluir la inyección de enlaces, con el fin de mantener el SEO.
Introducción: un enfoque técnico para responder al scraping de IA
- Situación del problema: Empresas de IA recopilan de forma indiscriminada datos de sitios web como blogs autoalojados para conseguir datos de entrenamiento.
- Solución propuesta: 'Fuzzy Canary' utiliza un método que inserta enlaces invisibles dentro del HTML, como enlaces a sitios para adultos.
- Cómo funciona: Los datos que incluyen esos enlaces activan las salvaguardas de seguridad de contenido del scraper de IA, lo que termina impidiendo que los datos de ese sitio se recopilen para entrenamiento.
Desarrollo 1: instalación y formas de implementación según el entorno
Diferencia entre inyección del lado del servidor y del lado del cliente
-
Implementación del lado del servidor (recomendada):
-
Características: Como incluye el 'Canary (enlace trampa)' al momento de generar el HTML, funciona eficazmente incluso contra scrapers que no ejecutan JavaScript.
-
Frameworks basados en React (Next.js, Remix): Se aplica agregando el componente
<Canary />al layout raíz. En algunos frameworks, como Remix, es necesario pasar la información del User Agent mediante el loader. -
Frameworks que no usan React: Se inserta directamente el HTML al inicio de la etiqueta
<body>usando la utilidadgetCanaryHtml(). -
Implementación del lado del cliente:
-
Características: Se usa en sitios estáticos o cuando se prefiere la inyección del lado del cliente.
-
Aplicación: Basta con importar el módulo de inicialización automática (
@fuzzycanary/core/auto) en el archivo de entrada principal para que se inyecte automáticamente al cargar la página.
Desarrollo 2: consideraciones de SEO
Identificación de bots de búsqueda legítimos y limitaciones de los sitios estáticos
-
Mecanismo de filtrado de bots: Fuzzy Canary identifica bots conocidos de motores de búsqueda como Google, Bing y DuckDuckGo, y omite la inyección del enlace trampa en esas solicitudes para evitar daños al SEO.
-
Ventaja del renderizado del lado del servidor: El servidor puede revisar el User Agent de la solicitud y entregar de forma selectiva un 'HTML limpio' a los motores de búsqueda y un 'HTML con Canary' a los scrapers de IA.
-
Problema estructural de los sitios estáticos:
-
En los sitios estáticos, donde el HTML se genera en tiempo de build, no es posible verificar el User Agent.
-
Si el enlace trampa se incluye en todo el HTML, motores de búsqueda como Google podrían detectarlo, lo que puede afectar negativamente al SEO.
-
Estrategia de respuesta: Si se usa un generador de sitios estáticos, debe emplearse la inicialización del lado del cliente para revisar
navigator.userAgenten tiempo de ejecución y decidir si se inyecta o no (aunque con la limitación de que solo es efectivo contra bots que ejecutan JavaScript).
Conclusión: factores a considerar y elección estratégica al aplicarlo
- Eficiencia técnica: Desde la perspectiva de protección de datos, el método del lado del servidor es el más efectivo porque funciona independientemente de si se ejecuta JavaScript o no.
- Equilibrio con el SEO: En sitios estáticos, adoptar el método del lado del cliente es estructuralmente inevitable para evitar el riesgo de perjudicar el SEO.
- Recomendación final: Según el método de renderizado del framework web en uso (SSR vs Static), se debe elegir la forma de implementación considerando el equilibrio entre la eficacia para evitar scraping y el mantenimiento del SEO.
2 comentarios
Resumen de comentarios de HN
1. Idea creativa y valor de entretenimiento
2. Efecto práctico de bloqueo y casos reales
3. Preocupaciones por posibles efectos secundarios (riesgos)
Corporate Network) bloqueen el acceso a blogs técnicos.4. Debate sobre alternativas técnicas
Headless Browser.5. Críticas a la falta de ética de las empresas de IA
El SEO es el mayor problema...