- Triplegangers es una pequeña empresa operada por 7 empleados que vende una base de datos de “dobles digitales humanos”
- Proporciona archivos de imágenes 3D y fotos a artistas 3D, desarrolladores de videojuegos y otros
- Surgió el problema: el bot de OpenAI dejó fuera de servicio el servidor al rastrear el sitio web de forma excesiva usando más de 600 IP
- Intentó recopilar más de 65,000 páginas de productos y cientos de miles de fotos
- Se espera un aumento en los costos de AWS debido a esta avalancha de solicitudes “similar a un ataque DDoS”
- El GPTBot de OpenAI rastrea datos libremente si no hay una configuración adecuada del archivo robots.txt
- Si el sitio no lo bloquea por separado, la actividad del bot está permitida por defecto
- robots.txt: archivo que define qué datos no deben rastrear los motores de búsqueda
- Triplegangers no configuró correctamente el archivo robots.txt de su sitio web, lo que permitió que el bot de OpenAI extrajera datos
- Problemas adicionales:
- OpenAI puede tardar hasta 24 horas en reconocer una solicitud para bloquear el rastreo
- Otras empresas de IA también rastrean datos de forma similar
Respuesta de Triplegangers
- Medidas tomadas:
- Creación de un archivo robots.txt configurado correctamente
- Configuración de la cuenta de Cloudflare para bloquear GPTBot y otros rastreadores de IA
- Resultado:
- El sitio logró estabilizarse
- Sin embargo, no se sabe qué datos se llevó OpenAI y tampoco existe una forma de solicitar su eliminación
- La herramienta de opt-out incompleta de OpenAI dificulta aún más que las empresas eviten el rastreo
Por qué el problema del rastreo es especialmente grave
- Los rastreadores de IA toman datos de los sitios web sin autorización, y esto genera un problema especialmente grande para empresas como Triplegangers
- Sensibilidad de los datos:
- Triplegangers tiene una base de datos creada a partir de escaneos de personas reales
- Las leyes de privacidad, como el GDPR, prohíben el uso no autorizado de esos datos
- Atractivo de los datos:
- Los datos están etiquetados, por lo que son útiles para el entrenamiento de IA
- Ejemplo: raza, edad y características físicas están indicadas en detalle
Lecciones para otros pequeños negocios
- Detección de bots de IA:
- Para verificar si los bots de IA están rastreando, es indispensable monitorear los logs
- La mayoría de los sitios web ni siquiera sabe que ha sido rastreada
- Problema creciente del rastreo:
- En 2024, el tráfico generalmente no válido (Invalid Traffic) aumentó 86%
- Los rastreadores y scrapers de IA son una de las principales causas
Conclusión
- El problema del rastreo por bots de IA tiene un impacto grave en los pequeños negocios
- Las empresas de IA deberían pedir permiso antes de llevarse los datos
- Las pequeñas empresas deben usar activamente robots.txt y firewalls, además de mantener un monitoreo continuo
4 comentarios
Si las 600 IP que accedieron al sitio eran reales, entonces sí da la impresión de que lo estaban raspando como locos, pero que no hubieran usado
robots.txtsí te deja un poco con cara de “¿eh?”.Parece una empresa para la que los datos son importantes y que además tiene un sitio activo, así que por lo menos deberían haber configurado primero lo más básico:
robots.txt...Las empresas de IA están generando la mayor parte del tráfico web
Creo que Cloudflare realmente parece ser un mal necesario. También es un punto único de ataque con un rendimiento excelente.
Comentarios de Hacker News
Las empresas de IA están generando mucho tráfico en los foros
Como desarrollador web, hay molestia con los scrapers ineficientes de las empresas de IA
Señalan que en el artículo se escribió mal "robots.txt"
Hay una opinión de que la historia de la web se está repitiendo
Había interés en los rastreadores web personales, pero ahora hay decepción con la economía injusta de Google
Recientemente, personas que publicaron libros en Amazon están compitiendo con copias fraudulentas generadas por IA
Advierten que, si un sitio no usa correctamente robots.txt, la IA puede extraer contenido libremente
Un sitio puede usar el error HTTP 429 para regular la velocidad de los bots