6 puntos por GN⁺ 2025-01-14 | 4 comentarios | Compartir por WhatsApp
  • Triplegangers es una pequeña empresa operada por 7 empleados que vende una base de datos de “dobles digitales humanos”
    • Proporciona archivos de imágenes 3D y fotos a artistas 3D, desarrolladores de videojuegos y otros
  • Surgió el problema: el bot de OpenAI dejó fuera de servicio el servidor al rastrear el sitio web de forma excesiva usando más de 600 IP
    • Intentó recopilar más de 65,000 páginas de productos y cientos de miles de fotos
    • Se espera un aumento en los costos de AWS debido a esta avalancha de solicitudes “similar a un ataque DDoS”
  • El GPTBot de OpenAI rastrea datos libremente si no hay una configuración adecuada del archivo robots.txt
    • Si el sitio no lo bloquea por separado, la actividad del bot está permitida por defecto
    • robots.txt: archivo que define qué datos no deben rastrear los motores de búsqueda
    • Triplegangers no configuró correctamente el archivo robots.txt de su sitio web, lo que permitió que el bot de OpenAI extrajera datos
  • Problemas adicionales:
    • OpenAI puede tardar hasta 24 horas en reconocer una solicitud para bloquear el rastreo
    • Otras empresas de IA también rastrean datos de forma similar

Respuesta de Triplegangers

  • Medidas tomadas:
    • Creación de un archivo robots.txt configurado correctamente
    • Configuración de la cuenta de Cloudflare para bloquear GPTBot y otros rastreadores de IA
  • Resultado:
    • El sitio logró estabilizarse
    • Sin embargo, no se sabe qué datos se llevó OpenAI y tampoco existe una forma de solicitar su eliminación
    • La herramienta de opt-out incompleta de OpenAI dificulta aún más que las empresas eviten el rastreo

Por qué el problema del rastreo es especialmente grave

  • Los rastreadores de IA toman datos de los sitios web sin autorización, y esto genera un problema especialmente grande para empresas como Triplegangers
  • Sensibilidad de los datos:
    • Triplegangers tiene una base de datos creada a partir de escaneos de personas reales
    • Las leyes de privacidad, como el GDPR, prohíben el uso no autorizado de esos datos
  • Atractivo de los datos:
    • Los datos están etiquetados, por lo que son útiles para el entrenamiento de IA
    • Ejemplo: raza, edad y características físicas están indicadas en detalle

Lecciones para otros pequeños negocios

  • Detección de bots de IA:
    • Para verificar si los bots de IA están rastreando, es indispensable monitorear los logs
    • La mayoría de los sitios web ni siquiera sabe que ha sido rastreada
  • Problema creciente del rastreo:
    • En 2024, el tráfico generalmente no válido (Invalid Traffic) aumentó 86%
    • Los rastreadores y scrapers de IA son una de las principales causas

Conclusión

  • El problema del rastreo por bots de IA tiene un impacto grave en los pequeños negocios
  • Las empresas de IA deberían pedir permiso antes de llevarse los datos
  • Las pequeñas empresas deben usar activamente robots.txt y firewalls, además de mantener un monitoreo continuo

4 comentarios

 
crawler 2025-01-14

Si las 600 IP que accedieron al sitio eran reales, entonces sí da la impresión de que lo estaban raspando como locos, pero que no hubieran usado robots.txt sí te deja un poco con cara de “¿eh?”.
Parece una empresa para la que los datos son importantes y que además tiene un sitio activo, así que por lo menos deberían haber configurado primero lo más básico: robots.txt...

 
unsure4000 2025-01-14

Creo que Cloudflare realmente parece ser un mal necesario. También es un punto único de ataque con un rendimiento excelente.

 
GN⁺ 2025-01-14
Comentarios de Hacker News
  • Las empresas de IA están generando mucho tráfico en los foros

    • Hay un caso en Read the Docs donde bots de IA generaron más de 10 TB de tráfico
    • Se afirma que OpenAI usó 600 direcciones IP para extraer datos
    • Solo se registran las IP del proxy inverso de Cloudflare, por lo que no se pueden conocer las IP reales de los clientes
    • Hay quienes opinan que es injusto llamarlo un ataque DDoS porque en los registros no hay marcas de tiempo ni se menciona la velocidad de las solicitudes
  • Como desarrollador web, hay molestia con los scrapers ineficientes de las empresas de IA

    • Recomiendan seguir la regla básica de no sobrecargar demasiado un sitio
    • Sienten que los scrapers de las empresas de IA son ineficientes y desagradables
  • Señalan que en el artículo se escribió mal "robots.txt"

    • Consideran sospechoso usar como evidencia archivos de registro sin marcas de tiempo
    • Aunque OpenAI no es completamente inocente, evalúan que la calidad del artículo es baja
  • Hay una opinión de que la historia de la web se está repitiendo

    • Antes se podía obtener información mediante APIs, pero ahora la mayoría está bloqueada
    • Esperan que la IA pueda volver a hacer posibles este tipo de interacciones automatizadas
  • Había interés en los rastreadores web personales, pero ahora hay decepción con la economía injusta de Google

    • Les preocupa que, aunque los LLMs puedan ofrecer mucha utilidad, el miedo a que roben creatividad termine cerrando puertas
  • Recientemente, personas que publicaron libros en Amazon están compitiendo con copias fraudulentas generadas por IA

    • Hubo un caso en el que la BBC entrevistó a alguien sobre esta experiencia
  • Advierten que, si un sitio no usa correctamente robots.txt, la IA puede extraer contenido libremente

    • Recomiendan revisar robots.txt
  • Un sitio puede usar el error HTTP 429 para regular la velocidad de los bots

    • Si los bots vienen desde una subred, sugieren aplicarlo a la subred y no a cada IP individual