Cualquiera con un contacto interno en OpenAI: piden ayuda para resolver un problema "araña"
(mailman.nanog.org)Problema de rastreo web del GPTBot de OpenAI
-
El autor tiene un problema en su sitio web
web.sp.am: el GPTBot de OpenAI lo visita y rastrea páginas en exceso- Llegó a solicitar alrededor de 3 millones de páginas al día, y de ellas 1.8 millones fueron solicitudes a
robots.txt - El sitio del autor tiene una estructura tipo Content Farm, con 6,859 millones de sitios web, cada uno con una sola página
- Casi todas las páginas parecen prácticamente iguales y usan la misma IP y el mismo certificado SSL comodín, así que no debería ser difícil para un rastreador entender la situación
- Llegó a solicitar alrededor de 3 millones de páginas al día, y de ellas 1.8 millones fueron solicitudes a
-
Hace 1 o 2 meses, el rastreador de Amazon provocó un problema similar, pero pudieron contactarlos y hacer que dejaran de rastrear
-
El autor pregunta si hay alguien con quien se pueda contactar en OpenAI
-
Bromea con que parece que los datos de su sitio web están siendo usados para entrenar GPT-5
Opinión de GN⁺
- Que un rastreador no interprete correctamente
robots.txty envíe solicitudes excesivas, aunque no sea malicioso, es un problema serio que desde la perspectiva del sitio afectado puede causar daños al servicio. Parece que OpenAI también debería corregir cuanto antes la lógica de su rastreador - Especialmente en lugares que operan innumerables dominios, como una Content Farm, convendría considerar medidas como filtros basados en IP para evitar rastrear cada sitio de manera individual
- Parece necesario contar con procesos y sistemas para monitorear el comportamiento de los bots de rastreo, detectar anomalías y responder rápidamente
- También hace falta una comunicación estrecha con los administradores de los sitios rastreados para minimizar los daños. No se trata solo de enfocarse en recolectar datos, sino de priorizar una perspectiva de convivencia mutuamente beneficiosa
1 comentarios
Opinión de Hacker News
GPT-2/3/J vio en el subreddit r/counting que los usuarios publicaban números incrementales hasta el infinito, y trató nombres de usuario como SolidGoldMagikarp como si fueran cadenas comunes en internet, asignándoles tokens de nivel superior durante la tokenización.
El vocabulario de GPT-3 estaba limitado a 50,257 tokens únicos. Se especula que el aumento en el costo de energía provocado por el pasatiempo de nicho de los usuarios de ese subreddit, y la reducción del número promedio de tokens de entrada al asignar espacios a subcadenas comunes en texto real, no tenían una relación lineal, pero sí un impacto medible.
Sería divertido si el subtítulo del sitio web, "IECC ChurnWare 0.3", se convirtiera en un token de GPT-5.
El dueño del sitio comentó por error en
robots.txtlas partes que realmente permitían el rastreo, en lugar de escribirlo correctamente.Se plantean dudas sobre el propósito de las granjas de contenido. Parecen no tener sentido, pero se sospecha que existen incentivos económicos extraños. Hay enlaces de afiliados, aunque se duda cuánto ingreso realmente generan.
Algunos esperaban que hubiera arañas reales en la granja de servidores de OpenAI y que se metieran en otros racks.
En seguridad de redes, a esto se le llama tarpit. Puede retrasar ataques, escaneos y automatización para hacer que el atacante desperdicie tiempo y energía, y así ganar tiempo para defenderse.
Si OpenAI también respeta
robots.txt, entonces existe el problema de bloquear bots y recolectar datos. El 11% de los 100 mil sitios web más grandes ya está bloqueando rastreadores, más que los competidores.Parece que al dueño del sitio no le importa demasiado que se indexen millones de páginas, así que sería mejor dejar que OpenAI haga lo que quiera.
Al final, OpenAI y otros probablemente terminarán entrenando sus modelos con contenido generado en su mayoría por IA, a menudo un poco inexacto, y eso podría deteriorar la calidad de las respuestas de IA. Por ahora, la mayor parte del contenido sigue siendo escrito por humanos, pero en 5 años quizá ya no sea así. Es uno de los problemas que la industria de la IA debe resolver rápido.
El propósito mismo de este tipo de sitio web es hacer que las arañas desperdicien tiempo y recursos, así que ¿por qué no querrían hacer eso también con OpenAI?
Este tipo de honeypot parece una forma interesante de contaminar el entrenamiento de los LLM.