Cualquiera con un contacto interno en OpenAI: piden ayuda para resolver un problema "araña"

(mailman.nanog.org)

2 puntos por GN⁺ 2024-04-12 | 1 comentarios | Compartir por WhatsApp

Problema de rastreo web del GPTBot de OpenAI

El autor tiene un problema en su sitio web web.sp.am: el GPTBot de OpenAI lo visita y rastrea páginas en exceso
- Llegó a solicitar alrededor de 3 millones de páginas al día, y de ellas 1.8 millones fueron solicitudes a robots.txt
- El sitio del autor tiene una estructura tipo Content Farm, con 6,859 millones de sitios web, cada uno con una sola página
- Casi todas las páginas parecen prácticamente iguales y usan la misma IP y el mismo certificado SSL comodín, así que no debería ser difícil para un rastreador entender la situación
Hace 1 o 2 meses, el rastreador de Amazon provocó un problema similar, pero pudieron contactarlos y hacer que dejaran de rastrear
El autor pregunta si hay alguien con quien se pueda contactar en OpenAI
Bromea con que parece que los datos de su sitio web están siendo usados para entrenar GPT-5

Opinión de GN⁺

Que un rastreador no interprete correctamente robots.txt y envíe solicitudes excesivas, aunque no sea malicioso, es un problema serio que desde la perspectiva del sitio afectado puede causar daños al servicio. Parece que OpenAI también debería corregir cuanto antes la lógica de su rastreador
Especialmente en lugares que operan innumerables dominios, como una Content Farm, convendría considerar medidas como filtros basados en IP para evitar rastrear cada sitio de manera individual
Parece necesario contar con procesos y sistemas para monitorear el comportamiento de los bots de rastreo, detectar anomalías y responder rápidamente
También hace falta una comunicación estrecha con los administradores de los sitios rastreados para minimizar los daños. No se trata solo de enfocarse en recolectar datos, sino de priorizar una perspectiva de convivencia mutuamente beneficiosa

1 comentarios

GN⁺ 2024-04-12

Opiniones de Hacker News

Me recuerda a cuando GPT-2/3/J se topó con https://reddit.com/r/counting. Es un lugar donde los usuarios de Reddit cuentan hasta el infinito, subiendo los números de a uno, y parece que nombres de usuario como SolidGoldMagikarp se veían como cadenas demasiado comunes en internet, por lo que durante la tokenización fueron tratados casi como tokens independientes
https://www.alignmentforum.org/posts/8viQEp8KBg2QSW4Yc/solid...
https://www.lesswrong.com/posts/LAxAmooK4uDfWmbep/anomalous-...
El vocabulario no es infinito, y se sabe que el vocabulario de GPT-3 tenía apenas 50,257 tokens. Me pregunto si quizá era medible la diferencia entre el costo eléctrico extra causado por este pasatiempo de nicho de Reddit y la reducción en la cantidad promedio de tokens de entrada que se habría logrado si ese espacio se hubiera asignado a subcadenas más comunes en textos reales
Sería gracioso si el subtítulo del sitio del OP, IECC ChurnWare 0.3, se convirtiera en un token de GPT-5
- Me pregunto hasta qué punto la causa de las alucinaciones está en el contenido original, más que en la naturaleza propia de los modelos grandes de lenguaje. Al fin y al cabo, si en un foro de internet alguien hace una pregunta cuya respuesta no sé, tampoco voy a escribir “no sé” solo por hacerlo
  De hecho, en espacios que no son conversaciones uno a uno, responder “no sé” por lo general no sirve de mucho. Si en un grupo no sabes, el silencio ya indica eso
- Durante la tokenización, el nombre de usuario se convirtió en un token, pero antes de entrenar el modelo real eliminaron ese tipo de texto de los datos de entrenamiento, así que el modelo no fue entrenado con textos que incluyeran ese token. Por eso se generó un token con glitch, no asociado a ningún significado
- En Computerphile también hay una discusión sobre los tokens con glitch
  https://www.youtube.com/watch?v=WO2X3oZEJOA
- Hoy en día, el tamaño de vocabulario más común es 32k
Me da más curiosidad para qué sirve esa granja de contenido. Parece absurda, pero sospecho que hay algún incentivo económico extraño. Tiene enlaces de afiliados, sí, pero me cuesta imaginar cuánto pueden ganar con eso
- Esto es un honeypot. El autor, https://en.wikipedia.org/wiki/John_R._Levine, lo mantiene para que, cuando arranque alguna operación nueva y a gran escala de scraping, inevitablemente golpee esta pequeña granja y quede registrada en los logs
  Es una figura conocida del antispam desde hace décadas, con muchas actividades en ese ámbito. Dejar caer de forma natural un enlace a la landing page en un mensaje de NANOG también es una forma de hacer que los bots muerdan el anzuelo
- El nombre John Levine de iecc.com me suena de la época de la web 1.0 por la Invincible Electric Calculator Company. Él era el administrador del grupo de noticias comp.compilers en Usenet y escribió el primer compilador de C para la IBM PC RT
  https://compilers.iecc.com/
- Parece más bien un honeypot para bots. El propósito es bastante parecido
- Linkers & Loaders sí es un libro escrito por él. No verifiqué los otros libros
  En la página https://www.iecc.com/linker/ antes publicaba el borrador del libro en varios formatos, pero cuando apareció en https://news.ycombinator.com/item?id=18424233 empaqueté los archivos para leerlos sin conexión y, después de eso, el texto cambió a “ya no se ofrece debido a la piratería crónica”
  Le escribí por email para preguntar si estaba bien, pero recibí una respuesta poco amable acusándome de haber pirateado los archivos, así que bajé el enlace y ellos cambiaron el texto. Yo no soy el autor del libro, ellos lo son, así que están en su derecho. Aun así, les sugerí que pusieran en la página que no querían que se hiciera eso, pero eligieron una vía más radical
- Está hecho simplemente por diversión y ahora está cumpliendo muy bien su función. No todo necesita tener un objetivo económico, 100 rastreadores, anuncios o patrocinio corporativo
Me pregunto si fui el único que esperaba que la historia fuera que una granja de servidores de OpenAI estaba realmente infestada de arañas y que se metían arrastrándose en los racks de otras personas. Sabía que no podía ser eso, pero igual tenía esperanza
- Yo esperaba que se tratara de un gran conjunto de palabras clave que generó imágenes de arañas
No configuraron bien el robots.txt. De hecho, comentaron la parte que realmente bloqueaba
Los Disallow: / para Amazonbot y GPTBot están ambos comentados, y lo único que aplica ahora es el bloqueo de /archive para User-agent: *
- El contenido cambió entre entonces y ahora
Si respetan robots.txt, OpenAI tiene a la vez un problema de bloqueo de bots y de recolección de datos: https://x.com/AznWeng/status/1777688628308681000
El 11% de los 100 mil sitios web principales ya bloquea el crawler de OpenAI, más que todos sus competidores Google, FB, Anthropic y Perplexity juntos
- Esto no solo es un problema para el entrenamiento, sino también para los usuarios finales. Muchas veces he pedido que respondiera preguntas sobre un texto largo o que lo resumiera, y como decía que no podía leerlo por sí mismo, al final tuve que copiar y pegar el texto en la ventana del chat
  Considerando que robots.txt no es vinculante y que, en otros contextos, parecen tener bastante poca reserva para absorber datos públicos, me sorprende que dejen que esto se convierta en un obstáculo para la experiencia de usuario
Me parece que habría que dejarlo hacer, sin más. Si quiere internet, esto es el internet real. Como parece que no le importa mucho que se lleve millones de páginas, entonces déjenlo hacerlo.
- Hay impacto en el rendimiento para otros usuarios legítimos de esa granja web.
- Algunos scrapers respetan robots.txt. OpenAI no. SP solo está haciendo que el mundo se entere de eso.
- Incluso el CTO dice que no sabe de dónde vienen los datos.
- Justamente ese es el punto. De lo que se queja es de que OpenAI no respeta robots.txt.
En el mundo de la seguridad de redes, a esto se le llama tarpit. Se puede retrasar ataques, escaneos y otros tipos de automatización enviando datos muy lentamente o provocando recursión infinita.
En consecuencia, se hace que el atacante desperdicie tiempo y energía, y quizá se gana tiempo para reforzar nuestras defensas.
- Por el contenido del correo, da más la impresión de ser simplemente un honeypot. Tampoco se ve ningún retraso cuando se devuelve el contenido.
  Un tarpit es distinto porque está diseñado para ralentizar escaneos o scraping y hacer que el otro lado desperdicie recursos deliberadamente. Hay varias técnicas, pero la mayoría limitan exponencialmente las respuestas o la velocidad de respuesta.
En 2011 también pasó algo parecido cuando el proyecto picolisp publicó un “ticker” tipo cadena de Markov que generaba páginas al vuelo.
https://picolisp.com/wiki/?ticker
Es una forma bastante decente de honeypot.
Al final, OpenAI y empresas similares terminarán entrenando sus modelos casi por completo con contenido generado por IA, y desde el punto de vista de Q&A ese contenido suele estar un poco equivocado con bastante frecuencia, así que la calidad de las respuestas de la IA entrenada con eso también se degradará rápido.
Hoy la mayoría del contenido de internet lo escriben humanos, pero en 5 años podría no ser así. Creo que es uno de los grandes problemas que el campo de la IA debe resolver pronto. Como dice el viejo dicho: basura entra, basura sale.
- El destino final del entrenamiento con texto web siempre fue uróboros. Porque los incentivos de la tecnología publicitaria llevan a producir contenido de baja calidad en masa para obtener ingresos mínimos.
  La ironía de toda esta situación es brutal.
- Ya no habrá contenido tipo bosque virgen para raspar, pero el contenido que quieren los humanos seguirá siendo el más popular, promocionado, curado y editado. Aunque entrenar con contenido orgánico se vuelva imposible, seguirá siendo posible obtener buen contenido.
- Es un problema que ya está resuelto. Basta ver cómo Microsoft entrenó Phi. Generó datos sintéticos basados en libros de texto con modelos existentes, y así pudo crear un nuevo dataset basado en “hechos” con mucha más calidad que algo como Common Crawl.
  Más que un uróboros, parece un problema de bootstrapping.
- En adelante será multimodal, y se entrenará e inferirá con feeds de redes de sensores distribuidas. Eso incluye radio, óptica, audio, acelerómetros, vibración, lo que hay dentro de los celulares y muchos otros sensores.
  Creo que la era de los transformers que solo tratan texto ya quedó atrás.
- No sé por qué piensan que OpenAI y sus amigos terminarán entrenando casi todo con contenido generado por IA. Es muy probable que en internet haya más contenido generado por IA que contenido real, y quizá ya sea así, pero no hay razón para creer que las empresas de IA no se darán cuenta de eso y ajustarán sus métodos de entrenamiento.
Creo que OpenAI sí lee robots.txt, pero igual indexa. Solo que probablemente deja una marca indicando que era contenido que no debía indexarse.
- Y a ese contenido seguramente le dará doble ponderación en el entrenamiento.

Cualquiera con un contacto interno en OpenAI: piden ayuda para resolver un problema "araña"

Problema de rastreo web del GPTBot de OpenAI

Opinión de GN⁺

Lecturas relacionadas

1 comentarios

Opiniones de Hacker News