GPTBot - el rastreador web de OpenAI

Presentación de GPTBot, el rastreador web desarrollado por OpenAI
Se puede identificar por el token de user agent "GPTBot" y por la cadena completa de user agent
Las páginas web que GPTBot rastrea pueden usarse para mejorar futuros modelos de IA
El rastreador filtra fuentes que requieren acceso con paywall, sitios conocidos por recopilar información de identificación personal (PII) y texto que viola las políticas de OpenAI
Permitir que GPTBot acceda a un sitio puede ayudar a mejorar la precisión, las capacidades generales y la seguridad de los modelos de IA
Es posible bloquear el acceso de GPTBot al sitio agregándolo al robots.txt, y también permitir su acceso a directorios específicos del sitio
El rango de IP de salida que usa el rastreador está especificado por separado en el sitio web de OpenAI

3 comentarios

ragingwind 2023-08-08

¿Se harán muchísimos experimentos, de verdad?

xguru 2023-08-08

¿Esto hará que los administradores de sitios web que requieren acceso con paywall terminen permitiendo el acceso del bot para agregar su contenido a los modelos de ChatGPT?
Actualmente, incluso los sitios que requieren acceso de pago a veces también se abren al bot de Google para permitir el caché.
Claro, también hay robots que aprovechan eso al revés para hacer crawling, jaja

GN⁺ 2023-08-08

Opiniones de Hacker News

Se está debatiendo el impacto potencial del rastreador web de OpenAI, GPTBot, en los sitios web.
Algunos usuarios proponen experimentar devolviéndole contenido distinto a GPTBot para ver cómo afecta eso al entrenamiento de modelos de IA.
Hay preocupación por GPTBot, que ignora el encabezado de respuesta "429 demasiadas solicitudes", lo que podría causar problemas en proyectos pequeños con APIs que tienen límites de solicitudes.
Los usuarios cuestionan los beneficios de permitir el acceso de GPTBot a sus sitios, ya que su contenido podría usarse para mejorar modelos de IA sin dar beneficios directos ni crédito a los creadores originales.
Existe preocupación por la posibilidad de plagio, ya que GPTBot puede reformular contenido y no citar las fuentes, dificultando demostrar el origen original del material.
Algunos usuarios están considerando bloquear a GPTBot por estas preocupaciones, aunque se preguntan si eso podría dar una ventaja competitiva a bots que no respetan esas restricciones.
La discusión también menciona el problema más amplio de la infracción de derechos de autor por el rastreo web; algunos usuarios sostienen que los modelos de aprendizaje automático que no citan sus fuentes deberían considerarse hostiles y potencialmente infractores de derechos de autor.

GPTBot - el rastreador web de OpenAI

Lecturas relacionadas

3 comentarios

Opiniones de Hacker News