- Presentación de GPTBot, el rastreador web desarrollado por OpenAI
- Se puede identificar por el token de user agent "GPTBot" y por la cadena completa de user agent
- Las páginas web que GPTBot rastrea pueden usarse para mejorar futuros modelos de IA
- El rastreador filtra fuentes que requieren acceso con paywall, sitios conocidos por recopilar información de identificación personal (PII) y texto que viola las políticas de OpenAI
- Permitir que GPTBot acceda a un sitio puede ayudar a mejorar la precisión, las capacidades generales y la seguridad de los modelos de IA
- Es posible bloquear el acceso de GPTBot al sitio agregándolo al
robots.txt, y también permitir su acceso a directorios específicos del sitio
- El rango de IP de salida que usa el rastreador está especificado por separado en el sitio web de OpenAI
3 comentarios
¿Se harán muchísimos experimentos, de verdad?
¿Esto hará que los administradores de sitios web que requieren acceso con paywall terminen permitiendo el acceso del bot para agregar su contenido a los modelos de ChatGPT?
Actualmente, incluso los sitios que requieren acceso de pago a veces también se abren al bot de Google para permitir el caché.
Claro, también hay robots que aprovechan eso al revés para hacer crawling, jaja
Opiniones de Hacker News