12 puntos por GN⁺ 2023-08-08 | 3 comentarios | Compartir por WhatsApp
  • Presentación de GPTBot, el rastreador web desarrollado por OpenAI
  • Se puede identificar por el token de user agent "GPTBot" y por la cadena completa de user agent
  • Las páginas web que GPTBot rastrea pueden usarse para mejorar futuros modelos de IA
  • El rastreador filtra fuentes que requieren acceso con paywall, sitios conocidos por recopilar información de identificación personal (PII) y texto que viola las políticas de OpenAI
  • Permitir que GPTBot acceda a un sitio puede ayudar a mejorar la precisión, las capacidades generales y la seguridad de los modelos de IA
  • Es posible bloquear el acceso de GPTBot al sitio agregándolo al robots.txt, y también permitir su acceso a directorios específicos del sitio
  • El rango de IP de salida que usa el rastreador está especificado por separado en el sitio web de OpenAI

3 comentarios

 
ragingwind 2023-08-08

¿Se harán muchísimos experimentos, de verdad?

 
xguru 2023-08-08

¿Esto hará que los administradores de sitios web que requieren acceso con paywall terminen permitiendo el acceso del bot para agregar su contenido a los modelos de ChatGPT?
Actualmente, incluso los sitios que requieren acceso de pago a veces también se abren al bot de Google para permitir el caché.
Claro, también hay robots que aprovechan eso al revés para hacer crawling, jaja

 
GN⁺ 2023-08-08
Opiniones de Hacker News
  • Se está debatiendo el impacto potencial del rastreador web de OpenAI, GPTBot, en los sitios web.
  • Algunos usuarios proponen experimentar devolviéndole contenido distinto a GPTBot para ver cómo afecta eso al entrenamiento de modelos de IA.
  • Hay preocupación por GPTBot, que ignora el encabezado de respuesta "429 demasiadas solicitudes", lo que podría causar problemas en proyectos pequeños con APIs que tienen límites de solicitudes.
  • Los usuarios cuestionan los beneficios de permitir el acceso de GPTBot a sus sitios, ya que su contenido podría usarse para mejorar modelos de IA sin dar beneficios directos ni crédito a los creadores originales.
  • Existe preocupación por la posibilidad de plagio, ya que GPTBot puede reformular contenido y no citar las fuentes, dificultando demostrar el origen original del material.
  • Algunos usuarios están considerando bloquear a GPTBot por estas preocupaciones, aunque se preguntan si eso podría dar una ventaja competitiva a bots que no respetan esas restricciones.
  • La discusión también menciona el problema más amplio de la infracción de derechos de autor por el rastreo web; algunos usuarios sostienen que los modelos de aprendizaje automático que no citan sus fuentes deberían considerarse hostiles y potencialmente infractores de derechos de autor.