Google se convierte en el único motor de búsqueda que funciona en Reddit gracias a un acuerdo de IA
(404media.co)- Google ahora es el único motor de búsqueda que puede mostrar resultados de Reddit
- Reddit actualizó recientemente su archivo
robots.txtpara bloquear el rastreo de todos los motores de búsqueda excepto Google - En motores de búsqueda alternativos que no dependen de la indexación de Google, como Bing, DuckDuckGo, Mojeek y Qwant, ya no se pueden ver resultados recientes de Reddit de la última semana
- DuckDuckGo muestra 7 enlaces al buscar en Reddit, pero no ofrece información sobre el destino de los enlaces ni por qué aparecen
- Kagi puede buscar en Reddit porque compra parte del índice de búsqueda de Google
- Esto ocurre en un momento en que el monopolio de búsqueda de Google está perjudicando la capacidad de otras empresas para competir
- Reddit y Google no respondieron a las solicitudes de comentarios de la prensa sobre esto, pero la exclusión de otros motores de búsqueda parece deberse a un contrato de varios millones de dólares que otorga a Google el derecho de extraer datos de Reddit para entrenar productos de IA
Reacción del CEO de Mojeek
- Colin Hayhurst, CEO de Mojeek, dijo que a principios de junio descubrieron que se había bloqueado el rastreo de Reddit para Mojeek y que se comunicaron por correo electrónico, pero no recibieron respuesta
- Hayhurst dijo: "A veces te bloquean por ignorancia o por torpeza, pero si te pones en contacto se puede resolver; esta vez, sin embargo, no recibimos respuesta de nadie, algo sin precedentes"
- Además de bloquear rastreadores, Reddit también estaría bloqueando activamente el crawler de Mojeek
Tendencia creciente de bloqueo al scraping de datos por parte de empresas de IA
- Muchos sitios web están actualizando sus archivos
robots.txt, y han aumentado notablemente los intentos de bloquear bots de empresas de IA que recopilan datos de entrenamiento - Google introdujo recientemente dos rastreadores: Googlebot para mejorar los resultados de búsqueda y Google-Extended para mejorar la app Gemini
- El archivo
robots.txtes solo una directriz simple, y los rastreadores pueden ignorarlo
Contexto detrás de la medida de Reddit
- Reddit llevaba tiempo molesto con las empresas de IA que extraían contenido del sitio para entrenar modelos de lenguaje a gran escala, y ha tomado medidas públicas y activas para frenarlo
- El año pasado empezó a cobrar por el acceso a la API, lo que volvió demasiado costosa la operación de muchas apps de terceros y provocó su cierre
- A principios de este año firmó un acuerdo de 60 millones de dólares con Google para permitirle licenciar contenido de Reddit para entrenar productos de IA
Cambios en el archivo Robots.txt de Reddit
- Antes tenía una forma compleja con bromas incluidas, pero recientemente se volvió simple y estricto
- Actualmente solo contiene la directiva
User-agent: *, Disallow: /, lo que significa que ningún bot debe extraer ninguna parte del sitio - Reddit afirmó que "cree en el internet abierto, pero no tolera el mal uso del contenido público"
Postura de Reddit
- Recientemente han aumentado los casos de actores comerciales que extraen contenido de Reddit y afirman no estar sujetos a sus términos o políticas
- Decir que se puede usar el contenido de Reddit para cualquier propósito escondiéndose detrás de
robots.txtes un problema aún más grave - Harán todo lo posible para identificar y bloquear de forma proactiva a los actores maliciosos, pero se necesita hacer más para proteger las contribuciones de los usuarios de Reddit
- En adelante planean actualizar las directrices de
robots.txtpara que sean lo más claras posible. Si se accede a Reddit con agentes automatizados, se deben cumplir sus términos y políticas y comunicarse con Reddit
El acceso a los datos de Reddit para fines no comerciales sigue siendo posible
- Reddit dijo que "los actores de buena fe (investigadores, Internet Archive, etc.) podrán seguir accediendo al contenido de Reddit para usos no comerciales"
- Señaló que selecciona de forma discrecional a actores de confianza para permitirles acceso a gran escala a los datos de Reddit
- Según la guía de acceso a datos de Reddit, la "búsqueda" o la "publicidad en sitios web" se consideran "usos comerciales", por lo que no se pueden usar datos de Reddit sin permiso o sin pagar una tarifa
Implicaciones de la realidad en la que solo Google permite buscar en Reddit
- En medio de una caída progresiva en la relevancia de la búsqueda de Google, una de las formas de seguir obteniendo buenos resultados es agregar "Reddit" a la consulta
- Esto se debe a que durante casi 20 años usuarios reales han dejado consejos y recomendaciones en Reddit
- Que ahora solo Google pueda guiar a los usuarios hacia esa información, y que eso sea resultado de un contrato de 60 millones de dólares relacionado con datos para entrenamiento de IA, es otro ejemplo de las consecuencias no previstas de extraer indiscriminadamente todo internet para fortalecer herramientas de IA generativa
Preocupaciones del CEO de Mojeek
- Mojeek ha rastreado la web durante 20 años con una actitud respetuosa, y es un motor de búsqueda tradicional que no entrena IA ni rastrea a los usuarios
- El acuerdo de Reddit con Google dificulta ofrecer una forma alternativa de buscar en la web
- Esto forma parte de una tendencia más amplia que va matando y erosionando gradualmente la web
- Lo ocurrido no ayuda a las empresas pequeñas
Opinión de GN⁺
- La medida de Reddit busca proteger los derechos de quienes crean contenido y evitar su explotación comercial, pero podría terminar perjudicando la competencia en el mercado de motores de búsqueda
- En particular, la situación en la que Google monopoliza los datos de Reddit para entrenamiento de IA despierta preocupación por un posible abuso de su poder de mercado
- A largo plazo, parece urgente establecer normas y políticas que permitan una convivencia beneficiosa entre proveedores de contenido, motores de búsqueda y empresas de IA
- Al mismo tiempo, resulta irónico que la búsqueda en Reddit destaque como alternativa ante la caída en la calidad de los buscadores. En el fondo, hace falta que los motores de búsqueda mejoren su relevancia y diversidad
- También vale la pena seguir de cerca el crecimiento de nuevos motores de búsqueda como Kagi, que aprovechan parcialmente el índice de Google mientras buscan un enfoque propio
1 comentarios
Opiniones en Hacker News
robots.txtde Reddit es comprensible en el contexto de la IA, pero es anticompetitivo frente a otros motores de búsquedarobots.txto los términos de uso no es vinculante para los web scrapersrobots.txthace un mesrobots.txtmuy permisivo