Google se convierte en el único motor de búsqueda que funciona en Reddit gracias a un acuerdo de IA

(404media.co)

8 puntos por GN⁺ 2024-07-25 | 1 comentarios | Compartir por WhatsApp

Google ahora es el único motor de búsqueda que puede mostrar resultados de Reddit
Reddit actualizó recientemente su archivo robots.txt para bloquear el rastreo de todos los motores de búsqueda excepto Google
En motores de búsqueda alternativos que no dependen de la indexación de Google, como Bing, DuckDuckGo, Mojeek y Qwant, ya no se pueden ver resultados recientes de Reddit de la última semana
- DuckDuckGo muestra 7 enlaces al buscar en Reddit, pero no ofrece información sobre el destino de los enlaces ni por qué aparecen
- Kagi puede buscar en Reddit porque compra parte del índice de búsqueda de Google
Esto ocurre en un momento en que el monopolio de búsqueda de Google está perjudicando la capacidad de otras empresas para competir
Reddit y Google no respondieron a las solicitudes de comentarios de la prensa sobre esto, pero la exclusión de otros motores de búsqueda parece deberse a un contrato de varios millones de dólares que otorga a Google el derecho de extraer datos de Reddit para entrenar productos de IA

Reacción del CEO de Mojeek

Colin Hayhurst, CEO de Mojeek, dijo que a principios de junio descubrieron que se había bloqueado el rastreo de Reddit para Mojeek y que se comunicaron por correo electrónico, pero no recibieron respuesta
Hayhurst dijo: "A veces te bloquean por ignorancia o por torpeza, pero si te pones en contacto se puede resolver; esta vez, sin embargo, no recibimos respuesta de nadie, algo sin precedentes"
Además de bloquear rastreadores, Reddit también estaría bloqueando activamente el crawler de Mojeek

Tendencia creciente de bloqueo al scraping de datos por parte de empresas de IA

Muchos sitios web están actualizando sus archivos robots.txt, y han aumentado notablemente los intentos de bloquear bots de empresas de IA que recopilan datos de entrenamiento
Google introdujo recientemente dos rastreadores: Googlebot para mejorar los resultados de búsqueda y Google-Extended para mejorar la app Gemini
El archivo robots.txt es solo una directriz simple, y los rastreadores pueden ignorarlo

Contexto detrás de la medida de Reddit

Reddit llevaba tiempo molesto con las empresas de IA que extraían contenido del sitio para entrenar modelos de lenguaje a gran escala, y ha tomado medidas públicas y activas para frenarlo
El año pasado empezó a cobrar por el acceso a la API, lo que volvió demasiado costosa la operación de muchas apps de terceros y provocó su cierre
A principios de este año firmó un acuerdo de 60 millones de dólares con Google para permitirle licenciar contenido de Reddit para entrenar productos de IA

Cambios en el archivo Robots.txt de Reddit

Antes tenía una forma compleja con bromas incluidas, pero recientemente se volvió simple y estricto
Actualmente solo contiene la directiva User-agent: *, Disallow: /, lo que significa que ningún bot debe extraer ninguna parte del sitio
Reddit afirmó que "cree en el internet abierto, pero no tolera el mal uso del contenido público"

Postura de Reddit

Recientemente han aumentado los casos de actores comerciales que extraen contenido de Reddit y afirman no estar sujetos a sus términos o políticas
Decir que se puede usar el contenido de Reddit para cualquier propósito escondiéndose detrás de robots.txt es un problema aún más grave
Harán todo lo posible para identificar y bloquear de forma proactiva a los actores maliciosos, pero se necesita hacer más para proteger las contribuciones de los usuarios de Reddit
En adelante planean actualizar las directrices de robots.txt para que sean lo más claras posible. Si se accede a Reddit con agentes automatizados, se deben cumplir sus términos y políticas y comunicarse con Reddit

El acceso a los datos de Reddit para fines no comerciales sigue siendo posible

Reddit dijo que "los actores de buena fe (investigadores, Internet Archive, etc.) podrán seguir accediendo al contenido de Reddit para usos no comerciales"
Señaló que selecciona de forma discrecional a actores de confianza para permitirles acceso a gran escala a los datos de Reddit
Según la guía de acceso a datos de Reddit, la "búsqueda" o la "publicidad en sitios web" se consideran "usos comerciales", por lo que no se pueden usar datos de Reddit sin permiso o sin pagar una tarifa

Implicaciones de la realidad en la que solo Google permite buscar en Reddit

En medio de una caída progresiva en la relevancia de la búsqueda de Google, una de las formas de seguir obteniendo buenos resultados es agregar "Reddit" a la consulta
Esto se debe a que durante casi 20 años usuarios reales han dejado consejos y recomendaciones en Reddit
Que ahora solo Google pueda guiar a los usuarios hacia esa información, y que eso sea resultado de un contrato de 60 millones de dólares relacionado con datos para entrenamiento de IA, es otro ejemplo de las consecuencias no previstas de extraer indiscriminadamente todo internet para fortalecer herramientas de IA generativa

Preocupaciones del CEO de Mojeek

Mojeek ha rastreado la web durante 20 años con una actitud respetuosa, y es un motor de búsqueda tradicional que no entrena IA ni rastrea a los usuarios
El acuerdo de Reddit con Google dificulta ofrecer una forma alternativa de buscar en la web
Esto forma parte de una tendencia más amplia que va matando y erosionando gradualmente la web
Lo ocurrido no ayuda a las empresas pequeñas

Opinión de GN⁺

La medida de Reddit busca proteger los derechos de quienes crean contenido y evitar su explotación comercial, pero podría terminar perjudicando la competencia en el mercado de motores de búsqueda
En particular, la situación en la que Google monopoliza los datos de Reddit para entrenamiento de IA despierta preocupación por un posible abuso de su poder de mercado
A largo plazo, parece urgente establecer normas y políticas que permitan una convivencia beneficiosa entre proveedores de contenido, motores de búsqueda y empresas de IA
Al mismo tiempo, resulta irónico que la búsqueda en Reddit destaque como alternativa ante la caída en la calidad de los buscadores. En el fondo, hace falta que los motores de búsqueda mejoren su relevancia y diversidad
También vale la pena seguir de cerca el crecimiento de nuevos motores de búsqueda como Kagi, que aprovechan parcialmente el índice de Google mientras buscan un enfoque propio

1 comentarios

GN⁺ 2024-07-25

Opiniones en Hacker News

El cambio en el robots.txt de Reddit es comprensible en el contexto de la IA, pero es anticompetitivo frente a otros motores de búsqueda
Esto podría convertirse en un precedente peligroso para internet
Muchos sitios podrían llegar a tener el poder de cobrar por la indexación
Podríamos terminar en un mundo donde haya que usar un motor de búsqueda específico para obtener respuestas de ciertos sitios
Desde una perspectiva de eficiencia, sería mejor que los sitios web arrendaran sus datos a los motores de búsqueda
En la práctica, hoy solo existen dos motores de búsqueda
Esta es una situación muy mala para Kagi, aunque también podría llevar al redescubrimiento de la web no comercial que antes existía como hobby
Según la ley estadounidense, cambiar el robots.txt o los términos de uso no es vinculante para los web scrapers
- Porque los datos son de acceso público
- Incluso si se muestra un banner de aceptación de términos al usar el sitio, eso no lo vuelve vinculante
- Solo pasa a ser vinculante si se restringe el acceso a los datos y se exige crear una cuenta para poder entrar
Reddit cambió su robots.txt hace un mes
- Durante 19 años usó un robots.txt muy permisivo
- Parece que lo cambió debido al abuso de sus datos
- Es posible que vuelva a abrirlo si los motores de búsqueda aceptan no usar los datos para entrenamiento
El problema de los bots de IA que hacen scraping de sitios para entrenar LLM se está agravando
- Ejemplo: el sitio thegreatestbooks.org recibió 1.2 millones de solicitudes de bots/automatización en 24 horas
Reddit se convirtió en el único motor de búsqueda que funciona en Google
No se entiende cómo la conducta de Reddit no sería anticompetitiva
- También debería ofrecer condiciones similares a los competidores de Google

Google se convierte en el único motor de búsqueda que funciona en Reddit gracias a un acuerdo de IA

Reacción del CEO de Mojeek

Tendencia creciente de bloqueo al scraping de datos por parte de empresas de IA

Contexto detrás de la medida de Reddit

Cambios en el archivo Robots.txt de Reddit

Postura de Reddit

El acceso a los datos de Reddit para fines no comerciales sigue siendo posible

Implicaciones de la realidad en la que solo Google permite buscar en Reddit

Preocupaciones del CEO de Mojeek

Opinión de GN⁺

Lecturas relacionadas

1 comentarios

Opiniones en Hacker News