- En los últimos tiempos, los recolectores de datos no autorizados de empresas de IA han estado sobrecargando los servidores de MetaBrainz
- Ignoran las reglas de robots.txt y rastrean los datos de MusicBrainz página por página, un método ineficiente que tardaría cientos de años
- La misma práctica se ha extendido a la API de ListenBrainz, por lo que se implementaron medidas como exigir tokens de autenticación y cerrar algunas API para proteger el servicio
- LB Radio solo está disponible para usuarios con sesión iniciada, y las llamadas a la API también requieren el encabezado Authorization
- Se explica que estas medidas son una respuesta necesaria para mantener el acceso de los usuarios legítimos
Problema de sobrecarga del servidor por los scrapers de IA
- El equipo de MetaBrainz ha estado respondiendo en los últimos meses al rastreo no autorizado para recolectar datos con fines de entrenamiento de modelos de IA
- Algunas empresas de IA ignoran normas básicas de etiqueta en Internet, como robots.txt, y extraen datos sin permiso
- Acceden a los datos de MusicBrainz solicitándolos una página a la vez, una forma más ineficiente que una descarga completa y que genera carga en el servidor
- Este enfoque tiene un nivel de ineficiencia tal que tomaría cientos de años, y como resultado termina dificultando el acceso a los usuarios normales
Medidas de protección para la API de ListenBrainz
- Los scrapers de IA intentaron recolectar datos de varios endpoints de la API de ListenBrainz
- Como resultado, se realizaron los siguientes cambios:
- La API
/metadata/lookup (GET y POST) solo funciona con un token de Authorization
- Se eliminaron los endpoints
mbid-mapping, mbid-mapping-release y mbid-mapping-explain de la API de ListenBrainz Labs
- Esa API se ofrecía originalmente para depuración y más adelante será reemplazada por un endpoint para el nuevo mapper
- LB Radio solo está disponible para usuarios con sesión iniciada, y las llamadas a la API requieren el encabezado Authorization
Respuesta de emergencia para asegurar la estabilidad del servicio
- MetaBrainz señaló que estas medidas fueron una decisión inevitable para evitar la sobrecarga del servicio y mantener su funcionamiento normal
- También se disculpó por las modificaciones sin previo aviso que pudieron causar molestias a los usuarios, y adelantó que mejorará los mensajes de error una vez terminen los proyectos de fin de año
Reacción de la comunidad
- En los comentarios continuó la discusión sobre el enfoque ineficiente de los scrapers de IA y la estructura de los spiders web automatizados
- Algunos usuarios señalaron “la incompetencia de los trabajadores de IA”
- Otros explicaron que “los rastreadores automatizados simplemente siguen enlaces y recolectan datos”
Significado general
- La medida de MetaBrainz muestra el daño que la recolección de datos para IA está causando a los proyectos de datos abiertos
- Para la sostenibilidad de las API públicas, se están volviendo inevitables el refuerzo de la autenticación y las restricciones de acceso
1 comentarios
Opiniones de Hacker News
MetaBrainz es realmente una base de datos de interés público excelente
Hace tiempo escribí una entrada sobre este tema en el blog de la EFF
Está bien que los bots de IA tomen datos públicos como los de MetaBrainz, pero el problema es que los raspan de una forma ineficiente como la actual
Al final, es un problema de falla de coordinación. MetaBrainz asume la buena fe de los bots, pero los bots creen que el sitio está ocultando los datos
Aunque se les diga “dejen de golpear la API y descarguen de una vez el archivo tar comprimido en gzip que está aquí”, no lo creen
Incluso podría funcionar mejor ofrecerlo como torrent, para que los bots compartan mejor los datos
Lo tenía abierto desde 2016, pero el consumo de recursos se volvió demasiado grande, así que ahora solo funciona para patrocinadores
Es un proyecto hobby de 60 dólares al mes y mantenerlo ya va muy justo. Si más adelante aumenta el apoyo, quizá pueda volver a abrirlo agregando una solución de defensa contra bots
Pero me sorprendió descubrir que no soy el único pasando por esto. Al final, parece que internet va cada vez más hacia cerrarse
robots.txt“descarguen el archivo tar desde aquí”No sé si el estándar tiene algo así
Antes yo también inflaba mi ratio de subida para que no me expulsaran de trackers privados
Ignorar la voluntad del dueño del sitio es un enfoque equivocado
No es que una IA real lea la página y tome decisiones; solo es código automatizado que sigue enlaces y raspa documentos
La IA está destruyendo el ecosistema web libre
Mi hosting web suspendió de repente mi cuenta por el aumento explosivo de tráfico de bots
Al final me mudé a otro host, pero un operador individual no tiene esperanza en una situación así
Las empresas de IA tienen recursos infinitos y no les importan los daños
Viéndolo con cinismo, esto hasta podría ser una estrategia intencional: eliminar los sitios gratuitos para que la gente termine obteniendo información solo a través de modelos de IA
La viabilidad económica de compartir información se está derrumbando
Al final, unas pocas empresas monopolizarán el valor y después empezará la enshittification
Administro el sitio web de la PTA de la escuela de mi hijo, y el bot de OpenAI estaba raspando aleatoriamente el calendario de eventos
Hizo solicitudes desde el año 1000 hasta el 3000
Solo se detuvo unas 4 horas después de que bloqueé el User-Agent
Yo opero un sitio web estático y una instancia de cgit en un VPS e2-micro de Google Cloud
En 160 días recibí más de 8.5 millones de solicitudes desde OpenAI y Claude
Por eso configuré lighttpd para devolver 403 si el User-Agent contiene
claude|openai, y puse limitación de tasa con nftablesEl verdadero problema son las botnets que usan proxies residenciales. Entran fingiendo ser navegadores normales
Me pregunto si Microsoft lo está bloqueando, o si mi blog simplemente está en un nivel que no le interesa a los bots
Cloudflare ahora ofrece un servicio de detección de scrapers de IA
Redirige a los bots detectados hacia páginas generadas por IA en un bucle infinito
Al final, se vuelve incómodo dejar que un tercero decida quién puede acceder a mi contenido
Yo también tenía muchas quejas y al final lo quité
El equipo de SQLite también pasó por algo parecido
Su creador, Richard Hipp, criticó esta “conducta egoísta”, diciendo que “simplemente podrían clonar todo el repositorio, pero en cambio raspan perjudicando a otros”
Véase esta publicación del foro
Con el tiempo, cada vez pienso más que todo el crawling debería centralizarse en canales públicos como Common Crawl
Hay que mantener la apertura y capacidad de scraping de la web mientras se reduce la carga sobre los servidores
Por ejemplo, se podría estandarizar algo como poner enlaces a dumps de datos con marca de tiempo bajo la ruta
/well-known/Yo también la descargué en alrededor de una hora y luego resolví todo con consultas locales
Pero la mayoría sigue sin usar dumps porque raspar sigue siendo más fácil
Propongo una estructura en la que, después de cierto período, los datos se donen a un “dataset nacional”, se usen para entrenamiento de IA y las ganancias se distribuyan a los titulares de derechos
Así podrían beneficiarse los desarrolladores de IA, los titulares de derechos y el público
Uso IA para generar código y recopilar automáticamente cosas como listas de precios de VPS
Antes incluso raspé todos los titulares de lowendtalk para crear un dataset para análisis con LLM
/llms.txt, que entregue solo los datos de texto puro que necesita un LLMSe podrían eliminar URL, direcciones y números de teléfono, y dejar solo un marcado mínimo como
<item>y<subitem>Aun así, es probable que muchos sitios terminen poniendo archivos vacíos que solo cumplan con la forma
El gran capital está arruinando la web por ganancias de corto plazo
Pero aun así creo que al final surgirá una adaptación y un equilibrio
Hoy en día no solo hay scrapers de IA, sino que el propio usuario hace scraping indirecto mediante solicitudes de resumen
Por ejemplo, Firefox ofrece vistas previas resumidas sin necesidad de hacer clic en el enlace
Imagen relacionada
Al final, el navegador trae la página directamente y luego la resume, así que desde el punto de vista del sitio parece la misma solicitud
Véase la explicación oficial de Mozilla
Últimamente los scrapers usan pools de IP residenciales para evitar la detección
En una situación así, no sé cuánto tiempo más seguirán siendo efectivas las defensas