Por qué ya no se pueden mantener buenos servicios por culpa de los scrapers de IA

(blog.metabrainz.org)

1 puntos por GN⁺ 2026-01-14 | 1 comentarios | Compartir por WhatsApp

En los últimos tiempos, los recolectores de datos no autorizados de empresas de IA han estado sobrecargando los servidores de MetaBrainz
Ignoran las reglas de robots.txt y rastrean los datos de MusicBrainz página por página, un método ineficiente que tardaría cientos de años
La misma práctica se ha extendido a la API de ListenBrainz, por lo que se implementaron medidas como exigir tokens de autenticación y cerrar algunas API para proteger el servicio
LB Radio solo está disponible para usuarios con sesión iniciada, y las llamadas a la API también requieren el encabezado Authorization
Se explica que estas medidas son una respuesta necesaria para mantener el acceso de los usuarios legítimos

Problema de sobrecarga del servidor por los scrapers de IA

El equipo de MetaBrainz ha estado respondiendo en los últimos meses al rastreo no autorizado para recolectar datos con fines de entrenamiento de modelos de IA
- Algunas empresas de IA ignoran normas básicas de etiqueta en Internet, como robots.txt, y extraen datos sin permiso
- Acceden a los datos de MusicBrainz solicitándolos una página a la vez, una forma más ineficiente que una descarga completa y que genera carga en el servidor
Este enfoque tiene un nivel de ineficiencia tal que tomaría cientos de años, y como resultado termina dificultando el acceso a los usuarios normales

Medidas de protección para la API de ListenBrainz

Los scrapers de IA intentaron recolectar datos de varios endpoints de la API de ListenBrainz
Como resultado, se realizaron los siguientes cambios:
- La API /metadata/lookup (GET y POST) solo funciona con un token de Authorization
- Se eliminaron los endpoints mbid-mapping, mbid-mapping-release y mbid-mapping-explain de la API de ListenBrainz Labs
  - Esa API se ofrecía originalmente para depuración y más adelante será reemplazada por un endpoint para el nuevo mapper
- LB Radio solo está disponible para usuarios con sesión iniciada, y las llamadas a la API requieren el encabezado Authorization

Respuesta de emergencia para asegurar la estabilidad del servicio

MetaBrainz señaló que estas medidas fueron una decisión inevitable para evitar la sobrecarga del servicio y mantener su funcionamiento normal
También se disculpó por las modificaciones sin previo aviso que pudieron causar molestias a los usuarios, y adelantó que mejorará los mensajes de error una vez terminen los proyectos de fin de año

Reacción de la comunidad

En los comentarios continuó la discusión sobre el enfoque ineficiente de los scrapers de IA y la estructura de los spiders web automatizados
- Algunos usuarios señalaron “la incompetencia de los trabajadores de IA”
- Otros explicaron que “los rastreadores automatizados simplemente siguen enlaces y recolectan datos”

Significado general

La medida de MetaBrainz muestra el daño que la recolección de datos para IA está causando a los proyectos de datos abiertos
Para la sostenibilidad de las API públicas, se están volviendo inevitables el refuerzo de la autenticación y las restricciones de acceso

1 comentarios

GN⁺ 2026-01-14

Opiniones de Hacker News

MetaBrainz es realmente una base de datos de interés público excelente
Hace tiempo escribí una entrada sobre este tema en el blog de la EFF
Está bien que los bots de IA tomen datos públicos como los de MetaBrainz, pero el problema es que los raspan de una forma ineficiente como la actual
Al final, es un problema de falla de coordinación. MetaBrainz asume la buena fe de los bots, pero los bots creen que el sitio está ocultando los datos
Aunque se les diga “dejen de golpear la API y descarguen de una vez el archivo tar comprimido en gzip que está aquí”, no lo creen
Incluso podría funcionar mejor ofrecerlo como torrent, para que los bots compartan mejor los datos
- Yo también cerré mi sitio tvnfo.com por culpa de los scrapers de IA
  Lo tenía abierto desde 2016, pero el consumo de recursos se volvió demasiado grande, así que ahora solo funciona para patrocinadores
  Es un proyecto hobby de 60 dólares al mes y mantenerlo ya va muy justo. Si más adelante aumenta el apoyo, quizá pueda volver a abrirlo agregando una solución de defensa contra bots
  Pero me sorprendió descubrir que no soy el único pasando por esto. Al final, parece que internet va cada vez más hacia cerrarse
- Me pregunto si hay alguna forma de indicar en robots.txt “descarguen el archivo tar desde aquí”
  No sé si el estándar tiene algo así
- Si los bots usaran torrents, también se podría manipular la estadística de compartición
  Antes yo también inflaba mi ratio de subida para que no me expulsaran de trackers privados
- Que los bots traten a los sitios como una entidad hostil es un problema serio
  Ignorar la voluntad del dueño del sitio es un enfoque equivocado
- En realidad, la mayoría de los “scrapers de IA” son simples scripts de crawling recursivo
  No es que una IA real lea la página y tome decisiones; solo es código automatizado que sigue enlaces y raspa documentos
La IA está destruyendo el ecosistema web libre
Mi hosting web suspendió de repente mi cuenta por el aumento explosivo de tráfico de bots
Al final me mudé a otro host, pero un operador individual no tiene esperanza en una situación así
Las empresas de IA tienen recursos infinitos y no les importan los daños
Viéndolo con cinismo, esto hasta podría ser una estrategia intencional: eliminar los sitios gratuitos para que la gente termine obteniendo información solo a través de modelos de IA
- Los servicios de resúmenes con IA están quitándole más de la mitad del tráfico a la web independiente
  La viabilidad económica de compartir información se está derrumbando
  Al final, unas pocas empresas monopolizarán el valor y después empezará la enshittification
Administro el sitio web de la PTA de la escuela de mi hijo, y el bot de OpenAI estaba raspando aleatoriamente el calendario de eventos
Hizo solicitudes desde el año 1000 hasta el 3000
Solo se detuvo unas 4 horas después de que bloqueé el User-Agent
Yo opero un sitio web estático y una instancia de cgit en un VPS e2-micro de Google Cloud
En 160 días recibí más de 8.5 millones de solicitudes desde OpenAI y Claude
Por eso configuré lighttpd para devolver 403 si el User-Agent contiene claude|openai, y puse limitación de tasa con nftables
- Aun así, estos bots están entre los “más conscientes”
  El verdadero problema son las botnets que usan proxies residenciales. Entran fingiendo ser navegadores normales
- OpenAI publica una lista oficial de IPs de bots, pero Anthropic no
- Curiosamente, mi blog en GitHub no tiene nada de este scraping
  Me pregunto si Microsoft lo está bloqueando, o si mi blog simplemente está en un nivel que no le interesa a los bots
Cloudflare ahora ofrece un servicio de detección de scrapers de IA
Redirige a los bots detectados hacia páginas generadas por IA en un bucle infinito
- Pero para hacer eso, todo el tráfico tiene que pasar por Cloudflare
  Al final, se vuelve incómodo dejar que un tercero decida quién puede acceder a mi contenido
- Cloudflare suele causar problemas de acceso a usuarios de VPN y navegadores poco comunes
  Yo también tenía muchas quejas y al final lo quité
- No me parece adecuado como “servicio para agregar y quitar TLS”
- Como idea relacionada, está el proyecto Poison Fountain
- Si Cloudflare logra concentrar suficientes sitios, podría incluso cobrarle a las empresas de IA por acceso a la caché
El equipo de SQLite también pasó por algo parecido
Su creador, Richard Hipp, criticó esta “conducta egoísta”, diciendo que “simplemente podrían clonar todo el repositorio, pero en cambio raspan perjudicando a otros”
Véase esta publicación del foro
- Pero alguien respondió que llamarlo malicioso era una exageración
Con el tiempo, cada vez pienso más que todo el crawling debería centralizarse en canales públicos como Common Crawl
Hay que mantener la apertura y capacidad de scraping de la web mientras se reduce la carga sobre los servidores
Por ejemplo, se podría estandarizar algo como poner enlaces a dumps de datos con marca de tiempo bajo la ruta /well-known/
- MetaBrainz ya usa este enfoque: ofrece toda la base de datos como tarball
  Yo también la descargué en alrededor de una hora y luego resolví todo con consultas locales
  Pero la mayoría sigue sin usar dumps porque raspar sigue siendo más fácil
- Yo creo que hace falta una reforma del sistema de derechos de autor
  Propongo una estructura en la que, después de cierto período, los datos se donen a un “dataset nacional”, se usen para entrenamiento de IA y las ganancias se distribuyan a los titulares de derechos
  Así podrían beneficiarse los desarrolladores de IA, los titulares de derechos y el público
- Yo también hago algo de scraping pequeño con un script de Tampermonkey
  Uso IA para generar código y recopilar automáticamente cosas como listas de precios de VPS
  Antes incluso raspé todos los titulares de lowendtalk para crear un dataset para análisis con LLM
- Otra posibilidad sería crear un archivo estándar como /llms.txt, que entregue solo los datos de texto puro que necesita un LLM
  Se podrían eliminar URL, direcciones y números de teléfono, y dejar solo un marcado mínimo como <item> y <subitem>
  Aun así, es probable que muchos sitios terminen poniendo archivos vacíos que solo cumplan con la forma
- En realidad, esto no es un problema técnico sino un problema de estructura económica
  El gran capital está arruinando la web por ganancias de corto plazo
  Pero aun así creo que al final surgirá una adaptación y un equilibrio
Hoy en día no solo hay scrapers de IA, sino que el propio usuario hace scraping indirecto mediante solicitudes de resumen
Por ejemplo, Firefox ofrece vistas previas resumidas sin necesidad de hacer clic en el enlace
Imagen relacionada
- Esta función genera resúmenes con el modelo SmolLM2-360M, que corre localmente con llama.cpp (wllama)
  Al final, el navegador trae la página directamente y luego la resume, así que desde el punto de vista del sitio parece la misma solicitud
  Véase la explicación oficial de Mozilla
- El problema tiene tres partes
  1. el crawling poco ético de las empresas de IA
  2. las solicitudes de resumen basadas en agentes por parte de los usuarios
  3. que estos agentes son más ineficientes que los humanos, pero mucho más rápidos
- Pero los usuarios no fueron “entrenados” para eso; simplemente lo usan porque los LLM realmente funcionan muy bien
Últimamente los scrapers usan pools de IP residenciales para evitar la detección
- Me hace sospechar si los ISP que ofrecen esos pools de IP no habrán creado un nuevo modelo de negocio
- Además, ahora también hay muchos bots que ejecutan navegadores reales, así que incluso pasan los captchas de Cloudflare
  En una situación así, no sé cuánto tiempo más seguirán siendo efectivas las defensas

Por qué ya no se pueden mantener buenos servicios por culpa de los scrapers de IA

Problema de sobrecarga del servidor por los scrapers de IA

Medidas de protección para la API de ListenBrainz

Respuesta de emergencia para asegurar la estabilidad del servicio

Reacción de la comunidad

Significado general

Lecturas relacionadas

1 comentarios

Opiniones de Hacker News