1 puntos por GN⁺ 2026-01-14 | 1 comentarios | Compartir por WhatsApp
  • En los últimos tiempos, los recolectores de datos no autorizados de empresas de IA han estado sobrecargando los servidores de MetaBrainz
  • Ignoran las reglas de robots.txt y rastrean los datos de MusicBrainz página por página, un método ineficiente que tardaría cientos de años
  • La misma práctica se ha extendido a la API de ListenBrainz, por lo que se implementaron medidas como exigir tokens de autenticación y cerrar algunas API para proteger el servicio
  • LB Radio solo está disponible para usuarios con sesión iniciada, y las llamadas a la API también requieren el encabezado Authorization
  • Se explica que estas medidas son una respuesta necesaria para mantener el acceso de los usuarios legítimos

Problema de sobrecarga del servidor por los scrapers de IA

  • El equipo de MetaBrainz ha estado respondiendo en los últimos meses al rastreo no autorizado para recolectar datos con fines de entrenamiento de modelos de IA
    • Algunas empresas de IA ignoran normas básicas de etiqueta en Internet, como robots.txt, y extraen datos sin permiso
    • Acceden a los datos de MusicBrainz solicitándolos una página a la vez, una forma más ineficiente que una descarga completa y que genera carga en el servidor
  • Este enfoque tiene un nivel de ineficiencia tal que tomaría cientos de años, y como resultado termina dificultando el acceso a los usuarios normales

Medidas de protección para la API de ListenBrainz

  • Los scrapers de IA intentaron recolectar datos de varios endpoints de la API de ListenBrainz
  • Como resultado, se realizaron los siguientes cambios:
    • La API /metadata/lookup (GET y POST) solo funciona con un token de Authorization
    • Se eliminaron los endpoints mbid-mapping, mbid-mapping-release y mbid-mapping-explain de la API de ListenBrainz Labs
      • Esa API se ofrecía originalmente para depuración y más adelante será reemplazada por un endpoint para el nuevo mapper
    • LB Radio solo está disponible para usuarios con sesión iniciada, y las llamadas a la API requieren el encabezado Authorization

Respuesta de emergencia para asegurar la estabilidad del servicio

  • MetaBrainz señaló que estas medidas fueron una decisión inevitable para evitar la sobrecarga del servicio y mantener su funcionamiento normal
  • También se disculpó por las modificaciones sin previo aviso que pudieron causar molestias a los usuarios, y adelantó que mejorará los mensajes de error una vez terminen los proyectos de fin de año

Reacción de la comunidad

  • En los comentarios continuó la discusión sobre el enfoque ineficiente de los scrapers de IA y la estructura de los spiders web automatizados
    • Algunos usuarios señalaron “la incompetencia de los trabajadores de IA”
    • Otros explicaron que “los rastreadores automatizados simplemente siguen enlaces y recolectan datos”

Significado general

  • La medida de MetaBrainz muestra el daño que la recolección de datos para IA está causando a los proyectos de datos abiertos
  • Para la sostenibilidad de las API públicas, se están volviendo inevitables el refuerzo de la autenticación y las restricciones de acceso

1 comentarios

 
GN⁺ 2026-01-14
Opiniones de Hacker News
  • MetaBrainz es realmente una base de datos de interés público excelente
    Hace tiempo escribí una entrada sobre este tema en el blog de la EFF
    Está bien que los bots de IA tomen datos públicos como los de MetaBrainz, pero el problema es que los raspan de una forma ineficiente como la actual
    Al final, es un problema de falla de coordinación. MetaBrainz asume la buena fe de los bots, pero los bots creen que el sitio está ocultando los datos
    Aunque se les diga “dejen de golpear la API y descarguen de una vez el archivo tar comprimido en gzip que está aquí”, no lo creen
    Incluso podría funcionar mejor ofrecerlo como torrent, para que los bots compartan mejor los datos

    • Yo también cerré mi sitio tvnfo.com por culpa de los scrapers de IA
      Lo tenía abierto desde 2016, pero el consumo de recursos se volvió demasiado grande, así que ahora solo funciona para patrocinadores
      Es un proyecto hobby de 60 dólares al mes y mantenerlo ya va muy justo. Si más adelante aumenta el apoyo, quizá pueda volver a abrirlo agregando una solución de defensa contra bots
      Pero me sorprendió descubrir que no soy el único pasando por esto. Al final, parece que internet va cada vez más hacia cerrarse
    • Me pregunto si hay alguna forma de indicar en robots.txt “descarguen el archivo tar desde aquí”
      No sé si el estándar tiene algo así
    • Si los bots usaran torrents, también se podría manipular la estadística de compartición
      Antes yo también inflaba mi ratio de subida para que no me expulsaran de trackers privados
    • Que los bots traten a los sitios como una entidad hostil es un problema serio
      Ignorar la voluntad del dueño del sitio es un enfoque equivocado
    • En realidad, la mayoría de los “scrapers de IA” son simples scripts de crawling recursivo
      No es que una IA real lea la página y tome decisiones; solo es código automatizado que sigue enlaces y raspa documentos
  • La IA está destruyendo el ecosistema web libre
    Mi hosting web suspendió de repente mi cuenta por el aumento explosivo de tráfico de bots
    Al final me mudé a otro host, pero un operador individual no tiene esperanza en una situación así
    Las empresas de IA tienen recursos infinitos y no les importan los daños
    Viéndolo con cinismo, esto hasta podría ser una estrategia intencional: eliminar los sitios gratuitos para que la gente termine obteniendo información solo a través de modelos de IA

    • Los servicios de resúmenes con IA están quitándole más de la mitad del tráfico a la web independiente
      La viabilidad económica de compartir información se está derrumbando
      Al final, unas pocas empresas monopolizarán el valor y después empezará la enshittification
  • Administro el sitio web de la PTA de la escuela de mi hijo, y el bot de OpenAI estaba raspando aleatoriamente el calendario de eventos
    Hizo solicitudes desde el año 1000 hasta el 3000
    Solo se detuvo unas 4 horas después de que bloqueé el User-Agent

  • Yo opero un sitio web estático y una instancia de cgit en un VPS e2-micro de Google Cloud
    En 160 días recibí más de 8.5 millones de solicitudes desde OpenAI y Claude
    Por eso configuré lighttpd para devolver 403 si el User-Agent contiene claude|openai, y puse limitación de tasa con nftables

    • Aun así, estos bots están entre los “más conscientes”
      El verdadero problema son las botnets que usan proxies residenciales. Entran fingiendo ser navegadores normales
    • OpenAI publica una lista oficial de IPs de bots, pero Anthropic no
    • Curiosamente, mi blog en GitHub no tiene nada de este scraping
      Me pregunto si Microsoft lo está bloqueando, o si mi blog simplemente está en un nivel que no le interesa a los bots
  • Cloudflare ahora ofrece un servicio de detección de scrapers de IA
    Redirige a los bots detectados hacia páginas generadas por IA en un bucle infinito

    • Pero para hacer eso, todo el tráfico tiene que pasar por Cloudflare
      Al final, se vuelve incómodo dejar que un tercero decida quién puede acceder a mi contenido
    • Cloudflare suele causar problemas de acceso a usuarios de VPN y navegadores poco comunes
      Yo también tenía muchas quejas y al final lo quité
    • No me parece adecuado como “servicio para agregar y quitar TLS”
    • Como idea relacionada, está el proyecto Poison Fountain
    • Si Cloudflare logra concentrar suficientes sitios, podría incluso cobrarle a las empresas de IA por acceso a la caché
  • El equipo de SQLite también pasó por algo parecido
    Su creador, Richard Hipp, criticó esta “conducta egoísta”, diciendo que “simplemente podrían clonar todo el repositorio, pero en cambio raspan perjudicando a otros”
    Véase esta publicación del foro

    • Pero alguien respondió que llamarlo malicioso era una exageración
  • Con el tiempo, cada vez pienso más que todo el crawling debería centralizarse en canales públicos como Common Crawl
    Hay que mantener la apertura y capacidad de scraping de la web mientras se reduce la carga sobre los servidores
    Por ejemplo, se podría estandarizar algo como poner enlaces a dumps de datos con marca de tiempo bajo la ruta /well-known/

    • MetaBrainz ya usa este enfoque: ofrece toda la base de datos como tarball
      Yo también la descargué en alrededor de una hora y luego resolví todo con consultas locales
      Pero la mayoría sigue sin usar dumps porque raspar sigue siendo más fácil
    • Yo creo que hace falta una reforma del sistema de derechos de autor
      Propongo una estructura en la que, después de cierto período, los datos se donen a un “dataset nacional”, se usen para entrenamiento de IA y las ganancias se distribuyan a los titulares de derechos
      Así podrían beneficiarse los desarrolladores de IA, los titulares de derechos y el público
    • Yo también hago algo de scraping pequeño con un script de Tampermonkey
      Uso IA para generar código y recopilar automáticamente cosas como listas de precios de VPS
      Antes incluso raspé todos los titulares de lowendtalk para crear un dataset para análisis con LLM
    • Otra posibilidad sería crear un archivo estándar como /llms.txt, que entregue solo los datos de texto puro que necesita un LLM
      Se podrían eliminar URL, direcciones y números de teléfono, y dejar solo un marcado mínimo como <item> y <subitem>
      Aun así, es probable que muchos sitios terminen poniendo archivos vacíos que solo cumplan con la forma
    • En realidad, esto no es un problema técnico sino un problema de estructura económica
      El gran capital está arruinando la web por ganancias de corto plazo
      Pero aun así creo que al final surgirá una adaptación y un equilibrio
  • Hoy en día no solo hay scrapers de IA, sino que el propio usuario hace scraping indirecto mediante solicitudes de resumen
    Por ejemplo, Firefox ofrece vistas previas resumidas sin necesidad de hacer clic en el enlace
    Imagen relacionada

    • Esta función genera resúmenes con el modelo SmolLM2-360M, que corre localmente con llama.cpp (wllama)
      Al final, el navegador trae la página directamente y luego la resume, así que desde el punto de vista del sitio parece la misma solicitud
      Véase la explicación oficial de Mozilla
    • El problema tiene tres partes
      1. el crawling poco ético de las empresas de IA
      2. las solicitudes de resumen basadas en agentes por parte de los usuarios
      3. que estos agentes son más ineficientes que los humanos, pero mucho más rápidos
    • Pero los usuarios no fueron “entrenados” para eso; simplemente lo usan porque los LLM realmente funcionan muy bien
  • Últimamente los scrapers usan pools de IP residenciales para evitar la detección

    • Me hace sospechar si los ISP que ofrecen esos pools de IP no habrán creado un nuevo modelo de negocio
    • Además, ahora también hay muchos bots que ejecutan navegadores reales, así que incluso pasan los captchas de Cloudflare
      En una situación así, no sé cuánto tiempo más seguirán siendo efectivas las defensas