1 puntos por GN⁺ 2026-01-19 | 1 comentarios | Compartir por WhatsApp
  • LWN.net está recibiendo un ataque DDoS a gran escala basado en scraping desde decenas de miles de direcciones, lo que está degradando el tiempo de respuesta del sitio
  • Jonathan Corbet menciona que se encuentra en la situación de tener que defender el sitio de scrapers relacionados con IA, y señala que no quiere poner barreras de acceso para los lectores, aunque podría ser necesario
  • En la comunidad se mencionó la posibilidad de que empresas comerciales de recolección de datos como Bright Data estén detrás del ataque, y varios usuarios reportaron aumentos similares de tráfico
  • Algunos están respondiendo con suscripciones RSS, generación de sitios estáticos y tarpits para LLM, y también se compartieron casos de ataques provenientes de IPs de grandes nubes como Azure, Google y AliCloud
  • La situación está siendo observada como un caso que evidencia el daño que la recolección de datos para IA causa a la estabilidad del ecosistema web y a la sostenibilidad de los creadores

Ataque masivo de scrapers contra LWN.net

  • Jonathan Corbet señaló que LWN.net está sufriendo el ataque de scrapers más grave que ha enfrentado hasta ahora

    • El ataque toma la forma de un DDoS con decenas de miles de direcciones IP, lo que está reduciendo la capacidad de respuesta del sitio
    • Comentó que “defender LWN de scrapers relacionados con IA es algo que no quiero hacer”, y añadió que no quiere imponer medidas que creen barreras de acceso para los lectores, aunque podrían volverse necesarias
  • Corbet dijo que no puede identificar con certeza al responsable, y mencionó la posibilidad de que Bright Data u otros competidores similares estén involucrados

    • A veces la carga de CPU es severa; ampliar los servidores es posible, pero expresó que “molesta tener que pagar para alimentar con artículos trabajados con esmero a gente así”

Reacciones y propuestas de la comunidad

  • Tristan Colgate-McFarlane señaló que los motores de búsqueda priorizan contenido robado, quitándole al autor original tráfico e ingresos publicitarios
  • Varios usuarios reportaron haber experimentado aumentos repentinos del tráfico de scrapers de IA
    • Light Owl comentó que el tráfico de su sitio aumentó 20 veces respecto de lo habitual
    • Ben Tasker explicó que está bloqueando algunas solicitudes con trampas para bots tipo tarpit para LLM
  • Algunos reportaron ataques desde IPs de grandes proveedores de nube como Azure, Google y AliCloud
    • Dec, mx alex tax1a y David Gerard compartieron sus propios casos de bloqueo de rangos IP de MSFT, Google y Ali

Debate sobre medidas de respuesta

  • Riku Voipio propuso usar un servidor exclusivo para suscriptores (subscriber.lwn.net), pero Corbet respondió que eso podría dificultar la llegada de nuevos suscriptores
  • Jani Nikula sugirió acceso exclusivo para usuarios registrados, pero Corbet comentó que ya existe el problema de bots que crean cuentas, por lo que la medida sería poco efectiva
  • trademark propuso fragmentar el contenido (sharding) para mejorar la eficiencia del caché, pero Corbet respondió que el caché no es el problema

Experiencias compartidas por otros operadores de sitios

  • Varios operadores reportaron patrones de ataque similares
    • Dec mencionó escaneos de vulnerabilidades PHP e intentos de inicio de sesión en wp-admin provenientes de IPs de MSFT
    • David Gerard explicó que en RationalWiki están respondiendo con verificación de cookies basada en JavaScript, aunque eso tiene el efecto secundario de bloquear incluso a Googlebot
    • Catherine (whitequark) comentó que solo con manejar las respuestas 404 ya está aliviando la carga del servidor

Percepción dentro de la comunidad

  • Algunos expresaron que “la web realmente se está rompiendo” y criticaron que el scraping para IA está acelerando el colapso del ecosistema web
  • Ayush Agarwal señaló que incluso dentro de la comunidad del kernel se debe reconocer la realidad de que el uso de LLM está perjudicando a sitios pequeños
  • Martin Roukala comentó con ironía que era “un problema causado por ser demasiado relevante”, pero Jani Nikula respondió que “a los scrapers eso no les importa”

1 comentarios

 
GN⁺ 2026-01-19
Opiniones de Hacker News
  • Me pregunto quién opera estos scrapers agresivos
    Si fueran laboratorios de IA, sería eficiente raspar muchísimos sitios al mismo tiempo para recolectar datos, pero no entiendo por qué sobrecargarían sitios populares asumiendo el riesgo reputacional

    • En casos así, muchas veces lo que falta es capacidad técnica o consideración
      Probablemente alguien probó por encima un scraper hecho por IA y lo desplegó de inmediato
      Además, como ocultan su identidad mediante proveedores de IP residenciales, tampoco hay riesgo reputacional
      Incluso si fueran grandes empresas como OpenAI o Anthropic, da la impresión de que a la gente igual no le importaría mucho
    • Al principio se sospechaba de grandes empresas estadounidenses como OpenAI o Anthropic, pero en realidad cada vez hay más casos de agentes de IA personales que raspan páginas web
      Con herramientas como Claude Cowork, los usuarios pueden crear sus propios crawlers; yo mismo terminé temporalmente bloqueado del sitio de la NASA por bombardear páginas 404 mientras raspaba contenido
      Al final, incluso los usuarios con ‘buenas intenciones’ están cambiando los patrones de tráfico web
      Se pueden ver estadísticas relacionadas en Cloudflare AI Insights
    • Mi sitio personal también queda inutilizado a veces por scrapers
      Salvo GPTBot de OpenAI, casi todos eran empresas pequeñas de las que nunca había oído hablar, y algunas ni siquiera mostraban User-Agent
      Son datos que ya están en Common Crawl, así que no entiendo por qué los vuelven a raspar
    • Seguramente alguien le pidió a Claude Code que “archivara todo LWN”
    • LWN incluye varios archivos de listas de correo, así que quizá esa sea la razón
  • Un gran problema es que la IA revende código open source como si lo hubiera escrito ella misma, eludiendo licencias
    Y no solo código: también está raspando otros tipos de contenido

    • Yo trabajé en un proyecto sobre juegos viejos de DOS, y Claude tomó mi código casi tal cual para reproducirlo con otra licencia
      Solo cambió un poco los nombres de variables, pero la estructura era la misma
      Si alguien hiciera eso en una empresa, lo despedirían de inmediato
      Pero cuando lo hace una IA, resulta raro que pretendan darle legitimidad moral diciendo que es “uso justo”
    • Al final, esto se está convirtiendo en una nueva forma de lavado de propiedad intelectual, como una versión moderna del lavado de dinero
    • De todos modos, nunca se ha dictaminado que eso esté legalmente permitido para la IA; es solo algo que afirma la industria de la IA
  • Este scraping quizá no sea solo recolección de datos para IA
    Los sitios de FOSS están bajo ataque constante, y no parece económicamente racional
    Tal vez incluso haya una intención de perturbar a la industria tecnológica o a la comunidad open source

    • Comunidades de modding de juegos bastante de nicho también han sufrido el mismo ataque
      Aunque eran proyectos sin fines de lucro, recibieron tráfico a nivel de DDOS y al final tuvieron que poner un muro de inicio de sesión
    • Probablemente muchos científicos de datos ni siquiera se fijan en con qué frecuencia los scrapers generados por IA golpean un sitio
    • Algunos foros que yo seguía terminaron volviéndose inaccesibles sin iniciar sesión
    • Yo también administro una pequeña wiki de juegos de navegador, y montones de bots —incluidos Claude y OpenAI— la raspan agresivamente
      La mayoría usaba IP residenciales, y da la impresión de que la raíz del problema es gente que piensa que “todo lo que hay en internet me pertenece”
    • Por suerte, si es una comunidad local basada en una región, uno puede bloquear de forma un poco más agresiva
  • Mi blog es tan poco interesante que no sufre problemas de scraping

    • Pero gracias a ese blog me enteré por primera vez de Git Brag. Está bastante interesante
    • Si puedes volver aburrido a un LLM, en realidad eso ya es todo un logro
  • Como dice la frase “un ataque DDOS con decenas de miles de direcciones involucradas”, el ataque está sumamente distribuido
    Incluso en sitios pequeños llega tráfico desde miles de IP

    • La mayoría de estos ataques se hace a través de servicios de proxy residencial
      BrightData es el ejemplo clásico: son más caros que las IP de datacenter, pero mucho más difíciles de bloquear
    • git.ardour.org también sufrió scraping inútil de git desde más de un millón de IP
    • La interpretación más benévola es que las empresas de IA desconocen recursos alternativos como CommonCrawl y por eso raspan directamente;
      la peor interpretación es que simplemente son desarrolladores antisociales que hicieron bots sin pensar
    • Me gustaría llamar a estos ataques “Distributed Intelligence Logic Denial Of Service (DILDOS)
  • Los proxies residenciales deberían considerarse prácticamente malware
    Habría que agregarlos a las definiciones de los antivirus y expulsarlos también de las tiendas de apps

  • Me pregunto si esto de verdad es scraping para entrenamiento de IA
    Si no se puede distinguir de un DDOS común, no creo que se pueda asegurar con certeza

    • Pero LWN lleva casi 30 años funcionando y, antes del crawling de IA, no había sufrido DDOS
  • Parece que por ahora el ataque ya se detuvo
    La página principal carga con normalidad

  • Para bloquear scrapers de blogs, yo sobrescribo métodos de JavaScript para vaciar el contenido de la página
    Si además ocultas elementos con Shadow DOM, se vuelve aún más difícil
    Eso sí, estos métodos causan problemas con herramientas de prueba como Playwright o Selenium y con la indexación de buscadores

    • Pero no estoy seguro de que ese enfoque realmente haya funcionado
    • También sería divertido hacer que la función genere datos basura para confundir a los bots
  • Alguien afirma que “las empresas de IA buscan monopolizar los datos dejando fuera de servicio con DDOS a sitios competidores

    • Pero eso suena más bien a teoría conspirativa
    • También podría verse como una especie de estrategia de ‘quitar la escalera’
    • Pero LWN ya es un sitio de newsletter antiguo, así que casi no tiene datos valiosos
      Raspar un sitio así no le daría gran cosa a una IA, y más bien parece una paranoia excesiva