LWN está sufriendo el ataque de scrapers más grave de su historia
(social.kernel.org)- LWN.net está recibiendo un ataque DDoS a gran escala basado en scraping desde decenas de miles de direcciones, lo que está degradando el tiempo de respuesta del sitio
- Jonathan Corbet menciona que se encuentra en la situación de tener que defender el sitio de scrapers relacionados con IA, y señala que no quiere poner barreras de acceso para los lectores, aunque podría ser necesario
- En la comunidad se mencionó la posibilidad de que empresas comerciales de recolección de datos como Bright Data estén detrás del ataque, y varios usuarios reportaron aumentos similares de tráfico
- Algunos están respondiendo con suscripciones RSS, generación de sitios estáticos y tarpits para LLM, y también se compartieron casos de ataques provenientes de IPs de grandes nubes como Azure, Google y AliCloud
- La situación está siendo observada como un caso que evidencia el daño que la recolección de datos para IA causa a la estabilidad del ecosistema web y a la sostenibilidad de los creadores
Ataque masivo de scrapers contra LWN.net
-
Jonathan Corbet señaló que LWN.net está sufriendo el ataque de scrapers más grave que ha enfrentado hasta ahora
- El ataque toma la forma de un DDoS con decenas de miles de direcciones IP, lo que está reduciendo la capacidad de respuesta del sitio
- Comentó que “defender LWN de scrapers relacionados con IA es algo que no quiero hacer”, y añadió que no quiere imponer medidas que creen barreras de acceso para los lectores, aunque podrían volverse necesarias
-
Corbet dijo que no puede identificar con certeza al responsable, y mencionó la posibilidad de que Bright Data u otros competidores similares estén involucrados
- A veces la carga de CPU es severa; ampliar los servidores es posible, pero expresó que “molesta tener que pagar para alimentar con artículos trabajados con esmero a gente así”
Reacciones y propuestas de la comunidad
- Tristan Colgate-McFarlane señaló que los motores de búsqueda priorizan contenido robado, quitándole al autor original tráfico e ingresos publicitarios
- Varios usuarios reportaron haber experimentado aumentos repentinos del tráfico de scrapers de IA
- Light Owl comentó que el tráfico de su sitio aumentó 20 veces respecto de lo habitual
- Ben Tasker explicó que está bloqueando algunas solicitudes con trampas para bots tipo tarpit para LLM
- Algunos reportaron ataques desde IPs de grandes proveedores de nube como Azure, Google y AliCloud
- Dec, mx alex tax1a y David Gerard compartieron sus propios casos de bloqueo de rangos IP de MSFT, Google y Ali
Debate sobre medidas de respuesta
- Riku Voipio propuso usar un servidor exclusivo para suscriptores (
subscriber.lwn.net), pero Corbet respondió que eso podría dificultar la llegada de nuevos suscriptores - Jani Nikula sugirió acceso exclusivo para usuarios registrados, pero Corbet comentó que ya existe el problema de bots que crean cuentas, por lo que la medida sería poco efectiva
- trademark propuso fragmentar el contenido (sharding) para mejorar la eficiencia del caché, pero Corbet respondió que el caché no es el problema
Experiencias compartidas por otros operadores de sitios
- Varios operadores reportaron patrones de ataque similares
- Dec mencionó escaneos de vulnerabilidades PHP e intentos de inicio de sesión en
wp-adminprovenientes de IPs de MSFT - David Gerard explicó que en RationalWiki están respondiendo con verificación de cookies basada en JavaScript, aunque eso tiene el efecto secundario de bloquear incluso a Googlebot
- Catherine (whitequark) comentó que solo con manejar las respuestas 404 ya está aliviando la carga del servidor
- Dec mencionó escaneos de vulnerabilidades PHP e intentos de inicio de sesión en
Percepción dentro de la comunidad
- Algunos expresaron que “la web realmente se está rompiendo” y criticaron que el scraping para IA está acelerando el colapso del ecosistema web
- Ayush Agarwal señaló que incluso dentro de la comunidad del kernel se debe reconocer la realidad de que el uso de LLM está perjudicando a sitios pequeños
- Martin Roukala comentó con ironía que era “un problema causado por ser demasiado relevante”, pero Jani Nikula respondió que “a los scrapers eso no les importa”
1 comentarios
Opiniones de Hacker News
Me pregunto quién opera estos scrapers agresivos
Si fueran laboratorios de IA, sería eficiente raspar muchísimos sitios al mismo tiempo para recolectar datos, pero no entiendo por qué sobrecargarían sitios populares asumiendo el riesgo reputacional
Probablemente alguien probó por encima un scraper hecho por IA y lo desplegó de inmediato
Además, como ocultan su identidad mediante proveedores de IP residenciales, tampoco hay riesgo reputacional
Incluso si fueran grandes empresas como OpenAI o Anthropic, da la impresión de que a la gente igual no le importaría mucho
Con herramientas como Claude Cowork, los usuarios pueden crear sus propios crawlers; yo mismo terminé temporalmente bloqueado del sitio de la NASA por bombardear páginas 404 mientras raspaba contenido
Al final, incluso los usuarios con ‘buenas intenciones’ están cambiando los patrones de tráfico web
Se pueden ver estadísticas relacionadas en Cloudflare AI Insights
Salvo GPTBot de OpenAI, casi todos eran empresas pequeñas de las que nunca había oído hablar, y algunas ni siquiera mostraban User-Agent
Son datos que ya están en Common Crawl, así que no entiendo por qué los vuelven a raspar
Un gran problema es que la IA revende código open source como si lo hubiera escrito ella misma, eludiendo licencias
Y no solo código: también está raspando otros tipos de contenido
Solo cambió un poco los nombres de variables, pero la estructura era la misma
Si alguien hiciera eso en una empresa, lo despedirían de inmediato
Pero cuando lo hace una IA, resulta raro que pretendan darle legitimidad moral diciendo que es “uso justo”
Este scraping quizá no sea solo recolección de datos para IA
Los sitios de FOSS están bajo ataque constante, y no parece económicamente racional
Tal vez incluso haya una intención de perturbar a la industria tecnológica o a la comunidad open source
Aunque eran proyectos sin fines de lucro, recibieron tráfico a nivel de DDOS y al final tuvieron que poner un muro de inicio de sesión
La mayoría usaba IP residenciales, y da la impresión de que la raíz del problema es gente que piensa que “todo lo que hay en internet me pertenece”
Mi blog es tan poco interesante que no sufre problemas de scraping
Como dice la frase “un ataque DDOS con decenas de miles de direcciones involucradas”, el ataque está sumamente distribuido
Incluso en sitios pequeños llega tráfico desde miles de IP
BrightData es el ejemplo clásico: son más caros que las IP de datacenter, pero mucho más difíciles de bloquear
la peor interpretación es que simplemente son desarrolladores antisociales que hicieron bots sin pensar
Los proxies residenciales deberían considerarse prácticamente malware
Habría que agregarlos a las definiciones de los antivirus y expulsarlos también de las tiendas de apps
Me pregunto si esto de verdad es scraping para entrenamiento de IA
Si no se puede distinguir de un DDOS común, no creo que se pueda asegurar con certeza
Parece que por ahora el ataque ya se detuvo
La página principal carga con normalidad
Para bloquear scrapers de blogs, yo sobrescribo métodos de JavaScript para vaciar el contenido de la página
Si además ocultas elementos con Shadow DOM, se vuelve aún más difícil
Eso sí, estos métodos causan problemas con herramientas de prueba como Playwright o Selenium y con la indexación de buscadores
Alguien afirma que “las empresas de IA buscan monopolizar los datos dejando fuera de servicio con DDOS a sitios competidores”
Raspar un sitio así no le daría gran cosa a una IA, y más bien parece una paranoia excesiva