Medios de noticias restringen el acceso de Internet Archive por temor al scraping con IA

(niemanlab.org)

2 puntos por GN⁺ 2026-02-15 | 1 comentarios | Compartir por WhatsApp

Varios grandes medios están bloqueando o limitando el acceso de Internet Archive para impedir la recolección de datos para entrenamiento de IA
The Guardian excluyó las páginas de artículos de su API y de Wayback Machine, dejando solo algunas páginas de inicio y de temas
The New York Times añadió archive.org_bot a su robots.txt desde finales de 2025 y bloqueó por completo el rastreo
241 sitios de noticias, incluido Gannett (USA Today Co.), bloquean al menos uno de los bots de Internet Archive; muchos también bloquean a Common Crawl, OpenAI y Google AI
Estas medidas son una respuesta al uso no autorizado de datos por parte de empresas de IA y, al mismo tiempo, evidencian el problema de equilibrio entre la preservación del registro digital y el acceso a la información

Restricciones de acceso a Internet Archive por parte de grandes medios

The Guardian restringió el acceso por preocupación de que empresas de IA pudieran recopilar contenido a través de Internet Archive
- Excluyó las páginas de sus artículos de la API y de la interfaz de URLs de artículos en Wayback Machine
- Las páginas regionales de inicio y de temas siguen siendo accesibles en Wayback Machine
- Robert Hahn mencionó que “las empresas de IA prefieren bases de datos estructuradas, y la API de Internet Archive podría convertirse en esa vía”
The Guardian aclaró que no aplicó un bloqueo total y que respeta la misión de democratización de la información de Internet Archive
- Sin embargo, está reevaluando su postura como parte de una revisión futura de sus políticas de gestión de bots

La respuesta de The New York Times y Financial Times

The New York Times añadió archive.org_bot a su robots.txt y aplicó un “bloqueo duro” al rastreador de Internet Archive
- Explicó que “Wayback Machine ofrece acceso ilimitado al contenido de Times a terceros, incluidas empresas de IA”
Financial Times bloqueó todos los bots relacionados, incluidos OpenAI, Anthropic, Perplexity e Internet Archive, para proteger el contenido de pago
- Como la mayoría de los artículos de FT están detrás de paywall, en Wayback Machine solo quedan los artículos públicos

El conflicto entre Reddit e Internet Archive

Reddit bloqueó el acceso de Internet Archive en agosto de 2025
- La razón fue que empresas de IA habían usado Wayback Machine para hacer scraping de datos de Reddit
- Reddit explicó que se trataba de “una medida de restricción para impedir actividades de empresas de IA que violan las políticas de la plataforma”
Reddit ya había firmado con Google un acuerdo de licenciamiento de datos para entrenamiento de IA

La postura y la respuesta de Internet Archive

Su fundador, Brewster Kahle, advirtió que “si las editoriales restringen bibliotecas como Internet Archive, disminuye el acceso público al registro histórico”
Kahle señaló en Mastodon que “algunas colecciones no permiten descargas masivas y se están usando límites de velocidad, filtrado y servicios de seguridad de Cloudflare”
En mayo de 2023, hubo un caso en el que una empresa de IA provocó una sobrecarga de servidores con solicitudes masivas, lo que llevó a una interrupción temporal de Internet Archive
- Después, esa empresa ofreció disculpas e hizo una donación

Análisis de datos: situación de los bloqueos en sitios de noticias de todo el mundo

Nieman Lab analizó la base de datos de 1,167 sitios de noticias de Ben Welsh para investigar el estado de los bloqueos relacionados con Internet Archive
- 241 sitios de noticias bloquean al menos uno de los bots de Internet Archive
- El 87% pertenece a medios de USA Today Co. (Gannett), que en 2025 añadieron archive.org_bot e ia_archiver-web.archive.org a sus robots.txt
- Algunos sitios de Gannett muestran en Wayback Machine el mensaje “Esta URL ha sido excluida”
Gannett dijo que “introdujo un nuevo protocolo para evitar la recolección no autorizada de datos” y reportó que durante septiembre de 2025 bloqueó 75 millones de bots de IA, de los cuales 70 millones provenían de OpenAI
Tres sitios del grupo Le Monde, incluidos Le Monde y Le Huffington Post, bloquean los tres rastreadores de Internet Archive

Se expande el bloqueo de rastreadores relacionados con IA

Además de Internet Archive, también se está extendiendo el bloqueo de grandes rastreadores de IA como Common Crawl, OpenAI y Google AI
- De los 241 sitios, 240 bloquean a Common Crawl, y 231 bloquean bots de OpenAI y Google AI
Se considera que Common Crawl tiene una fuerte vinculación con el desarrollo comercial de LLM

El problema del equilibrio entre preservación de internet y acceso a la información

Internet Archive es el proyecto de preservación web más completo de Estados Unidos, en un contexto donde muchas organizaciones de noticias no tienen capacidad propia de preservación
En diciembre de 2025, Poynter e Internet Archive anunciaron conjuntamente un programa de capacitación para la preservación de noticias locales
Hahn comentó que “Internet Archive opera de buena fe, pero se están produciendo efectos secundarios en los que esas buenas intenciones son mal utilizadas”

1 comentarios

GN⁺ 2026-02-15

Opiniones en Hacker News

Si un medio se niega a la preservación de registros independiente, creo que no se puede confiar en sus noticias
No me importa si permiten o no el scraping por IA, pero el contenido sí debe poder preservarse de forma independiente por terceros
- Pienso lo mismo. Un registro independiente es esencial
- Siento que no hay ni una sola fuente de noticias confiable. La mayoría empuja una agenda intencional, y ahora ni siquiera lo disimulan
Este problema también tiene un lado de compliance (cumplimiento normativo)
Regulaciones como SOC 2 o HIPAA exigen audit trail (rastro de auditoría) y conservación de evidencia
Pero he visto casos en los que documentos de seguridad o reportes de respuesta a incidentes desaparecen de la web, se corta la evidencia para la auditoría y la empresa termina reprobando la certificación
Al final, que la web se vuelva imposible de preservar ya no es solo una pérdida cultural, sino un riesgo operativo
- Busqué ejemplos y el primer resultado ya daba 404
  La página de AWS Compliance Reports es justo un caso así
- He pasado por varias auditorías SOC en una gran institución financiera, y había muchísimo choque entre departamentos al definir qué trabajo era crítico (critical)
  Hasta una simple tarea de depuración de logs terminaba generando discusiones sobre su importancia
- Al final, parece que las aseguradoras van a exigir guardar copias impresas de los documentos para evitar este tipo de problemas
  Con unas cuantas pérdidas grandes, seguro se vuelve realidad
- Empresas como Page Vault ya existen para resolver este problema
- Pero también hay sospechas de que quien escribió ese comentario parece una cuenta de herramienta de IA
  Últimamente hay muchas cuentas con ese patrón en HN y eso preocupa
En vez de que las empresas de IA raspen Internet Archive una sola vez, probablemente usarán residential proxies (proxys residenciales) para raspar cada sitio repetidamente
Al final, el daño lo absorben los usuarios comunes que no tienen recursos para scrapear toda la web
Yo siempre he soñado con una web donde el contenido se vuelva a hospedar basado en hashes — IPFS intentó eso, pero por desgracia fracasó
- En la práctica, las empresas de IA raspan la misma página una y otra vez. A mi sitio personal le siguen llegando solicitudes aunque no cambie nada
- IPFS era un proyecto que apuntaba a ese tipo de estructura
- El tráfico de proxies desde Vietnam y Corea está destrozando mi servidor. No puedo soportar 3500 solicitudes por segundo
- Las empresas de IA ya están usando redes de proxies a través de dispositivos o apps infectadas
- Creo que esos proxys no van a durar mucho. La presión comercial los va a reducir
  Pero si ya existe Common Crawl, me pregunto por qué las empresas de IA siguen haciendo crawling directo
La preocupación de Brewster por la preservación del registro histórico es real
Sin archivado separado, hasta los artículos de prensa están condenados a desaparecer
Por ejemplo, si a un editor de Wikipedia se le complica asegurar de forma estable un enlace a un artículo del Times, al final lo reemplazará con un artículo del WaPo
Eso sí que es una tragedia de los comunes
Estoy desarrollando un proyecto open source llamado Linkwarden
Es una herramienta para ayudar a los equipos a preservar URLs de forma estable sin depender de servicios externos
Guarda en varios formatos, como snapshots HTML, capturas de pantalla, PDF y vista de lector
Hay una versión con hosting en la nube (linkwarden.app) y una versión self-hosted (repositorio en GitHub)
- Linkwarden es excelente. Si lo usas junto con la extensión SingleFile, hasta puedes guardar páginas donde los scrapers están bloqueados
  Aunque en UX sí estaría bien tener una función para marcar como “leído/archivado”
- Me da curiosidad cómo funciona la integración con archive.org. Quisiera saber si solo envía la URL o si guarda directamente los datos obtenidos desde el cliente
Este problema también afecta al campo científico
Están aumentando los errores de metadatos, y motores de búsqueda científica como Google Scholar también se están desmoronando
Parece que algunas grandes editoriales científicas también están bloqueando bots de IA
- Además, la calidad del buscador de Google también se arruinó. Cada vez da más la sensación de que se estrecha nuestro campo de visión de la información
- Impedir el acceso a resultados científicos financiados con dinero público por bloquear a la IA es perjudicar el interés público
- Aun así, por ahora sigo resistiendo gracias a PubMed y a los operadores de búsqueda precisos
Medios como The Guardian y NYT están bloqueando a Internet Archive y Common Crawl
El 20% de todos los sitios de noticias bloquea a ambos
Por ejemplo, este artículo de realtor.com no puede archivarse en IA por un error 429
- IA deja de archivar cuando se le solicita, pero los scrapers maliciosos no
  Al final, se bloquea a los buenos y solo quedan los malos
- Piden evidencia de que The Guardian realmente bloquea a IA. Al revisarlo directamente, sí funcionó bien
- Creo que estaría bien un archivo crowdsourced basado en extensión de navegador
  Aunque el reto sería cómo filtrar páginas que incluyen información personal
Mi primera impresión es que las empresas de noticias están usando a la IA como pretexto por temas de copyright
- Como operador de un sitio web, más del 90% de mi tráfico es bots y spam
  Desde que las empresas de IA empezaron a usar proxys, bloqueé por completo todos los países que no eran objetivo
  Internet se convirtió en un ecosistema enfermo
Me pregunto si los medios serían más favorables a archivos privados para investigación académica y periodística
Tal vez sería posible si la condición fuera no ofrecerlos jamás para entrenamiento de modelos corporativos
- Ya ofrecen a las bibliotecas archivos con licencias pagadas. Sí es posible prevenir abusos
- La mayoría de los medios ya tiene contratos de syndication (distribución de contenidos)
  El problema es que los LLM están absorbiendo la cadena de valor y no están devolviendo valor a cambio
- Internamente seguro tienen archivos, pero el problema es la accesibilidad pública
Se me ocurrió la idea de un plugin de navegador crowdsourced que envíe automáticamente al archivo las páginas que el usuario vea
Solo registraría dominios permitidos por el usuario, y si fuera open source, también reduciría las preocupaciones de privacidad
No sería crawling automático, sino subir solo una parte de las vistas de usuarios reales
- SingleFile hace este tipo de archivado bastante bien
  Pero los sitios pueden ocultar información identificable del usuario, así que existe riesgo de exponer datos personales
- Otro problema es que resulta difícil garantizar que los datos enviados por el usuario no hayan sido manipulados
  Eso complica asegurar su confiabilidad si se van a usar como registro histórico

Medios de noticias restringen el acceso de Internet Archive por temor al scraping con IA

Restricciones de acceso a Internet Archive por parte de grandes medios

La respuesta de The New York Times y Financial Times

El conflicto entre Reddit e Internet Archive

La postura y la respuesta de Internet Archive

Análisis de datos: situación de los bloqueos en sitios de noticias de todo el mundo

Se expande el bloqueo de rastreadores relacionados con IA

El problema del equilibrio entre preservación de internet y acceso a la información

Lecturas relacionadas

1 comentarios

Opiniones en Hacker News