- Varios grandes medios están bloqueando o limitando el acceso de Internet Archive para impedir la recolección de datos para entrenamiento de IA
- The Guardian excluyó las páginas de artículos de su API y de Wayback Machine, dejando solo algunas páginas de inicio y de temas
- The New York Times añadió
archive.org_bot a su robots.txt desde finales de 2025 y bloqueó por completo el rastreo
- 241 sitios de noticias, incluido Gannett (USA Today Co.), bloquean al menos uno de los bots de Internet Archive; muchos también bloquean a Common Crawl, OpenAI y Google AI
- Estas medidas son una respuesta al uso no autorizado de datos por parte de empresas de IA y, al mismo tiempo, evidencian el problema de equilibrio entre la preservación del registro digital y el acceso a la información
Restricciones de acceso a Internet Archive por parte de grandes medios
- The Guardian restringió el acceso por preocupación de que empresas de IA pudieran recopilar contenido a través de Internet Archive
- Excluyó las páginas de sus artículos de la API y de la interfaz de URLs de artículos en Wayback Machine
- Las páginas regionales de inicio y de temas siguen siendo accesibles en Wayback Machine
- Robert Hahn mencionó que “las empresas de IA prefieren bases de datos estructuradas, y la API de Internet Archive podría convertirse en esa vía”
- The Guardian aclaró que no aplicó un bloqueo total y que respeta la misión de democratización de la información de Internet Archive
- Sin embargo, está reevaluando su postura como parte de una revisión futura de sus políticas de gestión de bots
La respuesta de The New York Times y Financial Times
- The New York Times añadió
archive.org_bot a su robots.txt y aplicó un “bloqueo duro” al rastreador de Internet Archive
- Explicó que “Wayback Machine ofrece acceso ilimitado al contenido de Times a terceros, incluidas empresas de IA”
- Financial Times bloqueó todos los bots relacionados, incluidos OpenAI, Anthropic, Perplexity e Internet Archive, para proteger el contenido de pago
- Como la mayoría de los artículos de FT están detrás de paywall, en Wayback Machine solo quedan los artículos públicos
El conflicto entre Reddit e Internet Archive
- Reddit bloqueó el acceso de Internet Archive en agosto de 2025
- La razón fue que empresas de IA habían usado Wayback Machine para hacer scraping de datos de Reddit
- Reddit explicó que se trataba de “una medida de restricción para impedir actividades de empresas de IA que violan las políticas de la plataforma”
- Reddit ya había firmado con Google un acuerdo de licenciamiento de datos para entrenamiento de IA
La postura y la respuesta de Internet Archive
- Su fundador, Brewster Kahle, advirtió que “si las editoriales restringen bibliotecas como Internet Archive, disminuye el acceso público al registro histórico”
- Kahle señaló en Mastodon que “algunas colecciones no permiten descargas masivas y se están usando límites de velocidad, filtrado y servicios de seguridad de Cloudflare”
- En mayo de 2023, hubo un caso en el que una empresa de IA provocó una sobrecarga de servidores con solicitudes masivas, lo que llevó a una interrupción temporal de Internet Archive
- Después, esa empresa ofreció disculpas e hizo una donación
Análisis de datos: situación de los bloqueos en sitios de noticias de todo el mundo
- Nieman Lab analizó la base de datos de 1,167 sitios de noticias de Ben Welsh para investigar el estado de los bloqueos relacionados con Internet Archive
- 241 sitios de noticias bloquean al menos uno de los bots de Internet Archive
- El 87% pertenece a medios de USA Today Co. (Gannett), que en 2025 añadieron
archive.org_bot e ia_archiver-web.archive.org a sus robots.txt
- Algunos sitios de Gannett muestran en Wayback Machine el mensaje “Esta URL ha sido excluida”
- Gannett dijo que “introdujo un nuevo protocolo para evitar la recolección no autorizada de datos” y reportó que durante septiembre de 2025 bloqueó 75 millones de bots de IA, de los cuales 70 millones provenían de OpenAI
- Tres sitios del grupo Le Monde, incluidos Le Monde y Le Huffington Post, bloquean los tres rastreadores de Internet Archive
Se expande el bloqueo de rastreadores relacionados con IA
- Además de Internet Archive, también se está extendiendo el bloqueo de grandes rastreadores de IA como Common Crawl, OpenAI y Google AI
- De los 241 sitios, 240 bloquean a Common Crawl, y 231 bloquean bots de OpenAI y Google AI
- Se considera que Common Crawl tiene una fuerte vinculación con el desarrollo comercial de LLM
El problema del equilibrio entre preservación de internet y acceso a la información
- Internet Archive es el proyecto de preservación web más completo de Estados Unidos, en un contexto donde muchas organizaciones de noticias no tienen capacidad propia de preservación
- En diciembre de 2025, Poynter e Internet Archive anunciaron conjuntamente un programa de capacitación para la preservación de noticias locales
- Hahn comentó que “Internet Archive opera de buena fe, pero se están produciendo efectos secundarios en los que esas buenas intenciones son mal utilizadas”
1 comentarios
Opiniones en Hacker News
No me importa si permiten o no el scraping por IA, pero el contenido sí debe poder preservarse de forma independiente por terceros
Regulaciones como SOC 2 o HIPAA exigen audit trail (rastro de auditoría) y conservación de evidencia
Pero he visto casos en los que documentos de seguridad o reportes de respuesta a incidentes desaparecen de la web, se corta la evidencia para la auditoría y la empresa termina reprobando la certificación
Al final, que la web se vuelva imposible de preservar ya no es solo una pérdida cultural, sino un riesgo operativo
La página de AWS Compliance Reports es justo un caso así
Hasta una simple tarea de depuración de logs terminaba generando discusiones sobre su importancia
Con unas cuantas pérdidas grandes, seguro se vuelve realidad
Últimamente hay muchas cuentas con ese patrón en HN y eso preocupa
Al final, el daño lo absorben los usuarios comunes que no tienen recursos para scrapear toda la web
Yo siempre he soñado con una web donde el contenido se vuelva a hospedar basado en hashes — IPFS intentó eso, pero por desgracia fracasó
Pero si ya existe Common Crawl, me pregunto por qué las empresas de IA siguen haciendo crawling directo
Sin archivado separado, hasta los artículos de prensa están condenados a desaparecer
Por ejemplo, si a un editor de Wikipedia se le complica asegurar de forma estable un enlace a un artículo del Times, al final lo reemplazará con un artículo del WaPo
Eso sí que es una tragedia de los comunes
Es una herramienta para ayudar a los equipos a preservar URLs de forma estable sin depender de servicios externos
Guarda en varios formatos, como snapshots HTML, capturas de pantalla, PDF y vista de lector
Hay una versión con hosting en la nube (linkwarden.app) y una versión self-hosted (repositorio en GitHub)
Aunque en UX sí estaría bien tener una función para marcar como “leído/archivado”
Están aumentando los errores de metadatos, y motores de búsqueda científica como Google Scholar también se están desmoronando
Parece que algunas grandes editoriales científicas también están bloqueando bots de IA
El 20% de todos los sitios de noticias bloquea a ambos
Por ejemplo, este artículo de realtor.com no puede archivarse en IA por un error 429
Al final, se bloquea a los buenos y solo quedan los malos
Aunque el reto sería cómo filtrar páginas que incluyen información personal
Desde que las empresas de IA empezaron a usar proxys, bloqueé por completo todos los países que no eran objetivo
Internet se convirtió en un ecosistema enfermo
Tal vez sería posible si la condición fuera no ofrecerlos jamás para entrenamiento de modelos corporativos
El problema es que los LLM están absorbiendo la cadena de valor y no están devolviendo valor a cambio
Solo registraría dominios permitidos por el usuario, y si fuera open source, también reduciría las preocupaciones de privacidad
No sería crawling automático, sino subir solo una parte de las vistas de usuarios reales
Pero los sitios pueden ocultar información identificable del usuario, así que existe riesgo de exponer datos personales
Eso complica asegurar su confiabilidad si se van a usar como registro histórico