2 puntos por GN⁺ 2026-02-15 | 1 comentarios | Compartir por WhatsApp
  • Varios grandes medios están bloqueando o limitando el acceso de Internet Archive para impedir la recolección de datos para entrenamiento de IA
  • The Guardian excluyó las páginas de artículos de su API y de Wayback Machine, dejando solo algunas páginas de inicio y de temas
  • The New York Times añadió archive.org_bot a su robots.txt desde finales de 2025 y bloqueó por completo el rastreo
  • 241 sitios de noticias, incluido Gannett (USA Today Co.), bloquean al menos uno de los bots de Internet Archive; muchos también bloquean a Common Crawl, OpenAI y Google AI
  • Estas medidas son una respuesta al uso no autorizado de datos por parte de empresas de IA y, al mismo tiempo, evidencian el problema de equilibrio entre la preservación del registro digital y el acceso a la información

Restricciones de acceso a Internet Archive por parte de grandes medios

  • The Guardian restringió el acceso por preocupación de que empresas de IA pudieran recopilar contenido a través de Internet Archive
    • Excluyó las páginas de sus artículos de la API y de la interfaz de URLs de artículos en Wayback Machine
    • Las páginas regionales de inicio y de temas siguen siendo accesibles en Wayback Machine
    • Robert Hahn mencionó que “las empresas de IA prefieren bases de datos estructuradas, y la API de Internet Archive podría convertirse en esa vía”
  • The Guardian aclaró que no aplicó un bloqueo total y que respeta la misión de democratización de la información de Internet Archive
    • Sin embargo, está reevaluando su postura como parte de una revisión futura de sus políticas de gestión de bots

La respuesta de The New York Times y Financial Times

  • The New York Times añadió archive.org_bot a su robots.txt y aplicó un “bloqueo duro” al rastreador de Internet Archive
    • Explicó que “Wayback Machine ofrece acceso ilimitado al contenido de Times a terceros, incluidas empresas de IA”
  • Financial Times bloqueó todos los bots relacionados, incluidos OpenAI, Anthropic, Perplexity e Internet Archive, para proteger el contenido de pago
    • Como la mayoría de los artículos de FT están detrás de paywall, en Wayback Machine solo quedan los artículos públicos

El conflicto entre Reddit e Internet Archive

  • Reddit bloqueó el acceso de Internet Archive en agosto de 2025
    • La razón fue que empresas de IA habían usado Wayback Machine para hacer scraping de datos de Reddit
    • Reddit explicó que se trataba de “una medida de restricción para impedir actividades de empresas de IA que violan las políticas de la plataforma”
  • Reddit ya había firmado con Google un acuerdo de licenciamiento de datos para entrenamiento de IA

La postura y la respuesta de Internet Archive

  • Su fundador, Brewster Kahle, advirtió que “si las editoriales restringen bibliotecas como Internet Archive, disminuye el acceso público al registro histórico
  • Kahle señaló en Mastodon que “algunas colecciones no permiten descargas masivas y se están usando límites de velocidad, filtrado y servicios de seguridad de Cloudflare
  • En mayo de 2023, hubo un caso en el que una empresa de IA provocó una sobrecarga de servidores con solicitudes masivas, lo que llevó a una interrupción temporal de Internet Archive
    • Después, esa empresa ofreció disculpas e hizo una donación

Análisis de datos: situación de los bloqueos en sitios de noticias de todo el mundo

  • Nieman Lab analizó la base de datos de 1,167 sitios de noticias de Ben Welsh para investigar el estado de los bloqueos relacionados con Internet Archive
    • 241 sitios de noticias bloquean al menos uno de los bots de Internet Archive
    • El 87% pertenece a medios de USA Today Co. (Gannett), que en 2025 añadieron archive.org_bot e ia_archiver-web.archive.org a sus robots.txt
    • Algunos sitios de Gannett muestran en Wayback Machine el mensaje “Esta URL ha sido excluida”
  • Gannett dijo que “introdujo un nuevo protocolo para evitar la recolección no autorizada de datos” y reportó que durante septiembre de 2025 bloqueó 75 millones de bots de IA, de los cuales 70 millones provenían de OpenAI
  • Tres sitios del grupo Le Monde, incluidos Le Monde y Le Huffington Post, bloquean los tres rastreadores de Internet Archive

Se expande el bloqueo de rastreadores relacionados con IA

  • Además de Internet Archive, también se está extendiendo el bloqueo de grandes rastreadores de IA como Common Crawl, OpenAI y Google AI
    • De los 241 sitios, 240 bloquean a Common Crawl, y 231 bloquean bots de OpenAI y Google AI
  • Se considera que Common Crawl tiene una fuerte vinculación con el desarrollo comercial de LLM

El problema del equilibrio entre preservación de internet y acceso a la información

  • Internet Archive es el proyecto de preservación web más completo de Estados Unidos, en un contexto donde muchas organizaciones de noticias no tienen capacidad propia de preservación
  • En diciembre de 2025, Poynter e Internet Archive anunciaron conjuntamente un programa de capacitación para la preservación de noticias locales
  • Hahn comentó que “Internet Archive opera de buena fe, pero se están produciendo efectos secundarios en los que esas buenas intenciones son mal utilizadas

1 comentarios

 
GN⁺ 2026-02-15
Opiniones en Hacker News
  • Si un medio se niega a la preservación de registros independiente, creo que no se puede confiar en sus noticias
    No me importa si permiten o no el scraping por IA, pero el contenido sí debe poder preservarse de forma independiente por terceros
    • Pienso lo mismo. Un registro independiente es esencial
    • Siento que no hay ni una sola fuente de noticias confiable. La mayoría empuja una agenda intencional, y ahora ni siquiera lo disimulan
  • Este problema también tiene un lado de compliance (cumplimiento normativo)
    Regulaciones como SOC 2 o HIPAA exigen audit trail (rastro de auditoría) y conservación de evidencia
    Pero he visto casos en los que documentos de seguridad o reportes de respuesta a incidentes desaparecen de la web, se corta la evidencia para la auditoría y la empresa termina reprobando la certificación
    Al final, que la web se vuelva imposible de preservar ya no es solo una pérdida cultural, sino un riesgo operativo
    • Busqué ejemplos y el primer resultado ya daba 404
      La página de AWS Compliance Reports es justo un caso así
    • He pasado por varias auditorías SOC en una gran institución financiera, y había muchísimo choque entre departamentos al definir qué trabajo era crítico (critical)
      Hasta una simple tarea de depuración de logs terminaba generando discusiones sobre su importancia
    • Al final, parece que las aseguradoras van a exigir guardar copias impresas de los documentos para evitar este tipo de problemas
      Con unas cuantas pérdidas grandes, seguro se vuelve realidad
    • Empresas como Page Vault ya existen para resolver este problema
    • Pero también hay sospechas de que quien escribió ese comentario parece una cuenta de herramienta de IA
      Últimamente hay muchas cuentas con ese patrón en HN y eso preocupa
  • En vez de que las empresas de IA raspen Internet Archive una sola vez, probablemente usarán residential proxies (proxys residenciales) para raspar cada sitio repetidamente
    Al final, el daño lo absorben los usuarios comunes que no tienen recursos para scrapear toda la web
    Yo siempre he soñado con una web donde el contenido se vuelva a hospedar basado en hashes — IPFS intentó eso, pero por desgracia fracasó
    • En la práctica, las empresas de IA raspan la misma página una y otra vez. A mi sitio personal le siguen llegando solicitudes aunque no cambie nada
    • IPFS era un proyecto que apuntaba a ese tipo de estructura
    • El tráfico de proxies desde Vietnam y Corea está destrozando mi servidor. No puedo soportar 3500 solicitudes por segundo
    • Las empresas de IA ya están usando redes de proxies a través de dispositivos o apps infectadas
    • Creo que esos proxys no van a durar mucho. La presión comercial los va a reducir
      Pero si ya existe Common Crawl, me pregunto por qué las empresas de IA siguen haciendo crawling directo
  • La preocupación de Brewster por la preservación del registro histórico es real
    Sin archivado separado, hasta los artículos de prensa están condenados a desaparecer
    Por ejemplo, si a un editor de Wikipedia se le complica asegurar de forma estable un enlace a un artículo del Times, al final lo reemplazará con un artículo del WaPo
    Eso sí que es una tragedia de los comunes
  • Estoy desarrollando un proyecto open source llamado Linkwarden
    Es una herramienta para ayudar a los equipos a preservar URLs de forma estable sin depender de servicios externos
    Guarda en varios formatos, como snapshots HTML, capturas de pantalla, PDF y vista de lector
    Hay una versión con hosting en la nube (linkwarden.app) y una versión self-hosted (repositorio en GitHub)
    • Linkwarden es excelente. Si lo usas junto con la extensión SingleFile, hasta puedes guardar páginas donde los scrapers están bloqueados
      Aunque en UX sí estaría bien tener una función para marcar como “leído/archivado”
    • Me da curiosidad cómo funciona la integración con archive.org. Quisiera saber si solo envía la URL o si guarda directamente los datos obtenidos desde el cliente
  • Este problema también afecta al campo científico
    Están aumentando los errores de metadatos, y motores de búsqueda científica como Google Scholar también se están desmoronando
    Parece que algunas grandes editoriales científicas también están bloqueando bots de IA
    • Además, la calidad del buscador de Google también se arruinó. Cada vez da más la sensación de que se estrecha nuestro campo de visión de la información
    • Impedir el acceso a resultados científicos financiados con dinero público por bloquear a la IA es perjudicar el interés público
    • Aun así, por ahora sigo resistiendo gracias a PubMed y a los operadores de búsqueda precisos
  • Medios como The Guardian y NYT están bloqueando a Internet Archive y Common Crawl
    El 20% de todos los sitios de noticias bloquea a ambos
    Por ejemplo, este artículo de realtor.com no puede archivarse en IA por un error 429
    • IA deja de archivar cuando se le solicita, pero los scrapers maliciosos no
      Al final, se bloquea a los buenos y solo quedan los malos
    • Piden evidencia de que The Guardian realmente bloquea a IA. Al revisarlo directamente, sí funcionó bien
    • Creo que estaría bien un archivo crowdsourced basado en extensión de navegador
      Aunque el reto sería cómo filtrar páginas que incluyen información personal
  • Mi primera impresión es que las empresas de noticias están usando a la IA como pretexto por temas de copyright
    • Como operador de un sitio web, más del 90% de mi tráfico es bots y spam
      Desde que las empresas de IA empezaron a usar proxys, bloqueé por completo todos los países que no eran objetivo
      Internet se convirtió en un ecosistema enfermo
  • Me pregunto si los medios serían más favorables a archivos privados para investigación académica y periodística
    Tal vez sería posible si la condición fuera no ofrecerlos jamás para entrenamiento de modelos corporativos
    • Ya ofrecen a las bibliotecas archivos con licencias pagadas. Sí es posible prevenir abusos
    • La mayoría de los medios ya tiene contratos de syndication (distribución de contenidos)
      El problema es que los LLM están absorbiendo la cadena de valor y no están devolviendo valor a cambio
    • Internamente seguro tienen archivos, pero el problema es la accesibilidad pública
  • Se me ocurrió la idea de un plugin de navegador crowdsourced que envíe automáticamente al archivo las páginas que el usuario vea
    Solo registraría dominios permitidos por el usuario, y si fuera open source, también reduciría las preocupaciones de privacidad
    No sería crawling automático, sino subir solo una parte de las vistas de usuarios reales
    • SingleFile hace este tipo de archivado bastante bien
      Pero los sitios pueden ocultar información identificable del usuario, así que existe riesgo de exponer datos personales
    • Otro problema es que resulta difícil garantizar que los datos enviados por el usuario no hayan sido manipulados
      Eso complica asegurar su confiabilidad si se van a usar como registro histórico