6 puntos por GN⁺ 2026-03-22 | 1 comentarios | Compartir por WhatsApp
  • Internet Archive, que ha preservado la web y los periódicos desde mediados de la década de 1990, almacena más de 1 billón de páginas web a través de Wayback Machine
  • En los últimos meses, grandes medios como The New York Times y The Guardian han comenzado a bloquear el rastreo del archivo por preocupaciones sobre el scraping para IA
  • Esta medida no es solo una limitación técnica, sino que provoca una ruptura en el registro histórico de la web
    • En muchos casos, Internet Archive es el único registro que permite verificar los cambios antes y después de que un artículo sea editado o eliminado
    • Si los medios bloquean el acceso, existe el riesgo de que desaparezca un registro web acumulado durante décadas
  • Aunque siguen en curso disputas legales sobre el entrenamiento de IA, se señala que bloquear a una institución sin fines de lucro dedicada a la preservación es una respuesta equivocada
    • Internet Archive no desarrolla sistemas comerciales de IA y cumple una función de interés público al preservar la historia
    • En el intento por controlar el acceso de la IA, también se puede terminar dañando la función de preservación documental de las bibliotecas

Legalidad del archivado y la búsqueda

  • Hacer que algo sea buscable se ha reconocido legalmente durante mucho tiempo como fair use
    • Los tribunales han considerado que copiar materiales originales es inevitable para construir índices de búsqueda
    • Incluso en el caso de Google, que copió libros completos para crear una base de datos de búsqueda, se reconoció un transformative purpose
  • Internet Archive también opera bajo esos mismos principios
    • Así como una biblioteca física preserva periódicos, el archivo preserva el registro histórico de la web
    • Investigadores y periodistas lo utilizan todos los días, y tan solo Wikipedia enlaza al archivo 2.6 millones de artículos de noticias en 249 idiomas
    • Innumerables blogueros, investigadores y periodistas dependen de él como una fuente estable y confiable
  • Los principios legales que protegen a los motores de búsqueda también deberían aplicarse de igual manera a los archivos y las bibliotecas

    • Incluso si los tribunales llegaran a imponer límites al entrenamiento de IA, la legalidad de la búsqueda y del archivado web ya está establecida

Crisis en la preservación del registro histórico

  • Internet Archive ha mantenido el registro histórico de la web durante unos 30 años
  • Si los principales medios empiezan a bloquearlo, es muy probable que los futuros investigadores pierdan un archivo enorme
  • Las disputas legales relacionadas con el entrenamiento de IA deben resolverse en los tribunales, pero se advierte que sacrificar el registro público sería un error grave e irreversible

1 comentarios

 
GN⁺ 2026-03-22
Opiniones en Hacker News
  • Como operador de un sitio, estoy peleando contra rastreadores de IA agresivos
    Me preocupa si mis reglas de bloqueo habrán terminado bloqueando también a Internet Archive
    Facebook ignora robots.txt y distribuye las solicitudes entre varias IP para saltarse el crawl delay
    Por eso puse reglas separadas en nginx específicamente para Facebook
    Hasta ahora, bloquear por hash JA3 ha sido lo más efectivo
    Pero me gustaría que existiera un wrapper para envolver hugin-net en nginx y así hacer fingerprinting de TCP
    Como no sé Rust, hasta me da miedo pedírselo a un LLM
    Aun así, este método tiene un problema de race condition. En la primera conexión no hay hash JA4, y como los rastreadores de IA solo hacen una solicitud por IP, no hay oportunidad de bloquear la segunda solicitud

    • Internet Archive tampoco respeta robots.txt
      En una entrada oficial de su blog dijeron que “el futuro del archivado web dependerá menos de robots.txt
      Otro grupo, Archiveteam, también ignora robots.txt
      Parece que hoy en día las grandes organizaciones de archivado casi no consideran la postura de los operadores de sitios
    • Técnicas de evasión como la aleatorización o suplantación de JA3 esquivan la detección con facilidad
    • Me pregunto si sería posible un mecanismo para evitar el bloqueo de bots que solo deje pasar solicitudes firmadas con una clave en lista blanca
      Así quizá se podría permitir únicamente al crawler de Internet Archive
  • Me interesa saber qué piensan quienes ya aceptaron que no se puede detener por completo a los scrapers de IA
    No falta mucho para que desaparezca la distinción entre un navegador humano y un agente LLM
    Pueden abrir sesiones GUI reales, navegar páginas con un navegador y reconstruir contenido tomando snapshots a nivel del sistema operativo
    Al final, la idea misma de bloquear el acceso en la web pública parece estar volviéndose obsoleta
    Entonces, ¿cómo reducimos la carga sobre cada host individual?
    ¿Aparecerá una institución central de archivado confiable, o surgirá alguna forma de castigar el ‘mal comportamiento’ de los LLM?

    • Ya deberíamos haber aprendido que en la legislación de internet casi no existe capacidad real de cumplimiento
    • Se puede publicar el hash del contenido y hacer que los datos reales se obtengan desde IPFS o BitTorrent para reducir la carga del sitio
      Si los navegadores lo soportaran, se podría lograr la eficiencia de un CDN sin centralización
    • Si simplemente no se publica en la web abierta, desaparece la preocupación por el scraping
      Quizá un modelo donde el CDN venda directamente los datos sea más eficiente
    • Ahora mismo miles de empresas de IA están raspando toda la web, pero cuando reviente la burbuja de la IA, al final solo quedarán unas pocas
      En ese momento bajará la demanda de scraping continuo
    • El verdadero problema es la carga de tráfico y el costo del ancho de banda
      Parece que se olvidaron las nociones básicas de ingeniería y contabilidad
  • Los medios sobreestiman el impacto que tuvo su contenido en el desarrollo de la IA
    Incluso si no hubieran existido, la calidad de los LLM no sería muy distinta

    • Solo con Wikipedia, Reddit y artículos académicos hay límites
      Al final hace falta texto diverso, como el de las notas periodísticas
    • Cuanto más se llene la web de contenido generado por IA, más sube el valor del texto escrito por humanos
      Tiene sentido una estrategia para impedir que las empresas de IA lo usen sin consentimiento
  • Ahora mismo estamos quemando la biblioteca por intentar castigar al incendiario
    El incendiario ya se fue

    • Pero en realidad, quizá el 90% de quienes visitan la biblioteca sean incendiarios
  • Por eso se creó archive.is
    En vez de tratar de rastrear a su fundador para castigarlo, ¿no habría que apoyarlo como un proyecto útil?

    • De acuerdo. Si archive.is desaparece, archive.org quedaría como monopolio
      archive.org acepta solicitudes de eliminación de los dueños del sitio, así que si compras un dominio viejo podrías borrar su historial pasado
    • Pero el fundador de archive.is tiene antecedentes de haber lanzado ataques DDoS contra un periodista
      No es alguien a quien haya que elogiar, considerando que arrastró a usuarios al ataque
  • Como alguien que antes construía sistemas anti-spam, creo que en el futuro incluso para acceder a sitios habrá un sistema de certificación tipo ‘licencia de taxi’
    Por ejemplo, si Internet Archive envía solicitudes HTTPS firmadas, el sitio podría verificar que son auténticas
    Eso va contra el espíritu del internet abierto, pero hace falta una forma de distinguir a los crawlers confiables

    • A los crawlers que no parecen humanos les exijo lo siguiente
      • que exista DNS inverso y que ese dominio tenga una página de políticas de comportamiento
      • que haya un registro TXT basado en IP que especifique quién accede, cuándo y con qué frecuencia
        Con esa información tomo decisiones automáticas de bloqueo
        Ya dejé escrito en mi blog que por defecto bloqueo solicitudes de Amazon
  • Creo que The New York Times es terrible. Por eso mismo, para el futuro, sin falta debe preservarse

    • Todos los artículos de opinión de los medios son al final propaganda
      Cada medio publica solo textos alineados con su ideología
    • Me pregunto por qué te parece tan malo. Yo no lo leo
  • La EFF es tibia respecto a la IA
    Aunque la IA está destruyendo internet y los empleos, no adopta una postura firme
    Si ves su lista de patrocinadores, tienen muchos patrocinadores corporativos, así que baja su credibilidad como organización por la libertad
    Organizaciones como OSI o EFF ya fueron cooptadas por las corporaciones y hasta resultan dañinas

  • Si Internet Archive tuviera un programa distribuido de crawlers con IP residenciales, participaría con gusto
    Claro, haría falta un mecanismo para evitar manipulación

    • Internet Archive no tiene uno, pero sí existe Archive Team Warrior
    • IA maneja todo de forma pública, y hasta respeta solicitudes de DMCA injustificadas
    • Si terminan TLS de su lado, es sencillo. Al final terminaría funcionando como un proxy residencial
  • Si vendes fertilizante y diésel juntos, es razonable asumir que eres un proveedor agrícola
    Pero si se lo vendes por camión a alguien que no es agricultor, también es natural sospechar