Bloquear Internet Archive no detendrá a la IA, pero borrará el registro histórico de la web

(eff.org)

6 puntos por GN⁺ 2026-03-22 | 1 comentarios | Compartir por WhatsApp

Internet Archive, que ha preservado la web y los periódicos desde mediados de la década de 1990, almacena más de 1 billón de páginas web a través de Wayback Machine
En los últimos meses, grandes medios como The New York Times y The Guardian han comenzado a bloquear el rastreo del archivo por preocupaciones sobre el scraping para IA
Esta medida no es solo una limitación técnica, sino que provoca una ruptura en el registro histórico de la web
- En muchos casos, Internet Archive es el único registro que permite verificar los cambios antes y después de que un artículo sea editado o eliminado
- Si los medios bloquean el acceso, existe el riesgo de que desaparezca un registro web acumulado durante décadas
Aunque siguen en curso disputas legales sobre el entrenamiento de IA, se señala que bloquear a una institución sin fines de lucro dedicada a la preservación es una respuesta equivocada
- Internet Archive no desarrolla sistemas comerciales de IA y cumple una función de interés público al preservar la historia
- En el intento por controlar el acceso de la IA, también se puede terminar dañando la función de preservación documental de las bibliotecas

Legalidad del archivado y la búsqueda

Hacer que algo sea buscable se ha reconocido legalmente durante mucho tiempo como fair use
- Los tribunales han considerado que copiar materiales originales es inevitable para construir índices de búsqueda
- Incluso en el caso de Google, que copió libros completos para crear una base de datos de búsqueda, se reconoció un transformative purpose
Internet Archive también opera bajo esos mismos principios
- Así como una biblioteca física preserva periódicos, el archivo preserva el registro histórico de la web
- Investigadores y periodistas lo utilizan todos los días, y tan solo Wikipedia enlaza al archivo 2.6 millones de artículos de noticias en 249 idiomas
- Innumerables blogueros, investigadores y periodistas dependen de él como una fuente estable y confiable
Los principios legales que protegen a los motores de búsqueda también deberían aplicarse de igual manera a los archivos y las bibliotecas
- Incluso si los tribunales llegaran a imponer límites al entrenamiento de IA, la legalidad de la búsqueda y del archivado web ya está establecida

Crisis en la preservación del registro histórico

Internet Archive ha mantenido el registro histórico de la web durante unos 30 años
Si los principales medios empiezan a bloquearlo, es muy probable que los futuros investigadores pierdan un archivo enorme
Las disputas legales relacionadas con el entrenamiento de IA deben resolverse en los tribunales, pero se advierte que sacrificar el registro público sería un error grave e irreversible

1 comentarios

GN⁺ 2026-03-22

Opiniones en Hacker News

Como operador de un sitio, estoy peleando contra rastreadores de IA agresivos
Me preocupa si mis reglas de bloqueo habrán terminado bloqueando también a Internet Archive
Facebook ignora robots.txt y distribuye las solicitudes entre varias IP para saltarse el crawl delay
Por eso puse reglas separadas en nginx específicamente para Facebook
Hasta ahora, bloquear por hash JA3 ha sido lo más efectivo
Pero me gustaría que existiera un wrapper para envolver hugin-net en nginx y así hacer fingerprinting de TCP
Como no sé Rust, hasta me da miedo pedírselo a un LLM
Aun así, este método tiene un problema de race condition. En la primera conexión no hay hash JA4, y como los rastreadores de IA solo hacen una solicitud por IP, no hay oportunidad de bloquear la segunda solicitud
- Internet Archive tampoco respeta robots.txt
  En una entrada oficial de su blog dijeron que “el futuro del archivado web dependerá menos de robots.txt”
  Otro grupo, Archiveteam, también ignora robots.txt
  Parece que hoy en día las grandes organizaciones de archivado casi no consideran la postura de los operadores de sitios
- Técnicas de evasión como la aleatorización o suplantación de JA3 esquivan la detección con facilidad
- Me pregunto si sería posible un mecanismo para evitar el bloqueo de bots que solo deje pasar solicitudes firmadas con una clave en lista blanca
  Así quizá se podría permitir únicamente al crawler de Internet Archive
Me interesa saber qué piensan quienes ya aceptaron que no se puede detener por completo a los scrapers de IA
No falta mucho para que desaparezca la distinción entre un navegador humano y un agente LLM
Pueden abrir sesiones GUI reales, navegar páginas con un navegador y reconstruir contenido tomando snapshots a nivel del sistema operativo
Al final, la idea misma de bloquear el acceso en la web pública parece estar volviéndose obsoleta
Entonces, ¿cómo reducimos la carga sobre cada host individual?
¿Aparecerá una institución central de archivado confiable, o surgirá alguna forma de castigar el ‘mal comportamiento’ de los LLM?
- Ya deberíamos haber aprendido que en la legislación de internet casi no existe capacidad real de cumplimiento
- Se puede publicar el hash del contenido y hacer que los datos reales se obtengan desde IPFS o BitTorrent para reducir la carga del sitio
  Si los navegadores lo soportaran, se podría lograr la eficiencia de un CDN sin centralización
- Si simplemente no se publica en la web abierta, desaparece la preocupación por el scraping
  Quizá un modelo donde el CDN venda directamente los datos sea más eficiente
- Ahora mismo miles de empresas de IA están raspando toda la web, pero cuando reviente la burbuja de la IA, al final solo quedarán unas pocas
  En ese momento bajará la demanda de scraping continuo
- El verdadero problema es la carga de tráfico y el costo del ancho de banda
  Parece que se olvidaron las nociones básicas de ingeniería y contabilidad
Los medios sobreestiman el impacto que tuvo su contenido en el desarrollo de la IA
Incluso si no hubieran existido, la calidad de los LLM no sería muy distinta
- Solo con Wikipedia, Reddit y artículos académicos hay límites
  Al final hace falta texto diverso, como el de las notas periodísticas
- Cuanto más se llene la web de contenido generado por IA, más sube el valor del texto escrito por humanos
  Tiene sentido una estrategia para impedir que las empresas de IA lo usen sin consentimiento
Ahora mismo estamos quemando la biblioteca por intentar castigar al incendiario
El incendiario ya se fue
- Pero en realidad, quizá el 90% de quienes visitan la biblioteca sean incendiarios
Por eso se creó archive.is
En vez de tratar de rastrear a su fundador para castigarlo, ¿no habría que apoyarlo como un proyecto útil?
- De acuerdo. Si archive.is desaparece, archive.org quedaría como monopolio
  archive.org acepta solicitudes de eliminación de los dueños del sitio, así que si compras un dominio viejo podrías borrar su historial pasado
- Pero el fundador de archive.is tiene antecedentes de haber lanzado ataques DDoS contra un periodista
  No es alguien a quien haya que elogiar, considerando que arrastró a usuarios al ataque
Como alguien que antes construía sistemas anti-spam, creo que en el futuro incluso para acceder a sitios habrá un sistema de certificación tipo ‘licencia de taxi’
Por ejemplo, si Internet Archive envía solicitudes HTTPS firmadas, el sitio podría verificar que son auténticas
Eso va contra el espíritu del internet abierto, pero hace falta una forma de distinguir a los crawlers confiables
- A los crawlers que no parecen humanos les exijo lo siguiente
  - que exista DNS inverso y que ese dominio tenga una página de políticas de comportamiento
  - que haya un registro TXT basado en IP que especifique quién accede, cuándo y con qué frecuencia
    Con esa información tomo decisiones automáticas de bloqueo
    Ya dejé escrito en mi blog que por defecto bloqueo solicitudes de Amazon
Creo que The New York Times es terrible. Por eso mismo, para el futuro, sin falta debe preservarse
- Todos los artículos de opinión de los medios son al final propaganda
  Cada medio publica solo textos alineados con su ideología
- Me pregunto por qué te parece tan malo. Yo no lo leo
La EFF es tibia respecto a la IA
Aunque la IA está destruyendo internet y los empleos, no adopta una postura firme
Si ves su lista de patrocinadores, tienen muchos patrocinadores corporativos, así que baja su credibilidad como organización por la libertad
Organizaciones como OSI o EFF ya fueron cooptadas por las corporaciones y hasta resultan dañinas
Si Internet Archive tuviera un programa distribuido de crawlers con IP residenciales, participaría con gusto
Claro, haría falta un mecanismo para evitar manipulación
- Internet Archive no tiene uno, pero sí existe Archive Team Warrior
- IA maneja todo de forma pública, y hasta respeta solicitudes de DMCA injustificadas
- Si terminan TLS de su lado, es sencillo. Al final terminaría funcionando como un proxy residencial
Si vendes fertilizante y diésel juntos, es razonable asumir que eres un proveedor agrícola
Pero si se lo vendes por camión a alguien que no es agricultor, también es natural sospechar

Bloquear Internet Archive no detendrá a la IA, pero borrará el registro histórico de la web

Legalidad del archivado y la búsqueda

Los principios legales que protegen a los motores de búsqueda también deberían aplicarse de igual manera a los archivos y las bibliotecas

Crisis en la preservación del registro histórico

Lecturas relacionadas

1 comentarios

Opiniones en Hacker News