Piden a NYT, The Atlantic y USA Today que mantengan Wayback Machine
(savethearchive.com)- New York Times, The Atlantic, USA Today y otros grandes medios están bloqueando la preservación de noticias en Wayback Machine, lo que ha generado llamados a que cesen esa práctica
- Los principales líderes de medios deben comprometerse públicamente a colaborar con Internet Archive para preservar todas las noticias en Wayback Machine
- Se plantea que 2026 será el primer año en 30 años en que, en el World Press Freedom Day, el trabajo de grandes medios no quedará preservado en Internet Archive
- Las preocupaciones por la IA citadas por los medios como razón para prohibirlo son hipotéticas, y en la era de la IA generativa la preservación independiente se vuelve más importante
- En un contexto de más censura, autoritarismo y amenazas de muerte contra periodistas, la preservación neutral por parte de un tercero ayuda a evitar que los reportajes desaparezcan
Contexto del bloqueo
- Se plantea que 2026 será el primer año en 30 años en que, en el World Press Freedom Day, el trabajo de grandes medios como New York Times, The Atlantic y USA Today no quedará preservado en la organización independiente sin fines de lucro Internet Archive
- New York Times exige desde febrero de este año a Internet Archive que Wayback Machine no preserve el trabajo de sus periodistas
- Según un reporte de Wired, USA Today publica reportajes sólidos apoyados en Wayback Machine, pero al mismo tiempo bloquea que esos mismos reportajes sean preservados allí
- Después de que más de 100 periodistas entregaran una carta en apoyo a la preservación periodística de Internet Archive, el CEO de The Atlantic fijó su postura, pero no prometió encontrar una solución
Preocupaciones por la IA y el papel de Wayback Machine
- Las preocupaciones por la IA que estos medios mencionan como razón para prohibir Wayback Machine se presentan como enteramente hipotéticas
- La IA generativa no puede ser una razón para ocultar el periodismo hecho con principios a los verificadores de datos; por el contrario, refuerza la necesidad de Wayback Machine
- Se considera que las empresas de IA pueden ignorar las reglas y extraer noticias de sitios de editores sin consentimiento, como hacen sitios de archivo imitadores, y que hay muy pocas formas de impedirlo
- Wayback Machine usa la palabra “archive”, pero no es lo mismo que servicios que intentan parecerse a Internet Archive ni es un servicio temporal
- Wayback Machine ha preservado noticias desde hace más tiempo que la edad de muchas de las personas que firman la petición
- Wayback Machine no es un servicio para saltarse el paywall, sino un bien público independiente y sin fines de lucro dedicado a la preservación periodística
- La razón por la que Internet Archive no actúa como gran parte de Silicon Valley es su integrity, y eso es lo que hace que Internet Archive sea confiable y apto para operar a largo plazo
Preservación del periodismo y carácter público
- La libertad de prensa no incluye solo la libertad de escribir artículos, sino también la libertad de que ese trabajo sea leído y recordado a través de generaciones
- A medida que aumentan la censura y el autoritarismo, también crece la presión para modificar reportajes o borrar hechos
- Los periodistas reciben con frecuencia amenazas de muerte, y se afirma que varios periodistas murieron en el último año a causa de su trabajo
- En este contexto, se debe fortalecer la preservación neutral por parte de terceros de Wayback Machine para que el trabajo de los periodistas no desaparezca
- Los reportajes deben seguir siendo accesibles no solo para colegas y familiares, sino también para la mirada de la historia
- Wayback Machine ayuda a que los medios de noticias en línea resistan mejor la presión de borrar artículos que incomodan a personas con poder
- Si un medio realmente hace periodismo, apoyar esta alianza también favorece su propio interés
Exigencias y materiales de referencia
- Los principales líderes de medios deben comprometerse públicamente a colaborar con Internet Archive para preservar todas las noticias en Wayback Machine
- No debería ser tan difícil encontrar una forma de preservar las noticias de manera independiente
-
Materiales de referencia
1 comentarios
Comentarios en Hacker News
Me pregunto si esto pasó porque archive.org respeta robots.txt y esos sitios bloquearon la indexación de sus rastreadores
Es decepcionante que hacer “lo correcto” al respetar robots.txt termine convirtiéndose en la carga de tener que responder a peticiones, mientras que quienes ignoran esa misma instrucción salen ganando
No es solo una decisión moral; se parece más a la única decisión razonable, y la razón por la que “los otros salen ganando” es que la obligación, casi como una promesa, es demasiado débil o los incentivos para demandar a actores pequeños o poco visibles son bajos
User-agent: archive.org_bot/Disallow: /Si no hubieran podido raspar noticias recientes, todos los modelos grandes de lenguaje serían mucho menos útiles
Básicamente te empuja a ser pirata, porque el pirata es libre
El problema parece ser que, si Archive.org puede acceder al contenido del NYT y de otros medios, la gente podría recolectar masivamente contenido del NYT a través de Archive.org, aunque no pueda rasparlo a gran escala directamente desde NYT
Si Archive.org bloqueara a los scrapers, quizá los medios tomarían otra decisión y permitirían el acceso a Archive.org
Idea: permitir el scraping, pero que no se pueda hacer público durante 1 año
Como el Financial Times se ofrece en el servicio NewsBank con un escrow de 30 días, parece que ellos también podrían usar un escrow
Poniéndome el sombrero de conspiración, sospecho que parte de la razón es que les gusta poder editar en secreto y fingir que versiones anteriores de los artículos nunca existieron
¿Gente que nunca ha visto anuncios de esas organizaciones ni ha pagado una suscripción va a pelear para exigirles que dejen una puerta trasera abierta?
Conozco un poco esta discusión del lado de Times y Atlantic. Tal vez me gane críticas, pero le pregunté a un alto cargo del primero qué opinaba sobre los típicos métodos para saltarse el paywall que se comentan en HN, y me sorprendió mucho que nunca hubiera oído hablar de eso
Al final estuvo de acuerdo en que un equilibrio razonable sería publicarlo tras 30 días y, si en el futuro fuera necesario, poner límites de acceso como no permitir más de N consultas al día. Hasta donde sé, Internet Archive no se ha acercado activamente sobre este tema, y hay que presionar no solo a las editoriales, sino también a Internet Archive para que negocie
Aun así, las revistas querrán controlar su back catalog. Ya hoy venden acceso a bibliotecas y universidades y, como ha salido muchas veces en HN, algunas organizaciones de noticias quizá quieran cambiar o actualizar artículos sin un “historial de revisiones” público
Me hace preguntarme si en algún lugar hay un triste dashboard de métricas digitales y si la adoración de esos números no terminó reemplazando el espíritu original del periodismo
Siguen actuando como si vivieran en un mundo donde los datos y la información son escasos y ellos fueran la única fuente de verdad. Ahora está invertido: no hay una única verdad de referencia, pero sí abundan los datos y la información, y en esa abundancia también hay datos falsos y mentiras. El periodismo de investigación que hacen NYT y Atlantic en sus mejores días aporta valor al mundo, pero aunque los periodistas quieren que sea accesible, las instituciones intentan ocultar y aislar ese trabajo. Idealmente, todos los niños podrían aprender inglés con NYT y Atlantic, crecer con esos medios de registro y ver el mundo a través de ellos, pero el modelo actual no lo permite. Quizá encajaría mejor una mezcla de patrocinio y una fundación al estilo Wikimedia. Los lectores que aman la institución y la misión pagan lo que quieran y reciben beneficios según el monto; las contribuciones entran a un fondo, se invierten y sus rendimientos se asignan en parte al presupuesto operativo. En un mundo rico en información, creo que el periodismo clásico difícilmente sobrevivirá sin un enfoque basado en patrocinio
Con demasiada frecuencia han informado selectivamente detalles y citas, o han publicado como hechos cosas de fuentes poco confiables que luego resultaron completamente falsas. En este último caso retiran el artículo en silencio, así que la mayoría de los lectores sigue creyendo la mentira. Tal vez por eso tampoco quieren que se archive. Casi prefiero que se publique un post pequeño de blog. Puede ser sesgado o poco confiable, pero tiene pensamiento original, apoya a una persona y quizá no tenga anuncios. Claro, que aquí suban tantos blogs obvios de LLM ya es otro problema
Estoy esperando esto: (https://news.ycombinator.com/item?id=48070516)
Necesitamos un archivo de internet verificable criptográficamente. Quizá ni siquiera sea posible sin algo como web3 o nostr, gpg/pgp
Los timestamps se pueden verificar criptográficamente si se montan sobre Bitcoin, como hace opentimestamps
Firmé, pero hay que ser honestos
Si hicieras un gráfico de pastel con la cantidad de veces que leí un artículo viejo del NYT en Wayback Machine y la cantidad de veces que un comentario top de HN puso un link a un artículo relativamente reciente y todos fueron a visitarlo para saltarse el paywall, daría un círculo completo