1 puntos por GN⁺ 1 시간 전 | 1 comentarios | Compartir por WhatsApp
  • New York Times, The Atlantic, USA Today y otros grandes medios están bloqueando la preservación de noticias en Wayback Machine, lo que ha generado llamados a que cesen esa práctica
  • Los principales líderes de medios deben comprometerse públicamente a colaborar con Internet Archive para preservar todas las noticias en Wayback Machine
  • Se plantea que 2026 será el primer año en 30 años en que, en el World Press Freedom Day, el trabajo de grandes medios no quedará preservado en Internet Archive
  • Las preocupaciones por la IA citadas por los medios como razón para prohibirlo son hipotéticas, y en la era de la IA generativa la preservación independiente se vuelve más importante
  • En un contexto de más censura, autoritarismo y amenazas de muerte contra periodistas, la preservación neutral por parte de un tercero ayuda a evitar que los reportajes desaparezcan

Contexto del bloqueo

  • Se plantea que 2026 será el primer año en 30 años en que, en el World Press Freedom Day, el trabajo de grandes medios como New York Times, The Atlantic y USA Today no quedará preservado en la organización independiente sin fines de lucro Internet Archive
  • New York Times exige desde febrero de este año a Internet Archive que Wayback Machine no preserve el trabajo de sus periodistas
  • Según un reporte de Wired, USA Today publica reportajes sólidos apoyados en Wayback Machine, pero al mismo tiempo bloquea que esos mismos reportajes sean preservados allí
  • Después de que más de 100 periodistas entregaran una carta en apoyo a la preservación periodística de Internet Archive, el CEO de The Atlantic fijó su postura, pero no prometió encontrar una solución

Preocupaciones por la IA y el papel de Wayback Machine

  • Las preocupaciones por la IA que estos medios mencionan como razón para prohibir Wayback Machine se presentan como enteramente hipotéticas
  • La IA generativa no puede ser una razón para ocultar el periodismo hecho con principios a los verificadores de datos; por el contrario, refuerza la necesidad de Wayback Machine
  • Se considera que las empresas de IA pueden ignorar las reglas y extraer noticias de sitios de editores sin consentimiento, como hacen sitios de archivo imitadores, y que hay muy pocas formas de impedirlo
  • Wayback Machine usa la palabra “archive”, pero no es lo mismo que servicios que intentan parecerse a Internet Archive ni es un servicio temporal
  • Wayback Machine ha preservado noticias desde hace más tiempo que la edad de muchas de las personas que firman la petición
  • Wayback Machine no es un servicio para saltarse el paywall, sino un bien público independiente y sin fines de lucro dedicado a la preservación periodística
  • La razón por la que Internet Archive no actúa como gran parte de Silicon Valley es su integrity, y eso es lo que hace que Internet Archive sea confiable y apto para operar a largo plazo

Preservación del periodismo y carácter público

  • La libertad de prensa no incluye solo la libertad de escribir artículos, sino también la libertad de que ese trabajo sea leído y recordado a través de generaciones
  • A medida que aumentan la censura y el autoritarismo, también crece la presión para modificar reportajes o borrar hechos
  • Los periodistas reciben con frecuencia amenazas de muerte, y se afirma que varios periodistas murieron en el último año a causa de su trabajo
  • En este contexto, se debe fortalecer la preservación neutral por parte de terceros de Wayback Machine para que el trabajo de los periodistas no desaparezca
  • Los reportajes deben seguir siendo accesibles no solo para colegas y familiares, sino también para la mirada de la historia
  • Wayback Machine ayuda a que los medios de noticias en línea resistan mejor la presión de borrar artículos que incomodan a personas con poder
  • Si un medio realmente hace periodismo, apoyar esta alianza también favorece su propio interés

Exigencias y materiales de referencia

  • Los principales líderes de medios deben comprometerse públicamente a colaborar con Internet Archive para preservar todas las noticias en Wayback Machine
  • No debería ser tan difícil encontrar una forma de preservar las noticias de manera independiente
  • Materiales de referencia

1 comentarios

 
GN⁺ 1 시간 전
Comentarios en Hacker News
  • Me pregunto si esto pasó porque archive.org respeta robots.txt y esos sitios bloquearon la indexación de sus rastreadores
    Es decepcionante que hacer “lo correcto” al respetar robots.txt termine convirtiéndose en la carga de tener que responder a peticiones, mientras que quienes ignoran esa misma instrucción salen ganando

    • Si un crawler muy conocido como archive.org ignora robots.txt, es mucho más probable que reciba demandas u otras presiones
      No es solo una decisión moral; se parece más a la única decisión razonable, y la razón por la que “los otros salen ganando” es que la obligación, casi como una promesa, es demasiado débil o los incentivos para demandar a actores pequeños o poco visibles son bajos
    • Sí. El robots.txt de nytimes.com tiene un fragmento así: User-agent: archive.org_bot / Disallow: /
    • La razón es que quieren evitar que las empresas de IA roben contenido, pero si Internet Archive lo proxyea todo por ellos, no hay forma de impedirlo
      Si no hubieran podido raspar noticias recientes, todos los modelos grandes de lenguaje serían mucho menos útiles
    • No, archive.org no respeta robots.txt. Hay que contactarlos directamente y pedir que no incluyan tu sitio: https://blog.archive.org/2017/04/17/robots-txt-meant-for-sea...
    • Es la misma estupidez que creó el DRM
      Básicamente te empuja a ser pirata, porque el pirata es libre
  • El problema parece ser que, si Archive.org puede acceder al contenido del NYT y de otros medios, la gente podría recolectar masivamente contenido del NYT a través de Archive.org, aunque no pueda rasparlo a gran escala directamente desde NYT
    Si Archive.org bloqueara a los scrapers, quizá los medios tomarían otra decisión y permitirían el acceso a Archive.org

  • Idea: permitir el scraping, pero que no se pueda hacer público durante 1 año

    • También habría que crear un fondo común para litigios para obligar al Archive a devolver algo a los crawlers de LLM
  • Como el Financial Times se ofrece en el servicio NewsBank con un escrow de 30 días, parece que ellos también podrían usar un escrow

  • Poniéndome el sombrero de conspiración, sospecho que parte de la razón es que les gusta poder editar en secreto y fingir que versiones anteriores de los artículos nunca existieron

  • ¿Gente que nunca ha visto anuncios de esas organizaciones ni ha pagado una suscripción va a pelear para exigirles que dejen una puerta trasera abierta?

  • Conozco un poco esta discusión del lado de Times y Atlantic. Tal vez me gane críticas, pero le pregunté a un alto cargo del primero qué opinaba sobre los típicos métodos para saltarse el paywall que se comentan en HN, y me sorprendió mucho que nunca hubiera oído hablar de eso
    Al final estuvo de acuerdo en que un equilibrio razonable sería publicarlo tras 30 días y, si en el futuro fuera necesario, poner límites de acceso como no permitir más de N consultas al día. Hasta donde sé, Internet Archive no se ha acercado activamente sobre este tema, y hay que presionar no solo a las editoriales, sino también a Internet Archive para que negocie

    • Parece una concesión bastante buena. Las organizaciones de noticias pueden conservar el pico inicial de pageviews y también se mantiene el papel de internet como fuente de información libre / biblioteca universal
      Aun así, las revistas querrán controlar su back catalog. Ya hoy venden acceso a bibliotecas y universidades y, como ha salido muchas veces en HN, algunas organizaciones de noticias quizá quieran cambiar o actualizar artículos sin un “historial de revisiones” público
    • ¿Internet Archive se usa regularmente para saltarse paywalls? Normalmente es archive.is, que no está relacionado con IA
    • Eso de no permitir más de N consultas al día “si llega a ser relevante”, ¿no les beneficia de cualquier forma?
      Me hace preguntarme si en algún lugar hay un triste dashboard de métricas digitales y si la adoración de esos números no terminó reemplazando el espíritu original del periodismo
    • No me sorprende tanto. Están operando con el modelo equivocado de la época equivocada y con incentivos equivocados
      Siguen actuando como si vivieran en un mundo donde los datos y la información son escasos y ellos fueran la única fuente de verdad. Ahora está invertido: no hay una única verdad de referencia, pero sí abundan los datos y la información, y en esa abundancia también hay datos falsos y mentiras. El periodismo de investigación que hacen NYT y Atlantic en sus mejores días aporta valor al mundo, pero aunque los periodistas quieren que sea accesible, las instituciones intentan ocultar y aislar ese trabajo. Idealmente, todos los niños podrían aprender inglés con NYT y Atlantic, crecer con esos medios de registro y ver el mundo a través de ellos, pero el modelo actual no lo permite. Quizá encajaría mejor una mezcla de patrocinio y una fundación al estilo Wikimedia. Los lectores que aman la institución y la misión pagan lo que quieran y reciben beneficios según el monto; las contribuciones entran a un fondo, se invierten y sus rendimientos se asignan en parte al presupuesto operativo. En un mundo rico en información, creo que el periodismo clásico difícilmente sobrevivirá sin un enfoque basado en patrocinio
    • Ojalá este tipo de sitios de “noticias” ni siquiera llegaran a HN. Si el artículo fuera cierto y valiera la pena discutirlo, lo cubriría una organización más confiable como Reuters, o sería una fuente primaria que valdría la pena publicar directamente
      Con demasiada frecuencia han informado selectivamente detalles y citas, o han publicado como hechos cosas de fuentes poco confiables que luego resultaron completamente falsas. En este último caso retiran el artículo en silencio, así que la mayoría de los lectores sigue creyendo la mentira. Tal vez por eso tampoco quieren que se archive. Casi prefiero que se publique un post pequeño de blog. Puede ser sesgado o poco confiable, pero tiene pensamiento original, apoya a una persona y quizá no tenga anuncios. Claro, que aquí suban tantos blogs obvios de LLM ya es otro problema
  • Estoy esperando esto: (https://news.ycombinator.com/item?id=48070516)

  • Necesitamos un archivo de internet verificable criptográficamente. Quizá ni siquiera sea posible sin algo como web3 o nostr, gpg/pgp

    • Tener múltiples archivos no relacionados entre sí probablemente ya sería suficientemente bueno
    • ¿No podría Archive publicar algo como la firma SSL de todas las solicitudes?
      Los timestamps se pueden verificar criptográficamente si se montan sobre Bitcoin, como hace opentimestamps
  • Firmé, pero hay que ser honestos
    Si hicieras un gráfico de pastel con la cantidad de veces que leí un artículo viejo del NYT en Wayback Machine y la cantidad de veces que un comentario top de HN puso un link a un artículo relativamente reciente y todos fueron a visitarlo para saltarse el paywall, daría un círculo completo

    • Si no hubiera existido una copia archivada, ¿habría pagado al NYT para ver ese artículo? No lo creo