1 puntos por GN⁺ 2024-05-20 | 1 comentarios | Compartir por WhatsApp
  • Aunque la web parece un registro permanente, en una muestra del Pew Research Center, el 25% de las páginas web que existieron en algún momento entre 2013 y 2023 habían desaparecido para octubre de 2023, y en el caso de las páginas de 2013, el 38% ya no era accesible
  • En este recuento, no accesible se limitó a 9 códigos de error que indican claramente que la página o el servidor host habían desaparecido, no a cambios de contenido ni a problemas de accesibilidad
  • Al revisar en la primavera de 2023 enlaces de gobierno, noticias y Wikipedia, se encontró que el 23% de las páginas de noticias, el 21% de las páginas gubernamentales y el 54% de las páginas de English Wikipedia incluían al menos un enlace roto
  • Al seguir durante 3 meses unos 5 millones de tuits públicos de X, entonces llamado Twitter, se observó que el 18% ya no era visible públicamente, y de esos, el 60% se debía a cuentas privadas, suspendidas o eliminadas
  • A medida que desaparece contenido en páginas web, materiales de organismos públicos, enlaces de noticias, referencias de Wikipedia y publicaciones sociales, el deterioro digital se vuelve más evidente cuanto más antiguo es el material

Páginas web desaparecidas en una década

  • Internet funciona como repositorio de materiales de la vida moderna, como libros, imágenes y artículos de noticias, pero parte del contenido deja de verse con el paso del tiempo
  • Pew Research Center verificó si seguían siendo accesibles, en octubre de 2023, una muestra de páginas web que existieron entre 2013 y 2023
  • En la muestra total, el 25% de las páginas web que existieron en algún momento ya no eran accesibles
    • En el 16%, el dominio raíz seguía funcionando, pero la página individual ya no era accesible
    • En el 9%, ya no funcionaba todo el dominio raíz, por lo que no se podía acceder
  • Cuanto más antiguas eran las páginas web, mayor era la proporción que había desaparecido
    • En las páginas del snapshot de 2013, el 38% ya no era accesible en 2023
    • En las páginas del snapshot de 2023, el 8% no era accesible
    • Incluso en el snapshot de 2021, cerca de una quinta parte de las páginas ya no era accesible dos años después

Criterios para determinar que algo no era accesible

  • En este análisis, no accesible se limitó a casos en los que la página ya no existía
    • Esto incluye los casos en que el servidor host o la página habían desaparecido y aparecía normalmente un error del servidor como 404 Not Found
  • Los siguientes casos quedaron fuera del alcance de este estudio
    • Cuando la dirección de la página seguía existiendo, pero el contenido había cambiado mucho respecto del original
    • Cuando la página existía, pero era difícil o imposible de leer para algunos usuarios, como personas con discapacidad visual
  • Aun así, la evaluación del estado de las páginas web sigue teniendo ambigüedades
    • Existen decenas de códigos de estado de error, y algunos no dejan claro si se trata de una desaparición permanente o de una falla temporal
    • Muchos sitios bloquean la recolección automatizada de datos por motivos de seguridad
  • Por eso, se aplicó el criterio más conservador y solo se contaron como no accesibles 9 códigos de error que indican claramente que la página o el servidor host ya no existen o están en estado no funcional
  • La lista completa de códigos de error aparece en la methodology

Muestra de páginas web basada en Common Crawl

  • El análisis se realizó recolectando aleatoriamente páginas web de cada año entre 2013 y 2023 del servicio de archivo de internet Common Crawl
  • La muestra total incluyó menos de 1 millón de páginas web, con unas 90 mil por año
  • Para octubre de 2023, el 25% de toda la muestra de 2013 a 2023 ya no era accesible
  • Las páginas no accesibles se dividieron en dos tipos
    • La página individual había desaparecido, pero el dominio raíz seguía funcionando: 16%
    • Todo el dominio raíz había dejado de funcionar: 9%
  • Cuanto más antiguo era el snapshot, mayor era la proporción de páginas no accesibles, y en las páginas de 2013, el 38% ya no existía

Enlaces rotos en sitios web gubernamentales

  • El análisis de sitios web gubernamentales tomó como muestra unas 500 mil páginas del snapshot de marzo-abril de 2023 de Common Crawl
  • La muestra incluyó sitios web gubernamentales de distintos niveles, como federal, estatal y local
  • En todas las páginas gubernamentales se encontraron 42 millones de enlaces
    • El 86% eran enlaces internos a otras páginas del mismo sitio web
    • Cerca de tres cuartas partes de las páginas gubernamentales incluían al menos un enlace
    • La mediana de enlaces por página fue de 50
    • El 10% superior de páginas incluía 190 enlaces y el 1% superior, 740 enlaces
  • También se revisó la forma de los enlaces
    • La mayoría apuntaba a páginas HTTP seguras que comienzan con https://
    • El 6% apuntaba a archivos estáticos como PDF
    • El 16% redirigía a una URL distinta de la original
  • Tras seguir y verificar los enlaces, se encontró que el 6% de los enlaces en sitios web gubernamentales ya no era accesible
  • El 21% de todas las páginas gubernamentales analizadas incluía al menos un enlace roto
    • La proporción de enlaces no funcionales era similar entre enlaces internos y externos
    • En todos los niveles de gobierno, al menos el 14% de las páginas tenía enlaces rotos
    • Las páginas de gobiernos municipales mostraron la mayor proporción de enlaces rotos

Enlaces rotos en sitios web de noticias

  • El análisis de sitios web de noticias tomó como muestra unas 500 mil páginas de 2,063 sitios clasificados por comScore como “News/Information”
  • Las páginas se recolectaron del snapshot de marzo-abril de 2023 de Common Crawl
  • La muestra de sitios de noticias incluía más de 14 millones de enlaces hacia sitios web externos
    • No se recolectaron ni se verificó el funcionamiento de los enlaces internos
    • El 94% de las páginas de noticias incluía al menos un enlace externo
    • La mediana de enlaces por página fue de 20
    • El 10% de páginas con más enlaces incluía 56 enlaces
  • La mayoría de los enlaces en sitios de noticias apuntaba a páginas HTTP seguras que comienzan con https://
    • Cerca del 12% apuntaba a archivos estáticos como PDF
    • El 32% redirigía a una URL distinta de la original
    • En los enlaces externos de sitios gubernamentales, la proporción de redirecciones fue del 39%
  • Al rastrear los enlaces de sitios de noticias, se encontró que el 5% del total ya no era accesible
  • El 23% de las páginas de noticias de la muestra incluía al menos un enlace roto
    • Entre las páginas de sitios de noticias del 20% superior en tráfico, el 25% incluía al menos un enlace roto
    • Entre las páginas de sitios de noticias del 20% inferior en tráfico, el 26% incluía al menos un enlace roto
    • Casi no hubo diferencia en la proporción de enlaces rotos según el tamaño del tráfico

Enlaces de referencias en Wikipedia

  • El análisis revisó los enlaces de la sección “References” tras recolectar aleatoriamente 50 mil páginas de English Wikipedia
  • El 82% de las páginas de la muestra incluía al menos un enlace de referencia a páginas web externas a Wikipedia
  • La muestra total contenía algo más de 1 millón de enlaces de referencia
  • El número típico de enlaces de referencia por página fue de 4
  • El 11% de todos los enlaces de referencia de Wikipedia ya no era accesible
  • Entre las páginas originales que tenían enlaces de referencia, cerca del 2% tenía todos los enlaces rotos o inaccesibles
  • Otro 53% de las páginas incluía al menos un enlace roto

Desaparición de publicaciones en X/Twitter

  • El análisis de redes sociales se realizó recolectando en tiempo real unos 5 millones de tuits públicos en X, entonces llamado Twitter, entre el 8 de marzo y el 27 de abril de 2023
  • Para la recolección se usó la Twitter Streaming API y se capturaron 3,000 tuits públicos cada 30 minutos
  • El seguimiento continuó hasta el 15 de junio de 2023, verificando a diario si cada tuit seguía accesible en el sitio
  • Al cierre de la observación, el 18% de los tuits recolectados inicialmente ya no era visible públicamente
    • El 60% se debía a que la cuenta original pasó a privada, fue suspendida o eliminada
    • El 40% correspondía a casos donde la cuenta seguía existiendo, pero el tuit individual había sido eliminado

Características de los tuits que desaparecieron con más frecuencia

  • Los tuits escritos en ciertos idiomas tenían mayor probabilidad de desaparecer
    • Casi la mitad de los tuits en turco ya no eran accesibles al final del seguimiento
    • Los tuits en árabe también desaparecieron, aunque con una proporción ligeramente menor
    • Según el resumen, más del 40% de los tuits en turco o árabe dejó de ser visible en tres meses
  • Los tuits de cuentas con configuración de perfil predeterminada también desaparecieron con mayor frecuencia
    • Más de la mitad de los tuits de cuentas con imagen de perfil predeterminada ya no era accesible
    • Más de un tercio de los tuits de cuentas con campo de biografía predeterminado ya no era accesible
    • En estas cuentas, los tuits tendían a desaparecer por eliminación de la cuenta o cambio a modo privado más que por borrado individual del tuit
  • Los tuits de cuentas no verificadas también tenían mayor probabilidad de ser borrados o retirados
  • En general, los tuits que desaparecieron provenían de cuentas más nuevas, con relativamente pocos seguidores y una actividad moderada
    • Las cuentas que publicaron tuits que dejaron de verse eran, en promedio, unas 8 meses más nuevas que las cuentas cuyos tuits seguían visibles
  • Los retuits, tuits citados y tuits originales no mostraron grandes diferencias respecto del promedio general
  • Las respuestas fueron retiradas con menor frecuencia relativa, y su proporción de inaccesibilidad al final del seguimiento fue del 12%

La velocidad con la que desaparecen los tuits y su reaparición

  • La mayoría de los tuits retirados desaparece relativamente rápido después de su publicación
  • Según el análisis de supervivencia, los momentos de retirada fueron los siguientes
    • El 1% fue retirado dentro de la primera hora tras publicarse
    • El 3% fue retirado dentro del primer día
    • El 10% fue retirado dentro de la primera semana
    • El 15% fue retirado dentro del primer mes
  • La mitad de los tuits que finalmente fueron retirados dejó de ser accesible dentro de los 6 días posteriores a su publicación
  • El 90% de los tuits que finalmente fueron retirados dejó de ser accesible dentro de los 46 días posteriores a su publicación
  • Los tuits no siempre desaparecen de forma permanente
    • El 6% de los tuits recolectados desapareció y luego volvió a ser accesible
    • Esto puede deberse a que una cuenta pasó de privada a pública, o a que fue suspendida y luego restaurada
    • El 90% de los tuits que reaparecieron seguía accesible en Twitter al cierre del seguimiento

1 comentarios

 
GN⁺ 2024-05-20
Opiniones de Hacker News
  • Un problema incluso mayor que el hecho de que el 38% de las páginas web haya desaparecido es que muchas organizaciones, grupos y negocios ahora usan casi únicamente páginas de Facebook y no tienen presencia web fuera de Facebook
    Al final, para interactuar con ellos, una cuenta de Facebook se vuelve indispensable

    • Con los foros pasó exactamente lo mismo
      Ahora todo se fue a subreddits, grupos de Facebook y chats de Discord, y es una verdadera lástima que la información valiosa quede escondida dentro de esos grupos
    • Yo solo uso Facebook para mantener contacto con familiares que viven lejos
      Lo reviso una vez al día para ver qué pasa, y si tienes cuenta, este enlace lo hace mucho más fácil: https://www.facebook.com/?filter=friends
    • Me pregunto si de verdad existen negocios de cierto tamaño que usen solo Facebook
      Los negocios locales de mi zona tienen bastante información en Google Maps, y aunque tengan un sitio web, por lo general está desactualizado, pero si llamas directamente normalmente resuelves lo que quieras saber
    • Ese 38% de la web de antes era un espacio diverso, con menos intenciones ocultas, hecho por aficionados en el buen sentido
      Ahora es mucho más grande, pero en una web mucho más homogénea, esa proporción probablemente sería de algo así como 0.00001%, y yo diría que los sitios web 1.0 eran mejores que las “páginas de grupo” cerradas de hoy
    • Una vez fui a un restaurante que tenía su menú digital solo en Facebook
      Cuando dije que no usaba Facebook, me miraron como si fuera un bicho raro
  • Aun así, los sitios web decentes hacen al menos algo de esfuerzo por preservar contenido antiguo
    Por ejemplo, todavía siguen en pie las páginas de cobertura de CNN y BBC sobre los ataques del 11-S: http://news.bbc.co.uk/hi/english/static/in_depth/americas/20...
    http://edition.cnn.com/SPECIALS/2001/trade.center/index.html
    No se puede esperar que muchos enlaces sigan funcionando bien, pero incluso solo ver cómo era la web de antes ya resulta interesante

    • Algunos de los elementos interactivos de la vieja cobertura electoral de la BBC todavía funcionan casi por completo
      Cuesta imaginar que muchos sitios actuales sigan así dentro de 20 años, y no tanto porque sea técnicamente imposible, sino porque se parece a cómo la calidad de la escritura empeoró después de la invención del procesador de texto
      Ahora todo está administrado y estructurado, y da la impresión de que se perdió la libertad y la efervescencia que antes permitían crear cosas buenas de maneras difíciles de explicar
  • Para apoyar los esfuerzos de preservar no solo contenido antiguo, sino mucho contenido en general, vale la pena donar aunque sean unas pocas libras a Internet Archive (archive.org)
    Y también conviene hacer copias locales, en la medida de lo posible, de cualquier cosa que uno considere valiosa por si algún día desaparece
    Buena parte de las páginas técnicas de mi archivo de marcadores, que he ido trasladando a lo largo de más de 20 años de instalaciones, ahora apuntan al último respaldo completo de la página original justo antes de que desapareciera
    Internet Archive es un beneficio enorme para todos

    • Me di cuenta de que estaba usando demasiado los marcadores
      Ahora, si encuentro algo con ideas valiosas, información técnica o humor que quiero consultar más adelante, guardo la página web como PDF o algo similar
      Los marcadores solo sirven para cosas cuya versión más reciente es la única que vale la pena consultar. Sitios del banco, de compras o el sistema de escritorio remoto de la empresa, por ejemplo
    • Ojalá Internet Archive se dividiera en dos entidades independientes
      Una que simplemente se dedique a preservar sitios web, y otra que se encargue del resto, como las pruebas agresivas de propiedad intelectual con ebooks o videojuegos
      Así, aunque “la otra parte” se viniera abajo por una demanda, la preservación de sitios web podría seguir existiendo. A la primera le dono porque es un servicio importante para la humanidad, pero me preocupa su futuro
  • Llevo operando un sitio web de noticias desde 2019
    Cada hora, un crawler busca enlaces muertos, y más o menos uno al día lo cambio por un enlace de archive.org
    Lo más gracioso es cuando al día siguiente de una elección los sitios web de los candidatos quedan todos en blanco, y lo más triste es que los sitios web del gobierno se caen todas las semanas entre las 3 y las 5 de la mañana

    • Qué interesante, ¿ese crawler revisa todos los enlaces cada hora, o los divide por lotes?
  • De hecho, me sorprende que no sea más alto
    2013 fue mucho después de la era de los sitios de aficionados del internet temprano, y ya era una época en la que la mayoría de los sitios nuevos tenían fines comerciales
    Pensando en la vida útil de las empresas, yo habría esperado que 11 años después hubieran desaparecido muchísimos más sitios
    Tal vez una gran parte del total venga de la muerte de muchos espacios de creación de comunidades como Angelfire o Geocities
    En particular, sería interesante ver un gráfico de cuánto duran los sitios web. Parece que bastante contenido temprano sigue en pie, y que el pico de desaparición de sitios probablemente estaría alrededor de 2008-2018

    • Gran parte del contenido temprano ya estaba en plataformas que murieron hace mucho tiempo
      Por ejemplo, Geocities, carpetas FTP universitarias que se eliminaban después de graduarse, o carpetas FTP provistas por ISP como Earthlink, Juno o Comcast, y es muy probable que la mayoría haya sido borrada
  • Tampoco me gustaría que todo quedara para siempre
    Hace poco me topé por accidente con mi primer .com, hecho en los 90, alojado en Angelfire, y archive.org lo había preservado diligentemente otra vez; el resultado fue exactamente lo que uno se imagina
    Era una página web que hice con un amigo cuando estábamos en cuarto de primaria, y para la época estaba bien, pero vista hoy tenía cosas que no están nada bien, incluso entendiendo el contexto
    No era algo horrible, pero sí eran cosas de mal gusto nacidas de la ingenuidad propia de niños de primaria en los 90, y como probablemente nunca voy a poder borrarlo por completo de mi conciencia, solo me queda cargar con eso y esperar que nadie lo vea

    • Yo también tengo material parecido
      Si te sirve de consuelo, todos éramos solo niños o adolescentes y estábamos aprendiendo cómo era el mundo
      Me da más pena la generación que vino después de nosotros, porque creció cuando internet ya era un espacio más accesible y a veces más permanente
    • Entiendo ese dolor
      Por suerte, archive a veces sí baja material
  • Todo en internet es esencialmente temporal
    En vez de luchar contra eso, es mejor aceptarlo, y si quieres conservar algo, haz una copia offline
    PDF/A, especialmente las versiones -1 y -2, es un formato diseñado explícitamente para preservación y funciona bien para contenido estático
    Aun así, es una lástima que el mirroring no esté integrado más fácilmente en el stack web, es decir, HTTP/HTML. Si se pudieran crear enlaces simples que incluyeran una copia local como ruta alternativa, la podredumbre de enlaces preocuparía mucho menos
    Personalmente, la forma en que Wikipedia enlaza todo pasando por archive.org me parece un poco improvisada

  • Sinceramente, me sorprende que sea tan bajo
    Hoy en día gran parte de la web parece basura de optimización para motores de búsqueda

    • A veces experimento con algo y subo un sitio pequeño; luego me olvido de él y, cuando concluyo que ya no viene al caso, lo bajo
      Eso en sí mismo no está mal
      Aun así, es excelente que exista algo como el archivo web que preserve nuestra memoria colectiva para el contenido valioso
      En especial, ojalá los registros exactos escritos en el momento en que ocurrieron los hechos se conserven en algún lugar donde no puedan modificarse después. Parece que hoy está de moda reescribir la historia, y preservar los registros originales de la época ayuda a contrarrestarlo
      Incluso si esos registros no fueran completamente exactos, ayudan a entender qué creían que era verdad los actores de ese momento
    • Algunas cosas siguen existiendo, pero ya no aparecen en Google
  • Creo que esto es un fracaso grave de internet que colectivamente deberíamos haber evitado mejor
    En la mayoría de los casos, el contenido en sí probablemente todavía existe en algún lugar; lo que se rompió fue solo el enlace
    Un sistema de dos capas como el sistema DOI que usan las bibliotecas podría ayudar en estos casos: https://nuim.libguides.com/referencing/DigitalObjectIdentifi...
    Eso sí, para mantener la utilidad y conveniencia de las URL, tendría que procesarse automáticamente, aunque no tengo claro cómo podría hacerse

  • Esto no es un bug, es una feature
    Sería terrible vivir en un mundo que ni olvida ni perdona
    También me gusta que preservar contenido valioso requiera cierto esfuerzo. Así se reconoce más su valor

    • “Un mundo que ni olvida ni perdona” es un tema aparte, y en gran medida se puede ver como un asunto de privacidad
      La lógica de que “el contenido valioso debería requerir esfuerzo para preservarse y así se reconoce más su valor” se parece mucho a decir que casi todo debería ser caro
      Como si el almacenamiento barato fuera malo porque hace que no valoremos nuestros archivos, y la atención médica cara fuera buena porque nos hace apreciar el valor de nuestros órganos
      La parte difícil es prever qué contenido será considerado valioso en el futuro. Hasta ahora ninguna civilización humana ha logrado resolver eso bien, y por lo general se han concentrado en preservar lo grandiosos que eran los reyes
    • El día que Apple adquirió NeXT, leí en algún rincón de internet un texto muy gracioso
      Empezaba con “Hijos de Macintosh, arrodíllense ante Unix…” y mantenía a lo largo de todo el texto un estilo como bíblico mientras explicaba por qué Mac había sido conquistada por NeXT
      Era un texto realmente excelente y a veces intento volver a encontrarlo en internet, pero es difícil saber qué desapareció si no sabes qué es lo que falta
    • ¿Dónde crees que hemos vivido durante los últimos 5 mil años?
      Hay tablillas de arcilla cuneiformes excavadas de los basureros de Ur, y gracias a ellas sobrevive aunque sea el poco conocimiento que tenemos sobre Sumeria
      La invención de la escritura hizo imposible el olvido, y antropólogos como Jack Goody, James Carey, David Olson y Barry Powell, así como autores como Walter Ong, han estudiado esto a fondo
      En realidad vivimos en un mundo terrible atrapado en su mayor parte por el pasado, y la complejidad cultural se acumula en capas como una cebolla
      Cualquiera puede regresar al pasado y añorarlo, pero el pasado al que accedemos mediante conocimiento almacenado significa cosas distintas para quienes no lo vivieron directamente
      Desde la invención de la imprenta hemos vivido en una continua inflación de información. Los eruditos medievales se quejaban de que, por culpa de la imprenta, cualquiera podía leer y escribir libros; los escolásticos se escandalizaban por el auge de la lengua vernácula; y Michelangelo se quejaba del arte vacío de los pintores flamencos
      Lo importante aquí es la velocidad a la que ocurre la decadencia. El texto dice que el 38% de los sitios que existían en 2013 desapareció, y solo han pasado 10 años
      No sabemos cuánto de eso era ruido y cuánto era información útil o al menos contenido interesante. Ya desapareció
      Tampoco sabemos cuánto han guardado los grandes web scrapers, ni cuánto conservan Google o Twitter
      ¿Cómo se define el contenido valioso? ¿Un tuit con un millón de vistas solo por mostrar fotos de una actriz medio desnuda, o un tuit sobre un hallazgo importante con 300 vistas?
      Cuando internet derribó a los editores como guardianes de periódicos, libros, revistas, TV y radio, nos alegramos sin límite, pero el resultado fue que nos arrastraron el ruido, las teorías conspirativas, los memes, TikTok y demás
      El problema es que casi no podemos manejar la enorme cantidad de información que nos cae encima, y además hay demasiada gente y gustos demasiado distintos como para ponerse de acuerdo sobre qué tiene valor y qué no
      Esa “feature” que mencionas podrá serlo por diseño, pero eso no significa que sea útil ni moralmente correcta