1 puntos por GN⁺ 2024-05-20 | 1 comentarios | Compartir por WhatsApp
  • La inmensidad de internet y la desaparición del contenido

    • Internet, donde existen decenas de miles de millones de páginas web, es un enorme repositorio de la vida moderna.
    • Sin embargo, el contenido del que dependen los usuarios a veces desaparece.
    • Un nuevo análisis del Pew Research Center muestra que el contenido en línea es muy efímero.
      • Una cuarta parte de todas las páginas web que existieron entre 2013 y 2023 ya no eran accesibles en octubre de 2023.
      • Esto se debe en su mayoría a que páginas web específicas fueron borradas o eliminadas.
  • La aparición de la descomposición digital

    • Se examinaron sitios web gubernamentales y de noticias, así como la sección de "referencias" de páginas de Wikipedia.
      • El 23% de las páginas de noticias incluye al menos un enlace roto.
      • El 21% de los sitios web gubernamentales incluye al menos un enlace roto.
      • El 54% de las páginas de Wikipedia contiene enlaces a páginas que ya no existen.
  • Descomposición digital en redes sociales

    • Durante la primavera de 2023, se recopiló una muestra en tiempo real de tuits en la plataforma social X (entonces Twitter) y se les dio seguimiento durante 3 meses.
      • Aproximadamente una quinta parte de los tuits ya no era visible públicamente unos meses después de su publicación.
      • En el 60% de esos casos, la cuenta que publicó el tuit original se volvió privada, fue suspendida o eliminada por completo.
      • En el 40% restante, la cuenta seguía existiendo pero el tuit individual había sido borrado.
  • Enlaces privados y definición de página web

    • Hay varias formas de definir una página que existió en internet pero que hoy ya no es accesible.
      • La página ya no existe en el servidor que la alojaba, o el propio servidor dejó de existir.
      • La dirección de la página existe, pero el contenido cambió.
      • La página existe, pero es difícil de leer para ciertos usuarios (por ejemplo, personas con discapacidad visual).
    • Este informe se enfoca en la primera definición: páginas que ya no existen.
  • Las páginas web de la última década

    • Se recopiló una muestra aleatoria de cerca de 1 millón de páginas web del archivo Common Crawl.
      • El 25% de todas las páginas recolectadas entre 2013 y 2023 ya no era accesible en octubre de 2023.
      • El 38% de las páginas recolectadas en 2013 ya no era accesible en 2023.
  • Enlaces en sitios web gubernamentales

    • Se muestrearon unas 500,000 páginas de sitios web gubernamentales recopiladas en marzo/abril de 2023.
      • El 86% de las páginas incluye enlaces internos, y el 6% de ellos ya no era accesible.
      • En total, el 21% de las páginas web gubernamentales examinadas contenía al menos un enlace roto.
  • Enlaces en sitios web de noticias

    • Se muestrearon unas 500,000 páginas de sitios web de noticias recopiladas en marzo/abril de 2023.
      • El 94% de los sitios de noticias incluye al menos un enlace externo, y el 23% de las páginas contenía al menos un enlace roto.
  • Enlaces de referencia en Wikipedia

    • Se tomó una muestra aleatoria de 50,000 páginas de Wikipedia en inglés.
      • El 82% de las páginas recopiladas incluye al menos un enlace de referencia, y el 11% de esos enlaces ya no era accesible.
  • Publicaciones en Twitter

    • En la primavera de 2023, se recopilaron 5 millones de tuits y se les dio seguimiento durante 3 meses.
      • El 18% de los tuits recopilados ya no era visible públicamente al final del periodo de seguimiento.
      • Del total de tuits eliminados, el 60% correspondía a cuentas privadas, suspendidas o eliminadas.
      • El 1% de los tuits se elimina dentro de una hora, el 3% dentro de un día, el 10% dentro de una semana y el 15% dentro de un mes.
  • Análisis de supervivencia de los tuits

    • La mitad de los tuits que desaparecen lo hace dentro de los primeros 6 días después de publicarse.
    • El 90% de los tuits pasa a ser inaccesible dentro de los 46 días posteriores a su publicación.
    • Existe un 6% de tuits que fueron eliminados pero más tarde volvieron a hacerse públicos.

1 comentarios

 
GN⁺ 2024-05-20
Opiniones de Hacker News

Resumen de comentarios de Hacker News

  • Problemas de las páginas de Facebook

    • Muchas organizaciones y empresas usan solo páginas de Facebook y no tienen otra presencia web. Se exige una cuenta de Facebook.
  • Esfuerzos de archivado

    • Sitios web como CNN y BBC hacen esfuerzos por archivar contenido antiguo. Ejemplo: la cobertura relacionada con los atentados del 11-S.
  • Apoyo al Internet Archive

    • Hace falta donar a Internet Archive (archive.org) para apoyar la preservación de contenido antiguo. También conviene hacer copias locales del contenido importante.
  • Experiencia operando un sitio web de noticias

    • Desde 2019, alguien ha operado un sitio web de noticias y usa un crawler cada hora para encontrar enlaces caídos y reemplazarlos con enlaces de archivo. A menudo, los sitios web de candidatos desaparecen al día siguiente de una elección.
  • Gráfico sobre la vida útil de los sitios web

    • Se espera que muchos sitios web hayan desaparecido desde 2013. La desaparición de sitios comunitarios, especialmente como Angelfire y Geocities, tuvo un gran impacto. Sería interesante mostrar la vida útil de los sitios web en un gráfico.
  • Problemas de los sitios web antiguos

    • Alguien volvió a ver su primer sitio web .com, alojado en Angelfire en los años 90. En ese entonces parecía aceptable, pero según los estándares actuales contiene mucho material inapropiado.
  • La naturaleza efímera de internet

    • Hay que aceptar la naturaleza inherentemente efímera de internet. Si se quiere archivar algo, conviene hacer una copia offline. El formato PDF/A es adecuado para archivado.
  • Problemas de SEO

    • Actualmente, gran parte de la web está llena de spam de SEO.
  • Problema de enlaces rotos

    • Es un gran problema en internet: muchas veces el contenido sigue existiendo, pero el enlace está roto. Un sistema de dos niveles como el DOI de las bibliotecas podría ayudar.
  • Importancia del olvido y el perdón

    • Un mundo en el que todo permanezca para siempre sería terrible. Hace falta esforzarse por preservar el contenido valioso, y por eso mismo ese valor se aprecia más.