ArchiveTeam completa el archivado de todos los enlaces acortados de goo.gl
(tracker.archiveteam.org)- ArchiveTeam archivó con éxito todos los enlaces acortados de goo.gl
- Cualquiera puede participar en proyectos de archivado mediante el programa virtual ArchiveTeam Warrior
- Este Warrior puede ejecutarse en Windows, OS X y Linux sin riesgos adicionales
- Los usuarios pueden participar y elegir proyectos con una configuración sencilla
- Ofrece una forma fácil e intuitiva de ayudar en tareas de archivado sin necesidad de conocimientos técnicos especiales
Introducción a ArchiveTeam Warrior
- ArchiveTeam Warrior es un appliance virtual de archivado que cualquiera puede usar fácilmente
- Los usuarios pueden ejecutar Warrior para descargar sitios web y otros contenidos y participar en la tarea de subirlos al archivo de ArchiveTeam
- Warrior no pone en riesgo el entorno real de la computadora y solo utiliza ancho de banda de internet y un poco de espacio en disco
- Es compatible con Windows, OS X y Linux, y requiere un programa de máquina virtual como VirtualBox o VMware
Cómo usarlo con VirtualBox
- Descargar el appliance Warrior (357MB)
- En VirtualBox, hacer clic en el menú File > Import Appliance para cargar el archivo descargado
- Al iniciar la máquina virtual, recibirá automáticamente las actualizaciones más recientes y solicitará el uso de un navegador web
Proceso después de ejecutar Warrior
- Acceder a la página de Settings
- Elegir un nombre de usuario para mostrar el progreso en el leaderboard
- En la pestaña All projects, elegir el proyecto deseado para participar, o seleccionar ArchiveTeam’s Choice para unirse al proyecto más urgente
Ventajas de participar
- Cualquiera puede contribuir fácilmente a los proyectos de archivado sin conocimientos técnicos especiales ni procesos complejos
- El historial de actividad de archivado del usuario se muestra en el leaderboard, lo que aporta motivación y facilita la colaboración
1 comentarios
Comentarios en Hacker News
Cada vez que ArchiveTeam hace proyectos como este, realmente me sorprende. Hace unos años, cuando la plataforma de video donde trabajaba anunció que cerraría pronto, me pusieron en contacto con una persona de ArchiveTeam y supe que tenía interés en preservar los datos. Le di un poco de orientación (información sobre endpoints del servidor que podían causar dificultades para el archivado) y le presté temporalmente algunas de mis instancias de EC2. Como los servidores eran míos, pude ver lo que estaba pasando: en 2 minutos las instancias quedaron completamente listas y empezaron a archivar videos rápidamente, y cada instancia descargaba videos distintos de forma eficiente, sin duplicación. ArchiveTeam siempre tiene una gran misión, pero la eficiencia con la que ejecuta todo es lo que de verdad impresiona.
El título no es exacto. En realidad es Archiveteam.org, no Archive.org. The Internet Archive proporciona el almacenamiento, pero el trabajo real de archivado lo realizan miembros de Archiveteam.
Quiero compartir material relacionado: "Únete a la guerra contra el Link Rot" (enlace), varios hilos de discusión en HN sobre los cambios de política de Google para goo.gl (recopilación de publicaciones relacionadas de 2018 a 2025, aquí, aquí, aquí, aquí, aquí, aquí). Hay discusiones variadas, ojalá sean útiles.
Comparto la actualización más reciente de Google: enlace a la actualización en el blog de Google
¿Hay alguien archivando todo reddit o twitter? Lo pregunto aunque sus Terms hayan cambiado para ya no permitirlo.
No termino de entender la página. Hay publicada una lista de datasets (¿supongo?) y parece que el tamaño llega hasta 91 TiB. No parecería que solo la lista de enlaces acortados de Google y sus URL de destino necesitara 91 TiB. ¿Alguien sabe cómo funciona?
Me alegra haber contribuido aunque sea un poco a este archivado.
docker containerdurante un día y luego olvidarme del asunto.Me pregunto cuántos enlaces apuntan a videos privados de YouTube, documentos de Google y cosas así.
Access-restricted-item: true, así que el acceso está restringido. Además, lo ofrecen en bloques de 10 GB.Me pregunto si "all" realmente significa todas las URL públicas, o si probaron de forma iterativa todo el namespace completo de URL.