3 puntos por GN⁺ 2025-08-18 | 1 comentarios | Compartir por WhatsApp
  • ArchiveTeam archivó con éxito todos los enlaces acortados de goo.gl
  • Cualquiera puede participar en proyectos de archivado mediante el programa virtual ArchiveTeam Warrior
  • Este Warrior puede ejecutarse en Windows, OS X y Linux sin riesgos adicionales
  • Los usuarios pueden participar y elegir proyectos con una configuración sencilla
  • Ofrece una forma fácil e intuitiva de ayudar en tareas de archivado sin necesidad de conocimientos técnicos especiales

Introducción a ArchiveTeam Warrior

  • ArchiveTeam Warrior es un appliance virtual de archivado que cualquiera puede usar fácilmente
  • Los usuarios pueden ejecutar Warrior para descargar sitios web y otros contenidos y participar en la tarea de subirlos al archivo de ArchiveTeam
  • Warrior no pone en riesgo el entorno real de la computadora y solo utiliza ancho de banda de internet y un poco de espacio en disco
  • Es compatible con Windows, OS X y Linux, y requiere un programa de máquina virtual como VirtualBox o VMware

Cómo usarlo con VirtualBox

  • Descargar el appliance Warrior (357MB)
  • En VirtualBox, hacer clic en el menú File > Import Appliance para cargar el archivo descargado
  • Al iniciar la máquina virtual, recibirá automáticamente las actualizaciones más recientes y solicitará el uso de un navegador web

Proceso después de ejecutar Warrior

  • Acceder a la página de Settings
  • Elegir un nombre de usuario para mostrar el progreso en el leaderboard
  • En la pestaña All projects, elegir el proyecto deseado para participar, o seleccionar ArchiveTeam’s Choice para unirse al proyecto más urgente

Ventajas de participar

  • Cualquiera puede contribuir fácilmente a los proyectos de archivado sin conocimientos técnicos especiales ni procesos complejos
  • El historial de actividad de archivado del usuario se muestra en el leaderboard, lo que aporta motivación y facilita la colaboración

1 comentarios

 
GN⁺ 2025-08-18
Comentarios en Hacker News
  • Cada vez que ArchiveTeam hace proyectos como este, realmente me sorprende. Hace unos años, cuando la plataforma de video donde trabajaba anunció que cerraría pronto, me pusieron en contacto con una persona de ArchiveTeam y supe que tenía interés en preservar los datos. Le di un poco de orientación (información sobre endpoints del servidor que podían causar dificultades para el archivado) y le presté temporalmente algunas de mis instancias de EC2. Como los servidores eran míos, pude ver lo que estaba pasando: en 2 minutos las instancias quedaron completamente listas y empezaron a archivar videos rápidamente, y cada instancia descargaba videos distintos de forma eficiente, sin duplicación. ArchiveTeam siempre tiene una gran misión, pero la eficiencia con la que ejecuta todo es lo que de verdad impresiona.

  • El título no es exacto. En realidad es Archiveteam.org, no Archive.org. The Internet Archive proporciona el almacenamiento, pero el trabajo real de archivado lo realizan miembros de Archiveteam.

    • Me pregunto cuál es exactamente la contribución de Archiveteam. No me queda muy claro. Al final, parece que hace el papel de intermediario innecesario entre lo que se quiere archivar y los servidores de archivo. Me pregunto si hay algo que se me está escapando.
  • Quiero compartir material relacionado: "Únete a la guerra contra el Link Rot" (enlace), varios hilos de discusión en HN sobre los cambios de política de Google para goo.gl (recopilación de publicaciones relacionadas de 2018 a 2025, aquí, aquí, aquí, aquí, aquí, aquí). Hay discusiones variadas, ojalá sean útiles.

  • Comparto la actualización más reciente de Google: enlace a la actualización en el blog de Google

    • Ah, como considero que Google es una empresa muy poco confiable y que esto viene de una fuente extremadamente poco confiable, no le creo nada a esta "actualización".
    • Según el aviso de Google, los enlaces acortados (enlaces de goo.gl) "dejarán de funcionar después del 25 de agosto y se recomienda migrar a otro servicio de acortamiento de URL". Entonces, ¿no hace eso que pierda sentido dejar solo algunos enlaces funcionando? ¿No significa que los enlaces acortados que ya están incrustados en documentación y no se pueden editar acabarán todos rotos de todos modos?
    • Sigo preguntándome qué sentido tiene. Redirigir enlaces antiguos que ya casi no se usan (o tienen muy poca actividad) no debería costar tanto, así que no entiendo por qué tienen que desactivarlos a la fuerza (ni tampoco esta política de seguir redirigiendo solo los enlaces de alto tráfico).
    • No termino de entender esto. Me pregunto si de verdad cuesta tanto conservar toda la base de datos, sobre todo cuando de todas formas van a seguir conservando una parte.
  • ¿Hay alguien archivando todo reddit o twitter? Lo pregunto aunque sus Terms hayan cambiado para ya no permitirlo.

    • reddit antes tenía un proyecto llamado Pushshift. Antes de que cambiara la API de reddit, estos datos se podían descargar desde otro grupo archivista/de preservación de datos llamado the-eye. En el caso de twitter, que yo sepa no hay nada. Además, ya pasaron varios años desde que dejó de ser posible archivar tuits en la Wayback Machine.
    • En Academictorrents se pueden obtener dumps mensuales de todos los submissions y comments de reddit incluso después de las restricciones de la API.
    • También podrías preguntarle a OpenAI.
  • No termino de entender la página. Hay publicada una lista de datasets (¿supongo?) y parece que el tamaño llega hasta 91 TiB. No parecería que solo la lista de enlaces acortados de Google y sus URL de destino necesitara 91 TiB. ¿Alguien sabe cómo funciona?

    • Hice un cálculo rápido. Una URL tomada al azar de una búsqueda en Google tenía 705 bytes, el enlace corto de goo.gl 22 bytes, y si solo guardas el ID simple son 6 bytes. Aunque algunas serán más cortas o más largas, a grandes rasgos eso indica una escala de decenas de miles de millones a billones de URL.
  • Me alegra haber contribuido aunque sea un poco a este archivado.

    • A mí también me dio gusto ver mi nombre en la tabla de posiciones. La verdad, lo único que hice fue instalar un docker container durante un día y luego olvidarme del asunto.
  • Me pregunto cuántos enlaces apuntan a videos privados de YouTube, documentos de Google y cosas así.

    • Iba a bromear con un "bueno, ahora podremos descargarlo y buscarlo directamente", pero en realidad si ves aquí aparece Access-restricted-item: true, así que el acceso está restringido. Además, lo ofrecen en bloques de 10 GB.
  • Me pregunto si "all" realmente significa todas las URL públicas, o si probaron de forma iterativa todo el namespace completo de URL.

    • En realidad, el método consistió en que voluntarios ejecutaran directamente el cliente e intentaran de forma iterativa todo el namespace completo de URL sin bloqueo por IP.
    • Las URL públicas de goo.gl ya estaban incluidas en los rastreos de Internet Archive y Common Crawl.