32 puntos por xguru 2024-02-14 | 3 comentarios | Compartir por WhatsApp
  • Software de código abierto que guarda cualquier sitio web para poder verlo sin conexión
  • Guarda HTML/JS/PDF/medios importándolos desde URLs agregadas manualmente, historial del navegador (con extensión disponible), marcadores, RSS, Pocket/Pinboard, etc.
    • Se pueden agregar uno por uno o programar importaciones periódicas
  • Se instala en Linux, macOS y Windows (WSL2), o se ejecuta con Docker, y se usa mediante herramienta CLI, aplicación web, biblioteca de Python o comandos de una sola vez
  • Guarda snapshots de URLs en varios formatos redundantes y detecta todo el contenido incluido en la página para extraerlo en carpetas
    • HTML/todo tipo de sitios web: HTML+CSS+JS original, HTML singlefile, captura de pantalla PNG, PDF, WARC, título, texto del contenido, favicon, headers, …
    • Redes sociales/noticias: texto TXT del artículo, comentarios, título, guardados, imágenes, …
    • YouTube/SoundCloud/etc.: MP3/MP4s, subtítulos, metadatos, miniaturas, …
    • Enlaces de Github/Gitlab/etc.: clon del código fuente GIT, README, imágenes, …
  • No usa un formato propietario; guarda en archivos/carpetas normales usando herramientas estándar como Chrome, wget y yt-dlp. Es decir, todos los datos pueden leerse incluso sin ArchiveBox
  • Puede enviar las URLs guardadas a archive.org para solicitar un guardado adicional (archivado duplicado; se puede desactivar en modo solo local)

3 comentarios

 
ninebow 2024-02-21

Últimamente, mientras pruebo Obsidian, he estado intentando guardar cosas en markdown con el plugin de Instapaper -> Obsidian, pero resulta que no las importa tan limpio como esperaba.
Había dejado corriendo un Go-Readability en AWS Lambda y lo tenía medio abandonado, así que también tendré que ver si hay algo que se integre bien con este tipo de herramientas. ¡Gracias!

 
galadbran 2024-02-17

Cuando veo la palabra clave "archivado", tiendo a mirarlo con más atención. Estos son algunos artículos relacionados de GeekNews del pasado.

 
galadbran 2024-02-17

Ah, el enlace de GeekNews de Shori es https://es.news.hada.io/topic?id=577.