ArchiveBox - herramienta de archivado web self-hosted
(archivebox.io)- Software de código abierto que guarda cualquier sitio web para poder verlo sin conexión
- Guarda HTML/JS/PDF/medios importándolos desde URLs agregadas manualmente, historial del navegador (con extensión disponible), marcadores, RSS, Pocket/Pinboard, etc.
- Se pueden agregar uno por uno o programar importaciones periódicas
- Se instala en Linux, macOS y Windows (WSL2), o se ejecuta con Docker, y se usa mediante herramienta CLI, aplicación web, biblioteca de Python o comandos de una sola vez
- Guarda snapshots de URLs en varios formatos redundantes y detecta todo el contenido incluido en la página para extraerlo en carpetas
- HTML/todo tipo de sitios web: HTML+CSS+JS original, HTML singlefile, captura de pantalla PNG, PDF, WARC, título, texto del contenido, favicon, headers, …
- Redes sociales/noticias: texto TXT del artículo, comentarios, título, guardados, imágenes, …
- YouTube/SoundCloud/etc.: MP3/MP4s, subtítulos, metadatos, miniaturas, …
- Enlaces de Github/Gitlab/etc.: clon del código fuente GIT, README, imágenes, …
- No usa un formato propietario; guarda en archivos/carpetas normales usando herramientas estándar como Chrome, wget y yt-dlp. Es decir, todos los datos pueden leerse incluso sin ArchiveBox
- Puede enviar las URLs guardadas a archive.org para solicitar un guardado adicional (archivado duplicado; se puede desactivar en modo solo local)
3 comentarios
Últimamente, mientras pruebo Obsidian, he estado intentando guardar cosas en markdown con el plugin de Instapaper -> Obsidian, pero resulta que no las importa tan limpio como esperaba.
Había dejado corriendo un Go-Readability en AWS Lambda y lo tenía medio abandonado, así que también tendré que ver si hay algo que se integre bien con este tipo de herramientas. ¡Gracias!
Cuando veo la palabra clave "archivado", tiendo a mirarlo con más atención. Estos son algunos artículos relacionados de GeekNews del pasado.
Ah, el enlace de GeekNews de Shori es https://es.news.hada.io/topic?id=577.