ArchiveBox evoluciona: el futuro del archivo de internet autoalojado
(docs.sweeting.me)- ArchiveBox presenta nuevas funciones para autoalojar un archivo de internet
- Tras los recientes ataques contra Archive.org, ha aumentado el interés en ArchiveBox
- ArchiveBox enfatiza que apoya la misión de Archive.org y que su servicio aporta un valor importante para la humanidad
Límites de los archivos públicos
- La gente suele evitar archivar por miedo a que quede preservado de forma permanente
- Se necesita que las personas tengan la facultad de archivar lo que consideran importante
- Hace falta una solución para archivar contenido personal y semiprivado adaptada al entorno web moderno
La importancia del archivado
- Familias, personas y empresas quieren conservar el contenido que es importante para ellas
- El archivado de contenido personal presenta desafíos de seguridad y requiere precaución
Contenido malicioso
- Los archivos públicos a veces pueden causar problemas al preservar contenido como racismo, violencia y discursos de odio
- Es necesario reflexionar sobre cómo preservar este tipo de contenido
Presentación del nuevo ecosistema de plugins de ArchiveBox
- ArchiveBox v0.8 es la mayor actualización en la historia del proyecto e introduce un nuevo ecosistema de plugins
- Incluye plugins que ofrecen diversas funciones respaldadas por la comunidad
yt-dlpdescarga video, audio y subtítulos desde YouTube, Soundcloud, YouKu y máspapers-dldescarga automáticamente PDFs de artículos científicos cuando detecta un número DOIgallery-dldescarga galerías de fotos desde Flickr, Instagram y otros sitiosforum-dldescarga foros antiguos y hilos de comentarios profundamente anidadosreadabilityextrae el texto de artículos a .txt, .md y .epubaienvía capturas de pantalla y texto de páginas a un LLM con prompts personalizados y guarda la respuestawebhooksactiva APIs externas cada vez que se guarda cierto resultado y envía pings a Slack, N8N y más- Además, hay muchas otras funciones
- El sistema de plugins se basa en las bibliotecas pluggy y pydantic
Desarrollos adicionales
- La nueva REST API fue construida con django-ninja
- Se agregó soporte para almacenamiento externo
- Se introdujo una etapa inicial de un sistema de almacenamiento direccionable por contenido
- Se añadió un sistema de trabajos en segundo plano
- Está previsto el lanzamiento de una nueva herramienta, abx-dl, para usuarios más simples
"ArchiveBox está diseñado como local-first usando SQLite, y P2P siempre es opcional"
Resumen de GN⁺
- ArchiveBox es una herramienta que ayuda a personas y empresas a construir su propio archivo de internet, y los cambios recientes refuerzan aún más esa capacidad
- Complementa las limitaciones de los archivos públicos y ofrece una forma de preservar de manera segura contenido personal y sensible
- El ecosistema de plugins ofrece funciones variadas que mejoran la experiencia de uso
2 comentarios
ArchiveBox - herramienta de archivado web autohospedada
Comentarios de Hacker News
Hay opiniones sobre la sostenibilidad de ArchiveBox y la necesidad de mejorarlo. La participación de la comunidad es importante, y se entiende la dificultad de un desarrollador en solitario.
Hay expectativas por la nueva API y los plugins de ArchiveBox. Lo han estado usando para archivar desde hace 2 años.
Herramientas como
grab-sitepodrían ser útiles para crear y almacenar archivos WARC. Podrían hacer falta índices CDX y soporte de firmas cifradas para un archivo distribuido.Comparten la experiencia de usar ArchiveBox para archivar información sobre barcos antiguos. Expresan tristeza por la desaparición de los viejos foros web.
Están usando Readeck.org para archivar páginas web personales y les interesa la dirección de archivado distribuido de ArchiveBox.
Preguntan por la disponibilidad de
abx-dly expresan su disposición a ayudar con el empaquetado.Hay expectativas por la REST API y lamentan la ausencia de una función de búsqueda. Hace falta una función de consulta mediante un índice FTS.
Sienten la necesidad de intentar archivar sitios web usando ArchiveBox. La función de exportación de archivo de la suscripción a Pinboard no funciona.
Proponen generar un árbol de Merkle para los datos archivados. Se podría considerar blockchain como una forma de demostrar la autenticidad de los datos.
Piden recomendaciones para un sistema autoalojado de monitoreo de cambios en sitios web. Están usando Huginn, pero tienen dificultades con sitios modernos basados en JS.