18 puntos por GN⁺ 2024-10-17 | 2 comentarios | Compartir por WhatsApp
  • ArchiveBox presenta nuevas funciones para autoalojar un archivo de internet
  • Tras los recientes ataques contra Archive.org, ha aumentado el interés en ArchiveBox
    • ArchiveBox enfatiza que apoya la misión de Archive.org y que su servicio aporta un valor importante para la humanidad

Límites de los archivos públicos

  • La gente suele evitar archivar por miedo a que quede preservado de forma permanente
  • Se necesita que las personas tengan la facultad de archivar lo que consideran importante
  • Hace falta una solución para archivar contenido personal y semiprivado adaptada al entorno web moderno

La importancia del archivado

  • Familias, personas y empresas quieren conservar el contenido que es importante para ellas
  • El archivado de contenido personal presenta desafíos de seguridad y requiere precaución

Contenido malicioso

  • Los archivos públicos a veces pueden causar problemas al preservar contenido como racismo, violencia y discursos de odio
  • Es necesario reflexionar sobre cómo preservar este tipo de contenido

Presentación del nuevo ecosistema de plugins de ArchiveBox

  • ArchiveBox v0.8 es la mayor actualización en la historia del proyecto e introduce un nuevo ecosistema de plugins
  • Incluye plugins que ofrecen diversas funciones respaldadas por la comunidad
    • yt-dlp descarga video, audio y subtítulos desde YouTube, Soundcloud, YouKu y más
    • papers-dl descarga automáticamente PDFs de artículos científicos cuando detecta un número DOI
    • gallery-dl descarga galerías de fotos desde Flickr, Instagram y otros sitios
    • forum-dl descarga foros antiguos y hilos de comentarios profundamente anidados
    • readability extrae el texto de artículos a .txt, .md y .epub
    • ai envía capturas de pantalla y texto de páginas a un LLM con prompts personalizados y guarda la respuesta
    • webhooks activa APIs externas cada vez que se guarda cierto resultado y envía pings a Slack, N8N y más
    • Además, hay muchas otras funciones
  • El sistema de plugins se basa en las bibliotecas pluggy y pydantic

Desarrollos adicionales

  • La nueva REST API fue construida con django-ninja
  • Se agregó soporte para almacenamiento externo
  • Se introdujo una etapa inicial de un sistema de almacenamiento direccionable por contenido
  • Se añadió un sistema de trabajos en segundo plano
  • Está previsto el lanzamiento de una nueva herramienta, abx-dl, para usuarios más simples

"ArchiveBox está diseñado como local-first usando SQLite, y P2P siempre es opcional"

Resumen de GN⁺

  • ArchiveBox es una herramienta que ayuda a personas y empresas a construir su propio archivo de internet, y los cambios recientes refuerzan aún más esa capacidad
  • Complementa las limitaciones de los archivos públicos y ofrece una forma de preservar de manera segura contenido personal y sensible
  • El ecosistema de plugins ofrece funciones variadas que mejoran la experiencia de uso

2 comentarios

 
GN⁺ 2024-10-17
Comentarios de Hacker News
  • Hay opiniones sobre la sostenibilidad de ArchiveBox y la necesidad de mejorarlo. La participación de la comunidad es importante, y se entiende la dificultad de un desarrollador en solitario.

    • ArchiveBox necesita el apoyo de la comunidad para convertirse en un proyecto más estable y confiable.
    • El archivado no es solo para el pasado, sino también para el futuro, y podría requerir una organización de desarrollo sostenible.
  • Hay expectativas por la nueva API y los plugins de ArchiveBox. Lo han estado usando para archivar desde hace 2 años.

  • Herramientas como grab-site podrían ser útiles para crear y almacenar archivos WARC. Podrían hacer falta índices CDX y soporte de firmas cifradas para un archivo distribuido.

  • Comparten la experiencia de usar ArchiveBox para archivar información sobre barcos antiguos. Expresan tristeza por la desaparición de los viejos foros web.

  • Están usando Readeck.org para archivar páginas web personales y les interesa la dirección de archivado distribuido de ArchiveBox.

  • Preguntan por la disponibilidad de abx-dl y expresan su disposición a ayudar con el empaquetado.

  • Hay expectativas por la REST API y lamentan la ausencia de una función de búsqueda. Hace falta una función de consulta mediante un índice FTS.

  • Sienten la necesidad de intentar archivar sitios web usando ArchiveBox. La función de exportación de archivo de la suscripción a Pinboard no funciona.

  • Proponen generar un árbol de Merkle para los datos archivados. Se podría considerar blockchain como una forma de demostrar la autenticidad de los datos.

  • Piden recomendaciones para un sistema autoalojado de monitoreo de cambios en sitios web. Están usando Huginn, pero tienen dificultades con sitios modernos basados en JS.