6 puntos por GN⁺ 2025-03-18 | 1 comentarios | Compartir por WhatsApp
  • Resumen de la presentación de David Rosenthal, experto en preservación digital (Digital Preservation)

Diferencias entre respaldo (Backup) y archivo (Archival)

  • El respaldo es necesario para restaurar al estado más reciente en caso de desastre
    • La vida útil efectiva de los datos de respaldo está determinada por el tiempo entre el último respaldo y la restauración
    • La vida útil del medio donde se guarda el respaldo no es importante
  • Después de trabajar casi 20 años en preservación digital, estos son mis 4 métodos importantes de respaldo de sistemas
    • Servidor de correo y web: respaldo completo semanal y respaldo incremental diario en una Raspberry Pi → el respaldo semanal se guarda en DVD-R
    • PC de escritorio: respaldo completo nocturno en un disco duro externo → rotación periódica entre 3 discos duros
    • iPhone: respaldo diario en una Mac Air → respaldo periódico a SSD mediante Time Machine
    • Resguardo fuera del sitio: cada semana se guardan DVD-R, SSD y discos duros en una ubicación externa
  • ¿Qué son los datos de archivo?
    • Con el tiempo, los datos descienden en la jerarquía de almacenamiento
    • Datos de archivo = datos cuyo costo de mantenimiento ya no se puede sostener en el almacenamiento operativo
    • El objetivo principal de un sistema de almacenamiento de archivo es reducir costos, aceptando una mayor latencia de acceso

La realidad de los medios de almacenamiento de archivo

  • En los medios hay mucha exageración sobre “almacenamiento capaz de conservar datos para siempre”
  • Es poco probable que las nuevas tecnologías de almacenamiento surgidas de la investigación se usen masivamente en el mercado
  • Los medios dedicados exclusivamente a archivo tienen poca demanda de mercado, por lo que les cuesta tener éxito comercial
    • Ejemplo: cintas LTO representan menos del 1% de todo el mercado de medios de almacenamiento
    • En 2023, OD-3 (disco óptico de 1TB) fue cancelado por escasez en el mercado

El problema del tiempo de adopción de los medios de almacenamiento

  • Toma mucho tiempo introducir una nueva tecnología de almacenamiento en el mercado
  • Discos duros HAMR: se introdujeron 26 años después del inicio de la investigación
  • Almacenamiento en sílice y ADN: llevan décadas en investigación, pero aún necesitan al menos 5 años más para su comercialización

El problema de la rentabilidad de los medios de almacenamiento

  • Más que el medio de almacenamiento en sí, el costo de la infraestructura del sistema de almacenamiento es mucho más importante
    • El costo de medios como cinta o disco representa una parte menor del costo total
    • Los costos solo se reducen cuando se opera a escala de centro de datos
    • El almacenamiento de archivo pierde rentabilidad cuando se opera a pequeña escala

Almacenamiento en la nube y el problema del lock-in

  • El costo del almacenamiento de archivo en servicios en la nube es muy alto a largo plazo
  • Amazon Glacier: puede reducir costos para conservación de largo plazo, pero el costo de recuperación de datos es alto
    • Costo de almacenamiento: $10,900/año
    • Costo de recuperación: $49,550 (basado en 1PB)
    • Costo total: $60,950
    • Período de lock-in: 50.0 meses
  • Google Archive: altos costos de almacenamiento y recuperación → ineficiente para conservación de largo plazo
    • Costo de almacenamiento: $13,200/año
    • Costo de recuperación: $210,810 (basado en 1PB)
    • Costo total: $224,510
    • Período de lock-in: 175.6 meses
  • Microsoft Archive: bajo costo de almacenamiento, pero alto costo de recuperación de datos
    • Costo de almacenamiento: $22,000/año
    • Costo de recuperación: $40,100 (basado en 1PB)
    • Costo total: $62,200
    • Período de lock-in: 20.0 meses
  • Problema de lock-in: el alto costo de recuperación dificulta mover los datos
  • Amazon Glacier tiene el costo de almacenamiento más bajo y también un costo de recuperación relativamente menor

Project Silica (proyecto de sílice de Microsoft)

  • Sílice: medio de almacenamiento de datos de ultra alta densidad
    • Almacena datos en un plato de sílice mediante un láser de femtosegundo
    • Tiene alta densidad de almacenamiento y excelente estabilidad física
  • Problema de costos: el láser de femtosegundo es costoso → se espera una reducción de precio con producción masiva
  • Separación entre lectura y escritura → refuerza la seguridad y garantiza la integridad de los datos
  • Problema de velocidad de lectura: se estima un tiempo de respuesta de 15 horas → solo es eficiente en sistemas de gran escala

El problema de la recuperación de datos

  • Lo importante en archivo es la posibilidad de recuperar los datos
  • Microsoft almacena código fuente abierto en película en la isla de Svalbard
    • La posibilidad de recuperación tras un desastre es baja
    • El acceso es difícil por la lejanía y el mal clima

Sistema LOCKSS (Lots Of Copies Keep Stuff Safe)

  • Guardar múltiples copias en medios de bajo costo → mejora la seguridad de los datos
  • El respaldo y la recuperación se garantizan con muchas copias, más que con sistemas costosos
  • La eficiencia de costos es importante → se prefieren sistemas de almacenamiento baratos antes que medios costosos

Conclusión

  • El punto clave del almacenamiento de archivo no es la tecnología, sino la rentabilidad
    • Los medios dedicados exclusivamente a archivo son económicamente ineficientes
    • Los servicios en la nube tienen altos costos de recuperación → generan problemas de lock-in
  • Operarlo en centros de datos a gran escala permite reducir el costo del almacenamiento de largo plazo
  • Project Silica es la tecnología de almacenamiento de archivo más prometedora, pero todavía necesita tiempo para llegar a la comercialización

1 comentarios

 
GN⁺ 2025-03-18
Opiniones en Hacker News
  • Hay IA, computación cuántica, pantallas 6K, M2 NVME y miles de millones de dispositivos en red, pero los datos comunes podrían durar solo unos 5 años debido a fallas de discos, inestabilidad de los SSD, corrupción de bits y otros problemas
    • Para superar eso, hay que mantener de forma continua JBOD, RAID o NAS, o grabarlo en Blu-ray M-Disc, dejarlo en la nube, o ambas cosas
    • Una estrategia simple de respaldo 3-2-1 podría funcionar si hay suerte, pero los archivos de datos a gran escala siguen siendo difíciles
  • He estado pensando en el problema de los "cientos de años", y los métodos que parece que sí funcionarían son los siguientes
    • Grabar o estampar en materiales (tablillas de piedra, cilindros de Edison, discos de shellac de 78 rpm, vinilo, el Golden Record de Voyager, etc.)
    • Imprimir o perforar con tinta sobre papel (libros, tarjetas, cintas)
    • Fotografía; microficha/microfilm (GitHub Arctic Code Vault), litografía
  • Hace poco investigué cómo "imprimir" microfilm de grado archivístico, y hay algunas opciones, pero la mayoría consisten en escanear el microfilm para crear una copia digital
    • Por experiencia personal, es más probable que un dibujo a lápiz que hice en segundo grado dure cientos de años más que material digital
  • A escala empresarial, el cálculo de costos puede ser distinto al de una escala personal
    • Linear Tape-Open es un medio de almacenamiento barato cuando hay que guardar petabytes
    • Con el costo de una unidad se pueden comprar 400 TB en discos duros
    • Creo que los discos duros producidos en masa son más confiables que las cintas LTO
    • Personalmente he tenido malas experiencias con las cintas
  • La nota de que "hice un estudio geológico en el archipiélago de Svalbard en el verano de 1969" me dio curiosidad por saber más sobre el autor, y su carrera es muy interesante
  • Al usar almacenamiento en la nube para respaldos, no hay que olvidar activar Object Lock
    • No es tan bueno como el almacenamiento offline, pero es mucho mejor que los medios R/W
    • En la empresa usan restic para respaldar en B2 y hacen respaldos con deduplicación en cada ocasión
  • Uso la estrategia de respaldo 3-2-1
    • Guardo tres copias de los datos en dos tipos distintos de medios, y una copia se conserva fuera del sitio
    • Los datos importantes se reflejan en SSD y mantengo varias copias en Blu-ray
    • La razón para usar Blu-ray es protegerse de tormentas geomagnéticas como el Evento Carrington de 1859
  • Ojalá los archivos en cinta fueran más accesibles
    • Es un nicho y principalmente para empresas, así que las unidades empiezan en miles de dólares, y si se baja la capacidad queda por debajo de un SSD moderno
  • El artículo toca muchos temas y es difícil sacar una sola conclusión
    • Termina con una cita del CTO de Backblaze: "prepárate para el fracaso y compra los componentes más baratos"
    • Puede servir para grandes empresas, pero no para personas o negocios pequeños
    • Personalmente respaldo en discos duros externos baratos y archivo en Blu-ray M-DISC
  • He estado guardando archivos desde 1991 y los he ido migrando entre distintos formatos
    • Uso la estrategia de respaldo 3-2-1 y verifico con checksums todos los archivos dos veces al año
    • Con un script, se puede resolver fácilmente cada semana con unos cuantos comandos
  • Pido opiniones sobre LOCKSS
    • LOCKSS parece tomarse en serio la idea de que si los datos no se han verificado recientemente, en realidad no existen