- Resumen de la presentación de David Rosenthal, experto en preservación digital (Digital Preservation)
Diferencias entre respaldo (Backup) y archivo (Archival)
- El respaldo es necesario para restaurar al estado más reciente en caso de desastre
- La vida útil efectiva de los datos de respaldo está determinada por el tiempo entre el último respaldo y la restauración
- La vida útil del medio donde se guarda el respaldo no es importante
- Después de trabajar casi 20 años en preservación digital, estos son mis 4 métodos importantes de respaldo de sistemas
- Servidor de correo y web: respaldo completo semanal y respaldo incremental diario en una Raspberry Pi → el respaldo semanal se guarda en DVD-R
- PC de escritorio: respaldo completo nocturno en un disco duro externo → rotación periódica entre 3 discos duros
- iPhone: respaldo diario en una Mac Air → respaldo periódico a SSD mediante Time Machine
- Resguardo fuera del sitio: cada semana se guardan DVD-R, SSD y discos duros en una ubicación externa
- ¿Qué son los datos de archivo?
- Con el tiempo, los datos descienden en la jerarquía de almacenamiento
- Datos de archivo = datos cuyo costo de mantenimiento ya no se puede sostener en el almacenamiento operativo
- El objetivo principal de un sistema de almacenamiento de archivo es reducir costos, aceptando una mayor latencia de acceso
La realidad de los medios de almacenamiento de archivo
- En los medios hay mucha exageración sobre “almacenamiento capaz de conservar datos para siempre”
- Es poco probable que las nuevas tecnologías de almacenamiento surgidas de la investigación se usen masivamente en el mercado
- Los medios dedicados exclusivamente a archivo tienen poca demanda de mercado, por lo que les cuesta tener éxito comercial
- Ejemplo: cintas LTO representan menos del 1% de todo el mercado de medios de almacenamiento
- En 2023, OD-3 (disco óptico de 1TB) fue cancelado por escasez en el mercado
El problema del tiempo de adopción de los medios de almacenamiento
- Toma mucho tiempo introducir una nueva tecnología de almacenamiento en el mercado
- Discos duros HAMR: se introdujeron 26 años después del inicio de la investigación
- Almacenamiento en sílice y ADN: llevan décadas en investigación, pero aún necesitan al menos 5 años más para su comercialización
El problema de la rentabilidad de los medios de almacenamiento
- Más que el medio de almacenamiento en sí, el costo de la infraestructura del sistema de almacenamiento es mucho más importante
- El costo de medios como cinta o disco representa una parte menor del costo total
- Los costos solo se reducen cuando se opera a escala de centro de datos
- El almacenamiento de archivo pierde rentabilidad cuando se opera a pequeña escala
Almacenamiento en la nube y el problema del lock-in
- El costo del almacenamiento de archivo en servicios en la nube es muy alto a largo plazo
- Amazon Glacier: puede reducir costos para conservación de largo plazo, pero el costo de recuperación de datos es alto
- Costo de almacenamiento: $10,900/año
- Costo de recuperación: $49,550 (basado en 1PB)
- Costo total: $60,950
- Período de lock-in: 50.0 meses
- Google Archive: altos costos de almacenamiento y recuperación → ineficiente para conservación de largo plazo
- Costo de almacenamiento: $13,200/año
- Costo de recuperación: $210,810 (basado en 1PB)
- Costo total: $224,510
- Período de lock-in: 175.6 meses
- Microsoft Archive: bajo costo de almacenamiento, pero alto costo de recuperación de datos
- Costo de almacenamiento: $22,000/año
- Costo de recuperación: $40,100 (basado en 1PB)
- Costo total: $62,200
- Período de lock-in: 20.0 meses
- Problema de lock-in: el alto costo de recuperación dificulta mover los datos
- Amazon Glacier tiene el costo de almacenamiento más bajo y también un costo de recuperación relativamente menor
Project Silica (proyecto de sílice de Microsoft)
- Sílice: medio de almacenamiento de datos de ultra alta densidad
- Almacena datos en un plato de sílice mediante un láser de femtosegundo
- Tiene alta densidad de almacenamiento y excelente estabilidad física
- Problema de costos: el láser de femtosegundo es costoso → se espera una reducción de precio con producción masiva
- Separación entre lectura y escritura → refuerza la seguridad y garantiza la integridad de los datos
- Problema de velocidad de lectura: se estima un tiempo de respuesta de 15 horas → solo es eficiente en sistemas de gran escala
El problema de la recuperación de datos
- Lo importante en archivo es la posibilidad de recuperar los datos
- Microsoft almacena código fuente abierto en película en la isla de Svalbard
- La posibilidad de recuperación tras un desastre es baja
- El acceso es difícil por la lejanía y el mal clima
Sistema LOCKSS (Lots Of Copies Keep Stuff Safe)
- Guardar múltiples copias en medios de bajo costo → mejora la seguridad de los datos
- El respaldo y la recuperación se garantizan con muchas copias, más que con sistemas costosos
- La eficiencia de costos es importante → se prefieren sistemas de almacenamiento baratos antes que medios costosos
Conclusión
- El punto clave del almacenamiento de archivo no es la tecnología, sino la rentabilidad
- Los medios dedicados exclusivamente a archivo son económicamente ineficientes
- Los servicios en la nube tienen altos costos de recuperación → generan problemas de lock-in
- Operarlo en centros de datos a gran escala permite reducir el costo del almacenamiento de largo plazo
- Project Silica es la tecnología de almacenamiento de archivo más prometedora, pero todavía necesita tiempo para llegar a la comercialización
1 comentarios
Opiniones en Hacker News