- Indicador de durabilidad de EBS gp3: según la documentación oficial de AWS, la tasa anual de fallas (AFR) es de 0.1% ~ 0.2%. La durabilidad de un solo disco es muy alta, de 99.9%, pero a medida que crece la escala de la infraestructura, el riesgo probabilístico se acumula.
- Probabilidad de fallas según la escala:
- Al operar 1,000 discos, la probabilidad de que no ocurra ninguna falla en un año es de aproximadamente 36.8% ($0.999^{1000}$).
- Es decir, estadísticamente se experimentará al menos una falla de disco con una probabilidad de alrededor de 63.2%, un nivel de riesgo que debe tratarse como una constante al diseñar el sistema.
- Cambio en la tasa de supervivencia según la estructura de almacenamiento:
- Estructura distribuida (Sharding/RAID 0): la durabilidad de todo el sistema se determina por el producto de la durabilidad de cada componente ($R^n$). A medida que aumenta el número de discos, la probabilidad de supervivencia del sistema cae de forma exponencial.
- Estructura replicada (Mirroring/RAID 1): al reducir al cuadrado la probabilidad de falla por shard ($Q^2$), es posible mejorar drásticamente la durabilidad total del sistema incluso usando el mismo hardware.
- Separación de estrategias de gestión:
- Redundancy (RAID, etc.): estrategia para mantener la disponibilidad y la durabilidad del servicio frente a fallas mecánicas del hardware físico.
- Backup (snapshots en S3, etc.): el único medio para recuperarse de la "corrupción lógica de los datos", como errores del operador, bugs de software o ransomware. Ambos no pueden sustituirse entre sí.
- Conclusión: es cierto que los servicios administrados en la nube ofrecen alta estabilidad, pero la durabilidad final de un sistema está determinada no por las especificaciones de sus componentes individuales, sino por la capacidad del ingeniero para diseñar la arquitectura.
1 comentarios
Leí bien el artículo. ^^
Es justo el último lugar donde no hay que ahorrar dinero, jaja