- El servicio de Tarsnap quedó fuera de línea debido a una falla.
- La interrupción fue causada por una falla en la verificación del estado del sistema del servidor central de Tarsnap alojado en la región us-east-1 de Amazon EC2.
- Se desconoce la causa exacta de la falla, pero se estima que fue un error de hardware aislado.
- El sistema de monitoreo de Tarsnap detectó la falla y envió una alerta al operador.
- Se creó una instancia alternativa de EC2, pero el código del servidor de Tarsnap no se reinició automáticamente para evitar la pérdida de datos.
- Después de reiniciar el servidor, los registros mostraron corrupción del sistema de archivos, por lo que se decidió configurar un servidor nuevo en lugar de recuperar el anterior.
- El proceso de recuperación incluyó leer encabezados de metadatos desde Amazon S3 y volver a ejecutar las tareas localmente.
- Durante la recuperación, se produjeron errores relacionados con entradas del registro de máquinas registradas y con el orden de entradas de registro no inicializadas.
- El proceso de recuperación avanzó más lento de lo esperado y podría haberse optimizado para un mejor rendimiento.
- El proceso de restauración del estado se completó el 3 de julio y el servidor volvió a estar en línea.
- El tráfico se reanudó aproximadamente 26 horas y 16 minutos después del inicio de la interrupción.
- Como compensación por la falla, Tarsnap ofreció a las cuentas de usuario el 50% del costo de almacenamiento de un mes.
- Se recomienda a los usuarios dirigir sus preguntas o inquietudes a Colin Percival, fundador de Tarsnap.
1 comentarios
Opiniones en Hacker News