1 puntos por GN⁺ 2023-07-28 | 1 comentarios | Compartir por WhatsApp
  • El servicio de Tarsnap quedó fuera de línea debido a una falla.
  • La interrupción fue causada por una falla en la verificación del estado del sistema del servidor central de Tarsnap alojado en la región us-east-1 de Amazon EC2.
  • Se desconoce la causa exacta de la falla, pero se estima que fue un error de hardware aislado.
  • El sistema de monitoreo de Tarsnap detectó la falla y envió una alerta al operador.
  • Se creó una instancia alternativa de EC2, pero el código del servidor de Tarsnap no se reinició automáticamente para evitar la pérdida de datos.
  • Después de reiniciar el servidor, los registros mostraron corrupción del sistema de archivos, por lo que se decidió configurar un servidor nuevo en lugar de recuperar el anterior.
  • El proceso de recuperación incluyó leer encabezados de metadatos desde Amazon S3 y volver a ejecutar las tareas localmente.
  • Durante la recuperación, se produjeron errores relacionados con entradas del registro de máquinas registradas y con el orden de entradas de registro no inicializadas.
  • El proceso de recuperación avanzó más lento de lo esperado y podría haberse optimizado para un mejor rendimiento.
  • El proceso de restauración del estado se completó el 3 de julio y el servidor volvió a estar en línea.
  • El tráfico se reanudó aproximadamente 26 horas y 16 minutos después del inicio de la interrupción.
  • Como compensación por la falla, Tarsnap ofreció a las cuentas de usuario el 50% del costo de almacenamiento de un mes.
  • Se recomienda a los usuarios dirigir sus preguntas o inquietudes a Colin Percival, fundador de Tarsnap.

1 comentarios

 
GN⁺ 2023-07-28
Opiniones en Hacker News
  • El editor de este artículo acreditó a todas las cuentas de Tarsnap el equivalente al 50% del costo de almacenamiento de un mes después de la caída.
  • Este editor está siendo elogiado por su enfoque generoso y centrado en el cliente para manejar la situación.
  • Este editor expresa sorpresa por la popularidad del artículo y menciona que tiene limitaciones para responder preguntas por motivos personales.
  • Un comentarista sugiere que cambiar tiempo adicional de caída por descanso podría ayudar a resolver el problema.
  • Probar regularmente el proceso de recuperación ayuda a identificar y solucionar errores o problemas.
  • Este análisis post mortem está siendo agradecido por su profesionalismo, cortesía y honestidad.
  • Los comentaristas recomiendan definir y probar pasos de recuperación ante caídas para minimizar el tiempo de inactividad en el futuro.
  • Se sugiere contratar personal de medio tiempo para mejorar la resiliencia del negocio ante incidentes similares.
  • Para posibles usuarios, se menciona el riesgo de depender de una sola persona, en este caso Colin Percival.
  • Se identifica un error de código de 2014 como la causa de la caída, y se recomienda usar modelado con TLA+ para detectar problemas como este.
  • La página de infraestructura del sitio web de Tarsnap debería actualizarse para reflejar la caída.
  • Se plantea la pregunta de si el software de cifrado de Tarsnap puede integrarse con Dropbox para almacenar datos de forma segura.