11 puntos por before30 2020-12-25 | Aún no hay comentarios. | Compartir por WhatsApp

Actualización 2020/12/18 (se agregaron la causa y las medidas de respuesta)

#ROOT CAUSE

Desde octubre pasado, Google introdujo un nuevo sistema automático de asignación de almacenamiento para el servicio de ID de usuario. Algunos servicios seguían usando el sistema de cuotas anterior y tenían un problema por el que reportaban el uso como 0. El hecho de que se reportara como 0 no tuvo un impacto inmediato porque todavía quedaba tiempo de expiración, pero una vez que ese tiempo expiró, al reducirse la cuota del servicio de ID de usuario se produjo la interrupción. Existían verificaciones de seguridad para validar cambios de cuota no intencionales, pero no contemplaban el escenario de 0.

La cuota de la base de datos de cuentas se redujo, el write del líder de Paxos dejó de ser posible y la mayoría de las operaciones de lectura expiraron, lo que provocó errores al consultar la autenticación.

#REMEDIATION AND PREVENTION

  1. Revisar la automatización de gestión de cuotas para evitar la implementación rápida de cambios globales

  2. Mejorar el monitoreo y las alertas para detectar rápidamente configuraciones incorrectas

  3. Mejorar la estabilidad de las herramientas y procesos para la comunicación externa cuando ocurra una interrupción causada por herramientas internas

  4. Implementar resiliencia ante errores de escritura en la base de datos del servicio de ID de usuario

  5. Mejorar la resiliencia de los servicios de GCP limitando estrictamente el impacto en las áreas de datos cuando falle el servicio de ID de usuario

  • Se actualizó un informe detallado sobre la interrupción ocurrida el 14 de diciembre, así que lo estuve leyendo e hice una traducción rápida. Si encuentran errores, avísenme. Y como siempre disfruto mucho GeekNews, si encuentro contenido interesante sobre interrupciones, lo compartiré.

Aún no hay comentarios.

Aún no hay comentarios.