Informe de la caída de Slack del 2020-5-12
(slack.engineering)Explicación del incidente en el que Slack, por primera vez, estuvo completamente caído durante bastante tiempo
-
Después de desplegar un cambio en la configuración de la base de datos, se descubrió un bug de rendimiento que aumentaba la carga de la base de datos, así que se hizo rollback en pocos minutos
-
Aun así, debido a este problema, se activó el autoescalado de la app web y aumentó la cantidad de instancias por encima del Hard Limit
-
Como resultado, ocurrió un bug en la parte de actualización de la lista de hosts dentro del balanceador de carga, por lo que las nuevas instancias no pudieron registrarse
→ HAProxy + Consul
-
Después de 8 horas, las únicas instancias que quedaban en la lista de hosts eran las más antiguas, y cuando ocurrió el scale-down, esas instancias antiguas se apagaron
-
Las nuevas instancias debían tomar el relevo, pero no estaban en la lista de hosts del balanceador de carga.
Aún no hay comentarios.