- Del 2 al 4 de noviembre de 2023, se interrumpieron el plano de control y los servicios de analítica de Cloudflare.
- El plano de control incluye principalmente las interfaces orientadas al cliente de los servicios de Cloudflare, mientras que los servicios de analítica incluyen el registro y los reportes analíticos.
- Este incidente fue provocado por una falla eléctrica en el centro de datos de Flexential, que alberga el clúster de analítica más grande de Cloudflare y una parte importante de su clúster de alta disponibilidad.
- Aunque los sistemas de alta disponibilidad estaban implementados para evitar este tipo de interrupciones, algunos sistemas críticos tenían dependencias no documentadas públicamente que los dejaron fuera de servicio durante el incidente.
- El plano de control y los sistemas de analítica de Cloudflare operan principalmente en tres centros de datos alrededor de Hillsboro, Oregón, diseñados para funcionar de manera independiente y seguir operando incluso si uno queda fuera de línea.
- Esta interrupción reveló que algunos servicios, especialmente los más nuevos, aún no se habían incorporado al clúster de alta disponibilidad, y que el sistema de registro no formaba parte de ese clúster.
- La falla eléctrica en el centro de datos de Flexential fue causada por un evento de mantenimiento no planificado que afectó los suministros eléctricos independientes que entran al edificio, lo que provocó una falla a tierra en un transformador.
- Cloudflare pudo recuperar la mayor parte del plano de control desde una instalación de recuperación ante desastres, y una vez que esta volvió a estar en línea, la mayoría de los clientes probablemente no habría tenido problemas con la mayoría de los productos.
- Sin embargo, otros servicios tardaron más en recuperarse, y los clientes que dependían de ellos pudieron haber experimentado problemas hasta que el incidente se resolvió por completo.
- Cloudflare está implementando cambios basados en las lecciones aprendidas del incidente, entre ellos eliminar la dependencia de centros de datos clave, garantizar que las funciones del plano de control sigan operando incluso si todos los centros de datos clave quedan fuera de línea, y exigir que todos los productos y funciones dependan del clúster de alta disponibilidad y cuenten con planes confiables de recuperación ante desastres.
- La empresa también está realizando pruebas de caos más estrictas para todas las funciones de sus centros de datos, auditando todos los centros de datos clave y desarrollando planes de recuperación ante desastres para el registro y la analítica.
1 comentarios
Comentarios de Hacker News