2 puntos por GN⁺ 2023-11-05 | 1 comentarios | Compartir por WhatsApp
  • Del 2 al 4 de noviembre de 2023, se interrumpieron el plano de control y los servicios de analítica de Cloudflare.
  • El plano de control incluye principalmente las interfaces orientadas al cliente de los servicios de Cloudflare, mientras que los servicios de analítica incluyen el registro y los reportes analíticos.
  • Este incidente fue provocado por una falla eléctrica en el centro de datos de Flexential, que alberga el clúster de analítica más grande de Cloudflare y una parte importante de su clúster de alta disponibilidad.
  • Aunque los sistemas de alta disponibilidad estaban implementados para evitar este tipo de interrupciones, algunos sistemas críticos tenían dependencias no documentadas públicamente que los dejaron fuera de servicio durante el incidente.
  • El plano de control y los sistemas de analítica de Cloudflare operan principalmente en tres centros de datos alrededor de Hillsboro, Oregón, diseñados para funcionar de manera independiente y seguir operando incluso si uno queda fuera de línea.
  • Esta interrupción reveló que algunos servicios, especialmente los más nuevos, aún no se habían incorporado al clúster de alta disponibilidad, y que el sistema de registro no formaba parte de ese clúster.
  • La falla eléctrica en el centro de datos de Flexential fue causada por un evento de mantenimiento no planificado que afectó los suministros eléctricos independientes que entran al edificio, lo que provocó una falla a tierra en un transformador.
  • Cloudflare pudo recuperar la mayor parte del plano de control desde una instalación de recuperación ante desastres, y una vez que esta volvió a estar en línea, la mayoría de los clientes probablemente no habría tenido problemas con la mayoría de los productos.
  • Sin embargo, otros servicios tardaron más en recuperarse, y los clientes que dependían de ellos pudieron haber experimentado problemas hasta que el incidente se resolvió por completo.
  • Cloudflare está implementando cambios basados en las lecciones aprendidas del incidente, entre ellos eliminar la dependencia de centros de datos clave, garantizar que las funciones del plano de control sigan operando incluso si todos los centros de datos clave quedan fuera de línea, y exigir que todos los productos y funciones dependan del clúster de alta disponibilidad y cuenten con planes confiables de recuperación ante desastres.
  • La empresa también está realizando pruebas de caos más estrictas para todas las funciones de sus centros de datos, auditando todos los centros de datos clave y desarrollando planes de recuperación ante desastres para el registro y la analítica.

1 comentarios

 
GN⁺ 2023-11-05
Comentarios de Hacker News
  • Un artículo sobre la importante caída de Cloudflare; la empresa atribuye el problema a una falla eléctrica en un centro de datos operado por el proveedor Flexential.
  • Algunos comentaristas critican que Cloudflare esté trasladando la culpa a Flexential y revelando información confidencial sobre el proveedor.
  • La causa raíz de la caída fue que Cloudflare dependía de un solo centro de datos, y algunos comentaristas consideran que eso es vergonzoso para la reputación de Cloudflare.
  • El proceso de recuperación tomó más tiempo que la propia caída, y algunos servicios tardaron cerca de 30 horas en recuperarse por completo, debido a que muchos servicios dependían entre sí.
  • Algunos comentaristas expresan descontento con la comunicación de Cloudflare durante la caída, especialmente en el caso de los clientes empresariales.
  • A pesar de los problemas, algunos comentaristas elogian la transparencia de Cloudflare y lo exhaustivo del informe post mortem.
  • Algunos comentaristas expresan preocupación por las fallas de redundancia de Cloudflare y por la falta de distribución geográfica del plano de control.
  • Los comentaristas también critican que Cloudflare no hubiera puesto todos los servicios en clústeres de alta disponibilidad ni probado todos los escenarios posibles de cortes eléctricos.
  • Algunos comentaristas elogian el factor humano mencionado en el informe, reconociendo que Cloudflare necesitaba descansos para evitar errores adicionales durante el proceso de recuperación.
  • Los comentaristas subrayan la importancia de que un centro de datos pueda recuperarse estando completamente fuera de línea, y critican que Cloudflare no haya probado ese escenario.
  • Algunos comentaristas expresan sorpresa por la estructura del artículo, ya que la mayor parte de la publicación habla del proveedor externo y se enfoca menos en los propios esfuerzos de recuperación de Cloudflare.