Informe de la caída de Cloudflare del 2 de julio de 2019 [Traducción]
(ryanking13.github.io)El CTO de Cloudflare organizó un resumen del incidente y la respuesta, en un texto que permite entender cómo ocurren los problemas en una organización a gran escala y cómo se los enfrenta.
5 comentarios
El apéndice del original también está interesante. También hay una explicación detallada de por qué el patrón problemático
.*.*=.*agotó la CPU, y aunque corregir la expresión regular es buena idea, parece que también tuvo sentido considerar como alternativa cambiar el motor.Es un informe de incidente impresionante. Ya de por sí es destacable que hayan explicado con tanto detalle cómo respondieron, pero hay mucho que aprender del hecho de que no lo vieran simplemente como el error de un solo ingeniero, sino que identificaran causas complejas y las fueran resolviendo una por una. Aunque ocurrió la caída, hasta parece que más bien va a fortalecer la confianza en la empresa.
Me identifico mucho con eso. A mí también me impresionó que señalaran causas múltiples. Creo que hay mucho que aprender de no verlo solo como el error de un ingeniero.
Así es. Tal vez hasta tengan algún ejecutivo encargado de los informes de incidentes. Ya es impresionante que puedan identificar y analizar las causas con ese nivel de detalle, pero además redactaron el informe tan bien que hasta dan ganas de preguntarse si hacía falta escribirlo con tanto detalle.
John Graham-Cumming, el CTO de Cloudflare que escribió ese artículo, ya era un bloguero muy conocido. https://blog.jgc.org/