Informe de la caída de Cloudflare del 2 de julio de 2019 [Traducción]

(ryanking13.github.io)

12 puntos por xguru 2019-07-21 | 5 comentarios | Compartir por WhatsApp

El CTO de Cloudflare organizó un resumen del incidente y la respuesta, en un texto que permite entender cómo ocurren los problemas en una organización a gran escala y cómo se los enfrenta.

5 comentarios

blurblah 2019-07-24

El apéndice del original también está interesante. También hay una explicación detallada de por qué el patrón problemático .*.*=.* agotó la CPU, y aunque corregir la expresión regular es buena idea, parece que también tuvo sentido considerar como alternativa cambiar el motor.

curioe 2019-07-21

Es un informe de incidente impresionante. Ya de por sí es destacable que hayan explicado con tanto detalle cómo respondieron, pero hay mucho que aprender del hecho de que no lo vieran simplemente como el error de un solo ingeniero, sino que identificaran causas complejas y las fueran resolviendo una por una. Aunque ocurrió la caída, hasta parece que más bien va a fortalecer la confianza en la empresa.

mytory 2019-07-23

Me identifico mucho con eso. A mí también me impresionó que señalaran causas múltiples. Creo que hay mucho que aprender de no verlo solo como el error de un ingeniero.

quake21 2019-07-22

Así es. Tal vez hasta tengan algún ejecutivo encargado de los informes de incidentes. Ya es impresionante que puedan identificar y analizar las causas con ese nivel de detalle, pero además redactaron el informe tan bien que hasta dan ganas de preguntarse si hacía falta escribirlo con tanto detalle.

lifthrasiir 2019-07-22

John Graham-Cumming, el CTO de Cloudflare que escribió ese artículo, ya era un bloguero muy conocido. https://blog.jgc.org/

Informe de la caída de Cloudflare del 2 de julio de 2019 [Traducción]

Lecturas relacionadas

5 comentarios