25 puntos por tenshi 2022-02-03 | 5 comentarios | Compartir por WhatsApp

Este es un postmortem de la falla ocurrida en el servicio de Inflearn, que dejó el servicio inutilizable de forma continua desde el 3 hasta el 17 de enero de 2022. Se aborda en detalle el proceso desde el descubrimiento de la falla, la respuesta inicial, la recurrencia, el análisis de la causa raíz y la resolución definitiva de la causa raíz.

5 comentarios

 
xor100 2022-02-03

Gracias por el buen texto. Pero existe una buena palabra como «retrospectiva»... ¿por qué usaron la palabra «autopsia»? No es incorrecta, pero se siente un poco negativa.

 
kbumsik 2022-02-04

Para traducir Postmortem, veo que mucha gente usa la palabra "autopsia" para referirse a las medidas tomadas después de que ocurre un incidente.

 
ffdd270 2022-02-04

A mí me pareció curioso porque entendí que tenía el matiz de hacer una autopsia porque el servicio murió (...). Aunque supongo que también podría percibirse de otra manera. "m "

 
budlebee 2022-02-03

Creo que probablemente se refiere a un matiz como el de los correos de postmortem de Netflix.

 
tenshi 2022-02-03

En particular, en el caso de la tabla de cursos, debido a las columnas de gran tamaño (el código HTML de la columna de introducción del curso), cada Dead Tuple tiene un tamaño bastante alto.

Por eso, las consultas de actualización frecuentes terminan provocando una producción masiva de Dead Tuples de gran tamaño.

En particular, parece que la parte del análisis de causa raíz, donde se puede percibir el impacto que los Dead Tuples de PostgreSQL pueden tener en el servicio, será una muy buena referencia.