- Postman sufrió temporalmente una interrupción del servicio por un problema global en la nube
- El incidente fue causado por un problema del proveedor de la nube y provocó errores funcionales y un fallo intermitente de acceso para muchos usuarios
- El equipo de ingeniería trabajó en la recuperación en tiempo real, mientras el servicio se restauraba de forma gradual
- También se monitoreó y resolvió continuamente el error de algunas funciones de búsqueda y un problema de dependencia cruzada
- Actualmente el incidente fue resuelto y el servicio se recuperó de manera normal, con monitoreo adicional de estabilidad en curso
Cronograma y proceso de recuperación de la caída del servicio de Postman
Detección del incidente e impacto (Oct 20, 05:39 ~ 05:52 PDT)
- Se detectó un problema funcional debido al aumento de la tasa de errores en Postman
- El origen de esta caída fue un incidente crítico en el proveedor de servicios en la nube
- El equipo de Postman trabajó con el proveedor de nube para responder y agilizar la normalización del servicio
Recuperación parcial del servicio y monitoreo (Oct 20, 05:56 ~ 17:17 PDT)
- Se observó una tendencia de recuperación en algunos sistemas
- Se continuó monitoreando el rendimiento de múltiples servicios mientras se proseguía con las tareas de restauración completa
- Se confirmó que la mayoría de las funciones se recuperó y se mantuvo el enfoque en evitar futuras caídas mediante monitoreo continuo
Recuperación total y normalización del servicio (Oct 20, 19:00 ~ 20:51 PDT)
- Aunque quedaron algunos problemas intermitentes en ciertos servicios, la mayoría de los sistemas se recuperó de forma estable
- Se resolvieron progresivamente tanto los errores de dependencia cruzada como los relacionados con la función de búsqueda
- Tras resolver todos los problemas y completar la restauración completa del servicio, se realizó monitoreo adicional para asegurar la estabilidad
Resumen y lecciones
- Postman tiene una alta dependencia del entorno en la nube, por lo que su arquitectura recibe impacto directo de una caída global
- Se resalta la necesidad de que herramientas similares o servicios dependientes de funcionamiento local también se preparen para interrupciones de la infraestructura en la nube
- Cuando ocurre una caída, el monitoreo de incidentes en tiempo real y la comunicación son críticos para el mantenimiento y la confianza de los clientes
- Durante una recuperación gradual, es importante la respuesta rápida del equipo y una comunicación transparente
- Vuelve a subrayarse la necesidad de establecer un sistema de monitoreo que verifique que todos los servicios estén operando correctamente
1 comentarios
Comentarios de Hacker News
yapi(https://github.com/jamierpond/yapi), y se puede usar así: Ejemplo de archivo yaml (incluyendo schema, url, method, path y la forma de indicar query params). Al ejecutar soloyapi, también se puede buscar fácil el archivo de configuración usando fzf.