Informe de incidente de GCP del 2025-06-12
(status.cloud.google.com)- Service Control: uno de los módulos principales que usan las API de Google y Google Cloud
- El 2025-05-29 se desplegó una nueva función en Service Control. Era una función para inspeccionar nuevas políticas
- El 2025-06-12, al agregarse una nueva política, empezó el problema:
- se produjo un bucle de fallos por un puntero nulo*
- no había un feature flag. Sin embargo, se ejecutó un red button para detención de emergencia
- en regiones grandes como us-central-1, esta acción provocó un herd effect* en los servicios internos que dependían de ello. Esto se debió a que no estaba implementada una estrategia de randomized exponential backoff**
- significa que llegó demasiado tráfico de golpe al mismo tiempo.
** es una técnica para evitar la sobrecarga de tráfico.
5 comentarios
Parece que en GN+ también subieron una publicación sobre el mismo informe.
Parece que incluso en una empresa tan grande como Google había por ahí código que, sorprendentemente, ni siquiera aplicaba una medida básica como agregar
jitteral manejar los reintentos.Probablemente lo dejaron así porque antes este problema no se había presentado; al final, parece que incluso en las grandes empresas también aplica eso de no tocar el código que ya funciona bien.
Viendo esto ahora, parece que el formato se rompió un poco. Las últimas dos líneas son notas sobre el bucle de fallas y el
randomized exponential backoff, respectivamente.¿Tendrá que ver con la falla del apagón de Internet de la publicación de hace unos días?
Sí, correcto, se trata de esa interrupción.