Informe de incidente de GCP del 2025-06-12

roxie · 2025-06-15T03:00:39+09:00

Service Control: uno de los módulos principales que usan las API de Google y Google Cloud El 2025-05-29 se desplegó una nueva función en Service Control. Era una función para inspeccionar nuevas políticas El 2025-06-12, al agregarse una nueva política, empezó el problema: se produjo un bucle de fallos por un puntero nulo* no había un feature flag. Sin embargo, se ejecutó un red button para detención de emergencia en regiones grandes como us-central-1, esta acción provocó un herd effect* en los servicios internos que dependían de ello. Esto se debió a que no estaba implementada una estrategia de randomized exponential backoff** significa que llegó demasiado tráfico de golpe al mismo tiempo. ** es una técnica para evitar la sobrecarga de tráfico.

(status.cloud.google.com)

7 puntos por roxie 2025-06-15 | 5 comentarios | Compartir por WhatsApp

Service Control: uno de los módulos principales que usan las API de Google y Google Cloud
- El 2025-05-29 se desplegó una nueva función en Service Control. Era una función para inspeccionar nuevas políticas
- El 2025-06-12, al agregarse una nueva política, empezó el problema:
  - se produjo un bucle de fallos por un puntero nulo*
  - no había un feature flag. Sin embargo, se ejecutó un red button para detención de emergencia
  - en regiones grandes como us-central-1, esta acción provocó un herd effect* en los servicios internos que dependían de ello. Esto se debió a que no estaba implementada una estrategia de randomized exponential backoff**

significa que llegó demasiado tráfico de golpe al mismo tiempo.
** es una técnica para evitar la sobrecarga de tráfico.

5 comentarios

kunggom 2025-06-16

Parece que en GN+ también subieron una publicación sobre el mismo informe.

https://es.news.hada.io/topic?id=21473

kunggom 2025-06-16

Parece que incluso en una empresa tan grande como Google había por ahí código que, sorprendentemente, ni siquiera aplicaba una medida básica como agregar jitter al manejar los reintentos.
Probablemente lo dejaron así porque antes este problema no se había presentado; al final, parece que incluso en las grandes empresas también aplica eso de no tocar el código que ya funciona bien.

roxie 2025-06-15

Viendo esto ahora, parece que el formato se rompió un poco. Las últimas dos líneas son notas sobre el bucle de fallas y el randomized exponential backoff, respectivamente.

regentag 2025-06-15

¿Tendrá que ver con la falla del apagón de Internet de la publicación de hace unos días?

roxie 2025-06-15

Sí, correcto, se trata de esa interrupción.

Informe de incidente de GCP del 2025-06-12

Lecturas relacionadas

5 comentarios