Compartiendo detalles sobre el incidente reciente que afectó a un cliente
Soporte al cliente de Google Cloud
- A inicios de este mes, ocurrió un incidente de Google Cloud que afectó al cliente australiano UniSuper.
- Inmediatamente después de que ocurrió el incidente, la máxima prioridad fue trabajar con el cliente para restaurar completamente el sistema.
- Poco después de que comenzó el incidente, se reconoció públicamente el incidente mediante un comunicado conjunto con el cliente.
- Después de que los sistemas del cliente se restauraron por completo, se completó una revisión interna.
- Se comparte esta información para aclarar la naturaleza del incidente y ofrecer una explicación precisa en favor de la transparencia.
- Google Cloud ha tomado medidas para evitar que este incidente específico y aislado vuelva a ocurrir.
- El impacto de este incidente fue muy decepcionante y lamentamos profundamente los inconvenientes causados al cliente.
Alcance del impacto
Tecnologías y servicios afectados
- Este incidente afectó a los siguientes servicios administrados por Google:
- Un cliente en una región de nube.
- Uno de los servicios de Google Cloud que usa ese cliente: Google Cloud VMware Engine (GCVE).
- Uno de varios private clouds de GCVE del cliente distribuidos en dos zonas.
Elementos no afectados
- Este incidente no afectó a lo siguiente:
- Otros servicios de Google Cloud.
- Otros clientes que usan GCVE u otros servicios de Google Cloud.
- Otros private clouds de GCVE del cliente, cuentas de Google, organizaciones, carpetas o proyectos.
- Los respaldos de datos del cliente almacenados en Google Cloud Storage dentro de la misma región.
Causa del incidente
Resumen
- Durante el despliegue inicial de un private cloud de Google Cloud VMware Engine (GCVE) para el cliente, un operador de Google configuró incorrectamente el servicio GCVE usando una herramienta interna. Esto ocurrió porque dejó vacío un parámetro.
- Como resultado, el private cloud de GCVE del cliente quedó configurado con un periodo fijo y para eliminarse automáticamente al finalizar ese periodo.
- Tanto la causa del incidente como el comportamiento del sistema ya fueron corregidos para evitar que vuelva a ocurrir.
- Este incidente no afectó a ningún otro servicio de Google Cloud aparte de un solo private cloud de GCVE de este cliente.
- Ningún otro cliente se vio afectado por este incidente.
Análisis detallado
Despliegue mediante un proceso de excepción
- A inicios de 2023, un operador de Google usó una herramienta interna para desplegar uno de los private clouds de GCVE del cliente con el fin de cumplir un requisito específico de asignación de capacidad.
- Esta herramienta interna de gestión de capacidad fue retirada en el cuarto trimestre de 2023, y ahora el proceso está completamente automatizado y ya no requiere intervención humana.
Comportamiento no intencional debido a un parámetro de entrada vacío
- El operador de Google siguió los protocolos internos de control.
- Sin embargo, al usar la herramienta interna para aprovisionar el private cloud del cliente, un parámetro de entrada quedó vacío.
- Como resultado, el sistema asignó a ese parámetro un valor predeterminado entonces desconocido de periodo fijo de un año.
- Una vez que terminó el periodo de un año asignado por el sistema, el private cloud de GCVE del cliente fue eliminado.
- No se envió ninguna notificación al cliente porque la eliminación ocurrió como resultado de que un operador de Google dejara vacío un parámetro al usar la herramienta interna.
- Una eliminación iniciada por el cliente solo habría ocurrido después de enviar una notificación al cliente.
Recuperación
- El cliente y los equipos de Google colaboraron día y noche durante varios días para restaurar el private cloud de GCVE del cliente, restablecer las configuraciones de red y seguridad, restaurar las aplicaciones y recuperar los datos hasta volver a una operación completa.
- Esto fue posible gracias al enfoque sólido y resiliente de arquitectura del cliente.
- Los respaldos de datos almacenados en Google Cloud Storage en la misma región no se vieron afectados por la eliminación y, junto con software de respaldo de terceros, desempeñaron un papel clave en la rápida recuperación.
Medidas correctivas
- Google Cloud tomó varias medidas para evitar que este incidente vuelva a ocurrir:
- Retiró la herramienta interna que provocó este incidente. Esta parte ahora está completamente automatizada y puede ser controlada por el cliente desde la interfaz de usuario.
- Limpió la base de datos del sistema y revisó manualmente todos los private clouds de GCVE para asegurar que ningún otro despliegue de GCVE estuviera en riesgo.
- Modificó el comportamiento del sistema que configuraba la eliminación de private clouds de GCVE en estos flujos de trabajo de despliegue.
Conclusión
- Este es el primer incidente de esta naturaleza dentro de Google Cloud. No se trata de un problema sistémico.
- Los servicios de Google Cloud cuentan con fuertes mecanismos de protección, como soft delete, notificaciones previas e intervención humana.
- Se confirmó que estas protecciones siguen vigentes.
- Trabajar estrechamente con el cliente es esencial para una recuperación rápida. El CIO del cliente y su equipo técnico merecen reconocimiento por colaborar estrechamente con el equipo de Google Cloud para ejecutar una recuperación 24/7 de forma rápida y precisa.
- Una gestión de riesgos sólida y resiliente es esencial para una recuperación rápida ante incidentes inesperados.
- Google Cloud sigue teniendo una de las infraestructuras de nube más resilientes y confiables del mundo. A pesar de este incidente aislado, nuestro tiempo de actividad y resiliencia han sido verificados de forma independiente.
Opinión de GN⁺
- Importancia del incidente: Este incidente muestra lo importante que es que un proveedor de servicios en la nube resuelva los problemas rápidamente y colabore con el cliente.
- Necesidad de la automatización: Destaca la importancia de automatizar las herramientas internas, especialmente cuando un error humano puede tener un gran impacto en el sistema.
- Colaboración con el cliente: Muestra qué tan importante es la colaboración estrecha con el cliente para resolver problemas. También es un factor clave para generar confianza.
- Importancia de los respaldos de datos: Subraya lo importantes que son los respaldos de datos, especialmente para una recuperación rápida ante incidentes inesperados.
- Medidas de prevención futuras: Las medidas que Google Cloud tomó para prevenir la recurrencia del incidente pueden servir como un buen ejemplo para otros proveedores de servicios en la nube.
1 comentarios
Opinión de Hacker News
Resumen de comentarios de Hacker News
Insatisfacción con la profundidad de la solución
Preguntas sobre las medidas de protección para clientes de GCP
Dudas sobre el trabajo 24x7
Incidentes relacionados
Sorpresa por el error del lado de Google
Exhaustividad de la revisión
Expectativas sobre GCP
Elogios al esfuerzo del cliente
Experiencia de un cliente de UniSuper
Malentendido en el anuncio inicial