1 puntos por GN⁺ 2024-05-26 | 1 comentarios | Compartir por WhatsApp

Compartiendo detalles sobre el incidente reciente que afectó a un cliente

Soporte al cliente de Google Cloud

  • A inicios de este mes, ocurrió un incidente de Google Cloud que afectó al cliente australiano UniSuper.
  • Inmediatamente después de que ocurrió el incidente, la máxima prioridad fue trabajar con el cliente para restaurar completamente el sistema.
  • Poco después de que comenzó el incidente, se reconoció públicamente el incidente mediante un comunicado conjunto con el cliente.
  • Después de que los sistemas del cliente se restauraron por completo, se completó una revisión interna.
  • Se comparte esta información para aclarar la naturaleza del incidente y ofrecer una explicación precisa en favor de la transparencia.
  • Google Cloud ha tomado medidas para evitar que este incidente específico y aislado vuelva a ocurrir.
  • El impacto de este incidente fue muy decepcionante y lamentamos profundamente los inconvenientes causados al cliente.

Alcance del impacto

Tecnologías y servicios afectados

  • Este incidente afectó a los siguientes servicios administrados por Google:
    • Un cliente en una región de nube.
    • Uno de los servicios de Google Cloud que usa ese cliente: Google Cloud VMware Engine (GCVE).
    • Uno de varios private clouds de GCVE del cliente distribuidos en dos zonas.

Elementos no afectados

  • Este incidente no afectó a lo siguiente:
    • Otros servicios de Google Cloud.
    • Otros clientes que usan GCVE u otros servicios de Google Cloud.
    • Otros private clouds de GCVE del cliente, cuentas de Google, organizaciones, carpetas o proyectos.
    • Los respaldos de datos del cliente almacenados en Google Cloud Storage dentro de la misma región.

Causa del incidente

Resumen

  • Durante el despliegue inicial de un private cloud de Google Cloud VMware Engine (GCVE) para el cliente, un operador de Google configuró incorrectamente el servicio GCVE usando una herramienta interna. Esto ocurrió porque dejó vacío un parámetro.
  • Como resultado, el private cloud de GCVE del cliente quedó configurado con un periodo fijo y para eliminarse automáticamente al finalizar ese periodo.
  • Tanto la causa del incidente como el comportamiento del sistema ya fueron corregidos para evitar que vuelva a ocurrir.
  • Este incidente no afectó a ningún otro servicio de Google Cloud aparte de un solo private cloud de GCVE de este cliente.
  • Ningún otro cliente se vio afectado por este incidente.

Análisis detallado

Despliegue mediante un proceso de excepción
  • A inicios de 2023, un operador de Google usó una herramienta interna para desplegar uno de los private clouds de GCVE del cliente con el fin de cumplir un requisito específico de asignación de capacidad.
  • Esta herramienta interna de gestión de capacidad fue retirada en el cuarto trimestre de 2023, y ahora el proceso está completamente automatizado y ya no requiere intervención humana.
Comportamiento no intencional debido a un parámetro de entrada vacío
  • El operador de Google siguió los protocolos internos de control.
  • Sin embargo, al usar la herramienta interna para aprovisionar el private cloud del cliente, un parámetro de entrada quedó vacío.
  • Como resultado, el sistema asignó a ese parámetro un valor predeterminado entonces desconocido de periodo fijo de un año.
  • Una vez que terminó el periodo de un año asignado por el sistema, el private cloud de GCVE del cliente fue eliminado.
  • No se envió ninguna notificación al cliente porque la eliminación ocurrió como resultado de que un operador de Google dejara vacío un parámetro al usar la herramienta interna.
  • Una eliminación iniciada por el cliente solo habría ocurrido después de enviar una notificación al cliente.

Recuperación

  • El cliente y los equipos de Google colaboraron día y noche durante varios días para restaurar el private cloud de GCVE del cliente, restablecer las configuraciones de red y seguridad, restaurar las aplicaciones y recuperar los datos hasta volver a una operación completa.
  • Esto fue posible gracias al enfoque sólido y resiliente de arquitectura del cliente.
  • Los respaldos de datos almacenados en Google Cloud Storage en la misma región no se vieron afectados por la eliminación y, junto con software de respaldo de terceros, desempeñaron un papel clave en la rápida recuperación.

Medidas correctivas

  • Google Cloud tomó varias medidas para evitar que este incidente vuelva a ocurrir:
    1. Retiró la herramienta interna que provocó este incidente. Esta parte ahora está completamente automatizada y puede ser controlada por el cliente desde la interfaz de usuario.
    2. Limpió la base de datos del sistema y revisó manualmente todos los private clouds de GCVE para asegurar que ningún otro despliegue de GCVE estuviera en riesgo.
    3. Modificó el comportamiento del sistema que configuraba la eliminación de private clouds de GCVE en estos flujos de trabajo de despliegue.

Conclusión

  • Este es el primer incidente de esta naturaleza dentro de Google Cloud. No se trata de un problema sistémico.
  • Los servicios de Google Cloud cuentan con fuertes mecanismos de protección, como soft delete, notificaciones previas e intervención humana.
  • Se confirmó que estas protecciones siguen vigentes.
  • Trabajar estrechamente con el cliente es esencial para una recuperación rápida. El CIO del cliente y su equipo técnico merecen reconocimiento por colaborar estrechamente con el equipo de Google Cloud para ejecutar una recuperación 24/7 de forma rápida y precisa.
  • Una gestión de riesgos sólida y resiliente es esencial para una recuperación rápida ante incidentes inesperados.
  • Google Cloud sigue teniendo una de las infraestructuras de nube más resilientes y confiables del mundo. A pesar de este incidente aislado, nuestro tiempo de actividad y resiliencia han sido verificados de forma independiente.

Opinión de GN⁺

  • Importancia del incidente: Este incidente muestra lo importante que es que un proveedor de servicios en la nube resuelva los problemas rápidamente y colabore con el cliente.
  • Necesidad de la automatización: Destaca la importancia de automatizar las herramientas internas, especialmente cuando un error humano puede tener un gran impacto en el sistema.
  • Colaboración con el cliente: Muestra qué tan importante es la colaboración estrecha con el cliente para resolver problemas. También es un factor clave para generar confianza.
  • Importancia de los respaldos de datos: Subraya lo importantes que son los respaldos de datos, especialmente para una recuperación rápida ante incidentes inesperados.
  • Medidas de prevención futuras: Las medidas que Google Cloud tomó para prevenir la recurrencia del incidente pueden servir como un buen ejemplo para otros proveedores de servicios en la nube.

1 comentarios

 
GN⁺ 2024-05-26
Opinión de Hacker News

Resumen de comentarios de Hacker News

  • Insatisfacción con la profundidad de la solución

    • La solución no fue lo suficientemente profunda en comparación con el impacto del incidente. Se evitó que el mismo problema volviera a ocurrir, pero todavía existe la posibilidad de que sucedan problemas similares. Se necesitan medidas adicionales para prevenir de forma sistemática la baja/eliminación del servicio.
  • Preguntas sobre las medidas de protección para clientes de GCP

    • Se recomienda que los clientes de GCP le pregunten a su TAM sobre las medidas de protección de GCP. GCP casi no tiene medidas de protección basadas en intervención humana, y tiene muchas menos que AWS.
  • Dudas sobre el trabajo 24x7

    • Se cuestiona la expresión "el equipo de Google trabajó 24x7 durante varios días".
  • Incidentes relacionados

    • Se menciona el incidente en el que los miembros de UniSuper no pudieron acceder a sus cuentas durante una semana debido a una configuración errónea de Google Cloud, así como otro incidente en el que Google Cloud eliminó por error la cuenta de un cliente.
  • Sorpresa por el error del lado de Google

    • Se expresa sorpresa al saber que fue un error por parte de Google. Se comenta que UniSuper debió haber quedado muy impactado.
  • Exhaustividad de la revisión

    • Se considera que fue una revisión exhaustiva, ya que no solo se investigó una herramienta/proceso específico, sino que también se revisó el problema de eliminación automática y se verificó el comportamiento de la eliminación lógica. Sin embargo, se menciona que hace falta una revisión adicional del comportamiento predeterminado.
  • Expectativas sobre GCP

    • El problema de UniSuper ya fue resuelto, pero se espera que este incidente sirva como el impulso que GCP necesita.
  • Elogios al esfuerzo del cliente

    • Se elogia que el CIO del cliente y el equipo técnico colaboraran con el equipo de Google Cloud para llevar a cabo una recuperación 24x7 de manera rápida y precisa.
  • Experiencia de un cliente de UniSuper

    • Un cliente de UniSuper comenta que se enteró de la verdadera naturaleza del incidente por las noticias, y que hubo un intento de minimizarlo llamándolo "tiempo de inactividad del sistema".
  • Malentendido en el anuncio inicial

    • Se explica que el anuncio inicial llevó a malentendidos y que, en realidad, solo se perdieron máquinas virtuales de una región específica. Se menciona que este es un problema que el sistema debería poder manejar.