Estado actual de los incidentes en GCP
(blog.railway.app)Problemas y respuesta en Google Cloud Platform
- Railway opera su plataforma de desarrollo de aplicaciones usando Compute Engine de Google Cloud Platform (GCP).
- Algunas máquinas dejaron de responder, lo que provocó una interrupción del servicio que duró alrededor de 10 minutos.
- El problema se resolvió, todas las cargas de trabajo se migraron correctamente y el servicio se recuperó.
Una relación difícil con Google Cloud
- Railway ha enfrentado varios problemas con Google Cloud durante los últimos 18 meses.
- Como los problemas de red persistían, construyó su propio stack de red para resolverlos.
- Cuando Google limitó la cuota del registro, creó su propio producto de registro para solucionarlo.
- Decepcionada con el servicio de soporte de Google, Railway habló con vicepresidentes de Google para intentar resolver los problemas.
- Google cambió los términos del servicio y eso incrementó los costos en un 20%, y Railway sigue esperando una solución al respecto.
- Railway planea dejar de usar los servicios de Google Cloud y migrar a sus propias instancias bare metal.
Revisión del incidente
- Google reinició las máquinas, lo que dejó a los servidores fuera de línea.
- Existe un sistema automático de recuperación ante fallas, pero algunos servidores no se recuperaron, así que la recuperación se hizo manualmente.
- Se sospecha que el problema fue causado por la migración en vivo automática de Google Cloud; se intentó contactar a Google, pero no hubo respuesta.
- Según el análisis de los logs de la consola serial, se estima que en el guest de GCP, durante la transferencia de memoria del espacio de usuario al kernel, en casos poco frecuentes puede ocurrir un soft lock bajo presión de recursos.
Conclusión para los usuarios
- Durante la recuperación manual ante fallas, hubo alrededor de 10 minutos de tiempo de inactividad por cada host.
- Para los usuarios que ejecutan cargas de trabajo de múltiples servicios, el tiempo de inactividad puede ser mayor.
- Railway se disculpa por los inconvenientes causados a los usuarios y planea migrar a su propia infraestructura bare metal para ofrecer mayor confiabilidad.
Opinión de GN⁺
Lo más importante de este artículo es el impacto que los problemas técnicos de Google Cloud Platform y las deficiencias de su soporte al cliente tienen sobre los usuarios. Los problemas que enfrentó Railway destacan la importancia de la confiabilidad y el soporte de los proveedores de servicios en la nube, y muestran el valor de construir infraestructura propia para resolver este tipo de situaciones. El texto ayuda a entender la complejidad y los riesgos potenciales de la computación en la nube, y resulta interesante y útil porque ofrece perspectiva técnica y formas de respuesta ante este tipo de fallas.
1 comentarios
Comentarios de Hacker News
Experiencia de una pequeña empresa de software
Opinión sobre los cambios en GCP
Comparación de confiabilidad entre GCP y AWS
Opinión sobre los problemas de los proveedores de nube
Experiencia con el servicio de soporte de Google Cloud
Experiencia con problemas de funcionalidades de GCP
Experiencia con umbrales no documentados en GCP
Solución a los problemas de red en Google Cloud
Opinión sobre la confiabilidad de Google Cloud
Confusión personal sobre los problemas en GCP