1 puntos por GN⁺ 2023-12-04 | 1 comentarios | Compartir por WhatsApp

Problemas y respuesta en Google Cloud Platform

  • Railway opera su plataforma de desarrollo de aplicaciones usando Compute Engine de Google Cloud Platform (GCP).
  • Algunas máquinas dejaron de responder, lo que provocó una interrupción del servicio que duró alrededor de 10 minutos.
  • El problema se resolvió, todas las cargas de trabajo se migraron correctamente y el servicio se recuperó.

Una relación difícil con Google Cloud

  • Railway ha enfrentado varios problemas con Google Cloud durante los últimos 18 meses.
  • Como los problemas de red persistían, construyó su propio stack de red para resolverlos.
  • Cuando Google limitó la cuota del registro, creó su propio producto de registro para solucionarlo.
  • Decepcionada con el servicio de soporte de Google, Railway habló con vicepresidentes de Google para intentar resolver los problemas.
  • Google cambió los términos del servicio y eso incrementó los costos en un 20%, y Railway sigue esperando una solución al respecto.
  • Railway planea dejar de usar los servicios de Google Cloud y migrar a sus propias instancias bare metal.

Revisión del incidente

  • Google reinició las máquinas, lo que dejó a los servidores fuera de línea.
  • Existe un sistema automático de recuperación ante fallas, pero algunos servidores no se recuperaron, así que la recuperación se hizo manualmente.
  • Se sospecha que el problema fue causado por la migración en vivo automática de Google Cloud; se intentó contactar a Google, pero no hubo respuesta.
  • Según el análisis de los logs de la consola serial, se estima que en el guest de GCP, durante la transferencia de memoria del espacio de usuario al kernel, en casos poco frecuentes puede ocurrir un soft lock bajo presión de recursos.

Conclusión para los usuarios

  • Durante la recuperación manual ante fallas, hubo alrededor de 10 minutos de tiempo de inactividad por cada host.
  • Para los usuarios que ejecutan cargas de trabajo de múltiples servicios, el tiempo de inactividad puede ser mayor.
  • Railway se disculpa por los inconvenientes causados a los usuarios y planea migrar a su propia infraestructura bare metal para ofrecer mayor confiabilidad.

Opinión de GN⁺

Lo más importante de este artículo es el impacto que los problemas técnicos de Google Cloud Platform y las deficiencias de su soporte al cliente tienen sobre los usuarios. Los problemas que enfrentó Railway destacan la importancia de la confiabilidad y el soporte de los proveedores de servicios en la nube, y muestran el valor de construir infraestructura propia para resolver este tipo de situaciones. El texto ayuda a entender la complejidad y los riesgos potenciales de la computación en la nube, y resulta interesante y útil porque ofrece perspectiva técnica y formas de respuesta ante este tipo de fallas.

1 comentarios

 
GN⁺ 2023-12-04
Comentarios de Hacker News
  • Experiencia de una pequeña empresa de software

    • Como empresa de software de 2 personas, han tenido varios problemas con Google.
    • La mayoría de los problemas están relacionados con Google Adwords.
    • Si Google no brinda un soporte adecuado al autor original, que paga una suma considerable, hay pocas esperanzas para los pequeños negocios.
  • Opinión sobre los cambios en GCP

    • Hace unos años, GCP era una mejor opción que AWS en términos de costo-rendimiento.
    • En ese entonces, el soporte de GCP era excelente, y la experiencia inicial con el manejo de tickets también fue impresionante.
    • La interacción con el equipo de ventas también era buena, pero ahora AWS ha alcanzado a GCP en costo-rendimiento y va por delante en servicios administrados.
    • La experiencia con el soporte de GCP ha empeorado notablemente y no logran reconocer problemas de red.
    • Han invertido mucho en GCP, pero están decepcionados con la situación actual y están tratando de reducir gastos.
  • Comparación de confiabilidad entre GCP y AWS

    • Aunque es raro que las instancias de cómputo se caigan en GCP, aun así recibe críticas.
    • En AWS han tenido experiencias en las que las instancias se interrumpen con frecuencia o desaparecen.
    • Afirman, con base en su experiencia personal y en la documentación de AWS, que los componentes básicos de AWS son menos confiables que los de GCP.
  • Opinión sobre los problemas de los proveedores de nube

    • Todos los proveedores de nube tienen problemas.
    • Han encontrado y reportado varios problemas en AWS, y el equipo de soporte les hizo perder tiempo.
    • Excepto por los servicios principales (EC2, EBS, S3), prefieren no usarlo.
  • Experiencia con el servicio de soporte de Google Cloud

    • El servicio de soporte de Google Cloud no les ha parecido impresionante.
    • En AWS, la experiencia con soporte siempre ha sido buena.
    • Recomiendan que, si se tiene una interacción positiva con Google Cloud, se destaque y se dé retroalimentación positiva.
  • Experiencia con problemas de funcionalidades de GCP

    • Las funciones empresariales de GCP no funcionaban correctamente y, al intentar corregirlas, provocaron tiempo de inactividad.
    • Los representantes de GCP intentaban no reconocer el problema recordando el NDA.
  • Experiencia con umbrales no documentados en GCP

    • En Cloud Run experimentaron eventos de escalado inexplicables relacionados con el uso de CPU y las solicitudes concurrentes.
    • A través del soporte premium supieron que había criterios adicionales, pero no recibieron una explicación detallada.
  • Solución a los problemas de red en Google Cloud

    • Han sufrido problemas de red persistentes en productos de Google Cloud.
    • Resolvían el problema construyendo su propia pila de red.
    • Cuestionan cómo una superposición UDP/Wireguard puede ser más confiable cuando la red subyacente es inestable.
  • Opinión sobre la confiabilidad de Google Cloud

    • Se puede entender que hubiera problemas de confiabilidad en los inicios de la computación en la nube, pero en 2023 no es una buena situación decepcionar a clientes grandes.
    • Se preguntan si otras personas han tenido experiencias similares o si solo el autor ha tenido mala suerte.
  • Confusión personal sobre los problemas en GCP

    • Les confunde qué relación tiene la virtualización anidada con el problema.
    • No entienden la mención de las instrucciones MMIO.
    • Parece que el autor se siente frustrado por el incidente reciente y está esforzándose por encontrar una solución.