2 puntos por GN⁺ 2024-04-01 | 1 comentarios | Compartir por WhatsApp

Sobre la interrupción del servicio de Tailscale.com del 7 de marzo de 2024

  • El 7 de marzo de 2024, Tailscale.com no estuvo accesible durante aproximadamente 90 minutos debido al vencimiento de un certificado TLS.
  • El problema se identificó y resolvió rápidamente, y afectó principalmente materiales de marketing y documentación.
  • Una interrupción inesperada del servicio es un problema, y quieren explicar la causa, el impacto y las medidas para evitar que vuelva a ocurrir.

Qué ocurrió

  • En diciembre de 2023 realizaron una renovación importante del sitio web, que incluyó la migración a un nuevo proveedor de hosting.
  • Como el proveedor de hosting no soportaba IPv6 de forma predeterminada, operaban un proxy separado para manejar las solicitudes IPv6.
  • El proveedor de hosting consideró esta configuración como una "configuración incorrecta" y emitió una advertencia, pero no se dieron cuenta de que eso impediría la renovación automática del certificado.
  • Había un probador que verificaba el vencimiento del certificado, pero como solo lo hacía a través de IPv6, únicamente comprobaba el certificado válido administrado por el proxy y no detectó el vencimiento inminente.

Impacto

  • La mayoría de las operaciones de Tailscale no requieren acceso al sitio web principal, por lo que muchos usuarios no tuvieron problemas en su uso normal.
  • La documentación, el blog y otros materiales de referencia no estuvieron accesibles, y aunque la consola de administración y la página de configuración no se vieron afectadas, los usuarios que no conocían la forma de acceder directamente pudieron pensar que estaban fuera de línea.
  • El script de instalación rápida no estuvo accesible, lo que afectó algunas instalaciones, incluidas las automatizadas.
  • El dominio que ofrece los paquetes de Tailscale sí estuvo accesible, y el impacto sobre el mecanismo go get de Go fue mínimo gracias al caché.

Medidas para resolverlo

  • Después de identificar el problema, eliminaron temporalmente el registro AAAA "adicional" y renovaron manualmente el certificado correspondiente.
  • Luego restauraron el registro para mantener la accesibilidad del sitio y los servicios a través de IPv6.
  • A corto plazo, planean configurar varias alertas redundantes en el calendario y tiempos designados para la renovación manual.
  • También actualizarán la infraestructura del probador para verificar por separado los endpoints IPv4 e IPv6.
  • Esperan soportar IPv6 de manera más directa en la infraestructura del sitio web, de modo que el proxy deje de ser necesario.
  • Gracias al diseño de Tailscale, la mayoría de los usuarios no se vieron afectados por esta caída en la mayoría de los casos de uso.

Opinión de GN⁺

  • El caso de la caída de servicio de Tailscale resalta la importancia de la gestión de infraestructura de TI. En particular, muestra qué tan cruciales son tareas básicas de mantenimiento como la renovación de certificados.
  • Este incidente sugiere la importancia del soporte para IPv6 y, al mismo tiempo, la necesidad de enfoques creativos para resolver problemas de compatibilidad con la infraestructura existente.
  • Otros servicios con funciones similares incluyen Cloudflare y Let's Encrypt, que ofrecen renovación automática de certificados para evitar problemas parecidos.
  • Al adoptar tecnología, se deben considerar la compatibilidad de la infraestructura, la posibilidad de automatización y la facilidad de mantenimiento. Este tipo de incidentes muestra por qué es necesario evaluar con cuidado las ventajas y desventajas al elegir tecnología.
  • Este artículo puede ayudar a concientizar a usuarios y administradores sobre tareas básicas de gestión de sistemas, como el vencimiento de certificados.

1 comentarios

 
GN⁺ 2024-04-01
Comentarios en Hacker News
  • Problema de certificados que expiran

    Los certificados que expiran están causando una nueva caída de DNS. Comparte la experiencia de poder trabajar de forma segura desde cualquier lugar usando Tailscale. Accede a servidores on-premise y a la configuración de producción en AWS mediante Tailscale, y aun cuando el wifi local es lento, puede resolver problemas desde otra ubicación por SSH. Tailscale ofrece funciones para otorgar y revocar fácilmente permisos de acceso a la red.

  • Problemas causados por el vencimiento de certificados

    El problema de vencimiento de certificados volvió a ocurrir. Como parte del análisis posterior al incidente, recomienda separar el sitio de marketing y las rutas críticas de la operación de clientes. Señala que el tiempo de inactividad en sitios como GitHub o Zendesk es más común de lo que se espera.

  • Problema de conexión entre el sitio de marketing y la app

    Comparte un problema causado por poner en el sitio de marketing un enlace a la página de inicio de sesión de la app. Se dio cuenta de que, si el sitio de marketing se cae, los usuarios pueden pensar erróneamente que la app también está caída. Muchas veces los usuarios siguen la ruta que se les proporciona y no saben que existe otra alternativa.

  • Queja sobre la política de precios

    Le gusta el servicio de Tailscale, pero es difícil vendérselo a la gerencia porque un control de acceso adecuado para una VPN cuesta los caros 18 dólares al mes. También es difícil vender un plan de nivel más bajo si no incluye control de acceso.

  • Duda sobre el proveedor del sitio web

    Plantea dudas sobre quién es el proveedor del sitio web y si, por no contar con soporte para IPv6, fue necesario pasar por un procedimiento complicado.

  • Elogio a la cultura de ingeniería

    Expresa envidia por haber hecho una actualización importante en diciembre contando con procesos confiables de CI/CD y monitoreo. Sin embargo, quedan preguntas sin resolver: por qué falló la renovación del certificado debido a un problema de configuración de IPv6, por qué tomó 90 minutos resolver el problema y por qué no se habían migrado a un proveedor de DNS con soporte para IPv6.

  • Duda sobre por qué se necesita terminación TLS

    Plantea la duda de si el proxy realmente necesita hacer terminación TLS, o si un simple proxy TCP no sería suficiente. Con un proxy TCP, la renovación automática también podría ser posible.

  • Mención sarcástica sobre recordatorios de calendario

    Le gustó la forma ingeniosa de referirse a configurar varios recordatorios de calendario redundantes, como hacían los antepasados.

  • Preocupación por la seguridad

    Señala que, si Tailscale comete aunque sea un pequeño error relacionado con la seguridad, para las personas con un poco de paranoia podría volverse demasiado riesgoso. Hace falta una mejor solución para esto.

  • Propuesta sobre monitoreo de infraestructura y renovación automática

    Sugiere que debería haber monitoreo de infraestructura y que se agregue código para verificar IPv4 e IPv6 en todos los dominios públicos y alertar 19 días antes del vencimiento del certificado. Configurar la renovación automática 20 días antes del vencimiento podría evitar interrupciones relacionadas con SSL.