Sobre la interrupción del servicio de Tailscale.com del 7 de marzo de 2024
- El 7 de marzo de 2024, Tailscale.com no estuvo accesible durante aproximadamente 90 minutos debido al vencimiento de un certificado TLS.
- El problema se identificó y resolvió rápidamente, y afectó principalmente materiales de marketing y documentación.
- Una interrupción inesperada del servicio es un problema, y quieren explicar la causa, el impacto y las medidas para evitar que vuelva a ocurrir.
Qué ocurrió
- En diciembre de 2023 realizaron una renovación importante del sitio web, que incluyó la migración a un nuevo proveedor de hosting.
- Como el proveedor de hosting no soportaba IPv6 de forma predeterminada, operaban un proxy separado para manejar las solicitudes IPv6.
- El proveedor de hosting consideró esta configuración como una "configuración incorrecta" y emitió una advertencia, pero no se dieron cuenta de que eso impediría la renovación automática del certificado.
- Había un probador que verificaba el vencimiento del certificado, pero como solo lo hacía a través de IPv6, únicamente comprobaba el certificado válido administrado por el proxy y no detectó el vencimiento inminente.
Impacto
- La mayoría de las operaciones de Tailscale no requieren acceso al sitio web principal, por lo que muchos usuarios no tuvieron problemas en su uso normal.
- La documentación, el blog y otros materiales de referencia no estuvieron accesibles, y aunque la consola de administración y la página de configuración no se vieron afectadas, los usuarios que no conocían la forma de acceder directamente pudieron pensar que estaban fuera de línea.
- El script de instalación rápida no estuvo accesible, lo que afectó algunas instalaciones, incluidas las automatizadas.
- El dominio que ofrece los paquetes de Tailscale sí estuvo accesible, y el impacto sobre el mecanismo
go get de Go fue mínimo gracias al caché.
Medidas para resolverlo
- Después de identificar el problema, eliminaron temporalmente el registro AAAA "adicional" y renovaron manualmente el certificado correspondiente.
- Luego restauraron el registro para mantener la accesibilidad del sitio y los servicios a través de IPv6.
- A corto plazo, planean configurar varias alertas redundantes en el calendario y tiempos designados para la renovación manual.
- También actualizarán la infraestructura del probador para verificar por separado los endpoints IPv4 e IPv6.
- Esperan soportar IPv6 de manera más directa en la infraestructura del sitio web, de modo que el proxy deje de ser necesario.
- Gracias al diseño de Tailscale, la mayoría de los usuarios no se vieron afectados por esta caída en la mayoría de los casos de uso.
Opinión de GN⁺
- El caso de la caída de servicio de Tailscale resalta la importancia de la gestión de infraestructura de TI. En particular, muestra qué tan cruciales son tareas básicas de mantenimiento como la renovación de certificados.
- Este incidente sugiere la importancia del soporte para IPv6 y, al mismo tiempo, la necesidad de enfoques creativos para resolver problemas de compatibilidad con la infraestructura existente.
- Otros servicios con funciones similares incluyen Cloudflare y Let's Encrypt, que ofrecen renovación automática de certificados para evitar problemas parecidos.
- Al adoptar tecnología, se deben considerar la compatibilidad de la infraestructura, la posibilidad de automatización y la facilidad de mantenimiento. Este tipo de incidentes muestra por qué es necesario evaluar con cuidado las ventajas y desventajas al elegir tecnología.
- Este artículo puede ayudar a concientizar a usuarios y administradores sobre tareas básicas de gestión de sistemas, como el vencimiento de certificados.
1 comentarios
Comentarios en Hacker News
Problema de certificados que expiran
Problemas causados por el vencimiento de certificados
Problema de conexión entre el sitio de marketing y la app
Queja sobre la política de precios
Duda sobre el proveedor del sitio web
Elogio a la cultura de ingeniería
Duda sobre por qué se necesita terminación TLS
Mención sarcástica sobre recordatorios de calendario
Preocupación por la seguridad
Propuesta sobre monitoreo de infraestructura y renovación automática