- La instalación horaria del NIST en Boulder, Colorado, EE. UU., dejó de operar durante varios días por un apagón y, debido a una falla en el generador de respaldo, se produjo una desviación de hasta 5 μs respecto al tiempo de referencia UTC
- Esta instalación, que opera 6 servidores NTP, logró mantener la desviación por debajo de 5 μs pese a la falla del generador, por lo que el impacto para los usuarios generales fue casi nulo
- Sí podría haber impacto para instituciones de investigación científica y empresas aeroespaciales que dependen de sincronización de alta precisión, y NIST ya está colaborando directamente con ellas
- Los sistemas de GPS y WWV-Ft. Collins funcionaron con normalidad como respaldo, lo que demostró la redundancia de toda la infraestructura horaria de Estados Unidos
- Este caso muestra los riesgos de depender del GPS y la fragilidad de la infraestructura de sincronización, y subraya la necesidad de desarrollar sistemas PNT alternativos
Apagón y aparición del error de tiempo
- El campus del NIST en Boulder, Colorado, sufrió una interrupción porque la compañía eléctrica cortó el suministro para prevenir riesgo de incendios ante vientos de más de 160 km/h (100 mph)
- Todo el campus quedó cerrado, por lo que el personal no podía ingresar, lo que retrasó la recuperación
- Uno de los generadores de respaldo falló dos días después, dejando sin energía al conjunto principal de relojes (
clock ensemble) de los servidores NTP
- Jeff Sherman, responsable del Time Realization and Distribution Group, incluso consideró apagar los servidores para evitar emitir una señal horaria inexacta
- Por suerte, el sistema de relojes de otro edificio pudo transmitir la señal horaria, y parte del personal permaneció en el sitio para restablecer el servicio redirigiendo la energía de emergencia
- El respaldo por batería (UPS) mantuvo el tiempo hasta el reemplazo del generador, y como resultado la desviación frente a UTC se mantuvo por debajo de 5 μs
Operación de los servidores NTP y alcance del impacto
- NIST ofrece servicio de hora por Internet a través de 6 servidores NTP principales
- Según el resultado del comando
sntp time-a-b.nist.gov, el error por latencia de red para usuarios generales ronda los 35 milisegundos (35,000 μs), por lo que una desviación de 5 μs es prácticamente despreciable
- Por eso no se suspendió el servicio; aunque la precisión fue unas 5,000 veces menor de lo habitual, no hubo efecto para la mayoría de los usuarios
- Universidades, sector aeroespacial e instituciones científicas sí pueden ser sensibles a errores diminutos, por lo que NIST está trabajando directamente con ellas para hacer correcciones
- El sistema GPS de Estados Unidos cambió automáticamente al campus WWV-Ft. Collins, manteniendo el servicio sin una interrupción total
Fragilidad de la infraestructura horaria y tecnologías alternativas
- El autor opera su propio servidor NTP usando dos relojes GPS basados en Raspberry Pi y señala los riesgos de depender del GPS
- CISA ya había advertido sobre la sobredependencia de Estados Unidos del GPS, y el gobierno está impulsando el desarrollo de tecnologías PNT (Position, Navigation, Timing) alternativas
- El Broadcast Positioning System (BPS) se está discutiendo como posible alternativa al GPS
- El autor mantiene precisión de unos pocos nanosegundos usando un reloj atómico de rubidio y un GPSDO, y puede conservar la hora durante meses incluso si falla la señal GPS
- Sin embargo, campos como ciencia, RF, medios y finanzas requieren precisión a nivel de nanosegundos, y la mayoría toma como referencia la hora estándar del NIST
Lecciones y confiabilidad del sistema
- Este incidente demostró que el sistema de respuesta ante desastres del NIST sí funcionó en la práctica, mostrando una operación normal incluso con un error minúsculo
- La combinación de energía redundante, múltiples relojes y respaldo por GPS mantuvo la estabilidad de la infraestructura horaria nacional
- El autor enfatiza que la infraestructura de sincronización es muy frágil y requiere múltiples respaldos
- Incluso ante una crisis a nivel de microsegundos, el equipo del NIST resolvió el problema y la recuperación fue tan transparente que la mayoría de los usuarios ni lo notó
1 comentarios
Comentarios en Hacker News
Lo más interesante fue el programa Time Over Fiber (TOF) de NIST
Este servicio ofrece transferencia de tiempo de alta precisión a través de fibra óptica, y parece que algunos enlaces conectados directamente sí se vieron afectados
Nunca había oído hablar de este servicio, pero quizá se use en finanzas (HFT, relacionado con la norma FINRA 4590), en sincronización 5G, o para bases de datos globales como Google Spanner
Enlaces relacionados: aviso de NIST, explicación del programa TOF, FINRA Rule 4590, artículo sobre sincronización en 5G
En los sistemas de trading en tiempo real, GPS era suficiente, y la latencia importaba más que la precisión a nivel de microsegundos
Además, los requisitos regulatorios permiten un error de 1 segundo, así que no se exige una precisión al nivel de TOF
Por ejemplo, cuando hay que sincronizar con precisión datos de áreas extensas, como al observar al mismo tiempo ondas gravitacionales y estallidos de rayos gamma
Por ejemplo, lugares como Schriever Space Force Base son puntos principales de control del GPS
También es importante como red terrestre de tiempo de respaldo en caso de que se interrumpa la señal GNSS
Artículo relacionado: el sistema terrestre de temporización de alta precisión de China
En realidad, solo los servidores de Boulder tuvieron problemas de sincronización
Decir que “todo NIST estuvo fuera de línea” es una exageración
Según la página de estado de servidores, solo 5 de los 16 servidores NTP IPv4 se vieron afectados, y el resto siguió funcionando con normalidad
Además, la mayoría de los usuarios ni siquiera debería estar usando directamente los servidores de nivel superior, así que el problema fue mínimo
Personalmente recomiendo usar pool.ntp.org
¿No existe el riesgo de que el error se propague? También me da curiosidad si pool.ntp.org está distribuido para evitar correlaciones de fallas o de error
Un detalle menor, pero UTC significa “Coordinated Universal Time”
El orden de las letras se ajustó para no favorecer ni al inglés ni al francés
También se tuvo en cuenta la consistencia con el sistema previo de siglas como UT0, UT1 y UT2
Esto se sale un poco del tema, pero quiero elogiar a chrony
Me ha resultado mucho más estable que el cliente NTP predeterminado del SO en distintos entornos de hardware
Eso demuestra bastante bien su rendimiento y estabilidad
Este hilo está tan interesante que no puedo dejar de leerlo
Tal vez sea porque hoy tomé demasiado Adderall
Escuché que algunos traders de HFT ganaron cientos de miles de dólares con este incidente
Quisiera saber si aprovecharon el sistema de forma intencional o si solo fue un glitch afortunado
Antes se decía que “transmitir una hora incorrecta es peor que no transmitir nada”, así que no entiendo por qué esta vez se envió una hora con error
Según la lista de correo de NIST, por Internet normalmente hay una incertidumbre del orden de 1 ms, así que está en otra escala frente a la precisión científica
En ese momento se habían perdido tanto la energía como el acceso administrativo, así que no había manera de saber cuánto se había desviado el reloj
Si al restablecerse la energía se hubiera propagado inmediatamente una hora incorrecta, sistemas en todo el mundo podrían haber sufrido errores de sincronización
Por eso era mejor bloquearlo de forma segura (scram)
Relato corto relacionado: The Time Rift of 2100
Por ejemplo, es más seguro que una alarma contra incendios no responda a que informe erróneamente “no hay problema”
No entiendo el título del video que decía que “el reloj de NIST estuvo al borde del desastre”
¿No bastaba con corregir la hora desde otro campus?
Si de verdad existe un caso que necesite tanta precisión, haría falta la explicación de un experto
Me da curiosidad cuál ha sido el caso más importante en que la gente realmente necesitó tiempo exacto
Usamos White Rabbit para sincronizar sistemas de potencia RF y equipos de adquisición de datos a nivel de nanosegundos
Con TrueTime garantiza la consistencia transaccional global
Si un satélite GPS estuviera equivocado en esa magnitud, la precisión de posicionamiento caería a un nivel parecido al de Loran-C
La conversación empezó por un artículo de NPR
Enlace original