1 puntos por GN⁺ 2025-12-24 | 1 comentarios | Compartir por WhatsApp
  • La instalación horaria del NIST en Boulder, Colorado, EE. UU., dejó de operar durante varios días por un apagón y, debido a una falla en el generador de respaldo, se produjo una desviación de hasta 5 μs respecto al tiempo de referencia UTC
  • Esta instalación, que opera 6 servidores NTP, logró mantener la desviación por debajo de 5 μs pese a la falla del generador, por lo que el impacto para los usuarios generales fue casi nulo
  • Sí podría haber impacto para instituciones de investigación científica y empresas aeroespaciales que dependen de sincronización de alta precisión, y NIST ya está colaborando directamente con ellas
  • Los sistemas de GPS y WWV-Ft. Collins funcionaron con normalidad como respaldo, lo que demostró la redundancia de toda la infraestructura horaria de Estados Unidos
  • Este caso muestra los riesgos de depender del GPS y la fragilidad de la infraestructura de sincronización, y subraya la necesidad de desarrollar sistemas PNT alternativos

Apagón y aparición del error de tiempo

  • El campus del NIST en Boulder, Colorado, sufrió una interrupción porque la compañía eléctrica cortó el suministro para prevenir riesgo de incendios ante vientos de más de 160 km/h (100 mph)
    • Todo el campus quedó cerrado, por lo que el personal no podía ingresar, lo que retrasó la recuperación
  • Uno de los generadores de respaldo falló dos días después, dejando sin energía al conjunto principal de relojes (clock ensemble) de los servidores NTP
  • Jeff Sherman, responsable del Time Realization and Distribution Group, incluso consideró apagar los servidores para evitar emitir una señal horaria inexacta
  • Por suerte, el sistema de relojes de otro edificio pudo transmitir la señal horaria, y parte del personal permaneció en el sitio para restablecer el servicio redirigiendo la energía de emergencia
  • El respaldo por batería (UPS) mantuvo el tiempo hasta el reemplazo del generador, y como resultado la desviación frente a UTC se mantuvo por debajo de 5 μs

Operación de los servidores NTP y alcance del impacto

  • NIST ofrece servicio de hora por Internet a través de 6 servidores NTP principales
  • Según el resultado del comando sntp time-a-b.nist.gov, el error por latencia de red para usuarios generales ronda los 35 milisegundos (35,000 μs), por lo que una desviación de 5 μs es prácticamente despreciable
  • Por eso no se suspendió el servicio; aunque la precisión fue unas 5,000 veces menor de lo habitual, no hubo efecto para la mayoría de los usuarios
  • Universidades, sector aeroespacial e instituciones científicas sí pueden ser sensibles a errores diminutos, por lo que NIST está trabajando directamente con ellas para hacer correcciones
  • El sistema GPS de Estados Unidos cambió automáticamente al campus WWV-Ft. Collins, manteniendo el servicio sin una interrupción total

Fragilidad de la infraestructura horaria y tecnologías alternativas

  • El autor opera su propio servidor NTP usando dos relojes GPS basados en Raspberry Pi y señala los riesgos de depender del GPS
  • CISA ya había advertido sobre la sobredependencia de Estados Unidos del GPS, y el gobierno está impulsando el desarrollo de tecnologías PNT (Position, Navigation, Timing) alternativas
  • El Broadcast Positioning System (BPS) se está discutiendo como posible alternativa al GPS
  • El autor mantiene precisión de unos pocos nanosegundos usando un reloj atómico de rubidio y un GPSDO, y puede conservar la hora durante meses incluso si falla la señal GPS
  • Sin embargo, campos como ciencia, RF, medios y finanzas requieren precisión a nivel de nanosegundos, y la mayoría toma como referencia la hora estándar del NIST

Lecciones y confiabilidad del sistema

  • Este incidente demostró que el sistema de respuesta ante desastres del NIST sí funcionó en la práctica, mostrando una operación normal incluso con un error minúsculo
  • La combinación de energía redundante, múltiples relojes y respaldo por GPS mantuvo la estabilidad de la infraestructura horaria nacional
  • El autor enfatiza que la infraestructura de sincronización es muy frágil y requiere múltiples respaldos
  • Incluso ante una crisis a nivel de microsegundos, el equipo del NIST resolvió el problema y la recuperación fue tan transparente que la mayoría de los usuarios ni lo notó

1 comentarios

 
GN⁺ 2025-12-24
Comentarios en Hacker News
  • Lo más interesante fue el programa Time Over Fiber (TOF) de NIST
    Este servicio ofrece transferencia de tiempo de alta precisión a través de fibra óptica, y parece que algunos enlaces conectados directamente sí se vieron afectados
    Nunca había oído hablar de este servicio, pero quizá se use en finanzas (HFT, relacionado con la norma FINRA 4590), en sincronización 5G, o para bases de datos globales como Google Spanner
    Enlaces relacionados: aviso de NIST, explicación del programa TOF, FINRA Rule 4590, artículo sobre sincronización en 5G

    • En HFT no hacía falta ese nivel de precisión
      En los sistemas de trading en tiempo real, GPS era suficiente, y la latencia importaba más que la precisión a nivel de microsegundos
      Además, los requisitos regulatorios permiten un error de 1 segundo, así que no se exige una precisión al nivel de TOF
    • Probablemente sea para experimentos científicos
      Por ejemplo, cuando hay que sincronizar con precisión datos de áreas extensas, como al observar al mismo tiempo ondas gravitacionales y estallidos de rayos gamma
    • No necesariamente se puede asumir que el consumidor sea comercial
      Por ejemplo, lugares como Schriever Space Force Base son puntos principales de control del GPS
    • Probablemente lo prioritario sea la investigación científica, como en el White Rabbit Project
      También es importante como red terrestre de tiempo de respaldo en caso de que se interrumpa la señal GNSS
      Artículo relacionado: el sistema terrestre de temporización de alta precisión de China
    • También podría usarse como reloj de referencia en redes SIGINT para cálculos de TDOA (Time Difference of Arrival) de altísima precisión
  • En realidad, solo los servidores de Boulder tuvieron problemas de sincronización
    Decir que “todo NIST estuvo fuera de línea” es una exageración
    Según la página de estado de servidores, solo 5 de los 16 servidores NTP IPv4 se vieron afectados, y el resto siguió funcionando con normalidad
    Además, la mayoría de los usuarios ni siquiera debería estar usando directamente los servidores de nivel superior, así que el problema fue mínimo
    Personalmente recomiendo usar pool.ntp.org

    • Me pregunto quién usa realmente los servidores de nivel superior
      ¿No existe el riesgo de que el error se propague? También me da curiosidad si pool.ntp.org está distribuido para evitar correlaciones de fallas o de error
    • time.nist.gov usa round-robin por DNS, así que algunos usuarios pudieron haberse conectado a los servidores de Boulder y haber experimentado un error de 5μs
  • Un detalle menor, pero UTC significa “Coordinated Universal Time”
    El orden de las letras se ajustó para no favorecer ni al inglés ni al francés

    • También se expresa como “Universal Time, Coordinated”
    • Según Wikipedia, es resultado de un acuerdo de organismos internacionales para usar la misma sigla en todos los idiomas
      También se tuvo en cuenta la consistencia con el sistema previo de siglas como UT0, UT1 y UT2
    • Como dato adicional, la hora estándar de Islandia también es igual a UTC
    • El trasfondo de ese nombre es bastante interesante
    • En francés se dice “Universel Temps Coordonné
  • Esto se sale un poco del tema, pero quiero elogiar a chrony
    Me ha resultado mucho más estable que el cliente NTP predeterminado del SO en distintos entornos de hardware

    • De hecho, distribuciones como RHEL y SLES ya usan chrony por defecto
      Eso demuestra bastante bien su rendimiento y estabilidad
  • Este hilo está tan interesante que no puedo dejar de leerlo
    Tal vez sea porque hoy tomé demasiado Adderall

  • Escuché que algunos traders de HFT ganaron cientos de miles de dólares con este incidente

    • Me intriga cómo habría sido posible
      Quisiera saber si aprovecharon el sistema de forma intencional o si solo fue un glitch afortunado
  • Antes se decía que “transmitir una hora incorrecta es peor que no transmitir nada”, así que no entiendo por qué esta vez se envió una hora con error

    • Un error de 5μs es, en la práctica, irrelevante para los usuarios de NTP
      Según la lista de correo de NIST, por Internet normalmente hay una incertidumbre del orden de 1 ms, así que está en otra escala frente a la precisión científica
    • Es una buena pregunta
      En ese momento se habían perdido tanto la energía como el acceso administrativo, así que no había manera de saber cuánto se había desviado el reloj
      Si al restablecerse la energía se hubiera propagado inmediatamente una hora incorrecta, sistemas en todo el mundo podrían haber sufrido errores de sincronización
      Por eso era mejor bloquearlo de forma segura (scram)
      Relato corto relacionado: The Time Rift of 2100
    • A veces aplica el principio de que es mejor no recibir respuesta que recibir una respuesta incorrecta
      Por ejemplo, es más seguro que una alarma contra incendios no responda a que informe erróneamente “no hay problema”
  • No entiendo el título del video que decía que “el reloj de NIST estuvo al borde del desastre”
    ¿No bastaba con corregir la hora desde otro campus?

    • Respondieron en tono de broma: “la razón te sorprenderá”
    • En realidad suena a un título clickbait
      Si de verdad existe un caso que necesite tanta precisión, haría falta la explicación de un experto
  • Me da curiosidad cuál ha sido el caso más importante en que la gente realmente necesitó tiempo exacto

    • Yo trabajo en un acelerador de partículas
      Usamos White Rabbit para sincronizar sistemas de potencia RF y equipos de adquisición de datos a nivel de nanosegundos
    • Google Spanner es un ejemplo representativo
      Con TrueTime garantiza la consistencia transaccional global
    • También es indispensable para calcular el vector de estado de una nave espacial
    • Sistemas como los radiotelescopios de apertura sintética también necesitan alinear con precisión los relojes de cada ubicación
    • Como referencia, un error de 5μs equivale a unos 1500 m de recorrido de la señal de radio
      Si un satélite GPS estuviera equivocado en esa magnitud, la precisión de posicionamiento caería a un nivel parecido al de Loran-C
  • La conversación empezó por un artículo de NPR
    Enlace original