2 puntos por GN⁺ 2023-09-12 | 1 comentarios | Compartir por WhatsApp
  • El 28 de agosto de 2023, NATS, el operador del control de tráfico aéreo del Reino Unido, sufrió una falla técnica grave que provocó la cancelación de más de 2,000 vuelos, con un costo aproximado de 100 millones de libras.
  • Al principio, se pensó que el problema se debía a un plan de vuelo defectuoso de una aerolínea francesa.
  • NATS es una entidad público-privada responsable de todo el control de tráfico aéreo del Reino Unido y de garantizar de forma segura la separación horizontal y vertical de las aeronaves.
  • El problema se rastreó hasta un plan de vuelo ingresado en el sistema de planes de vuelo, que había sido aprobado por el Integrated Initial Flight Plan Processing System (IFPS) de Eurocontrol.
  • Luego, el plan de vuelo fue enviado al sub-sistema Flight Plan Reception Suite Automated (FPRSA-R) de NATS, que convierte esos datos a un formato compatible con el National Airspace System (NAS) del Reino Unido.
  • El sistema FPRSA-R no pudo procesar un plan de vuelo que incluía dos waypoints con el mismo nombre, lo que provocó la caída del sistema.
  • Esta falla hizo que tanto el sistema principal como el de respaldo de FPRSA-R pasaran a modo de mantenimiento, deteniendo el procesamiento automático de planes de vuelo.
  • El incidente dejó al descubierto un bug en el software de FPRSA-R y subrayó la necesidad de mejores pruebas del sistema y de modos de falla más robustos.
  • A pesar de las dificultades técnicas, los controladores de tráfico aéreo garantizaron la seguridad de todos los vuelos en el espacio aéreo británico durante el incidente.
  • Este incidente abrió el debate sobre el uso de verificación formal y model checking en sistemas orientados a la seguridad, como el control de tráfico aéreo.
  • El artículo explica el proceso de reconciliar planes de vuelo ICAO y ADEXP, lo que incluye hacer coincidir los puntos de inicio y fin.
  • La función de reconciliación calcula todas las reconciliaciones posibles para identificar ambigüedades en los datos y marca esos planes de vuelo para procesamiento manual.
  • El artículo ofrece una guía paso a paso sobre cómo extraer la parte correspondiente al Reino Unido de un plan de vuelo.
  • Si el sistema no encuentra la parte del Reino Unido y llega al final del plan, devuelve un error.
  • El artículo ofrece un ejemplo detallado de cómo probar la función de reconciliación con un plan de vuelo específico.
  • El sistema puede procesar un plan de vuelo grande con 158 waypoints desde Londres hasta Sídney y devolver un resultado casi de inmediato.
  • El artículo destaca que, incluso con identificadores duplicados en un plan de vuelo, la función de reconciliación puede alinear correctamente los datos ICAO y ADEXP y definir la subruta adecuada.

1 comentarios

 
GN⁺ 2023-09-12
Comentarios de Hacker News
  • El sistema de control de tráfico aéreo del Reino Unido falló debido a un bug de software relacionado con el cerco de consultas "geográficamente distintas".
  • El sistema no pudo manejar una situación en la que el mismo nombre de waypoint se usaba dos veces en una ruta para referirse a lugares distintos, algo que no estaba previsto en el diseño del software.
  • El sistema entró en "modo de mantenimiento" al encontrarse con una "excepción crítica" y colapsó. El sistema de respaldo también colapsó por el mismo bug.
  • Hay críticas por la ausencia de un método llamado "ValidateFlightPlan" que genere un error cuando no se pueda analizar un plan de vuelo, y por la falta de una función que ponga en cola los planes de vuelo fallidos para revisión humana.
  • El problema solo se confirmó después de contactar al proveedor de software y revisar logs de bajo nivel.
  • A partir de las acusaciones contra un plan de vuelo francés ya aceptado por Eurocontrol, hay preocupación por una falta de entendimiento sobre cómo funciona el software.
  • El incidente provocó interrupciones graves en los viajes, y un usuario reportó un trayecto de 15 horas en lugar de las 2 horas habituales.
  • Se está pidiendo una validación más estricta de los datos de entrada en los sistemas de software, incluso cuando la entrada provenga de fuentes confiables, para evitar este tipo de fallas.
  • El incidente también planteó preguntas sobre las posibles consecuencias para Frequentis, el proveedor del software.