15 puntos por xguru 2021-10-06 | 2 comentarios | Compartir por WhatsApp
  • Un análisis externo de CloudFlare sobre por qué no se podía acceder a los servicios relacionados con Facebook el 4/10

  • Desde las búsquedas de DNS ya fallaba, y se habían cortado las conexiones IP hacia toda la infraestructura relacionada con Facebook

  • El anuncio oficial de Facebook fue:

→ "Se produjo un problema al cambiar la configuración de los routers backbone que coordinan el tráfico de red entre centros de datos. Esto afectó en cadena la conectividad entre centros de datos y provocó la interrupción del servicio"

→ Los servidores DNS normalmente anuncian su presencia a través de BGP, pero los servidores DNS de Facebook estaban configurados para deshabilitar BGP si no podían conectarse con los centros de datos de Facebook

→ Al cortarse el backbone de los centros de datos, empezaron a rechazar solicitudes BGP y se volvió imposible acceder a los servidores DNS

→ Por eso terminó siendo imposible acceder a todos los servidores de Facebook

→ De hecho, incluso era difícil acceder físicamente a los centros de datos, así que los ingenieros tuvieron que ir al sitio para resolver el problema

  • El problema ocurrió como si alguien hubiera desenchufado el cable de Internet del centro de datos de Facebook

  • No era un problema de DNS, pero los errores de DNS fueron el primer síntoma de la caída masiva

  • BGP (Border Gateway Protocol)

→ Es el mecanismo mediante el cual los AS (Autonomous Systems) de Internet intercambian información de enrutamiento

→ Los grandes routers comparten continuamente información de enrutamiento para mantener la ruta hacia la información final

→ Si Facebook no anuncia su propia existencia a la red, se vuelve inaccesible

→ Cada red individual tiene un ASN (Number) y anuncia los prefijos de las IP que administra

  • Desde las 15:40 UTC del 4/10, Facebook dejó de anunciar sus prefijos DNS

→ Como en el problema que describió Facebook arriba, al no enviar anuncios BGP se volvió inaccesible

→ Esto cambió el enrutamiento y provocó actualizaciones BGP a gran escala

→ Todos los servidores DNS empezaron a responder SERVFAIL para las URL de Facebook

→ Las consultas DNS comenzaron a aumentar 30x

→ También aumentaron las consultas DNS hacia Twitter, Signal y Telegram

  • A las 21:00 UTC, BGP se actualizó de nuevo y todo volvió a la normalidad

2 comentarios

 
roxie 2021-10-06

Que Facebook tuviera una caída de 5 horas... de verdad fue un incidente enorme.

 
xguru 2021-10-06