- En la red global de Cloudflare se produjo una degradación del rendimiento de servicios internos, lo que afectó de forma intermitente a varios servicios
- Servicios principales como Access, Bot Management, CDN/Cache, Dashboard, Firewall, Network, WARP y Workers sufrieron una interrupción temporal
- El equipo de ingeniería identificó el problema y avanzó con las correcciones, y los servicios de WARP y Access fueron los primeros en recuperarse
- Después, a nivel mundial, la tasa de errores y la latencia volvieron gradualmente a niveles normales, y el servicio de dashboard también fue restaurado
- Actualmente todos los servicios operan con normalidad y el incidente está completamente resuelto
Resumen del incidente
- Cloudflare sufrió una degradación del rendimiento de servicios internos (Internal Service Degradation), lo que provocó interrupciones intermitentes en algunos servicios
- Entre los servicios afectados estuvieron Access, Bot Management, CDN/Cache, Dashboard, Firewall, Network, WARP y Workers
- La empresa inició de inmediato las labores de recuperación y mantuvo actualizaciones continuas sobre el avance de la resolución
Identificación del problema y respuesta inicial
- Cloudflare confirmó la degradación interna del servicio mientras se encontraba en la fase de investigación (Investigating)
- Algunos clientes experimentaron errores intermitentes y latencia
- El equipo de ingeniería trabajó en paralelo en el análisis de la causa y en la recuperación
- Después identificó la causa del problema (Identified) e inició las correcciones
- Durante la corrección, el acceso a WARP en la región de Londres se deshabilitó temporalmente, por lo que los usuarios de esa zona experimentaron fallas de conexión a Internet
Progreso en la restauración del servicio
- Tras las correcciones, los servicios de Access y WARP fueron los primeros en recuperarse, y la tasa de errores volvió a los niveles previos al incidente
- El acceso a WARP en la región de Londres fue reactivado
- Después continuaron las labores de restauración para los clientes de Application Services
- Se desplegaron cambios para restaurar el servicio de dashboard
- Aunque algunos clientes seguían teniendo problemas para iniciar sesión o usar el dashboard, se resolvieron con correcciones adicionales
Estabilización de toda la red
- A nivel mundial, la tasa de errores y la latencia (latency) fueron disminuyendo gradualmente hasta volver a niveles normales
- El cálculo de puntuaciones de Bot Management (bot scores) se vio afectado temporalmente, pero se normalizó durante el proceso de recuperación
- El equipo de ingeniería eliminó los errores restantes y aceleró la recuperación de toda la red
- Más tarde, todos los servicios volvieron a funcionar con normalidad y la tasa de errores y la latencia quedaron completamente normalizadas
Cierre del incidente y acciones posteriores
- Cloudflare confirmó que todos los servicios están operando con normalidad y dio por cerrado el incidente
- Actualmente no hay cambios adicionales de configuración, y la plataforma sigue siendo monitoreada de cerca
- Está en curso una investigación posterior al incidente (post-incident investigation) sobre la causa, cuyos resultados se publicarán más adelante
- Esta interrupción quedó registrada como un incidente que afectó a toda la red global
1 comentarios
Comentarios de Hacker News
Alguien compartió un comando con el que cualquiera que tenga un token de API de Cloudflare puede desactivar el proxy de CF
Con
curlse puede obtener el zone ID y los registros DNS, y luego hacer una peticiónPATCHpara establecer"proxied": falsePero hay que tener cuidado con la pérdida de certificados SSL, la degradación de seguridad/rendimiento y el riesgo de exponer la IP del backend
X-Auth-EmailyX-Auth-KeyY si configuraste reglas para permitir solo tráfico de Cloudflare, también hay que desactivarlas temporalmente
Por suerte, ahora ya volvió a estar en línea
curllas peticiones GET son el valor predeterminado, así que no hace falta-X GETSi usas
-d, automáticamente pasa a ser POST, y para PATCH sí corresponde-X PATCHAun así, incluso después del tunneling, algunos sitios seguían caídos parcialmente
Según explicó el CTO de Cloudflare, un bug potencial en el sistema de bloqueo de bots se descontroló tras un cambio de configuración y provocó una caída en toda la red
En la fuente explica que no fue un ataque, sino un problema interno
Tanto el código como la configuración son datos, y se sigue repitiendo el patrón de desplegar todo globalmente de una vez y causar caídas masivas
Un colega vino corriendo de repente y dijo que, justo después de cambiar una configuración de Cloudflare, el sitio se cayó, así que se asustó pensando que él lo había roto
Dijo que al ver esta publicación se sintió aliviado
Cuando vi el mensaje “Cloudflare down”, sentí un alivio genuino
Revisándolo desde Países Bajos, casi todos los servicios estaban caídos
Tampoco se podía entrar al dashboard de Cloudflare, y lo mismo pasaba con el dashboard de Betterstack
Irónicamente, la página de estado sí seguía viva, así que no podían avisarles a los clientes
Escribí un post que dice: “si no lo necesitas, no lo pongas detrás de Cloudflare”
Aun así, cuando ocurre una caída grande como esta, los clientes suelen mostrarse sorprendentemente comprensivos
Me tomó unos minutos, pero separé hcker.news de CF
puse abajo un widget de disponibilidad en tiempo real enlazado a una página de estado externa
Puedes tomar como referencia el SVG de estado y la página de estado externa
Cuando Cloudflare o AWS se caen, da cierta satisfacción ver que mis servicios self-hosted siguen funcionando perfectamente
En este momento soy más estable yo que su disponibilidad de 99.999%
Ahora me dieron ganas de ponerle un uptime tracker
Es una lección que las startups de SaaS deberían aprender
me da risa, pero también una rara satisfacción, que mi pequeño sitio se haya caído
Últimamente parece que los grandes incidentes de infraestructura están aumentando mucho. Tanto AWS como Cloudflare están quedando muy por debajo de su SLA
No es tiempo real de disponibilidad, sino solo una cifra definida arbitrariamente por la empresa
Si Cloudflare o AWS se caen, se detiene la mitad de la web, y el problema de la centralización es grave
Esa es una de las razones por las que esta estructura no cambia
A los CDN pequeños les cuesta competir, y al final se forma una estructura de monopolio natural
Que Cloudflare ofrezca un plan gratuito fue una estrategia para aprovechar ese efecto de red
Además, también podría convertirse en un objetivo concentrado para la censura gubernamental
Dos tercios de la web dependen de él, la vida útil de los certificados se acorta cada vez más, y si hubiera un hackeo o una caída, toda la web podría quedar paralizada
Hoy es una organización bienintencionada, pero no hay que olvidar que en su momento también se pensaba eso de Google
Hay muchos respaldos a nivel software, pero se perdió el sentido común de hacer multi-hosting a nivel de infraestructura
Irónicamente, DownDetector también usa Cloudflare Turnstile, así que se cayó junto con lo demás
Fue llamativo el mensaje visual de disculpa de Cloudflare: “Your browser: Working / Host: Working / Cloudflare: Error”
Los sitios que usan Cloudflare Challenge (“I’m not a robot”) también se detuvieron con errores HTTP 500
Aparecía el mensaje “desbloquea challenges.cloudflare.com”
o solo muestran pantallas de carga infinitas. En realidad, el backend devuelve errores claros, pero el frontend los oculta
Hace poco incluso vi un caso donde un error de contraseña demasiado larga se mostraba como “ese correo ya está en uso”
Irónicamente, terminó siendo una situación en la que había que demostrarle a la IA que uno era humano
Da risa esa negación estilo /s de que Cloudflare Captcha jamás podría caerse