- Se reportaron fallas en diversos servicios de AWS en la región us-east-1
- A causa de esta incidencia, empresas que usan infraestructura en la nube sufrieron interrupciones del servicio
- Se reportaron problemas de disponibilidad en servicios clave como API Gateway y Lambda
- Los ingenieros señalaron la necesidad de preparar rutas alternativas y revisar planes de respuesta de emergencia
- AWS Health Dashboard proporcionó información en tiempo real y actualizaciones sobre la falla
Resumen de la interrupción en la región AWS us-east-1
- El 21 de octubre de 2025, el AWS Health Dashboard informó una caída en varios servicios pertenecientes a la región us-east-1
- Servicios clave como API Gateway, Lambda y S3 se vieron afectados, por lo que muchos clientes experimentaron interrupciones del servicio
- Desde el momento en que comenzó la caída, AWS identificó el problema e inició de inmediato el análisis de causa raíz y las tareas de recuperación
- En empresas SaaS, startups y compañías de TI que dependen de esa región se reportaron retrasos y caídas de servicio
- Ingenieros y gerentes de TI destacaron la necesidad de construir rutas de contingencia de emergencia y de una estrategia de regionalización para los servicios críticos
Impacto y respuesta
- La región us-east-1 es una de las regiones con mayor tráfico en la infraestructura de nube global, por lo que el impacto de una falla allí puede ser muy grande
- En la práctica, varias organizaciones informaron problemas como interrupción en la prestación del servicio, retraso en las respuestas de API y fallas en el procesamiento de datos al mismo tiempo
- AWS informó la situación en tiempo real a través de Health Dashboard y proporcionó documentación de soporte y actualizaciones
- Los equipos de TI de las empresas clientes realizaron monitoreo de la situación de la falla, rutas de contingencia temporales y avisos a los usuarios para minimizar el impacto
Implicaciones para la ingeniería
- Se planteó nuevamente la necesidad de reafirmar la importancia de los sistemas de monitoreo y de los mecanismos de alerta de fallas
- Se destacó el valor del diseño de una arquitectura resiliente con despliegue multi-región, acciones automatizadas ante fallas y estrategias de respaldo
- AWS Health Dashboard se utilizó como herramienta de apoyo para obtener información rápida y apoyar la toma de decisiones durante incidentes
Conclusión
- Los proveedores de servicios de nube a gran escala necesitan prepararse necesariamente para la posibilidad de fallas de servicio
- Una vez que ocurre una incidencia, vuelve a destacarse la importancia de una recuperación rápida, una comunicación transparente y capacidades eficientes de respuesta de infraestructura
1 comentarios
Comentario de Hacker News
Hoy fue un día realmente interesante. Estuve en el puente de respuesta a incidentes desde las 3 de la madrugada. El sistema ya se recuperó en su mayor parte, pero todavía hay un equipo en back office que sigue batallando con falta de recursos. Nuestro mayor error fue que, a pesar de haber diseñado el sistema para funcionar en múltiples regiones, no pudimos ejecutar el proceso de failover. La razón fue que seguridad nos migró a Identity Center y lo dejó desplegado solo en us-east-1, dejando a toda la empresa completamente bloqueada del plano de control de AWS. Cuando sacamos las credenciales root de la bóveda, el sistema ya estaba casi totalmente recuperado. Esta experiencia me volvió a recordar que un sistema es tan fuerte como su eslabón más débil.
/etc/hostsdesplegado en Kubernetes de forma global con mucha facilidad, y que era necesario hacerlo con urgencia. En condiciones normales no usaría/etc/hostspara ese tipo de cosas, pero como parche temporal fue exactamente el nivel de abstracción correcto.Parece que todavía siguen ocurriendo fallas importantes. La situación está peor que hace 4 horas. Soy ingeniero de datos y Redshift y Airflow (servicios administrados de AWS) están totalmente desordenados.
create-functionde Lambda todavía fallan conInternalError. Otros servicios (Lambda, SNS, SQS, EFS, EBS, CloudFront) ya se recuperaron. Estoy estudiando una maestría en disponibilidad en la nube, así que estoy documentando la línea de tiempo y el impacto mientras pruebo en varias cuentas de laboratorio de AWS. Publicación de análisisEsta caída también me afectó directamente en mi día. Fui a Whole Foods en Hudson Yards, Nueva York, a comprar una barra de chocolate, pero no se aplicó el descuento de Prime. Así que no la compré y ahora mi nivel de chocolate está bajísimo.
Hoy tengo una reunión con el responsable de mi cuenta de AWS. Voy a explicar que nos alejaremos de “All in on AWS” y distribuiremos la carga entre varias plataformas. La principal razón es que la innovación de los servicios core se está desacelerando y también estamos muy atrasados en IA en comparación con competidores. El equipo de AWS siempre argumenta que no hay que distribuir cargas por la extrema estabilidad de AWS. Tengo expectativa para la reunión de hoy.
Si tomas us-east-1 como región principal, cuando ocurre la caída no hay nadie que se salve: nadie sufre solo. En otras regiones de EE. UU. no tienes ese “privilegio”.
Hubo un anuncio: “El resultado del análisis sugiere que el problema probablemente está relacionado con un problema de resolución DNS del endpoint de la API de DynamoDB en US-EAST-1. Estamos acelerando la recuperación con un enfoque paralelo”. Como era de esperarse, la causa siempre termina siendo DNS.
Funcionó como estaba diseñado para la resiliencia. Pusimos orígenes estáticos multi-región en CloudFront y no se vieron afectados por esta caída. El plano de control también es una arquitectura multi-región nativa, así que, aunque depende de varios servicios, mantiene la disponibilidad. Cada región funciona de forma independiente y hay replicación de datos, y no importa si no se replica us-east-1. El servicio en sí mismo es multi-región y maneja failover en varias capas (DNS, enrutamiento, selección de destino). Aunque este enfoque no es perfecto y hay muchas posibles causas de fallo, esta vez funcionó bien y me dejó satisfecho. Lo que hice no es ingeniería de cohetes ni caro, pero sí es un enfoque un poco distinto a la norma. Siéntanse libres de preguntar cualquier cosa.
Un problema grande fue la cascada causada por la sobrecarga o caída del sistema IAM/auth. Se menciona que DynamoDB fue la causa, pero me pregunto si IAM depende internamente de Dynamo. En sistemas tan masivos y complejos con dependencias tan enmarañadas, Auth/IAM puede terminar siendo un punto de entrada único global, por eso queremos minimizar dependencias. Pero escalabilidad y consistencia también importan, y por eso terminamos usando una DB comprobada. Al final, por esa complejidad, uno pensaría que hay que pasar por un proceso de bootstrap complejo cuando hay caída. Me interesa saber cómo lo manejan.
AWS anunció a las 3:03 AM PT que estaba en recuperación. Sin embargo, la situación empeoró. A las 9:13 AM PT volvieron a decir que estaban analizando la causa. Se siente preocupante que AWS tampoco sepa exactamente cuál es la causa.