GitHub Actions estuvo caído
(githubstatus.com)- La página de estado de GitHub muestra actualmente All Systems Operational y no hay incidentes reportados para el 27 de mayo de 2026
- En los últimos 90 días, todos los componentes principales figuran como Operational, y la disponibilidad de Actions es de 99.66%, mientras que Pull Requests es de 99.55%
- El 26 de mayo, Actions y Pages sufrieron fallas para iniciar ejecuciones y descargar acciones debido a un problema de autenticación, y la mayoría de las ejecuciones de Actions se vieron afectadas
- El 20 de mayo, una demora en Actions fue causada por un health check mal configurado, y se retrasó el 4.5% de todas las ejecuciones y el 30% de los trabajos de scale set
- El 15 de mayo, una degradación en Actions ocurrió por un problema de enrutamiento durante una conmutación por error planificada, y en el punto más crítico falló el 42% de las ejecuciones
Estado actual del servicio
- La página de estado de GitHub aparece actualmente como All Systems Operational
- Para el 27 de mayo de 2026 figura sin incidentes reportados
- En los últimos 90 días, todos los componentes principales han estado en estado Operational
- Git Operations: 99.83% de disponibilidad
- Webhooks: 99.73% de disponibilidad
- API Requests: 99.98% de disponibilidad
- Issues: 99.86% de disponibilidad
- Pull Requests: 99.55% de disponibilidad
- Actions: 99.66% de disponibilidad
- Packages: 99.98% de disponibilidad
- Pages: 99.96% de disponibilidad
- Copilot: 99.91% de disponibilidad
- Codespaces: 99.77% de disponibilidad
- Copilot AI Model Providers: 100.0% de disponibilidad
- También se ofrece una página de estado separada por región para GitHub Enterprise Cloud
Incidente de Actions y Pages del 26 de mayo de 2026
-
Incidente de Actions y Pages
- A las 10:57 UTC comenzó la investigación por degradación de rendimiento en Actions y Pages
- A las 11:19 UTC se confirmó una disminución de disponibilidad en Actions
- A las 11:53 UTC se investigaba un problema de autenticación que causaba fallas al iniciar ejecuciones de Actions y al descargar acciones, y en ese momento la mayoría de las ejecuciones de Actions estaban afectadas
- A las 12:37 UTC se identificó la causa del problema de autenticación que afectaba a GitHub Actions y se iniciaron las tareas de mitigación
- A las 13:00 UTC se mitigó la degradación en Actions y Pages, y se pasó a monitoreo para confirmar la estabilidad
- A las 13:18 UTC el incidente se resolvió, y se compartiría un análisis detallado de causa raíz en cuanto estuviera listo
Incidente de Actions del 20 de mayo de 2026
-
Incidente de Actions
- Entre las 16:00 y las 17:45 UTC, clientes de GitHub Actions sufrieron demoras de más de 5 minutos para iniciar ejecuciones
- Durante la ventana afectada, aproximadamente 4.5% de todas las ejecuciones se retrasaron, y los trabajos de scale set se vieron más impactados
- El 30% de los trabajos de scale set se retrasó y el 4% ni siquiera pudo iniciar
- La causa fue un health check mal configurado en un servicio interno que asigna trabajos a los runners
- Un breve pico de latencia en una dependencia de nivel superior provocó fallas en los health checks de varios pods, y al retirarse esos pods del servicio, la carga se concentró en la capacidad restante
- La carga adicional derivó en presión de memoria, y la falla en cascada se amplificó en un clúster regional hasta volverse imposible la autorecuperación
- La respuesta consistió en ampliar la capacidad de los clústeres regionales sanos y sacar tráfico del clúster regional dañado, tras lo cual se recuperó la demora en el inicio de ejecuciones
- Para evitar recurrencias, se está reforzando la configuración de health checks para prevenir escenarios de falla en cascada, y se evalúan mitigaciones automáticas para redistribuir tráfico ante degradaciones regionales
- El incidente se resolvió a las 20:14 UTC
Disminución de disponibilidad de Actions del 15 de mayo de 2026
-
Disminución de disponibilidad de Actions
- Entre las 07:43 y las 08:48 UTC, algunos clientes de GitHub Actions experimentaron fallas en la ejecución de workflows o demoras al iniciarlos
- El incidente comenzó durante una conmutación por error planificada de la infraestructura de soporte utilizada por GitHub Actions
- Durante la conmutación por error, una actualización automática de service discovery no se propagó correctamente, por lo que el tráfico fue enrutado de forma incorrecta y aumentaron los timeouts en una dependencia crítica de la orquestación de workflows
- En el punto de mayor impacto, 42% de las ejecuciones de Actions falló
- También se vieron afectados servicios downstream que dependen de la ejecución de workflows de Actions, incluidos GitHub Pages y los servicios cloud de Copilot
- A las 08:12 UTC, el personal de respuesta corrigió manualmente el problema de enrutamiento de service discovery
- Los timeouts y la tasa de fallas se recuperaron poco después, y el monitoreo continuó hasta que todos los servicios afectados se estabilizaron
- Para prevenir recurrencias, ya están en marcha guardrails de failover para validar el estado de service discovery antes de completar una conmutación por error, una validación reforzada antes y después del proceso, y mejoras de resiliencia en dependencias para reducir cascadas de timeouts durante eventos de infraestructura
- El incidente se resolvió a las 08:48 UTC
1 comentarios
Comentarios en Hacker News