GitHub: interrupción en las operaciones de Git

(githubstatus.com)

3 puntos por GN⁺ 2025-11-20 | 1 comentarios | Compartir por WhatsApp

El 18 de noviembre de 2025 (UTC), en GitHub se produjo una falla en todas las operaciones de Git, lo que interrumpió los clientes SSH y HTTP y el acceso a archivos sin procesar
Se confirmó que la causa del problema fue la expiración de un certificado TLS usado para la comunicación entre servicios internos
GitHub reemplazó el certificado vencido y reinició los servicios afectados, completando la recuperación total
Después de esto, está reforzando las alertas de monitoreo por expiración de certificados y avanzando en la transición a la automatización para eliminar los certificados gestionados manualmente
Esta interrupción afectó a Git Operations y Codespaces de GitHub, y tras la recuperación todos los servicios volvieron a un estado normal

Informe de interrupción en las operaciones de Git

Entre las 20:30 y las 21:34 UTC del 18 de noviembre de 2025, en GitHub se produjo una falla en todas las operaciones de Git
- Se vieron afectados tanto las interacciones de clientes Git por SSH y HTTP como el acceso a archivos sin procesar
- Los productos que dependen de las operaciones de Git también sufrieron la misma interrupción
Se confirmó que la causa fue un certificado TLS vencido usado para la comunicación entre servicios internos
- GitHub reemplazó el certificado y reinició los servicios afectados para resolver el problema
- Tras reiniciar los servicios, se logró la recuperación completa
Para evitar el mismo problema en el futuro, GitHub está fortaleciendo el sistema de alertas por expiración de certificados
- También está realizando revisiones de monitoreo y automatización sobre otros certificados en áreas relacionadas
- Está acelerando la eliminación de los certificados aún gestionados manualmente y la implementación de un sistema automatizado de comunicación entre servicios

Desarrollo de la interrupción y etapas de recuperación

20:39 UTC: se reportó degradación de disponibilidad en las operaciones de Git y en Codespaces
20:52 UTC: se confirmó la falla de algunas operaciones de Git por HTTP
21:11 UTC: se confirmó la falla de todas las operaciones de Git
21:25 UTC: continuaba la degradación de disponibilidad en Codespaces
21:27 UTC: causa identificada, en curso el trabajo de corrección
21:36 UTC: comenzó la recuperación parcial tras desplegar la corrección
21:55 UTC: todos los servicios normalizados, recuperación de Codespaces completada
21:56 UTC: se confirmó la operación normal de Git
21:59 UTC: incidente cerrado y reporte publicado

Servicios afectados

Git Operations
- Operaciones de Git en general basadas en SSH y HTTP
Codespaces
- Se produjo una degradación temporal de disponibilidad

Acciones de seguimiento

Refuerzo del monitoreo de expiración de certificados y de la automatización
- Establecimiento de un sistema de alertas previas al vencimiento
- Revisión del proceso de renovación automática de todos los certificados internos
Ampliación de la automatización de seguridad y operaciones
- Eliminación de la gestión manual de certificados
- Implementación de comunicación automatizada entre servicios alineada con las prácticas modernas de seguridad

1 comentarios

GN⁺ 2025-11-20

Comentarios en Hacker News

Me preocupa que las caídas de sistemas de software importantes estén ocurriendo demasiado seguido
El año pasado solo hubo cuatro incidentes que afectaron el trabajo, pero este trimestre ya vamos por el cuarto
Se siente como si la resiliencia del software de red estuviera desapareciendo poco a poco
Nuestro equipo usa una arquitectura monolítica, pero tiene muchas dependencias como Redis, S3 y servicios de integración externos
Por eso documentamos las condiciones de fallo, reforzamos las pruebas y la automatización de despliegues, y simplificamos migrando de la nube a VPS
Como resultado, el sistema se volvió mucho más estable y predecible
Sin ese trabajo aburrido pero esencial, la complejidad solo habría aumentado y nos habría vuelto más vulnerables
Las caídas recientes que vivimos fueron las de AWS us-east-1, Azure Front Door, Cloudflare y GitHub
- Al final creo que el problema es el dinero
  Los clientes no quieren gastar en resiliencia ni en infraestructura redundante
  Desde 2008 he trabajado en más de diez proyectos, pero en la mayoría la actitud fue de “dejémoslo a la suerte”
- De acuerdo. Los recortes de costos están llevando al resultado de “olvidarnos de cómo construir sistemas que aguanten incluso cuando hay una caída”
- Si quiero ser deliberadamente provocador, diría que el aumento en el uso de LLM también está contribuyendo a este fenómeno
Git es un sistema de control de versiones distribuido, así que se puede seguir trabajando aunque GitHub no esté disponible
GitHub es solo un hub conveniente
- Eso sí, si una empresa depende por completo de GitHub Actions, entonces queda totalmente bloqueada como ahora
- Es como: “Esta escalera mecánica se convirtió temporalmente en escaleras. Disculpe las molestias”
- La esencia del problema es que GitHub se cayó, no que git se haya caído
- Sin GitHub se pierde la función de hub de colaboración con otras personas
- La razón por la que estamos en Hacker News ahora es porque no podemos trabajar
La falta de confiabilidad de GitHub se siente grave
Para quienes dependen de CI/CD, es algo crítico
Internamente parece verse solo como “se rompió el CI/CD de nuestro equipo”, y falta la perspectiva de “se detuvo la mitad del mundo”
Esa cultura de silos y la actitud de “no es nuestro problema” terminan degradando la confiabilidad
Además, gracias a su posición monopólica, los clientes tampoco tienen muchas opciones más que aguantar
Es la misma actitud de “igual no te puedes ir a otro lado” que ya vi antes en Verio y Verisign
Me pregunto si las caídas de cloud/SaaS realmente están ocurriendo más seguido últimamente
No sé si solo se están reportando más o si de verdad aumentó la frecuencia
¿Será por recortes de presupuesto, despidos, adopción de IA o crecimiento excesivo?
- Microsoft parece creer que todo se resolverá si mueve GitHub a Azure
- Desde la perspectiva de alguien que lo ha usado por mucho tiempo, sí se siente claramente un aumento en la frecuencia de fallas
  Antes era una o dos veces al año, pero ahora es casi cada mes, y últimamente hasta cada semana
- Alguien dijo durante la caída de Cloudflare que la “cultura de programar con IA” está empeorando este tipo de problemas
  Pequeños fragmentos de código generados por IA podrían provocar caídas en efecto dominó
- Como sugiere un artículo de Techrights,
  creo que los despidos masivos han afectado la confiabilidad
- Por el FOMO provocado por la IA, los cronogramas de los proyectos se volvieron más apretados,
  y al final parece que se ignora ese último 10% del trabajo de estabilidad
Como no podía hacer push, al principio pensé que el problema era mío
Simplemente decidí rendirme hoy y volver a intentarlo mañana
- La autenticación funcionaba, pero el push no, y de verdad fue una experiencia para arrancarse el pelo
- Ni agregando una nueva clave SSH sirvió. Al principio solo salían errores raros y al final apareció el mensaje “upstream unhealthy”
- Yo también estuve a punto de reconfigurar todo desde cero
Hoy no quería trabajar, y después de Cloudflare ahora también se cayó GitHub, así que parece una señal para descansar
- El problema es la dependencia tecnológica centralizada en EE. UU.
  Hace falta más soberanía tecnológica y descentralización
De todos los servicios que he usado en los últimos 5 años, GitHub fue el más inestable
Me pregunto si GitLab será mejor. A estas alturas mi confianza en GitHub es casi cero
- En nuestra empresa usamos GitLab autohospedado, pero el servidor Gitaly se cae seguido
  Supongo que es por nuestro entorno de monorrepo grande, pero claramente hay problemas de escalabilidad
- GitLab tiene muchas funciones, pero la integración es desordenada y le falta pulido
  Aun así, tener repositorio, CI/CD, issues y wiki en un solo lugar es una ventaja
- Uso tanto GitHub.com como GitLab autohospedado,
  y GitHub es vulnerable a las caídas de la nube, mientras que GitLab sufre frecuentes interrupciones en las actualizaciones automáticas
  Cada uno tiene sus pros y contras
- El problema de GitLab es que es lento y pesado
  Carga varios MB de JS, así que en redes lentas la página casi ni abre
- Si lo tienes on-premise, puedes asegurar tanta estabilidad como quieras
En una emergencia se pueden editar archivos directamente desde la UI web de GitHub
Pero actions/checkout@v4 de GH Actions ahora mismo no funciona por el problema con git
- En realidad, se puede hacer git push/pull con cualquier host accesible por SSH
- Nosotros también estábamos en medio de un hotfix en producción y quedamos bloqueados. No sé qué le está pasando a internet últimamente
- CircleCI también está con fallas en operaciones de git por problemas para reconocer claves SSH de GitHub
- Esta vez la IA de GitHub sí ayudó inesperadamente al decirme que revisara githubstatus.com
- Me pregunto si desde la UI de GitHub se puede crear una rama
Hay un patrón común que he visto en los últimos 10 años, moviéndome entre grandes empresas y startups
Startup → atención a clientes enterprise → rediseño complejo → idealismo → búsqueda de ganancias → producto inflado → salida de ingenieros clave → caída de calidad
Ese ciclo también se repite en las grandes empresas de cloud (AWS, Cloudflare, GCP, etc.)
Incluso internamente, cada servicio se divide en pequeñas unidades de negocio que se mueven con lógica de rentabilidad
Al final, hasta la infraestructura básica se debilita por la presión de generar ganancias
Me parece peligroso confiar en la idea de que “AWS o GCP son demasiado grandes para fallar”
- De acuerdo. En el proceso de atender clientes enterprise es inevitable que el producto se vuelva más complejo y torpe
  Pero la deuda técnica y los problemas de seguridad de las startups tempranas también eran graves
  Al final, es natural que las grietas del sistema salgan a la luz durante el crecimiento a gran escala
En la página de estado de GitHub volvió a aparecer el mensaje de “algunos usuarios pueden experimentar problemas”
Pero en realidad no solo falla HTTPS, sino también todos los push por SSH
- Parece que quienes manejan la página de estado no pueden salir de la expresión “algunos usuarios”
  Una divulgación transparente en lugar de ese eufemismo estilo PR aumentaría más la confianza
  Además, muchas veces hasta las actualizaciones de la página de estado llegan tarde
- Un amigo mío dijo que por un momento sí pudo hacer push, pero la mayoría sigue con errores fatal

GitHub: interrupción en las operaciones de Git

Informe de interrupción en las operaciones de Git

Desarrollo de la interrupción y etapas de recuperación

Servicios afectados

Acciones de seguimiento

Lecturas relacionadas

1 comentarios

Comentarios en Hacker News