- Artículo sobre la evolución de 20 años de la ingeniería de confiabilidad de sitios (SRE) de Google
- En los últimos 20 años, la capacidad de cómputo de Google creció 1,000 veces y su red 10,000 veces
- Las herramientas de SRE evolucionaron de scripts en Python a un ecosistema integrado de servicios y a una plataforma unificada que ofrece confiabilidad por defecto
- Artículo que destaca 11 lecciones clave aprendidas en 20 años de SRE en Google
- Lección 1: El riesgo de las medidas de mitigación debe variar según la gravedad de la interrupción
- Lección 2: Los mecanismos de recuperación deben probarse completamente antes de una emergencia
- Lección 3: Todos los cambios deben aplicarse de forma gradual para evitar impactos a gran escala
- Lección 4: Todas las dependencias de servicio deben tener un "gran botón rojo" para revertir estados no deseados
- Lección 5: Las pruebas unitarias por sí solas no son suficientes; también se necesitan pruebas de integración
- Lección 6: Durante una interrupción, son esenciales múltiples canales de comunicación, incluidos los de respaldo
- Lección 7: Los servicios deben poder degradar su rendimiento de manera intencional y elegante en situaciones excepcionales
- Lección 8: La resiliencia ante desastres y las pruebas de recuperación deben formar parte de la estrategia de continuidad del negocio
- Lección 9: Las medidas de mitigación deben automatizarse para reducir el tiempo medio de recuperación (MTTR)
- Lección 10: Hacer despliegues frecuentes junto con pruebas adecuadas puede reducir la probabilidad de que un despliegue salga mal
- Lección 11: Una única versión global de hardware es un punto único de falla, y mantener una infraestructura diversa puede evitar interrupciones totales
- Estas lecciones se basan en incidentes reales que Google experimentó y de los que aprendió a lo largo de los años
Aún no hay comentarios.