5 puntos por GN⁺ 2023-10-28 | Aún no hay comentarios. | Compartir por WhatsApp
  • Artículo sobre la evolución de 20 años de la ingeniería de confiabilidad de sitios (SRE) de Google
  • En los últimos 20 años, la capacidad de cómputo de Google creció 1,000 veces y su red 10,000 veces
  • Las herramientas de SRE evolucionaron de scripts en Python a un ecosistema integrado de servicios y a una plataforma unificada que ofrece confiabilidad por defecto
  • Artículo que destaca 11 lecciones clave aprendidas en 20 años de SRE en Google
  • Lección 1: El riesgo de las medidas de mitigación debe variar según la gravedad de la interrupción
  • Lección 2: Los mecanismos de recuperación deben probarse completamente antes de una emergencia
  • Lección 3: Todos los cambios deben aplicarse de forma gradual para evitar impactos a gran escala
  • Lección 4: Todas las dependencias de servicio deben tener un "gran botón rojo" para revertir estados no deseados
  • Lección 5: Las pruebas unitarias por sí solas no son suficientes; también se necesitan pruebas de integración
  • Lección 6: Durante una interrupción, son esenciales múltiples canales de comunicación, incluidos los de respaldo
  • Lección 7: Los servicios deben poder degradar su rendimiento de manera intencional y elegante en situaciones excepcionales
  • Lección 8: La resiliencia ante desastres y las pruebas de recuperación deben formar parte de la estrategia de continuidad del negocio
  • Lección 9: Las medidas de mitigación deben automatizarse para reducir el tiempo medio de recuperación (MTTR)
  • Lección 10: Hacer despliegues frecuentes junto con pruebas adecuadas puede reducir la probabilidad de que un despliegue salga mal
  • Lección 11: Una única versión global de hardware es un punto único de falla, y mantener una infraestructura diversa puede evitar interrupciones totales
  • Estas lecciones se basan en incidentes reales que Google experimentó y de los que aprendió a lo largo de los años

Aún no hay comentarios.

Aún no hay comentarios.