最多只处理两个紧急事件

最多只处理两个紧急事件

Content #

SRE 处理运维工作的一项准则是:在每8~12小时的on-call 轮值期间最多只处理两个紧急事件。这样的准则有何好处?

这个准则保证了on-call工程师有足够的时间跟进紧急事件,这样SRE可以正确地处理故障、恢复服务,并且要撰写一份事后报告。如果一次轮值过程中处理的问题过多,那么每个问题就不可能被详细调查清楚,运维工程师甚至没有时间从中学习。如果小规模部署下还无法做到合理报警,规模扩大之后这个情况就会更严重。相对而言,如果一个项目的紧急警报非常少,能够持续稳定运行,那么保持这么多on-call工程师可能就是浪费时间。

Viewpoint #

From #