大型问题的正确应对方法

大型问题的正确应对方法

Content #

在大型问题中,你的第一反应可能是立即开始故障排查过程,试图尽快找到问题根源。这是错误的!不要这样做。正确的做法应该是:

尽最大可能让系统恢复服务。这可能需要一些应急措施,比如,将用户流量从问题集群导向其他还在正常工作的集群,或者将流量彻底抛弃以避免连锁过载问题,或者关闭系统的某些功能以降低负载。缓解系统问题应该是你的第一要务。在寻找问题根源的时候,不能使用系统的用户并没有得到任何帮助。当然,快速定位问题时仍应该及时保存问题现场,比如服务日志等,以便后续进行问题根源分析时使用。

在初级飞行员的课程中讲到,在紧急情况中,飞行员的首要任务是保持飞机飞行。相比保证乘客与飞机安全着陆,故障定位和排除是次要目标。这种方法也同样适用于计算机系统:如果一个Bug有可能导致不可恢复的数据损坏,停止整个系统要比让系统继续运行更好。

From #