Content #
假如两个小组的月薪大概是如下这个样子,单位都是“万”。
第一组:[1.72,1.70,1.68,1.71,1.69] ;第二组:[1.70,5.20,0.60,0.2,0.8]。
这两组人你可以简单计算一下,你会发现平均月薪都是 1 万 7。但很明显,第 2 组人的薪酬高低差异要比第 1 组人大很多。第一组人都是 1 万 7 左右的薪资,差异不大。你很不巧在第二组里,你月薪 6000,周边都是 2000、8000 的小伙伴,但是实际上,你这组里有月薪 5 万的人你不认识,于是,你就“被涨薪”了。
通过公式或者 Excel 函数,你能算出来第一组标准差是 0.014,第二组是 1.818,差异能有一百多倍。如果每次只给你某地区或者某部门的平均薪酬,但是不告诉你这个地区部门它的标准差有多大,那我们难免就会觉得困惑,“不患寡而患不均”用在这里依旧很合适。
但是只有这个概念还不够,假设对于第 1 组的薪资单位来说,我用的是不是“万元”,而是用“百元”甚至“元”作为单位的话,它的标准差就会到 1.414 和 141.4。这个时候再和第 2 组人员去比,感觉好像标准差的离散度更高,但是实际数据却不是如此。
所以一般我们真的在做数据分析的时候,我们会常用另外一个数据来规避这种问题,它叫做离散系数 CV(coefficient of variation)。它的计算公式很简单,就是用标准差除以平均值
离散系数 = 标准差 / 平均值
这样的话就规避了单位或者其他因素的这些差异。我们直接看离散系数这个数据,就能知道这几组数据之间的离散程度和差异是什么样的。