辛普森悖论

辛普森悖论

Content #

整体平均值不能代表各分组情况,分组结论和整体平均值结论可能会大相径庭。

NBA 有两个球员,球员 A 和球员 B,他们的投球的表现如下面这个图所示。

看来,无论 2 分球还是 3 分球,B都比A的投中率要高。看上去也是 B 比 A 厉害,对吧?

那问题就来了,可是从整体命中率来看好像不是这样啊。你看,如果我们算下两位球员的整体平均值(也就是整体投中率)。

两分球和三分球投中率都比较高的这个球员 B,整体的命中率反而下降了,是不是让人有点大跌眼镜?如果你是篮球爱好者,你应该会发现问题,NBA 里没算过整体命中率,一般都是把二分球和三分球的命中率分开说的。

为什么 NBA 不计算整体命中率呢?就是因为这样算不准确。这里我们可以引入一个著名的悖论——辛普森悖论,它讲的就是这个问题。辛普森悖论是 1951 年由 E.H. 辛普森提出的,简单来讲就是在分组比较中都占优势的一方,有的时候在总评中反而是失势的一方。

我用前面 NBA 球员命中率的例子跟你分析下产生辛普森悖论的原因。首先,两分球和三分球的投球能力根本不是一回事,这两个投球数本身就不应该相加;另外,B 球员虽然厉害,但是他 60% 的球都是命中率比较低的三分球,而绝对数量上命中率较高的两分球投得就少了,而三分球的投中率是明显低于两分球的,这样就拉低了他的整体的投中率,造成了整体的劣势。

用一句话来讲,就是“质”(命中率)与“量”(投球数)是两个维度的数据,如果全部合并成“质”(命中率)这个维度的数据,那就会出错了。

Viewpoints #

From #

01 | 平均值:不要被骗了,它不能代表整体水平