什么是辛普森悖论
背景:在做A、B实验的时候,如果不小心产生了辛普森悖论,就会得出截然相反的错误结论,影响实验结果。
本文从什么是辛普森悖论、辛普森悖论产生的原因以及如何从向量法来理解辛普森悖论,这三个方面进行解答。
一、什么是辛普森悖论?
在某种条件下,我们所关注的实验组和对照组数据,分别讨论时都会满足某种同样的性质,可是当我们把两个子数据集进行合并观察,就会发现整体结论完全相反。


二、辛普森悖论产生的原因
这种现象之所以产生的原因就是流量分割有问题,实验组和对照组样本不同质。
为了更好的理解,我们再举一个生活中很常见的例子。
下图可以看到B同学整体答对率为83%,远高于A同学答对率78%。如果就这样宣布B同学学习更好,其实是不合理的。

从上面数据可以看到,这种现象产生的原因如下:
-
简单题和难题的答对概率相差较大,简单题容易答对,难题容易答错
-
A与B两个同学试卷难易程度相差较大,且分布正好相反
这里难易程度就是我们所说的混清交量 (confouding varlables)或潜伏变量 (lurking variable) ,找出混清交量或潜伏变量对于理解辛普森悖论有重要作用。
三、理解辛普森悖论之向量法
本文介绍一种比较好用的方式,首先我们画一个坐标轴,X轴为答对题目的数量,Y轴为答对题目的概率。根据我们学习过的数学知识,可以知道下图向量与X轴的夹角越大,答对题目概率越高。

如此可知:
-
A同学在简单题和难题的答对率都高于B同学
-
向量相加计算逻辑:向量计算遵从平行四边形的对角线,其中B1+B2为B1和B2向量的对角线。同理A1+A2为A1和A2向量的对角线。
这样子是不是更好理解呢~
OK,到这里我们已经讲完了辛普森悖论。
所以后期在做A、B实验的时候,应该额外注意以下事项:
-
避免流量切分不合理,要保证实验组、对照组样本同质
-
结合用户画像分析,利用更多信息提升结论的精准度
关注公众号「水沐教育科技」,在手机上阅读所有教程,随时随地都能学习。内含一款搜索神器,免费下载全网书籍和视频。

微信扫码关注公众号