什么是辛普森悖论

背景:在做A、B实验的时候,如果不小心产生了辛普森悖论,就会得出截然相反的错误结论,影响实验结果。

本文从什么是辛普森悖论、辛普森悖论产生的原因以及如何从向量法来理解辛普森悖论,这三个方面进行解答。

 

一、什么是辛普森悖论?

在某种条件下,我们所关注的实验组和对照组数据,分别讨论时都会满足某种同样的性质,可是当我们把两个子数据集进行合并观察,就会发现整体结论完全相反。

二、辛普森悖论产生的原因

这种现象之所以产生的原因就是流量分割有问题,实验组和对照组样本不同质。

为了更好的理解,我们再举一个生活中很常见的例子。

下图可以看到B同学整体答对率为83%,远高于A同学答对率78%。如果就这样宣布B同学学习更好,其实是不合理的。

从上面数据可以看到,这种现象产生的原因如下:

  • 简单题和难题的答对概率相差较大,简单题容易答对,难题容易答错

  • A与B两个同学试卷难易程度相差较大,且分布正好相反

这里难易程度就是我们所说的混清交量 (confouding varlables)或潜伏变量 (lurking variable) ,找出混清交量或潜伏变量对于理解辛普森悖论有重要作用。

 

三、理解辛普森悖论之向量法

本文介绍一种比较好用的方式,首先我们画一个坐标轴,X轴为答对题目的数量,Y轴为答对题目的概率。根据我们学习过的数学知识,可以知道下图向量与X轴的夹角越大,答对题目概率越高。

如此可知:

  • A同学在简单题和难题的答对率都高于B同学

  • 向量相加计算逻辑:向量计算遵从平行四边形的对角线,其中B1+B2为B1和B2向量的对角线。同理A1+A2为A1和A2向量的对角线。

这样子是不是更好理解呢~

 

OK,到这里我们已经讲完了辛普森悖论。

所以后期在做A、B实验的时候,应该额外注意以下事项:

  • 避免流量切分不合理,要保证实验组、对照组样本同质

  • 结合用户画像分析,利用更多信息提升结论的精准度

 

关注公众号「水沐教育科技」,在手机上阅读所有教程,随时随地都能学习。内含一款搜索神器,免费下载全网书籍和视频。

公众号二维码
微信扫码关注公众号

微信交流群 关注微信公众号,加入官方交流群。内含一款搜索神器,免费下载全网书籍和视频。