ab实验方法论

背景：AB实验在数据分析工作中，经常被用来作为某个功能是否上线的重要手段。本文围绕AB的实验原理，如何选择AB实验的最小样本量，AB实验的显著性检验工具等重点展开。

一、AB实验原理

1.1 、AB实验原理

AB实验来源于假设检验，我们有两个同质样本组，对于其中一个组做出某种改动，然后观察这个改动对于我们所关注的指标是否有显著性影响。

这里原假设是：这项改动并不会对我们所关注的核心指标有显著性影响，如果实验结束以后，发现P值足够小，我们就推翻原假设，承认该项改动会对我们所关注的核心指标有显著影响。

AB实验本质就是同质样本组的对照实验。

1.2、假设检验本质

假设检验是用来判断样本与样本、样本与总体的差异是由抽样误差引起还是本质差别造成的统计推断方法。好处是可以消除时间因素对于变量的影响。

一般采用显著性检验，显著性检验是假设检验中最常用的一种方法，其基本原理是先对总体的特征做出某种假设，然后通过抽样研究的统计推理，对此假设应该被拒绝还是接受做出推断。

1.3、假设检验具体描述

假设检验的基本思想是“小概率事件”原理，运用的是数学推论中常用的反证法。小概率思想是指小概率事件在一次试验中基本上不会发生。反证法思想是先提出检验假设，再用适当的统计方法，利用小概率原理，确定假设是否成立。

即为了检验一个假设H0是否正确，首先假定该假设H0正确，然后根据样本对假设H0做出接受或拒绝的决策。如果样本观察值导致了“小概率事件”发生，就应拒绝假设H0，否则应接受假设H0。

说明：小概率事件运用的是正态分布，不再展开介绍。

二、A、B实验最小样本量

2.1、统计学中最小样本量

统计学中最小样本量计算公式为：

其中

n是每组所需样本量，因为A/B测试一般至少2组，所以实验所需样本量为2n；

α和β分别称为第一类错误概率和第二类错误概率，一般分别取0.05和0.2；

Z为正态分布的分位数函数；

Δ为两组数值的差异，如点击率1%到1.5%，那么Δ就是0.5%；

σ为标准差，是数值波动性的衡量，σ越大表示数值波动越厉害。

从这个公式可以知道，在其他条件不变的情况下，如果实验两组数值差异越大或者数值的波动性越小，所需要的样本量就越小。

2.2、比例类数值所需样本量

实际AB测试中，我们关注的较多的一类是比例类的数值，如点击率、转化率、留存率等。

这类比例类数值的特点是，对于某一个用户其结果只有两种，“成功”或“未成功”。

比例类数值的假设检验在统计学中叫做两样本比例假设检验。其最小样本量计算的公式为：

p1我们称为对照组，是实验关注的关键指标现在的数值

p2我们称为目标值，是希望通过实验将其改善至的水平

α和β第一类错误和第二类错误上边已经提到，暂不多做说明，通常设定α为0.05，β为0.2 。

这里介绍一个预估样本量的工具分享给大家，链接如下：预估样本量。

三、A、B测试显著性检验使用工具

假设现在，我们拿到了老版A和新版B点击率数据：

版本	老版A	新版B
点击率	11.33%	13.88%

这个时候，我们运用A、B实验工具，来验证P显著性。

那么，我们现在来看看这个计算器的正确使用方法。

这个计算器需要4个输入。有了这四个输入，就一定能够算出所需样本量。这四个输入分别是：

Statistical power：统计功效，实验中最想得到的结果。

Significance level：显著水平

Baseline rate：实验前的历史数据

Minimum detectable effect：最小可探测效应

3.1、Statistical Power和Significance Level

要搞清这两个概念，我们应该先简短回顾一下AB实验的基本知识。首先，AB实验包含两个假设：

原假设（H0）：我们希望通过实验结果推翻的假设。原假设为“改版前后效果一样”。

备择假设（H1）：我们希望通过实验结果验证的假设。表述为“改版前后效果不一样”。

	真实情况
业务判断	没区别	有区别
有区别	第一类错误（α）冤枉好人
无区别		第二类错误（β ）漏网之鱼

我们认为有区别，但其实没区别，这样子会将一些无显著提升的功能上线，导致产品功能冗余。不符合产品最小化设计原则。而且浪费公司人力、物力。在非商业背景下，第一类错误往往更加可怕。比如好人被判刑进监狱，健康人被误诊送去化疗。

总结一下，对于我们的实验：

第一类错误α不超过5%。也就是说，Significance Level = 5%。

第二类错误β不超过20%。也就是说，Statistical Power = 1 -β = 80%。

对两类错误上限的选取（α是5%，β是20%），我们可以了解到AB实验的重要理念：宁肯砍掉4个好的产品，也不应该让1个不好的产品上线。

比如验证转化率的时候发现新版B转化率为11.33%，所需最小样本量为49,459。

3.2、Baseline Rate

假设，我们需要测试普通人群和精选人群的点击率差异，那么普通人群的历史点击率就是baseline rate。

当baseline rate越大或者越小时，实验越能监测出差别，比如说历史点击率是98%，新的人群略微有几个人不点击，这个点击率就会下降很大（power变大），当power不变时，只需要较少的样本量。

3.3、Minimum Detectable Effect

Minimum detectable effect：最小可探测效应，这个参数衡量了我们对实验的判断精确度的最低要求。

也就是说，两个人群的点击率，最小出现多少偏差，才能监测出有差异。理论上来说，监测更大的差异更为容易，需要的样本量更少，监测更小差异更难，需要的样本量也就更大。举个例子，一个人移动了1米你一眼就能发觉，一个人只移动了1厘米，你就需要花更多的时间检查了。

这个参数需要和业务方一起确定，比如我们把这个指标设置成5%，如果精选人群的点击率真的能提高5%，我们希望能够检测出来。

在工作中，这个参数的选定往往需要和业务方一起拍板。在我们的实验中，我们选定Minimum Detectable Effect=5%。这意味着，如果真的提高了点击5个百分点以上，我们希望实验能够有足够把握检测出这个差别。如果低于5个百分点，我们会觉得这个差别对产品的改进意义不大，能不能检测出来也就无所谓了。

最后介绍下P值定义，P值（P value）就是当原假设为真时，所得到的样本观察结果分布在极端结果中的概率。如果P值很小，说明原假设情况发生的概率很小，根据小概率原理，我们就有理由拒绝原假设，P值越小，我们拒绝原假设的理由越充分。总之，P值越小，表明结果越显著。

P值被经常用于AB实验当中，用来计算核心指标diff的显著性，我们一般这么去使用：

p<0.01，称之为极具显著性
0.01<p<0.05，称之为比较具显著性
p>0.05，称之为不具显著性

附件

关注公众号「水沐教育科技」，在手机上阅读所有教程，随时随地都能学习。内含一款搜索神器，免费下载全网书籍和视频。

公众号二维码
微信扫码关注公众号

ab实验方法论

推荐阅读