回归系数的显著性检验

回归分析中,常常要进行「两大检验、一大诊断」。两大检验是:a. 模型的显著性检验;b. 回归系数的显著性检验。一大诊断则是:残差诊断。

聚焦回归系数的显著性检验,围绕以下三个问题展开,

  1. 为什么要进行回归系数检验
  2. 如何进行回归系数检验
  3. 回归系数的解读

 

01 为什么要进行回归系数检验

回归分析是一种推断统计,是用样本去推断总体。回想一下,我们进行回归分析时,先收集样本收据,然后建模得到拟合回归方程,用该方程来进行总体的控制或预测。既然是推断统计,收集到的数据是通过抽样得到的,或试验得到的,能不能说明总体的特征,则要通过假设检验这一个工具来判断。

假设自变量和因变量总体的关系是:y=a+b1x1+b2x2 (x1和x2是自变量,y是因变量)。这只是一个理想模型,在现实中,常量a、系数b1、b2的真值是不得而知的,只有通过收集样本数据去推断a、b1和b2的值。在回归系数的显著性分析中,要把系数b1和b2当做统计量来看待,需要通过收集的数据得到系数b1和系数b2的无偏估计。这是很不容易的,数据需要满足一定的前提条件,所以要进行残差诊断。

若残差满足要求,下面要看模型的显著性检验情况。若模型显著性检验通过(一般是P<0.05),可以基本说明模型是有效的。但通过P值判断模型有效,只是一个非常基础的要求,因为通过收集的样本数据,可能建立多个模型,且每个模型都有可能是有效的。模型的显著性检验中,通过P值只能解决有效与否的问题(有的时候P值还有欺骗性),并不能得到最优的模型(可以通过残差标准差S以及决定系数等指标判定)。

在具有多个自变量的模型中,需要解决一个问题是,是不是每个自变量对因变量的影响都是显著的,也就是说,确定影响因变量的关键因子,抓住主要矛盾点,这就要进行系数的显著性检验的原因。

 

02 如何进行回归系数的检验

回归模型的显著性检验使用F检验,而模型系数的显著性检验使用的t检验。至于为何如此,我们不深究,这都是统计学家的事情,我们只要把统计当做工具用好它即可。通过前面的内容,我们要把理想回归模型y=a+b1x1+b2x2中的系数b1、b2当做是统计量,它们都是服从一定分布的。经过统计学家的研究,回归模型的系数是服从以下分布的:

 

 

 

检验的具体过程如下:

 

上面的第c步是用求拒绝域的方法来判定是否接受原假设。当然,也可以用求P值的方法(Minitab中使用的是这种方法),若P小于显著性水平(通常为0.05),则拒绝原假设。反之,则接受原假设。

当回归系数显著时,说明对应的自变量是影响因变量Y的显著因子,需要保留。若回归系数不显著,则可以删除对应的自变量,来优化模型。这里要注意的是,一定要通过假设检验的方式来决定自变量的去留,不能通过回归系数的大小判定,因为回归系数是有量纲的

 

03 回归系数的解读

当回归系数显著时,可以通过系数的「符号」和系数的「数值」两个维度来解读。

① 系数的符号。符号可以告诉我们自变量和因变量之间是正相关还是负相关。若系数的符号是正,则自变量和因变量是正相关。反之,则是负相关。

② 系数的数值。数值表示模型中其他自变量不变,给定自变量变化一个单位,因变量的均值变化程度。

这里要注意两点:a. 保持模型中其它自变量不变,这样可以独立的研究某个自变量和因变量的关系。b. 均值的变化程度。回归模型是一个概率模型,任何由于自变量变化而导致的因变量的变化,都是均值的变化。所以,在通过试验验证模型的有效性时,得到的因变量的实际值和模型计算得到理论值有差距,是很正常的,但要在其置信区间内。

关注公众号「水沐教育科技」,在手机上阅读所有教程,随时随地都能学习。内含一款搜索神器,免费下载全网书籍和视频。

公众号二维码
微信扫码关注公众号

微信交流群 关注微信公众号,加入官方交流群。内含一款搜索神器,免费下载全网书籍和视频。