关于WOE不懂地方

 

背景

woe含义:

WOE,全称是“Weight of Evidence”,翻译过来就是证据权重,是对于字符型变量的某个值或者是连续变量的某个分段下的好坏客户的比例的对数。实际的应用会将原始变量对应的数据替换为应用WOE公式后的数据,也称作WOE编码或者WOE化

WOE编码需要首先将这个变量分组处也就是分箱。一般选择使用均匀分箱,离散型数据分箱个数就是该数据的数据类别个数,连续型数据一般会使用6组,尽可能均分。对某一变量分完组后,假设第i组下的数据的WOE的计算公式为:

这个第i组的WOE,其中Bi表示这一组的风险客户,BT表示这一样本总的风险客户,Gi表示这一组的正常客户,也就是无风险客户,GT表示这样本总的正常客户。

 

所以WOE就是将风险客户在所有风险客户的比例和正常客户在所有正常客户的比例,这两者做比,衡量的是两者的差异,再取对数,两者差异越大,对风险客户区分越明显。

变换后我们也可以这样去理解WOE的含义,它表示的是当前这个组中风险的客户和正常客户的比值,和总体数据集中对应的这个比值的差异。这个差异是用这两个比值的比值,再取对数来表示的。

 

当然,你会有疑问:“类别变量我能理解要WOE,但对于连续变量,通过分箱变成类别变量,又通过WOE去“模拟”连续变量,这不是舍近求远吗?那我为啥不直接用原始的数值变量?

 

哈哈哈很聪明嘛,没被我绕进去。答案是当然可以,而且很多情况下并不会比WOE效果差。但binning+WOE能解决一个问题,就是可以把非线性的特征转化为线性

 

 

什么是分箱:

在风控用到的数据里,我们会用到两种变量:

1.  Numerical Variable,数值变量。例如逾期金额,天数。

2.  Categorical Variable,类别变量。例如客户职业。

在制作评分卡过程中,我们需要把数值变量变成类别变量,例如客户年龄段,我们可以划分为[20及以下],[21-30],[31-40],[41-50],[51-60],[61-70],[70以上]七个类别,这时候我们就把数值变成了类别。这种把数值变成类别的技巧叫做分箱(binning)。

 

怎么把类别变成数值呢?

你此刻想到的可能是one-hot encoding,但还是有问题,对于逻辑回归来说,one-hot encoding输出的矩阵太稀疏了,很难让逻辑回归有很好的效果什么叫做矩阵太稀疏了???

WOE全称是Weight of Evidence,即证据权重,也叫作自变量的一种编码。

现在我们观察bad rate 和 WOE的关系,WOE越大,bad rate越高,也就是说,通过WOE变换,特征值不仅仅代表一个分类,还代表了这个分类的权重。这就回答了问题”WOE编码为啥有效“。

 

原文链接:风控算法最常见的知识WOE讲解!_Datawhale的博客-CSDN博客

(转)逻辑回归中常用的概念: WOE、IV详解 | 码农家园

WOE可以把相对于bad rate显现非线性的特征转换为线性的,这对于广义线性模型(Generalized linear model、简称GLM,我们用的线性回归,逻辑回归都算GLM)来说非常有必要

1)为什么要用IV

在用逻辑回归、决策树等构建分类模型时,经常需要对自变量进行筛选。比如我们有200个候选自变量,通常情况下,不会直接把200个变量直接放到模型中去进行拟合训练,而是会用一些方法,从这200个自变量中挑选一些出来,放进模型,形成入模变量列表。

挑选入模变量过程比较复杂,需要考虑的因素很多,比如:变量的预测能力变量之间的相关性变量的简单性(容易生成和使用),变量的强壮性(不容易被绕过),变量在业务上的可解释性(被挑战时可以解释的通)等等。但是,其中最主要和最直接的衡量标准是变量的预测能力。

IV就是用来衡量自变量的预测能力。类似的指标还有信息增益、基尼系数等等。

年龄和违约率并不是线性相关的。我们知道,逻辑回归的方程是:

 

为了解决这个非线性的问题,我们用WOE代替年龄段,根据WOE的计算过程,我们可以知道WOE值越高的分类,违约率越高,这样就可以把非线性映射转换成线性映射。下图已经把年龄换成了WOE,可以看到WOE和违约率是线性。

WOE可以把相对于bad rate显现非线性的特征转换为线性的,这对于广义线性模型(Generalized linear model、简称GLM,我们用的线性回归,逻辑回归都算GLM)来说非常有必要。

参考链接:

风控算法最常见的知识WOE讲解!_Datawhale的博客-CSDN博客

风控算法知识——WOE值的深度理解与应用

关注公众号「水沐教育科技」,在手机上阅读所有教程,随时随地都能学习。内含一款搜索神器,免费下载全网书籍和视频。

公众号二维码
微信扫码关注公众号

微信交流群 关注微信公众号,加入官方交流群。内含一款搜索神器,免费下载全网书籍和视频。