特征筛选之—IV值
⼀.定义
IV(Infromation Value),信息价值,⽤来表⽰特征对⽬标预测的贡献程度,即特征的预测能⼒,⼀般来说,IV值越⾼,该特征的预测能⼒越强,信息贡献程度越⾼。
⼆.限定条件
IV值的计算有⼀定的限定条件:
(1)⾯向的任务必须是有监督的任务;
(2)预测⽬标必须是⼆分类的。
三.IV取值区间及常⽤评价基准
IV值的取值区间为:[0,正⽆穷)。
IV值取值含义:
(1)IV<0.02:⽆⽤特征
(2)0.02<IV<0.1:弱价值特征
(3)0.1<IV<0.3:中价值特征
(4)0.3<IV<0.5:强价值特征
(5)IV>0.5:价值过⾼,不真实
四.计算⽅式
由于IV值的计算是以WOE值为基础的,所以计算IV值之前,⾸先得计算WOE值。
(1)WOE
WOE定义:Weight Of Evidence,证据权重,表⽰描述⼀个可预测的变量与⼆分类变量之间的关系。
使⽤:在使⽤WOE之前,需要对变量进⾏分箱处理,分箱的操作包括:对于连续型变量可以采⽤:等距分箱,等频分箱,⾃定义间隔;对于离散型变量,如分箱太多,可以进⾏分箱合并。
等距分箱:即按照区间距离来划分,不能保证每个分箱中含有相同的变量数;等频分箱:根据频率划分,可以保证每个分箱中含有相同的变量数。
margin rate计算公式:
公式描述:可以看出WOE是基于每个分箱中的变量进⾏计算的,对于每个分箱,分别计算bin_good(好⼈数),bin_bad(坏⼈数),分别除以全量数据中的好⼈总数(total_goods)和坏⼈总数(total_bads),得到每个分箱内的边际好⼈占⽐
(margin_good_rate)和边际坏⼈占⽐(margin_bad_rate)。
故WOE计算⽅式也可表⽰为:
公式理解:WOE表⽰的是当前分箱当中,“坏⼈数量占所有样本中坏⼈数量的⽐例”,与“好⼈数量占所有样本中坏好⼈数量的⽐例”。如果差异越⼤,那么该分箱响应坏⼈的可能性就越⼤;当差异越⼩时,该分箱响应的坏⼈的可能性就越⼩。
(2)IV
计算⽅式:
公式理解:IV值的计算是对WOE值的加权和,是⽤来衡量WOE表⽰的变量对⼆分类变量之间关系的强度。
五.⼀些注意的点
贝叶斯⾓度理解WOE:引⼊后验经验的变量后,WOE值是修正先验odds与后验odds之间距离的增量,可理解为对先验的⼀个增益,这也是WOE称作“证据权重”的⼀个原因。所以IV值对OWE的加权也是更加计算出来了该特征下对⽬标变量的⼀个增益情况。
WOE与Odds Ratio(OR):OR的值与逻辑回归具有关联性,即当逻辑回归中的变量变化值为1时,odds的变化是,a是当前特征变量下的权重。
WOE的变化趋势是与odds的变化趋势是⼀致的,WOE单调递增时,odds也是单调递增的;WOE曲线越抖,好⼈与坏⼈的区分越明显。

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。