【评分卡】评分卡⼊门与创建原则——分箱、WOE 、IV
、分值分配
本⽂主要讲“变量选择”“模型开发”“评分卡创建和刻度”
变量分析
⾸先,需要确定变量之间是否存在共线性,若存在⾼度相关性,只需保存最稳定、预测能⼒最⾼的那个。需要通过 VIF(variance inflation factor)也就是 ⽅差膨胀因⼦进⾏检验。
变量分为连续变量和分类变量。在评分卡建模中,变量分箱(binning)是对连续变量离散化(discretization)的⼀种称呼。要将logistic 模型转换为标准评分卡的形式,这⼀环节是必须完成的。信⽤评分卡开发中⼀般有常⽤的等距分段、等深分段、最优分段。单因⼦分析,⽤来检测各变量的预测强度,⽅法为WOE、IV;
WOE
WOE(weight of Evidence)字⾯意思证据权重,对分箱后的每组进⾏。假设good为好客户(未违约),bad为坏客户(违约)。
#good(i)表⽰每组中标签为good的数量,#good(T)为good的总数量;bad相同。
这⾥说⼀下,有的地⽅计算WOE时使⽤的是的,其实是没有影响的,因为我们计算WOE的⽬的其实是通过WOE去计算IV,从⽽达到预测的⽬的。后⾯IV计算中,会通过相减后相乘的⽅式把负号给抵消掉。所以不管谁做分⼦,谁做分母,最终的IV预测结果是不变的。
IV
good 占⽐bad 占⽐
IV(information value)衡量的是某⼀个变量的信息量,公式如下:
N为分组的组数;
IV可⽤来表⽰⼀个变量的预测能⼒。
IV预测能⼒
<0.03⽆预测能⼒
0.03~0.09低
0.1~0.29中
0.3~0.49⾼
>=0.5极⾼
根据IV值来调整分箱结构并重新计算WOE和IV,直到IV达到最⼤值,此时的分箱效果最好。
分组⼀般原则
1. 组间差异⼤
2. 组内差异⼩
3. 每组占⽐不低于5%
4. 必须有好、坏两种分类
举例说明
例如按年龄分组,⼀般进⾏分箱,我们都喜欢按照少年、青年、中年、⽼年⼏⼤类进⾏分组,但效果真的不⼀定好:Age good bad WOE
<185040 18~3010060 30~6010080 >608040 ALL330220
ln()=
40/220
50/330
−0.182321556793955 ln()=
60/220
100/330
odds0.105360515657826 ln()=
80/220
100/330
−0.182321556793955 ln()=
40/220
80/330
0.287682072451781
根据IV值可以看出,预测能⼒低,建议重新调整分箱。
建⽴模型
先进⾏数据划分,⼀般70%训练集、30%测试集。训练集⽤于训练模型,测试集⽤于检测训练后的模型。
⼀般采⽤Logistic Regression建⽴模型,训练模型。将建好的模型对待测样本进⾏预测。
评分卡
评分卡计算⽅法
odds为good⽤户概率(p)与bad⽤户概率(1-p)的⽐值。
评分卡设定的分值刻度可以通过将分值表⽰为⽐率对数的线性表达式来定义。公式如下:
注:若odds是 ,odds应取倒数,再经过转换则B前⾯是减号。所以有的地⽅此公式B前为负号。设置⽐率为(也就是odds)的特定点分值为,⽐率为的点的分值为。带⼊上⾯公式可得到:
求解上述公式,可以得到A、B值:
odds ==坏客户概率好客户概率
1−p
p score =总A +B ∗ln (odds )
坏客户概率好客户概率
ln θ0P 02θ0P +0PDO {P 0
P +PDO
0=A +Bln (θ)0=A +Bln (2θ)
0{B A =ln 2
PDO
=P −Bln (θ)
00
和 的值都是已知常数,可以设置 和 ,
可以计算出A、B值。
这⾥ 和 主要是根据你想要分数落在⼀个什么范围内,然后进⾏⼈为设定,不⽤太纠结取值的意义。
分值分配
在实际的应⽤中,我们会计算出每个变量的各分箱对应的分值。新⽤户产⽣时,对应到每个分箱的值,将这些值相加,最后加上初始基础分,得到最终的结果。
如果⽤户某个变量发⽣改变,由⼀个分箱变成另⼀个,只需将更新后所在分箱的值做替换,再重新相加即可得到新的总分。我们都知道,假设模型结果为p,根据Logistic Regression计算公式有:
经过转换得到
由于上⾯提到的公式
所以
这⾥带⼊评分卡公式,
这⾥是Logistic Regression中不同变量的系数。是截距。
为基础分数,为每个变量对应分配到的分数。
之前步骤中每个变量都有进⾏分箱操作,分为若⼲类。所以下⼀步的话,把每个变量对应的分数,分别乘以变量中每个分箱的WOE,得到每个分箱的评分结果。
变量分箱类别
分值
基础分数
-1
2…
···
1
2…
···
P 0PDO P =0600PDO =20P 0PDO p =1+e −θx
T
1ln ()=1−p p
θx
T ln ()=1−p p
ln (odds )
ln (odds )=θx =T w +0w x +⋅⋅⋅+w x 11n n
score =总A +B ∗(θx )=T A +B ∗(w +0w x +⋅⋅⋅+w x )
11n n =(A +B ∗w )+0B ∗w x +⋅⋅⋅+B ∗11w x n n
w ,w ,...,w 12n x ,x ,...,x 12n w 0(A +B ∗w )0B ∗w x ,⋅⋅⋅,B ∗11w x n n (A +B ∗w )0x 1
i
(B ∗w )∗1W OE 11(B ∗w )∗1W OE 12
(B ∗w )∗1W OE 1i x 2
(B ∗w )∗2W OE 21(B ∗w )∗2W OE 22
······
·
··
1
2…
···
变量分箱类别分值以上步骤都完成后,假如新产⽣⼀个⽤户,我们只需将此⽤户每个变量对应到各分箱中得到其对应的WOE值,再根据上⾯的公式计算出这个样本在每个变量下的分数。最后将所有变量对应的分数相加,即为最终评分结果。
最后说⼀下,特征选择⽅⾯,并不是维度越多越好。⼀个评分卡中,⼀般不超过15个维度。可根据Logistic Regression模型系数来确定每个变量的权重,保留权重⾼的变量。通过协⽅差计算的相关性⼤于0.7的变量⼀般只保留IV值最⾼的那⼀个。引⽤
《信⽤风险评分卡研究》Mamdouh Refaat著
《互联⽹⾦融时代消费信贷评分建模与应⽤》单良著《统计学习⽅法》李航著
j
(B ∗w )∗2W OE 2j
x n
k
(B ∗w )∗n W OE n 1(B ∗w )∗n W OE n 2
(B ∗w )∗n W OE nk
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论