第24卷 第1期华北理工大学学报(社会科学版)
V o l .24 N o .12024年01月
J o u r n a l o fN o r t hC h i n aU n i v e r s i t y o f S c i e n c e a n dT e c h n o l o g y
(S o c i a l S c i e n c eE d i t i o n )J a n .2024
收稿日期:2023-09-18
基金项目:河北省教育厅项目 教育数据资产交易机制研究 (S Q 2021101
);河北经贸大学项目 基于第三方量化平台的策略开发实验项目 (2021J Y Q 02)㊂作者简介:孙玮(1982-),女,河北邯郸人,讲师,管理学博士㊂研究方向:金融科技㊂周嘉莉(2002-)
,女,河北秦皇岛人,在读本科生㊂研究方向:金融科技㊂文章编号:2095-2708(2024)01-0054-08D O I :10.3969/j
.i s s n .2095-2708.2024.01.054基于过采样L o g
i s t i c 回归模型的互联网贷款违约预测研究孙玮,周嘉莉
(河北经贸大学金融学院,河北石家庄050000
)关键词:过采样;L o g
i s t i c 回归模型;互联网贷款;违约预测摘 要:在持续增长的居民贷款消费需求刺激下,互联网贷款业务的规模呈现出持续快速扩张的发展态势,发挥机器学习模型在个贷违约预测的作用,控制和防范互联网贷款违约风险,具有十分重要的意义㊂通过对不同数据集的样本特征进行详细分析,构建个人信用风险评估指标体系,利用具有普适性特征和可解释性特征的L o g i s t i c 回归模型对个贷违约进行预测㊂针对原始数据集存在不平衡样本的问题,分别采用过采样和欠采样的重抽样方法获得平衡样本集,调整正则化惩罚力度,选择最优结果的参数来进行建模,得到模型预测结果㊂最后对如何防范互联网贷款违约风险提出了相关建议㊂中图分类号:F 832.46 文献标识码:A
引言
随着我国经济恢复发展,一系列扩内需促消费政策落地,居民消费需求不断被激发,与之对应,商业银行盘活消费金融资源,聚焦消费领域,全面整合互联网贷款业务线,打造线上互联网贷款㊁个人消费信贷全域产品体系,促进居民消费,服务实体经济㊂
为了促进互联网贷款业务平稳健康地发展,监管部门出台一系列网络贷款的管理办法,整合互联网贷款业务,清退高风险网贷机构,规范商业银行与
互联网平台的合作形式[1
],原银保监会曾发布‘关于
加强商业银行互联网贷款业务管理提升金融服务质效的通知“‘商业银行互联网贷款管理暂行办法“‘关于进一步规范商业银行互联网贷款业务的通知“,对金融机构互联网贷款业务经营行为提出了明确要求,鼓励互联网贷款业务健康发展㊂2023年1月,
原银保监会就‘个人贷款管理办法(征求意见稿)“向
社会公众征求意见,强调了根据新型业务场景,调整业务办理方式,支持应用大数据㊁非现场技术,开展贷款调查和管理㊂
商业银行较为重视互联网贷款业务,在当前互
联网贷款业务向助贷方向转型的大背景下[2]
,引导
P 2P 网贷平台向网络小贷公司㊁
助贷机构或为持牌资产管理公司提供导流服务,形成倒流金融业态,即商业银行与头部互联网平台合作,利用互联网平台资源㊁生态优势及客户流量,紧贴客户日常需求,提供更加多元化的互联网贷款产品服务,通过全线上化服务,为客户提供更加便捷㊁高效的线上化贷款服务㊂由于线上互联网贷款产品逐步丰富,越来越多的人向商业银行和网络平台等机构申请贷款,申请人是否能申请成功,是否有能力按时偿还贷款,商业银行等金融机构如何精准识别潜在违约客户,最小化因客户信用违约风险而造成的损失,对申请人㊁商
业银行等金融机构均至关重要㊂随着人工智能技术
的发展,机器学习模型能够处理海量数据,能够从大
数据中有效地提取信息,并且快速响应,在金融决策
方面有很大的应用潜力[3]㊂因此,应用机器学习方法建立完善有效的互联网个人贷款违约预测模型具
有重要意义㊂
一㊁机理分析
机器学习模型综合贷款人各项信息数据作为特
征X,以往是否违约作为分类标签Y,进行模型训练,经过调整优化后对新的申请用户信息进行分类预测,以预测结果作为核发贷款的重要依据㊂国内外学者对商业银行互联网个人贷款违约风险的影响因素㊁机器学习算法风险评估进行了大量的研究㊂贷款违约风险的影响因素方面,主要从贷款人的微观个体的内部信息方面进行实证分析,D o m i n i c M O b a r e等[4]针对贷款人的信用记录㊁贷款用途等变量,采用机器学习中有监督学习的逻辑回归模型,进行个贷违约预测㊂A k a n m uSA等[5]从贷款人的居住地㊁年龄㊁收入㊁学历等27个特征,采用提升决策树模型进行预测,并采用R o c㊁A u c等指标进行评价㊂F U S T E R A等[6]研究了贷款人的种族特征,在机器学习模式下,黑人和白人西班牙裔借款人得到贷款的增长幅度几乎是白人非西班牙裔借款人的两倍,也就是说,在机器学习技术下,黑人和西班牙裔借款人(在体内)获得的比率非常不同,机器学习对厌恶风险的少数借款人给予明显更大的惩罚㊂刘莉亚[7]针对商业银行个人信贷业务,从反应充足性的贷款人收入㊁存款等,反应稳定性的工作单位㊁学历等信息,反应名誉度的职业职务信息,反应诚信度的征信记录等方面出发,构建了一套信用评分模型的整体分析框架㊂
机器学习算法作为快速高效的风险评估方法,
可以发掘贷款违约风险的因素,在个贷违约预测方
面得到了广泛应用㊂梁龙跃等[8]提出了图卷积神经网络模型,与较为常见的几种信用风险预测模型作为
基准模型进行对比研究,发现相较于所有基准对比模型均大幅提升㊂在机器学习中并不是越复杂的算法越实用,恰恰相反,越简单的算法反而应用的越广泛㊂逻辑回归就是其中一个典型的代表,L o g i s-t i c s模型因具有普适性和可解释性而受到关注㊂对个人贷款违约的评价方法L o g i s t i c模型的研究,方匡南等[9]提出了一种基于半监督广义可加L o g i s t i c 回归信用评分模型㊂朱益冬等[10]将L o g i s t i c回归模型与T a b n e t模型融合,构建了一个具有可解释性和稳定性的网贷违约预测模型,提高了单一模型的预测精确度㊂
对于不平衡样本的研究,在贷款业务场景中,多数客户为正常类还款客户,少数客户为违约客户,数据存在着严重的不平衡性㊂运用重抽样技术,把过采样思想和欠采样思想引入到互联网个人信用评估问题中,以提高信用评估的准确率㊂吴磊等[11]针对二分类问题提出了四种融合过采样和欠采样算法的重抽样方法,对不平衡数据进行预处理来提高分类效果㊂李毅等[12]采用随机过采样㊁随机欠采样和S MO T E方法进行数据平衡化,并建立机器学习的分类模型对互联网个人信用评估进行研究,吴金旺等[13]使用S MO T E算法处理非平衡数据,建立L o-g i s t i c模型,得到影响客户信贷风险最主要的五个因素㊂赵峰等[14]针对样本类别不平衡问题运用S MO T E算法进行过采样,以5折交叉验证及A U C 为依据对模型性能进行评估㊂实验结果表明: S MO T E-L o g i s t i c回归算法在银行个贷违约预测应用方面有良好表现㊂
由于信用风险的影响因素涉及评估指标众多,神经网络等机器学习模型虽然拟合较好但不具有可解释性,
同时样本存在分布不均衡性问题,本文将个体内部信息分类,构建信用风险评估指标体系㊂以K a g g l e平台上 L e n d i n g C l u b 数据集㊁ G i v e M e S o m eC r e d i t 数据集以及百度飞桨平台上的 个人贷款违约 数据集为例,研究不同数据集中不同的样本特征,针对样本分布的不平衡性,运用过采样和欠采样方法进行重抽样,使样本具有平衡性,建立具备可解释性的L o g i s t i c回归模型,对贷款人的违约概率进行预测,实现好客户和坏客户的分类,以准确率㊁召回率和A U C作为评价指标,对不同重抽样下的模型结果进行评估,并对预测结果进行比较㊂最后,针对不同数据集,分析正常客户与违约客户的一般特征,及其对违约风险影响方向与力度,从而更好的识别个人贷款违约的风险㊂
二㊁模型选择
(一)L o g i s t i c回归算法
55
第1期孙玮,等:基于过采样L o g i s t i c回归模型的互联网贷款违约预测研究
L o g i s t i c回归模型,是一种广义的线性回归分析模型,虽被称为 回归 ,但其也是一种分类算法㊂逻辑回归对预测输出结果进行非线性l o g变换㊂二分类问题使用s i g m o i d激活函数,多分类问题使用s o f t m a x激活函数㊂由此可见,L o g i s t i c回归实际上属于分类和预测方法之一,从本质来说属于二分类
问题,二分类问题是指预测的y值只有两个取值(0或1)㊂在贷款违约项目中,x是贷款客户的特征,预测的y值就是客户的类别,即违约客户或正常客户㊂对于类别我们通常称为正类(p o s i t i v e c l a s s)和负类(n e g a t i v e c l a s s),在该项目中,正类就是正常客户,负类就是违约客户㊂
(二)正则化
在贷款违约场景中,由于 软信息 数据相对较多,个贷申请数据中常存在大量特征,一部分特征之间存在高相关性,这种情况将有可能导致过度拟合,正则化是避免过度拟合的一种方法㊂为了探索用户的行为数据特征对预测结果是否有重要影响,选用正则化方法,选取重要特征,删除不重要或相关性较强的特征㊂
在P y t h o n程序设计中,使用s c i k i t l e a r n中的L o g i s t i cR e g r e s s i o n建立本实验的L o g i s t i c回归模型,L o g i s t i c函数中正则化强度大小的参数为C㊁正则化方式参数为P e n a l t y,在P e n a l t y中岭回归对应l2正则,套索回归对应l1正则㊂选择"l1"正则化,对特征变量的惩罚比较严厉,可能直接将特征变量前的系数降为0㊂选择"l2"正则化,对特征变量的惩罚比较温和,会适度降低特征变量前的系数,但不会降为0㊂
(三)样本重采样
首先对数据进行观察,发现了其中存在着样本不均衡的问题,所以为解决正负类比例不平衡问题,采用重抽样的方法以使数据达到类间平衡分布,一般的重抽样方法可分为过采样和欠采样两种方法㊂本文主要采用过采样和欠采样的方法进行对比实验,过采样采用S MO T算法,到最适合本项目的方案㊂为了对重抽样的结果进行评价,选取R e c a l l 和A U C进行模型评价㊂
三、指标体系构建
(一)特征选择
通过对互联网贷款违约风险的影响因素进行分析,构建指标体系,作为机器学习模型的特征X㊂本文参考了李毅等[12]和吴斌等[15]构建方法,从微观的个体申请人内部信息出发,选取个人基本信息㊁个人工作信息㊁贷款基本信息㊁历史信贷情况㊁财务状况和验证信息,构建互联网个人信用评估指标体系㊂本研究数据来源于国内和国外平台提供的贷款机构数据,国内平台为百度飞桨,国外平台为K a g-g l e㊂结合各平台用户的个体数据特征构建6类一级指标,22类二级指标,如表1所示㊂将各个二级指标作为机器学习模型的输入特征X㊂
表1互联网贷款个人信用风险评估指标体系序号一级指标二级指标
1个人基本信息借款人年龄
借款人收入
是否有房
房屋贷款状况
婚姻状态
及地区编码
子女状态
2个人工作信息工作类型
所在公司类型
工作领域
就业年限
3贷款基本信息贷款数额
当前贷款利率
贷款期限
分期付款金额
贷款级别
贷款用途类别
4历史信贷情况贷款人过去违约情况
贷款余额
贷款人还款情况
贷款人信用评分
5财务状况债务收入比
6验证信息证实情况
(二)评价准则
将特征X带入机器学习模型,得到预测结果为
65华北理工大学学报(社会科学版)
是否违约的分类标签Y㊂本文采用准确率㊁R e c a l l 和A U C值作为模型预测性能的评判标准,对模型进行评价㊂这几个指标与混淆矩阵有着紧密的联系,混淆矩阵也称误差矩阵,是表示精度评价的一种标准格式,用n行n列的矩阵形式来表示㊂混淆矩阵包含T P㊁F N㊁F P㊁T N四个部分㊂具体计算为: T P(T r u eP o s i t i v e):样本是正样本并且也被判定成正类,即正常客户被判定为正常客户㊂
F N(F a l s eN e g a t i v e):样本是正样本但判定为负类,即正常客户被判定为违约客户㊂
F P(F a l s eP o s i t i v e):样本为负样本但判定为正类,即违约客户被判定为正常客户㊂
T N(T r u eN e g a t i v e):样本是负样本并且也被判定成负类,即违约客户被判定为违约客户㊂1.准确率
准确率:用所有的预测正确(正类负类)占总样本数的比重㊂
A c c u r a c y=T P+T N
T P+T N+F P+F N
真阳性率:也称真正率(S e n s i t i v i t y),所有正类样本中被正确分为正类的比例㊂
T P R=T P
T P+F N
假阳性率:也称假报警率(S p e c i f i c i t y),所有负类样本中被错误分为正类的比例㊂
F P R=F P
F P+T N
2.召回率
召回率:即正确预测为正的占全部实际为正的比例㊂单纯的准确率,不能反应预测的准确性,结合召回率,能够发现召回率是覆盖面的度量,度量有多个正例被分为正例㊂
在贷款违约项目中,更看重召回率而不是精确率㊂因为相对能正常还款的好用户,我们更关心违约的坏用户,如果过多的将坏用户当成好用户,这样后续可能发生的违约金额会远超过好用户偿还的借贷利息
金额,造成严重损失㊂因此,本着不能错放过任何一个坏用户的原则,提升召回率,召回率越高,代表实际坏用户被预测出来的概率越高㊂
R e c a l l=T P
T P+F N
3.A U C、R O C
本文采用了R O C曲线来反映预测效果,R O C (R e c e i v e rO p e r a t i n g C h a r a c t e r i s t i c)曲线纵坐标为真阳性率,指预测为违约客户且实际真的违约客户占总违约客户的比例,横坐标为假阳性率,是指预测为违约客户但实际是正常客户占总正常客户的比例㊂R O C曲线以一系列不同违约临界点作为阈值,通过曲线下的面积来测算模型预测效率㊂R O C曲线下的面积称作A U C值,能够衡量模型的预测准确率㊂
四㊁实证分析
正则化回归算法(一)数据来源与预处理
本文采用3个数据集,分别来K a g g l e平台上 L e n d i n g C l u b 数据集㊁ G i v e M eS o m eC r e d i
t 数据集和百度飞桨平台上的 个人贷款违约 数据集,数据集的特征变量在个人信用风险评估指标体系中均有覆盖㊂
数据集1: L e n d i n g C l u b 数据集为美国P2P 贷款公司l e n d i n g c l u b的网络贷款数据㊂分析使用的客户贷款数据共38577条,贷款期限为3年㊁5年期个人贷款,贷款金额在500-35000元间,平均逾期率为0.16%,平均利率为11.93%,其中贷款未违约样本量为32950个,违约样本量为5627个,占总数的14.59%,未违约样本量是违约的5.86倍,样本类别严重不平衡㊂
数据集2:针对百度飞桨平台上t r a i n_p u b-l i c.c s v个人贷款违约记录数据,分析使用的客户贷款数据共10000条,贷款期限为3年㊁5年期个人贷款,贷款金额在818-47273元间,平均逾期率为0.17%,平均利率为13.22%㊂其中贷款未违约样本量为8317个,违约样本量为1683个,占总数的16.83%,未违约样本量是违约的4.94倍,样本类别严重不平衡㊂
数据集3:针对K a g g l e平台上 G i v e M eS o m e C r e d i t 项目中的银行客户个贷业务数据,从中随机选取150000条数据作为初始总样本,其中贷款未违约样本量为139974个,违约样本量为10026个,占总数的6.6%,未违约样本量是违约的13.96倍,样本类别严重不平衡㊂
对三个数据集进行缺失值和异常值的处理,删
75
第1期孙玮,等:基于过采样L o g i s t i c回归模型的互联网贷款违约预测研究
除异常值,对缺失值进行填充㊂
(二)参数讨论
分别对数据集1㊁2㊁3进行欠采样和过采样处理,将处理后的总样本以7ʒ3的比例进行划分,构造新训练集和新测试集㊂经过重采样后数据集的样本数如表2所示㊂
表2重采样样本数
数据集1数据集2数据集3
总样本数正样本329508317139974
负样本5627168310026欠采样样本数11254336620052过采样样本数6590016634279948拟合好逻辑回归模型后,通过K折交叉验证得到不同的参数结果,这里保持p e n a l t y和s o l v e r两个参数不变,对正则化惩罚力度C进行了不同强度的实验,通过平均召回率R来确定最优的正则化强度㊂实验结果如表3所示:
表3不同采样方法正则化预测结果对比
数据源1数据源2数据源3欠采样过采样欠采样过采样欠采样过采样
C R C R C R C R C R C R
0.010.92410.010.96950.010.92780.010.90210.010.69020.010.6320 0.10.96260.10.96410.10.90520.10.89470.10.66280.10.6311 10.962310.964610.895710.893710.659110.6310 100.9633100.9683100.8939100.8938100.6578100.6310 1000.96531000.96771000.89391000.89381000.65771000.6310
反应正则化惩罚力度的参数C从0.01到100,由于此参数是倒数表示,所以实际的惩罚力度0.01为最小,100为最大㊂通过对比可知,在数据集1中,过采样方案中正则化惩罚力度C为0.01时,平均召回率最大,为0.9695,预测结果最好㊂在数据集2中,欠采样方案中正则化惩罚力度C为0.01时,平均召回率最大,为0.9278,预测结果最好㊂在数据集3中,欠采样方案中正则化惩罚力度C为0.01时,平均召回率最大,为0.6902,预测结果最好㊂当C增大时,平均召回率都变小,因此最优的正则化力度设置为0.01㊂
(三)预测结果对比
在确定好C值,分别对L o g i s t i c在不同数据集上进行拟合,得出的A U C值结果如表4和图1所示㊂
对数据集1㊁2和3,分别计算基准L o g i s t i c㊁欠采样L o g i s t i c㊁过采样L o g i s t i c㊂从A U C上看,欠采样L R和过采样L R均优于基准L R模型,过采样L R要优于欠采样L R,说明对个贷违约预测的不平衡样本进行重抽样的结果要优于直接对不平衡样本进行模型训练的结果,重抽样中过采样表现较好㊂以数据集1为例,用欠采样数据集训练模型,将训练好的模型分别应用于欠采样数据集和原始数据集,发现在欠采样数据集的结果0.9991要优于在原始数据集的结果0.9987;同理,用过采样数据训练模型,将训练好的模型分别应用于过采样数据集和原始数据集,发现在过采样数据集的结果0.9995要优于在原始数据集的结果0.9993,说明模型过多学习了平衡样本的特征,导致对原始的不平衡样本的A U C下降㊂但认识到样本的实际情况是不平衡的样本,需要将训练好的模型在原始数据集中进行拟合㊂
85华北理工大学学报(社会科学版)
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论