基于XGBoost的个人信贷违约预测研究
作者:李学锋
来源:《电脑知识与技术》2019年第33期
作者:李学锋
来源:《电脑知识与技术》2019年第33期
摘要:随着互联网经济的迅猛发展,个人信贷规模在近年来呈现了爆炸式增长。信用风险管控一直是金融机构研究的热点问题。该文对集成学习算法XGBoost应用个人信贷违约预测进行了研究。通过对已有的数据进行分析,并使用XGBoost算法建立个人信贷违约预测模型。实验结果表明,与逻辑回归算法与随机森林算法相比,XGBoost在性能上有更好的表现。通过使用XGBoost算法对特征的重要性进行度量,有助于快速有效地进行个人信贷风险判断。
关键词:XGBoost;集成学习;个人信贷;风险管控;违约预测
中图分类号:TP391 文献标识码:A
文章编号:1009-3044(2019)33-0192-03
1概述正则化逻辑回归模型
近年来我国经济迅猛发展,金融消费服务规模不断攀升。金融公司推出了各种普惠金融服务,并通过互联网、手机APP等渠道,让更广泛的人可以参与进来,极大地拓展了金融服务的广度和深度;移动互联网广泛发展与应用,手机移动服务操作的简单与便捷,让人们的消费习惯与消费观念与传统相比都发生了改变,信贷比原来更容易被接受。因此,我国近几年的信贷规模呈现了爆炸式的增长。中国人民银行数据显示,消费金融市场规模已由2010年1月的6798亿元攀升至2018年10月84537亿元。
随着信贷规模增长,信贷风险也随之增加。为保障信贷市场健康有序地发展,对信贷风险进行评估预测,一直是研究的热点问题。信贷违约预测在技术上可分为两大类,第一类主要使用统计分析的方法,如,使用线性回归的违约预测,如文献[1];使用Logistics回归的违约预测,如文献[2-3]等。另一类主要是基于机器学习进行违约预测,比如决策树、人工神经网
络、支持向量机等。从现有的预测结果上看,相对于统计分析方法,机器学习方法的违约预测在准确度上表现更加优越。
XGBoost是一种集成式的机器学习方法,实践证明,在回归与分类上都有很好的表现。本文基于XGBoost算法对个人信贷违约预测模型进行分析与研究。
2xGBoost算法
XGBoost(eXtreme Gradient Boosting,极限梯度提升)是由陈天奇博士于2014年提出的一种Boosting型集成学习算法,它是一个基于CAR了回归树的集成学习算法。
3.3 XGBoost参数调优
XGBoost模型的参数都是实际进行调优的,其中主要参数learning_rate、n_estimators、max_depth、min_child_weight、Sub-sample、olsample_bytree、gamma、reg_alpha、reg_lambda等。
learning_rate是学习速率,控制每次迭代更新权重时的步长。n_estimators是总迭代的次数,也即决策树的个数。
max_depth是指树的深度,值越大,越容易过拟合;值越小,越容易欠拟合。min_child_weight是指叶子结点是最小权重和,即当叶子结点中的权值和等于或小于此值时,将不再划分。这个参数用于避免过拟合。当它的值较大时,可以避免模型学习到局部的特殊样本;但是如果这个值过高,会导致欠拟合。Subsample是指对于每棵树随机采样的比例。减小这个参数的值,算法会更加保守,避免过拟合。但是,如果这个值设置得过小,可能会导致欠拟合。colsample_bytree是指训练每棵树时,使用的特征占全部特征的比例。
Gamma是惩罚项系数,用于指定节点分裂所需的最小损失函数下降值,值越大,算法越保守。reg_alpha是u正则化系数,reg_lambda是L2正则化系数,主要用于防過拟合。
3.4模型建立及其性能评估与对比
XGBoost为python环境提供了两个接口:XGBoost原生接口和通过sklearn的XGBoost接口。两种接口的操作基本一样,效果也是相同的。我们采用通过sldearn的xgboost接口建立XG-Boost模型。
我们利用数据集中的数据,对模型进行训练,然后进行测试,模型的score分值为0.989
54。我们使用同样的数据集,采用逻辑回归分类模型进行训练与测试,模型的score分值为0.93453。使用随机森林模型时,模型的score分值为0.93549。通过比较,可以看出,XGBoost算法的预测效果是优于逻辑回归分类模型与随机森林模型的。
3.5特征重要性的度量
通过sklearn的xgboost的plot_importance方法,得到每个特征变量的重要性程度,如图1所示。
通过上表可以看出,对于违约预测的重要性程度排在前面四位的分别是借贷人的贷款总额占授信总额的比率、过去两年逾期30-59天的次数、过去两年逾期超过90天的次数、借贷人的年龄等。这四个特征对最终是否违约影响较大,因此在处理贷款申请时,可以重点对借贷人的这些特征进行关注。
4结束语
本文基于机器学习的集成算法XGBoost对金融领域的个人信贷违约预测进行了研究。XGBoost算法采用集成学习方式,在其成本函数中采用了泰勒公式的两阶展开,引入正则化
项,通过参数调整优化,可以有效地避免欠拟合与过拟合。XG-Boost基于回归分类树,在模型的解释性与调参方面更具特点。通过实验表明,基于XGBoost算法的个人信贷违约预测有很好的分类性,并且通过特征重要性度量,给出对违约影响较大的特征变量,本研究成果对金融领域的个人信贷违约预测有重要的参考意义。
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论