201
PRACTICE
区域治理作者简介:范丽媛,生于1991年,中国人民大学统计学院在职人员高级课程研修班学员。
对比逻辑回归与 XGBoost 模型在信用风险应用
中的优缺点
中国人民大学统计学院;北银消费金融有限公司  范丽媛
摘要:随着时代的发展,科技越来越发达,科技逐渐走进我们的生活并改变我们的生活,数据科技逐渐取代了部分人工经验。风控主要是指对风险的预估和把控,本文中的风控主要指在金融行业中的个人贷款的风险控制。在20世纪末,数据风控逐渐在金融方面占主导地位,更早时,金融从业人员更多的是靠经验进行贷款的审批、管控及催收等,此种方式存在较多主观判断、标准不统一、审批效率低,因此采用统计分析及机器学习方法进行个人客户风险预测。本文对比的是逻辑回归及XGBoost(eXtreme Gradient Boosting)的优缺点。关键词:数据科技;逻辑回归;数据风控中图分类号:F
文献标识码:A
文章编号:2096-4595(2020)13-0201-0003
下面分别根据实际业务场景介绍下逻辑回归及XGBoost 模型在风控应用中的运行机制及优缺点,以信用风险中的个人申请贷款为主。
在金融风控风险中,风险分为信用风险、市场风险、流动性风险、操作风险、法律风险与合规风险、国家风险、声誉风险、系统风险,主要的风险为前四种,我们本次主要讨论的是在信用风险①
中的应用。
下面我们看逻辑回归及XGBoost 在信用风险中的应用:
在信用风险中,利用逻辑回归及XGBoost 算法,根据客户特征对客户好坏进行预测,此处定义的好为客户按时归还欠款,坏为贷款后逾期30+(具体逾期天数根据产品而定)。
逻辑回归实际上是广义线性回归,与传统的回归分析性质类似,不过逻辑回归是处理分类性数据问题,本质上是属于分类问题(预测客户是好或者是坏)。
考虑到逻辑回归是二分类问题
,最理想的是阶跃函数:
但是这个阶跃函数是不可微的,对数几率
函数(即sigmoid 函数)
,因此最终
演变成,于是有
,我们
将y 视为x 为正例(坏客户),将1-y 视为x 为其反例的概率,y/(1+y)称为几率,指该事
件发生(即坏客户,该客户风险水平高)与不发生(好客户,该客户风险水平低)的概率比
值,若事件发生的概率为p ,则对数几率:
,将y 视为类后验概率②
估计
重新公式有:
即Y=1的对数几率是由输入变量为x 的线形函数表示的模型,这个是逻辑回归模型,w t x+b 的值接趋于正无穷时,P(Y=1丨x)的概率值越接近1。逻辑回归的主要思路是去拟合决策边界,然后建立边界与分类的概率问题,最终得到二分类情况下的概率。
逻辑回归的数学形式确定后,剩下的就是如何求解模型中的参数。一般我们通过最小化损失函数求最优解。
一般损失函数使用真实值与预测值之差作为损失函数,形如线形方程中的均方差,但逻辑回归中没有使用此方法作为损失函数,因为这个函数时非凸函数,不能得到全局最优解,一般取其极大似然函数,极大似然函数是凸函数
,容易求得最优解。
极大似然函数:
为了方便求解,
对等式两边同时取对数,
得到对数似然函数:
在机器学习算法中,我们有损失函数的概念,衡量模型预测错误的程度,
若取整个
数据集上的平均对数似然函数,可得:
在回归模型中,我们取最大化似然函数和最小化似然函数实际上是等价的。
求解逻辑回归的方法有非常多,我们这里主要聊下梯度下降和牛顿法。优化的主要目标是到一个方向,参数朝这个方向移动之后使得损失函数的值能够减小,这个方向往往由一阶偏导或者二阶偏导各种组合
求得。
逻辑回归的损失函数是:
梯度下降是通过J(w)对w 的一阶导数来梯度下降方向
,并且以迭代的方式来更
新参数。
其中k 为迭代的次数。每次更新参数后,通过对比是否小于阈值或者到达最大迭代次数来决定是否停止迭代。
另一种是牛顿迭代法,主要思路是,在现有极小点估计值的附近对f(x)做二阶泰勒展开,然后到极小点的下一个估计值。假设其为当前的极小值估计值。
为了防止模型过拟合,有两种方法,意识减少特征数量,认为选择重要特征进行保留,需要根据数据结果情况且结合经验进
行选择,在入模变量选择中,一般选择区分效果较好且业务可解释性强的变量;一是正则化,给模型添加一个正则项,正则项是通用的算法和思想,正则化一般选择范数(LASSO,即最小绝对收缩选择算子)正则化、范数(Ridge Regression ,岭回归)正则化,范数是绝对值,
范数是平方和开方值,图1
图1 两种范数的图像
202
是两种范数的图像。
在经验风险最小化的基础上(也就是训练误差最小化),尽可能采用简单的模型,可以有效提高泛化预测精度。如果模型过于复杂,变量值稍微有点变动,就会引起预测精度问题。正则化之所以有效,就是因为其降低了特征的权重,使得模型更为简单。
以上为逻辑回归的主要内容,下面我们来看下XGB 算法的主要思路。
XGB 算法的主要思想是通过不断地添加树,不断地进行特征分裂来生长一棵树,每添加一棵树,就是学习一个新函数,去拟合上次预测的残差。XGB 本质上还是一个GBDT ,但把速度和效率发挥到了极致,所以叫X(Extreme)GBoosted ,两者使用的都是boosting 方法。
XGB 既可以解决分类问题也可以解决回归问题。无论是做分类还是回归,为了分裂节点建树,我们都需要:
(1)把最小化叶子节点分数得到,为了得到最小化的叶子节点分数,我们需要计算损失函数对于叶子节点的一阶到二阶导。
(2)计算Similarity Score 。(3)计算子节点的Similarity Score,与父节点相减得到gain(需要最大化gain)。
(4)重复以上……
(5)确定树结构后通过lambda,gamma 进行剪枝。
XGB 学习的目标函数同样是由损失函数(代价函数)+正则化。
即:
其中为训练误差函数,即损失函数,是表示正则项,训练误差用来衡量模型在训练数据上的预测能力。比较典型的有用均方差来衡量
另外针对逻辑回归,比较常见的损失函
数是:
另外一个比较重要的部分就是正则项,这也是很多人容易忘记的部分。正则项是用来控制模型的复杂度,以防止过拟合(overfitting)。
XGB
的目标函数如下:
为了便于计算,对上式进行泰勒展开,并取2
阶项作为目标函数的近似表示:
其中
然后加入正则化项:
这个J 是叶子节点的个数,而是第j 个叶子节点的最优值。这里的表示的是叶子区域的值。
最终的目标函数为:
这个函数是关于叶子节点w j 的二次函数,
其最值点和最值分别是:
以上Obj 函数是它是衡量树结构好坏的标准,目标函数的值越小,代表树的结构越好。我们用打分函数选择最佳切分点,从而构建CART 树。
打分函数是衡量树结构好坏的标准,因此,可用打分函数来选择最佳切分点。首先确定样本特征的所有切分点,对每个确定的切分点进行切分,
切分好坏的标准为:
Gain 表示单个节点obj*与切分后的两个节点的树obj*之差,遍历所有特征的切分点,到最大Gain 的切分点即是最佳分裂点,根据这种方法继续切分节点,得到CART 树。
若γ值设置过大,则Gain 为负,表示不切分该节点,因为切分后的树结构变差了。γ值越大,表示对切分后obj 下降幅
度要求越高,这个值的大小可以在XGBoost 中设定。
通过以上计算,最终得出分类模型的最优结果。
下面我们对比下逻辑回归与XGB 的优缺点。
逻辑回归可以说是广义的线形回归问题,是在线形回归中加入了sigmoid 函数,去解决分类问题,XGB 是既可以解决分类问题也可以解决回归问题,在金融风险控制中的信用风控中,主要是用逻辑回归及XGB 的
解决分类问题。
在整个信用风险风控流程中,不管是贷
前、贷中、贷后的管理中,在数据可支持的情况下,可以使用数据进行建模,以便于对
坏客户有更好地识别。比如在客户申请贷款时,可根据以往存量大量客户的信息去搭建模型,更好地预测出风险高的客户,以便于
对风险高的客户予以拒绝,以控制风险损失成本。
正则化回归算法
在实际应用中逻辑回归的优点有以下几点:
(1)模型形式简单,可解释性好。(2)资源占用小,尤其是内存。(3)方便输出结果调整。缺点:
(1)表达能力不强,无法进行特征交叉。(2)准确率不是很高。
(3)处理非线性数据比较麻烦。XGB 的优点:(1)算法效率高。(2)准确率高。(3)应用广泛。XGB 的缺点:(1)算法参数过多。
(2)只适合处理结构化数据。(3)不适合处理超高维特征数据。(4)容易过拟合。
在实际应用过程中,逻辑回归及XGB 广泛地应用于金融信用风险预测,对于传统行业的金融机构,如银行、保险、消金等,常使用逻辑回归进行预测,因为其具有较高的稳定性与可解释性,更易于解释及接受;对于互联网金融更多的使用机器学习中的XGB ,在数据基础情况一致的情况下,XGB
具有更好地模型区分能力,且互联网金融变化较多,模型更新迭代更快,XGB 具有自动更新迭代的功能,能更好地适用于互联网金融公司等。
综上所述,逻辑回归与XGB 算法各有各的优缺点,在实际风控风险预测中,我们可根据实际情况去进行算法的选择,到更为合适的算法,对模型实际应用效果有着不可或缺的影响。
希望本文中逻辑回归及XGB 算法的在风控中应用的对比能够帮助大家更好理解逻辑回归及XGB 算法的优缺点,在数据能够支持模型搭建的情况下,选择更适合的模型进行信用风险预测,更好地区分出好坏客户,以获得更好地效果。
参考文献
[1]王星,褚挺进.非参数统计: Non-parametric statistics[M].北京:清华大学出版社,2014.
[2]姚志勇.SAS 编程与数据挖掘商业
(下转第204页)
设施,根据实际设计设置边沟、排水沟等,使雨水顺利排出,避免雨水对坡面侵蚀。选用合格的填料施工,加强对原材料的质量检验和验收,提高每一道工序的质量,保证护坡施工的效果。
五、高速公路路基边坡支护技术的应用实践
(一)重力式挡土墙
这种技术是目前最普遍的支护应用技术,技术的原理是借助挡土墙自身的重力使结构的稳定性得到保证。
工程的形式通常为梯形,挡土墙的建筑材料可以采用混凝土、石材等,就地取材,经济实用,而且施工起来非常容易。在行挡土墙挖掘作业时,对于活动土压力的进一步形成,需给予斜墙后部的土壤填埋,从而使倾斜墙主动土压力得以有效减轻。
(二)加筋土式的挡土墙支护
所谓的支护技术是由加筋土对土体的侧压力辅助而成的加筋土的有效受力,其有效组成是拉带、切板等。到在施工过程中,拉拔钢筋与土体之间的摩擦力以及钢筋的预应力能土墙的强度将会增加。同时可与面板、
烤漆、钢板等组合搭配,使墙面更加优化。
加筋土挡墙支护的优点是:材料损耗低,施
工作业方便做起来方便,占用的空间越小,
抗震性能越好等。
但是空间有限系统、道路断面开挖、地
形陡峭的场地不适合使用。在进行具体施工
时,首先是在基坑开挖过程中,对基坑进行
排掘浇水工作一定要做好到位,以免发生基
坑积水的现象,防止因为基坑水造成基坑底
部腐蚀、墙体腐蚀等情况。第二,运输墙、
起重墙、储存墙三种情况需要特别注意,必
须及时采取有效的防裂措施。最后在气势恢
宏的墙面安装过程中,加固回填土应按照边
坡支护的要求和相关标准进行材料方面,为
了保证墙面的垂直度,同时也要保持符合要
求有效避免墙面倾斜。
六、结语
总之,高速公路施工现场面临着许多不
确定因素,如果没有针对性的处理,很容
易造成未估计损失的问题。其中,施工单
位应重点加强路基边坡的防护和支护工作。
并严格按照路基边坡防护标准和支护技术原
则,从多个方面对现场施工问题进行总体规
划和合理部署,确保路基边坡结构质量和安
全。正式施工期间,施工人员应该肩负起
自身的施工重任,严格按照相关技术标准,
准确无误地将各项施工措施落实到位,从根
本上为我国高速公路建设事业提供良好的技
术保障。
参考文献
[1]李磊.公路路基高边坡防护设计措
施[J].四川建材,2020(5):162-163.
[2]康林.路基高边坡防护工程施工技
术探讨[J].科学技术创新,2020(1):
127-128.
[3]杨小宁,刘裕.公路路基高边坡防
护设计分析[J].交通世界,2019(35):
55-56.
[4]蔺港.公路路基高边坡防护设计分
析[J].交通世界,2019(22):66-67.
[5]周钦.铁路路基高边坡防护探讨
[J].工程建设与设计,2019(12):105-
107.
(上接第188页)
故发生的原因进行很好的判断,然后再从设备正常运行的状态进行分析,从而清楚掌握设备的内部结构,在这样的情况之下缩小范围进行解决处理,最终准确到可能引发设备故障的关键部位,有利于针对性地对其进行一次设备故障检修。
实际上在检修的操作过程中,要向下看检查点的电路,看电机发动机工作是否正常,紧接着就是通过逆向电路检查的各种方式,对一些主要的电路元件进行一次精细化逆向检查,主要内容包括热继电元件、开关、触头等。另外,要能够根据当下控制电路工作的原理,以及控制电路的关系,进行日常的检修工作,在这样的情况之下,就可以知道事故发生的原因,从而进行故障的解决。因此,自动化故障控制器对于设备系统发生故障时,能够进行明确分析,直接从故障处理器进行解决,可以更好地减少时间成本,并且减少设备在维修时的损耗。
(二)采用科学的检修技术
自动化系统控制相关设备正在出现异常
故障以后,可以及时通过在应用实验室进行
模拟的各种方式,将相关设备正在运行时的
异常各种状态参数记录下来,然后和相关设
备出现故障时,通过系统自动化所储存的各
种参数数据进行分析对比,这样就可以及时
发现相关设备正在运行的异常状态数据,从
而准确判断可能引发设备故障的原因,确定
可能出现异常故障的设备位置。这种用于自
动化控制设备日常检修用的技术系统称为自
动实验法,操作学习起来比较容易,而且虽
然具有实验准确性高的各种特点,但它可以
很好地控制使用自动化设备控制系统设备日
常检修时的成本。所以在控制设备日常检修
中,选择使用这种实验方法就需要视实际情
况而进行决定。
三、结束语
总而言之,电气工业自动化工程控制系
统设备发生故障,会影响正常运行的使用经
济性,企业不仅要对控制设备故障进行定期
科学管理和日常养护,通过有效的养护手段
予以预防设备故障,同时企业还要积极采用
先进的维修技术对控制设备进行检修,降低
设备故障点的发生率,延长控制设备的正常
使用寿命,提高控制设备正常运行的使用经
济性和运行稳定性。
参考文献
[1]许永堂.分析电气自动化控制设备
故障预防与检修技术[J].居舍,2018(7):60.
[2]张文增,李忠文.电气自动化控
制设备故障预防与检修技术[C]//决策论
坛——系统科学在工程决策中的应用学术研
讨会.2015.
[3]张桂强.电气自动化控制设备
故障预防与检修技术[J].山东工业技
术,2017(9):172.
[4]于露华.电气自动化控制设备
故障预防与检修技术[J].科技创新导
报,2016,13(8):76-77.
(上接第202页)
案例[M].北京:机械工业出版社,2010.
[3]雪伦.数模型(六):XGBoost.
注释
①信用风险:由于各种不确定因素对金融机构信用的影响,使金融机构的实际收益
结果与预期目标发生背离,从而导致金融机
构在经营活动中遭受损失或获取额外收益的
一种可能性。(东奥会计在线)
②后验概率:后验概率是信息理论的基
本概念之一。在一个通信系统中,在收到某
个消息之后,接收端所了解到的该消息发送
的概率称为后验概率。后验概率的计算要以
先验概率为基础。后验概率可以根据通过贝
叶斯公式,用先验概率和似然函数计算出来。
204

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。