收稿日期:2020⁃04⁃10;修回日期:2020⁃06⁃06
作者简介:耿召里(1994⁃),男,贵州毕节人,研究生,主要研究方向为机器学习与智能优化(1947724087@qq.com);李目(1979⁃),男,湖南湘潭人,副教授,硕导,工学博士,主要研究方向为电力系统故障诊断㊁小波分析等.
基于XGBoost⁃LSTM组合模型的保险理赔准备金预测方法
耿召里,李㊀目
(湖南科技大学信息与电气工程学院,湖南湘潭411201)
摘㊀要:针对保险理赔准备金预测问题,提出了一种基于XGBoost⁃LSTM组合模型的预测方法㊂首先,利用lightGMB
(轻量级梯度提升机)模型对保险理赔数据进行融合并构成新数据集;然后,采用XGBoost⁃LSTM模型对保险理赔准
备金进行预测;最后,以2017年Allstate公司的数据为例,对提出的方法进行了验证㊂实验结果表明,所提出的组合模型与传统的SVM和RF模型相比具有更高的预测精度㊂
关键词:LSTM网络;XGBoost网络;lightGBM网络;保险理赔;组合模型
0㊀引言
保险理赔,是指在保险标的发生保险事故而使被保险人财产受到损失或人身生命受到损害时,或保单约定的其他保险事故出险而需要给付保险金时,保险公司根据合同规定,履行赔偿或给付责任的行为[1,2]㊂准确的预测理赔准备金对保险公司财务至关重要[3],保险购买呈现出快速增长的趋势,如何设计一套高精度的保险事故理赔自动预测模型就显得尤为重要㊂
对于精度预测的算法主要有机器学习和时间序列分析两种,机器学习包括随机森林㊁线性回归㊁集成学习㊁支持向量机㊁深度学习等[4],尤其是循环神经网络和卷积神经网络,由于其效果良好㊁便于实现,受到了人们的广泛关注和应用㊂时间序列的算法有指数平滑方法㊁自回归方法等[5],时间序列分析缺点在于当所选取的对象有特殊变化时间段㊁无适应性规律时该预测方法失效[5]㊂
此前,已有很多学者作过理赔预测方面的研究,Severin[6]提出一种具有马尔可夫结构的散粒噪声新型微观模型㊁采用EM算法调节参数,取得了良好的效果;Kitchens等人[7]应用遗传自适应神经网络对美国私人乘用车保险公司潜在理赔保险损失进行预测,得出预测的均方误差为4542;Kumar等人[8]采用数据挖掘的手段,对理赔发生错误付款的用户赔偿金额进行串行预测,为公司节省了15 25百万美金的费用;Sánchez等人[9]针对保险理赔准备金预测,采
用了模糊自回归模型;Ogunnaike等人[3]将机器学习回归方法应用到了保险理赔的严重性和损失值预测上;Saputro等人[10]将DNN应用于具有结构化算数的索赔预测问题㊂上述学者们进行了很多工作,但都存在一个问题就是预测的精度仍有待提升㊂
XGBoost算法全名叫极端梯度提升[11],是集成学习算法的一种,在众多比赛和项目开发中应用广泛,取得了较好的成绩[12]㊂lightGBM是个快速的㊁分布式的㊁高性能的基于决策树算法的梯度提升框架[13],广泛应用于排序㊁分类㊁回归以及很多其他的机器学习任务中[14]㊂LSTM算法是循环神经网络算法(RNN)的一种,对解决RNN梯度爆炸和消失问题效果明显[15];由于其对历史数据具有记忆功能,所以在特殊背景下的预测效果显著[16]㊂组合模型是将几种模型根据一定的方法进行组合进而提高预测效果的策略[2]㊂目前组合模型应用广泛,冯晨等人[17]将XGBoost与LSTM组合应用于销售额预测,程津等人[18]将粒子算法与神经网络进行组合㊂上述方法都取得比采用单一模型更好的结果㊂
本文针对实际情况,应用lightGBM对数据进行特征融合,将LSTM和XGBoost模型根据训练时验证集预测的均方根误差进行组合建立XGBoost⁃LSTM模型,并以2017年Allstate公司提供的数据进行训练和验证㊂结果表明本文提出的模型预测效果均高于上述单一模型㊂将本文提出的预测方法与随机森林(RF)㊁支持向量机(SVM)进行比较,结果显示本文方法在精度上优于上述两种算法㊂
1㊀相关理论
1 1㊀XGBoost模型
集成学习的基本思想是通过融合构建多个弱学习器来增强模型的学习能力从而完成学习任务,传统的集成学习方法包括
GBDT㊁Boosting㊁随机森林等,而XGBoost模型便是以GBDT为框架衍生出的一种算法㊂与随机森林不同,XGBoost是一种串行算法,也就是本次生成的树的策略取决于上一次迭代的残差㊂XGBoost的基本思想就是怎样在当前的模型中加入另外一个模型,使得组合后的模型效果优于当前模型㊂下面给出其推导㊂
XGBoost的基础模型是决策树模型,开始初始化的时候,设模型的值为零,构造一个基础决策树如式(1)所示㊂
^y(0)i
=0(1)在此基础上,加入第一棵树设其为f1(x1),得到
^y(1)i=f1(xi)=^y(0)i
+f1(xi)(2)
依此类推,得出加入t棵树的模型如式(3)所示,从而得到一个
串行模型㊂
^y(t)i
=ðt
k=1fk(xi)=^y(t-1)i+ft(xi)(3)
对于模型的求解,这里将预测值与目标值的差的平方作为优
化目标,为了不让模型过于复杂,对模型加入了一个复杂度惩罚项如式(4)所示,从而得到优化的目标函数如式(6)所示㊂
Ω(ft)=γT+
1
2λðTj=1ω2j
(4)
obj(t)=ðn1(yi-(^y(t-1)i+ft(xi)))2+Ω(ft
)+constant(5)
obj(t)=ðn1L(yi,(^y(t-1)i+ft(xi))+Ω(ft
)+constant(6)
这里将目标函数进行二阶泰勒展开化简,得出式(7)㊂
objʈðn
i=1[gift(xi)+
1
2hif2t(xi
)]+Ω(ft)(7)
gi=∂^y(t-1)l(yi,^y(t-1))
(8)hi=∂2^y(t-1)l(yi,^y(t-1))
(9)
将样本遍历转换为在叶子节点上遍历,再次化简后得出式(10)㊂
obj(t)=ðT
j=1Gjωj+
1
2
(Hj+λ)ω2j+γT(10)
Gj=ðiɪIjgj
(11)Hj=ðiɪIjhj
(12)
为了让目标函数最小,将目标函数对wj求一次偏导令其等于
零㊂求出此时的ωj=Gj
Hj+λ
,将其回代得出最终的求解式(13)㊂
obj=-
12ðTj=1G2
j
Hj+λ
+γT(13)
1 2㊀LSTM模型
LSTM神经网络是循环神经网络(RNN)的一种,由于其能够有效地解决RNN因梯度爆炸和梯度消失等原因而无法训练的难题,所以受到许多研究人员的关注㊂下面将对LSTM网络结构作具体介绍㊂图1为一个LSTM的完整结构,其中xt为本层输入信息㊁ct-1包含上一层网络的全部信息,ht-1包含了上一层网络细胞状态输出,yt为本层网络的输出,ct和ht分别包含本层网络的信息和细胞状态δ㊂
在本层网络得到ct-1㊁ht-1两个信息后分别作下面四种变换:式(14)被称为遗忘门,此处通过sigmoid变换,将输入映射到0 1,0表示遗忘全部信息,1表示记住所有信息;式(16)变换确定了哪些值会被更新;式(15)变换确定了一些候选向量,两者求积的过程被
㊃311㊃㊀第37卷增刊耿召里,等:基于XGBoost⁃LSTM组合模型的保险理赔准备金预测方法
㊀㊀㊀
称做输入门;式(17)变换则确定了哪些内容需要输出㊂
Z(f)=sigmod(W(f)㊃[xt,ht-1]T+bf)(14)
Z=tanh(W(h)㊃[xt,ht-1]T+b)(15)
Z(i)=sigmod(W(i)㊃[xt,ht-1]T+bi)(16)
Z(o)=sigmod(W(o)㊃[xt,ht-1]T+bo)(17)通过上述变换之后,再对其进行式(18)变换得到本层网络的全部信息ct,通过变换式(19)和(20)分别得到本层状态ht㊁本层的输出yt㊂
Ct=Z(f)㊃ct-1+zi+Z(18)
ht=tanh(Z(f).ct-1+zi+Z)㊃Z(o)(19)
yt=sigmoid(tanh(Z(f)㊃ct-1+zi+Z).Z(o))(20)1 3㊀lightGBM模型
lightGBM基于梯度提升决策树(GBDT),是一种基于直方图(histogram)的决策树算法,其通过加法模型和前向分步算法实现学习的优化㊂相较于传统的GBDT,lightGBM通过直方图方式对连续特征值进行分段,能够实现更快的模型训练速度并节省内存,而且lightGBM所采用的leave⁃wise生长策略,有效地限制了树的最大深度从而避免了过拟合现象,对模型预测的准确率具有有效的提升作用㊂
1 3 1㊀直方图算法
直方图算法基本实现是指先把连续的浮点特征值离散化成k个整数,同时构造一个宽度为k的直方图㊂在遍历数据的时候,根据离散化后的值作为索引,在直方图中累积统计量,然后根据直方图的离散值,遍历寻最优的分割点㊂
直方图的优点主要在于:a)不需要存储排序结果,可以较少内存的使用;b)直方图不需要计算每次分裂增益,而是只需对每个特征计算建立直方图的个数,时间复杂度由o(#dataˑfeature)降低到o(kˑfeature),如图2所示㊂
c(t-1)c(t)y(t)
sigmoid
tanh tanh h(t)
sigmoid
z(f)z z(o)
h(t-1)x(t)features
#data K
features
…
…
*
**
+
图1㊀LSTM网络内部结构㊀㊀㊀㊀㊀㊀图2㊀直方图算法结构
1 3 2㊀leave⁃wise增长策略
GBDT的叶子生长策略是基于level⁃wise的思想,也就是对每一个节点进行无差别分别,从而形成一些增益较小的节点,带来没必要的开销;而lightGBM所采用的leave⁃wise生长策略,只对分裂增益最大的点进行分裂,而且对最大深度进行了限制,有效地防止了过拟合现象的发生㊂二叉树分裂增益公式如式(21)所示㊂
gain=12[G2LH+λ
L+G2RH+λ
R
-(GL+GR)2
H+λL
]-λ(21)
Gj=ðiɪIjgi㊀i=1,2, ,n;j=1,2, ,T
Hj=ðiɪIjhi㊀i=1,2, ,n;j=1,2, ,T(22)其中:Gj㊁Hj为样本集合数据点在误差函数上一阶二阶导数;λ为叶子复杂度代价㊂
2㊀XGBoost⁃LSTM组合模型
2 1㊀模型结构
模型整体结构如图3所示㊂本文所提出的组合算法中,先将训练集的数据输入到lightGBM中进行训练,分别得出在训练集上的预测值㊁在验证集上的验证值(output1)以及平均相对误差设为E1,并将预测值和验证值作为一个特征加入到数据集当中构成一个新的(n+1)维数据集;将其分别输入到LSTM和XGBoost进行训练和预测,最终得出数据集(output2)㊁平均相对误差E2和数据集(out⁃put3)㊁平均相对误差E3;最后经过基于误差的权重把三个输出作一个线性组合,得出最终的预测值output和平均相对误差E㊂
2 2㊀基于误差的组合策略
从误差的角度来看,预测的误差越大就说明这个模型的整体效果越差,但这并不意味着其对所有样本预测效果都不好,为了避免其整体的劣性利用局部的优越性,这里提出了一种基于误差的权重分配策略㊂
input1
input2
input3
input(n)
…
light鄄
GBM
XGBoost
LSTM
input1
input2
input3
…
input(n)
input(n+1)
input2
input1
加权
求和
output
图3㊀模型整体结构
假设有三个输出误差E1>E2>E3,从整体误差要越低越好的角度考量,则误差越大的其所占比例就应该越小,所以先对[E1,E2,E3]作归一化处理得[e1,e2,e3]T,从而得到三个网络输出所占的比重为[
e3
e1+e2+e3,
e2
e1+e2+e3,
e1
e1+e2+e3]T,最终的预测结果如式(23)所示㊂
output=[output1,output2,output3]ˑ
[e3
e1+e2+e3,
e2
e1+e2+e3,
e1
e1+e2+e3]T(23)3㊀实验分析
3 1㊀实验数据描述
本文采用Allstate公司2017年提供的数据,数据包括特征和标签(真实值)两个部分,共
188318条数据㊂数据共有131维特征,其中前114列属于非连续性特征㊁后16列为连续性特征,最后一列为真实值,相关信息如表1所示㊂
表1㊀数据描述
columns数值columns数值
cat1 cat116A Zloss0.67 121012cont1 cont140 1
3 2㊀数据预处理
在实验数据中,由于连续特征的取值均在0 1,为已经被标准化的值,不对此再作标准化处理,但是为了降低训练数据的维度,将cont1 cont14进行了相关性分析并剔除相关性过高的数据,由于不知道每个特征具体含义,所以这里不作主成分分析降维;对于非连续特征,采用dumns编码的方式,对cat1 cat116进行编码处理;对于目标值(loss),可以看到其损失值中有几个显著的峰值㊂这样的数据分布会导致回归表现不佳,对此本文采用取对数的方式对其进行改进,将改进后的值(log_loss)作为本文的目标值,改进前后的效果如图4所示㊂
100000
80000
60000
40000
20000
0250005000075000100000125000
number number
0.0 2.5 5.07.510.0
20000
17500
15000
12500
10000
7500
5000
2500
l
o
s
s
l
o
s
s
㊀㊀㊀(a)trainlossbeforetransform㊀㊀㊀㊀㊀㊀㊀㊀㊀(b)trainlossaftertransform
图4㊀对数改进前后对比图
3 3㊀数据训练与评估方法
本文采用(8 1 1)的方式将数据分为训练集㊁验证集和预测集,将相关数据输入到搭建好的模型中进行训练㊁验证和测试,最终输出评判指标㊂本文采用理赔预测的偏差率(eMAPE)㊁理赔预测误差绝对值的平均值(MAE)和理赔预测的均方根误差(RMSE)三个指标作为模型评判的依据㊂
eMAPE=1NðNi=1yi-^yiyiˑ100%(24)
MAE=1NðNi=1|yi-^yi|(25)
RMSE=1NðNi=1(yi-^yi)2(26)其中:N为预测数据的条数;yi为第i次预测的预测值;^yi为第i次预测的期望值㊂
㊃411㊃计算机应用研究2020年㊀
3 4㊀实验结果
实验环境是Windows10x64操作系统㊁Inteli7⁃7500CPU@
3 4GHz㊁16GB的运行内存,在anacanda环境下采用TensorFlow框架以及numpy㊁pandas等众多Python第三方库㊂以Allstate公司2017年提供的数据为基础,将数据以8 1 1的方式分为训练集㊁验证集和预测集,在验证集中,测得LSTM㊁XGBoost模型的均方根误差平均值分别为0.46㊁0.54㊂本文设置了两个对比实验㊂
a)将预测集数据分为450个组,输入到本文的组合模型㊁lightGBM㊁XGBoost㊁LSTM中,分别得出各组RMSE㊁MAE㊁eMAPE的平均值,如图5 7所示㊂图5为在各个模型下测试集的均方根误差(RMSE)对照图,其中x轴为测试集的分组㊁y轴为模型的目标值的均方根误差值,红折线(见电子版)为组合模型的均方根误差㊂图6和7分别为各个模型绝对误差的平均值(MAE)和相对平均误差(eMAPE)㊂从图中可以看出,本文提出的模型在三个指标上均表现出波动减小㊁整体下移的现象,预测效果均优于上述单一模型㊂
b)为了验证组合模型相较于其他模型的优越性,本文同样将数据分为450个组,分别输入到本文组合模型㊁RF㊁SVM三个预先训练好的模型中得出实验a)中的三个指标,结果如图8 10所示㊂三个图中的红折线(见电子版)为本文提出的组合模型,从图中可以看出,在三个指标上,本文的组合模型均低于RF㊁SVM模型,验证了在保险准备金预测问题上,本文提出的模型在提高预测精度㊁降低预测误方面具有一定的优势㊂
R M S E
0.80.6
0.40.20.0
lightGBM LSTM XGBoost mixed_model
lightGBM LSTM XGBoost mixed_model
100
200300400number
M A E
0.60.5
0.40.30.20.10.0
100
200300400
number
图5㊀组合㊁单一模型
RMSE对比图
图6㊀组合㊁单一模型
MAE对比图
e M A P E
0.080.06
0.040.020.00
lightGBM LSTM XGBoost mixed_model
SVR RF
mixed_model
100
200300400number
R M S E
0.080.060.040.020.0
100
二叉树公式200300400
number
图7㊀组合㊁单一模型
eMAPE对照图
图8㊀组合㊁SVM㊁RF模型
RMSE对照图
M A E
0.70.60.5
0.4
0.30.20.10.0
SVR RF
mixed_model
100
200300400number
e M A P E
0.100.08
0.060.040.0200
100
200300400
number
SVR RF
mixed_model
图9㊀组合㊁SVM㊁RF模型
MAE对照图
图10㊀组合㊁SVM㊁RF模型
eMAPE对照图
4㊀结束语
XGBoost㊁LSTM等机器学习算法模型已经被广泛应用,本文针对保险理赔准备金预测问题,为了提高预测精度,提出一种基于误差的XGBoost⁃LSTM组合模型㊂选用2017年度美国Allstate公司提供的数据,对理赔准备金进行建模预测,得出以下结论:
a)提出一种基于误差的XGBoost⁃LSTM组合模型,采用模型重要性与单一模型预测误差成反比的方式,将单一模型进行组合,修
正单一模型的误差,实验表明XGBoost⁃LSTM组合模型在保险准备金预测上相较于单一模型具有更高的精度㊂
b)将XGBoost⁃LSTM模型与RF㊁SVM等进行比较,得出针对保险理赔准备金预测问题,XGBoost⁃LSTM模型在预测精度上具有更大的优势㊂
c)组合模型固然能够提高模型精度,但也存在时间开销问题,在后续研究中一方面要考虑组合模型优化,另一方面应该考虑具体问题是否能够接受组合所带来的时间开销㊂
参考文献:
[1]张健,冯建华.数据预处理在保险理赔预测中的应用[J].计算机
工程与设计,2015,26(9):2537⁃2539,2564.
[2]李娜娜.数据挖掘在医疗保险理赔分析中的应用[D].大连:大连
理工大学,2013.
[3]OgunnaikeRM,DongSi.Predictionofinsuranceclaimseverityloss
usingregressionmodels[C]//ProcofInternationalConferenceonMa⁃chineLearningandDataMininginPatternRecognition.Cham:
Springer,2017:233⁃247.
[4]陈振宇,刘金波,李晨,等.基于LSTM与XGBoost组合模型的超短
期电力负荷预测[J].电网技术,2020,42(9):1⁃8.
[5]Garcia⁃VegaS,León⁃GómezEA,Castellanos⁃DominguezG.Atime⁃se⁃
riespredictionframeworkusingsequentiallearningalgorithmsanddi⁃mensionalityreductionwithinasparsificationapproach[J].PatternRecognitionLetters,2020,129(1):287⁃292.
[6]SeverinM.Predictionofoutstandinginsuranceclaims[EB/OL].(2018).https://mediatum.ub.tum.de/doc/1097694/1097694.pdf.
[7]KitchensF,HarrisT.Geneticadaptiveneuralnetworksforprediction
[J].InternationalJournalofEngineeringandAdvancedRe⁃searchTechnology,2015(1):27⁃30.
[8]KumarM,GhaniR,MeiZhusong.Dataminingtopredictandprevent
errorsinhealthinsuranceclaimsprocessing[C]//Procofthe16th
ACMSIGKDDInternationalConferenceonKnowledgeDiscoveryandDataMining.NewYork:ACMPress,2010:65⁃74.
[9]SánchezJDA.Calculatinginsuranceclaimreserveswithfuzzyregres⁃
sion[J].FuzzySetsandSystems,2006,157(23):3091⁃3108.
[10]SaputroAR,MurfiH,NurrohmahS.Analysisofdeepneuralnetworks
forautomobileinsuranceclaimprediction[C]//ProcofInternational
ConferenceonDataMiningandBigData.Berlin:Springer,2019:114⁃123.
[11]ChenTianqi,GuestrinC.XGBoost:ascalabletre
eboostingsystem[EB/OL].(2016).https://arxiv.org/pdf/1603.02754.pdf.[12]彭曙蓉,郑国栋,黄士峻,等.基于XGBoost算法融合多特征短期光
伏发电量预测[J/OL].电测与仪表,2019.http://kns.cnki.net/kc⁃ms/detail/23.1202.TH.20191209.1044.002.html.
[13]KeG,MengQi.lightGBM:ahighlyefficientgradientboostingdecision
tree[C]//AdvancesinNeuralInformationProcessingSystems.RedHook,NY:CurranAssociatesInc.,2017:3146⁃3154.[14]周挺,杨军,周强明,等.基于改进lightGBM的电力系统暂态稳定
评估方法[J].电网技术,2019,43(6):1931⁃1940.
[15]HochreiterS,SchmidhuberJ.Longshort⁃termmemory[J].Neural
Computation,1997,9(8):1735⁃1780.
[16]许滔滔,王中兴,肖卓伟,等.基于LSTM循环神经网络的大地电磁
工频干扰压制[J/OL].地球物理学进展,2020.http://kns.cnki.net/kcms/detail/11.2982.p.20191230.1157.008.html.
[17]冯晨,陈志德.基于XGBoost和LSTM加权组合模型在销售预测的
应用[J].计算机系统应用,2019,28(10):226⁃232.
[18]程津,黎燕,夏向阳.基于双组合预测的经济 电力负荷预测模型[J].电力科学与技术学报,2018,33(3):18⁃22.[19]ViaeneS,DedeneG,DerrigRA.Autoclaimfrauddetectionusing
Bayesianlearningneuralnetworks[J].ExpertSystemswithAppli⁃cations,2005,29(3):342⁃353.
[20]PinelliJP,GurleyKR,SubramanianCS,etal.Validationofaproba⁃
bilisticmodelforhurricaneinsurancelossprojectionsinFlorida[J].ReliabilityEngineering&SystemSafety,2008,93(12):1896⁃
1905.
㊃511㊃㊀第37卷增刊耿召里,等:基于XGBoost⁃LSTM组合模型的保险理赔准备金预测方法
㊀㊀㊀
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论