Qiye Keji Yu Fazhan
城市经济的高速发展,对电力的需求在达到峰值之前会越来越多,由此产生的数据也会呈现几何级数爆发式增长。在数据作为重要生产资料的当下,如何利用好数据,用数据分析结果驱动业务,对于行业发展尤为重要。
在社会经济发展水平不断提升背景下,人们生活质量获得进一步提升,客户对电力服务的要求也越来越高。95598热线作为客户和供电企业展开交流沟通的主要方式。但近年来,居民使用电量急速上升,服务问题被放大,使得供电话务成本显著提升,问题处理效率不高,使得客户不满意度升高,投诉量激增。95598服务风险管控是日常业务运营管控中的难点问题,由于客户轨迹分析相对比较复杂,将会增加风险筛查难度,使得此项工作难以正常进行,急需依赖大数据平台形成自动化工具。
基于95598海量来电工单数据构建用户行为分析模型[1],分析用户的来电行为特征,抽象用户画像,基于具体业务场景,辅助业务人员创建业务策略,并根据行为反馈调整行为分析模型,形成用户行为数据的生态闭环。根据成效结果,可逐步推广至数字化转型各个阶段。我们对客户来电行为数据进行深度数据分析和挖掘,从行为表象中挖掘隐含的客户行为轨迹。建模构建客户再次来电预测平台,提前预估3天以内来电的可能性,提升业务处置效率和质量,提升客户满意度。将XGBoost 与LR 的融合模型应用
于客户再次来电行为预测分类。
1研究模型理论基础
1.1逻辑回归模型
逻辑回归模型在进行线性回归的时候利用线开展拟合
处理工作,在处理分类任务的时候,不需要对每一个样本
进行拟合,只需将各类样品区别开即可,主要运用了分类学习方式[2]。通常定义的一导函数回归公式如下:
z =θ0+θ1*x 1+θ2*x 2+…+θn ×x n =θT x
就逻辑回归而言,其主题意思也是基于一导函数回归,其公式如下:
h θ=11+e -z =11+e
-θTx
h θ属于sigmoid 函数,h θ的输出值需要处在是(0,1)区间范围内,这意味着可以将sigmoid 函数看成是样本数据的概率密度函数,那么由此可以估计参数。我们定义输入数据点x 为类别1时的概率、类别为0时的概率值分别如下:
p (y =1|x ;θ)=h θ(x )p (y =0|x ;θ)=1-h θ(x
)构造一个损失函数,应当充分考虑所有模拟用户行为数据产生的损失,将损失函数的求和值或是平均值,记为J (θ)函数,此时用户行为预测值和实际分类之存在一定的偏差表示所有模拟用户行为预测值与实际类别分类值的偏差。J (θ)函数数据值若是比较小,则顺明预测曲线的准确性越高,最终方向调整为J (θ)在处于最小值θ状态的时候是最佳参数。和函数回归基本一致,也是使用梯度下降法用于更新θ[3]。
1.2XGBoost 模型
XGBoost 模型实际上是基于GBDT 开展的优化改造
的拓展,早在2015年,知名学者陈天奇即已经提出该模型属于Boosting 算法。Boosting 算法将很对小行分类器经过整理、统计形成代表性比较强的大分类器,使用
基于XGBoost 与
LR 算法的95598重复来电行为研究
李艳艳,严佳梅,虞云飞,盛平
(国家电网有限公司客户服务中心南方分中心,江苏南京211100)
【摘要】为了解决95598工单服务风险管控难题,提高用户服务满意度。我们基于95598工单海量的大数据,将用户7天内再次来电行为预测作为分类问题,最终目标是为了提取用户行为特征,建立7天内周期再次来电行为预测模型,用于识别和筛选特定类型的目标用户,提高用户诉求处理效率。文章使用XGBoost 模型能够从原始数据中提取出组合特征,然后使用LR 算法创建客户对重复来电行为的投诉预警模型。通过对照组实验发现,XGBoost 与LR 算法回归融合模型具有的预警精准性更高。
【关键词】95598工单;XGBoost ;Logistic 回归;数据挖掘
【中图分类号】F626;F713.55【文献标识码】A 【文章编号】1674-0688(2022)11-0036-03
【作者简介】李艳艳,国家电网有限公司客户服务中心南方分中心职员。
36
Qiye Keji Yu Fazhan
Boosting 算法开展多次训练,从初始模拟数据中使用随机抽取方式生成多个训练样本,并将其作为模拟用户行为的数据集,在完成模拟处理以后即可以获得代表性比较强的预测函数序列,可使用投票形式开展问题分类,通过运用简单平均法的方式可以预测回归问题的新样本,算法步骤主要包括5步:①从完成统计的用户行为中使用自助法采样选出n 个数据单元;②对这n 个数据单元建立一个小分类器单元;③重复进行步骤一和步骤二,创建m 个小型分类器单元;④使用自助法经过采样筛选出m 个新型数据单元集,并展开开分类模拟管理工作;⑤运用投票法对m 个小型分类器单元分类方式开展随即投票,投票数量最多的被确定为最终类别。XGBoost 支持并行训练。XGBoost 算法在进行交叉验证的时候,能够在每轮Boosting 算法中实施迭代运用,可以为获取最优Boosting 迭代次数提供更多的便利性。
1.3XGBoost 与LR 融合的模型
通过模型特征可以发现算法效果的上限值,差别在于不同算法的上限差值存在差值,提取目标特征属于模拟训练中的重点内容,若是将数据变大转化为函数可分数据,仅需运用简单的线性模型即可获得比较好的应用效果。XG-Boost 创建新特征能够更为高效地表达数据特征。逻辑回归算法具有比较简单、有效性较强的特点,已经成为工业界最常使用的算法,但是回归算法属于线性模型,很难顺利捕捉到非线性信息,此时需要借助很多特征寻特征组合。为了发现有效的特征组合,Facebook 在2014年的论文
中提出了通过GBDT+LR 的方案,在这篇论文中他们提出了一种将Xgboost 作为Feature Transform 的方法[4]。
2基于XGBoost 与LR 模型重复来电行为预测研究
2.1数据样本选择及预处理
使用的数据集来自95598业务工单来电数据集,包含用户来电工单信息、用户来电行为步骤明细表数据、用户工单派单明细数据3个部分,笔者从2021年6月1日至2021年6月15日来电工单随机筛选一定比例用户数据共计32595条。处于数据质量保证目的,使目标模型更精准、科学。对选择好的来电工单数据信息展开缺失处理、异常值处理、归一化处理[5]。
由于95598来电渠道繁杂,来电工单业务类型分类较多,区间数据内缺失数据情况也较为普通,存在很多缺失数据,通过合理运用模型填补好缺失的信息,若是数据缺失值过多,运用填补方式可能会造成模型偏差出现变大状况,因此提前设计了数据缺失阈值,一旦缺失值超出30%,需要及时将这些数据指标删除掉。
正则化点变量以体积平均量来表示在重复来电行为预测中,不同渠道来电工单行为和特征各不相同。存在特例特征下有异常值,异常值在模型预
测中会给结果带来干扰,因此异常数据需要额外进行处理。通过合理使用Boxplo 方式筛选出目标设定存在的异常值,设Q 1和Q 3分别为1/4和3/4分位数,记IQR =Q 1-Q 2,则(-∞,Q 1-3*IQR )∪(Q 3+3*IQR ,+∞)区间数据会直接被标记为异常点,对于异常值做了平均值修补的工作。
用户数据在性质和统计方式存在的差异比较大,使用特征模型的时候,在量纲方面、数值方面存在显著差别。利用已知的同度量化处理,能够有效提升各种指标和权重的可参考价值,有助于进一步提升特征模型具有的可解释性。与此同时,通过及时优化改良梯度下降求解时的网络收敛速率,对于提高模型参数求解效率、求解速率具有促进作用,为了降低量纲差异对于财务困境模型特征产生的高涛效果,需要对数值类数据展开归一化处理。
通常在客户行为数据样本采集过程中,存在数据段中数据分布的不平衡性现象发生,通常数据分类模型很难及时处理好训练数据缺乏平衡性的问题,若是直接运用客户的行为采集数据建模,可能会造成模型预测精准性下降的问题,在处理不平衡数据的时候,可以从数据层面、算法层面以及混合方法展开,所述数据层面主要是使用特殊模型对相关数据开展过采样处理、欠采样处理,算法层面主要会运用代价敏感方式以及集成学习方式,混合方法就是数据层面和算法的有效结合。
过采样方式中应用频率比较高的技术是SMOTE 技术[6],它基于部分原始数据的一导函数插值,和复制少量样本时使用的重抽样方法存在一定差异,过采方法能够预防过拟合情况,会出现噪声样本以及边界
样本。SMOTE-Tomek 融合采样方式兼具SMOTE 特点、Tomek links 特点,能够及时解决单独运用SMOTE 产生的噪声样本状况、边界样本状况,通过提高技术融合效果,可以使数据层面顺利达到理想状态。采用多层次随机抽样方法,将目标数据样本预测数据以7∶3的比例,将数据划分为基础集以及测试集,由于两个数据集之间具有不平衡特点,因此需要对基础集使用SMOTE -Tomek 实施过欠融合重抽样处理。
2.2实证分析
XGBoost 和Logistic 回归融合模型建模步骤如下。步骤1:设置XGBoot 模型参数,其中n_estimators 为模型对训练数据的迭代次数;当对训练集数据的迭代的次数过少时,在训练集和测试集的误差都会很大即产生欠拟合现象。当对训练集数据的迭代的次数过多时,这样模型具有的数据预测能力比较差,容易产生过拟合现象。综上所述,我们需要尽可能设置更大的lestimators ,更小的learn-ing_rate 。。将参数n_estimators 设定为100,将learn-ing_rate 设定为0.05。步骤2:对数据随机拆分75%用于训练样本,25%的数据用于模型结果测试,将训练样本直接输入以步骤1设置好的XGBoost 模型之中,将每个叶
37
Qiye Keji Yu Fazhan
子节点输出组成为组合特征的向量值,然后对其进行one-hot 编码。步骤3:将步骤2中输出的组合特征向量,与最开始的训练数据中的特征一并输入到Logistic Re-gression 分类器中进行最终分类器的训练,获得的输出值的输出结果即是样本预测结果。步骤4:为了验证融合模型的有效性,设置对照组,运用XGBoost 模型获得的特征,使用Logistic 回归模型进行数据预测,训练样本数据并预测测试数据结果;对照组2直接使用XGBoost 模型,设置好参数,对变量正则化、连续特征离散化,训练样本数据并预测测试数据结果。
通常模型验证法一般会用在衡量数据模型分类预测水平的高低,通过合理运用基础数据以及测试样本及时对模型展开验证管理、比较,属于建模时常使用的方式,能够在提升模型建设有效性的基础上,进一步提高模型的适应能力。通常对于模中的风险预警研究来说,有效衡量指标的召回率Recall 、精准性,能够区分开再次来电用户,F1-score 用于确定模型的精准度,ROC 曲线用于确定模型区分重复来电用户的效果。
XGBoost+LR 模型的整体的Precision (精准度)和Recall (召回率)明显高于其他的模型,单一的XGBoost 模型,尤其是融合模型对目标客户(投诉客户)预测召回率远高于单一的XGBoost 回归模型[7]。从两个模型ROC 曲线可以清楚观察到XGBoost 组合特征+LR 融合模型ROC 曲线效果优于两个对照组模型获得的结果。
综上所述,在95598工单客户再次来电行为预测中,XGBoost 组合特征+LR 融合模型具有比较好的预测能力,精准性以及安全稳定性明显优于单一的XGBoost 模型及XGBoost 训练新特征+LR 模型。
3研究创新
将XGBoost 与Logistic 回归模型融合应用于用户再
次来电行为预测研究,以95598来电工单行为日志数据进行实证分析。结果表明,用XGBoost 训练后的新特征与原有特征交叉产生的组合特征,再进入回归模型研究行为预测情况,相比其他模型有着更高的行为预测精准度和稳定性。
XGBoost 的树状特性比较好、对于数据的敏感度比较高,在部分数据进行优化调整的时候可能会产生类别变动,可处理的数据量处于有限状态,需要使用钝化模型,Lo-gistic 回归模型的并行能力很强,可以处理好大数据集,具有一维处理特点,需要运用很多特征工程。XGBoost 的精度高、灵活性更强,可以通过正则化来避免数据过拟合,所以使用XGBoost 模型将原始特征训练的新特征,再与原始特征组成新的组合特征。这两个模型的优缺点整合后发现,两者刚好可以互补,它们的融合是Stacking 思想的
成功应用。同时,通过对照组实验也发现,如果单独使用XGBoost 模型训练出来的新特征,直接进入到Logistic 模型中做分类预测,其模型效果要弱于单独使用XGBoost 模型训练后的预测结果。说明XGBoo
st 训练得到的新特征是一种有效的特征,XGBoost 训练后得到的组合特征与Logistic 回归模型结合使用是一种有效的特征工程手段。
4结语
95598海量的用户传输的用工单是电网企业发展的双刃剑,通过分析用户来电行为轨迹,提高响应速度。将重复来电预警模型实施后,减轻了多次来电管控压力,及时进行风险控制,降低服务压力;根据预警结果,及时干预,降低服务升级风险及一线人员处理压力;根据预警结果,协同优化处置方法或升级沟通,降低业务处理难度。促使客户业务办理数量和效率快速增长,客户满意度持续的提高。
后续数据工作的研究方向:①结合95598客服行业的特点,合适合理运用数据挖掘技术可以直接从数据库中进行信息搜集,按照规约整理有关数据信息,创建价值客户细分管理模型,依照用户划分结构创建用户画像,便于精准分析各种用户的需求量、偏好情况、行为动机。②可以根据前期数据以及模型分析,在模型确保预测数据精准性的同时不断提高建模处理速度,属于未来重点研究内容。③可以采用恰当的关联规则算法挖掘发现客户行为倾向,识别客户的真正需求,当客户产生相应行为轨迹从而快速响应提供相应的服务。
参考文献
[1]付文杰,李化,杨伯青,等.基于戴蒙德模型的用户响
应行为分析[J ].供用电,2021(2):105-112.[2]龚追飞,魏传佳.基于拓扑相似和XGBoost 的复杂网
络链路预测方法[J ].计算机科学,2021,48(12):226-230.
[3]钱毅霖.基于多模型融合的在线广告转化率预测方法研
究[D ].广州:广东工业大学,2020.
[4]HE X R ,PAN J F ,OU J ,et al .Practical Lessons
from Predicting Clicks on Ads at Facebook [M ].ACM ,2014.
[5]苟笳豪,张梦婷,张宇菁,等.基于统计学习的概率潮
流计算方法综述[J ].供用电,2021(2):65-78.[6]封化民,李明伟,侯晓莲,等.基于SMOTE 和GBDT
的网络入侵检测方法研究[J ].计算机应用研究,2017,34(12):3745-3748.
[7]陈安志.信息抽取算法在家电企业网评情感分析中的应
用研究[J ].信息科技,2018,36(10):2895-2902.
38
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论