基于数据挖掘模型的城商行长尾客户价值提升研究
陈㊀萍㊀㊀钟㊀柯
(贵阳银行股份有限公司ꎬ贵州㊀贵阳㊀550009)
摘㊀要:当前受互联网金融冲击㊁国有大行业务下沉等多重因素的影响ꎬ区域性城商行普遍面临新客拓展难㊁拓客成本越来越高的不利局面ꎮ因此ꎬ部分银行纷纷探索存量长尾客户经营ꎬ将庞大的存量客户视作尚未挖掘的 金矿 ꎮ但面对这座 金矿 ꎬ城商行却一直未到打开的 钥匙 ꎬ在经营过程中表现往往力不从心ꎮ文章以区域性城商行作为研究对象ꎬ利用XGBoost算法进行构建长尾客户提升模型ꎬ基于模型结果针对性提出长尾客户经营策略建议ꎬ为城商行开展长尾客户经营提供实践参考ꎮ关键词:长尾客户ꎻ数据挖掘ꎻ城商行
中图分类号:F272㊀㊀㊀㊀文献标识码:A㊀㊀㊀㊀文章编号:1671-6728(2023)18-0129-04
㊀㊀银行业作为金融业的传统行业ꎬ在过去几十年里随着经济的腾飞一路高歌猛进ꎮ根据银保监会2022年3月21日公布数据ꎬ2021年末银行业金融机构总数达到4602家ꎬ其中城商行数量达128家ꎬ平均每个省份拥有4家城商行ꎮ同时ꎬ根据中国银行业协会发布的«城市商业银行发展报告2022»ꎬ2021年末城商行总资产规模达45.1万亿元ꎬ占整个银行业金融机构比重达13.1%ꎮ以城商行为代表的中小银行已成为我国银行体系的重要组成部分ꎬ城商行保持稳健发展对支持地方经济发展㊁提高社会金融服务能力㊁践行普惠金融有着重要意义ꎮ
近年来ꎬ在日趋激烈的竞争环境下ꎬ不同银行机构为拓展新客户ꎬ纷纷采取了免除小额账户管理费㊁短信费等服务费用的手段ꎬ在获得大量新增账户的同时ꎬ也积累了庞大体量的客户体ꎮ虽然当前政策规定同一个人在同一家银行只能开立一个I类户ꎬ但据中国人民银行2021年12月03日发布的«2021年第三季度支付体系运行总体情况»显示ꎬ2021年末我国人均持有银行卡6.55张ꎬ一个客户持有多个银行账户的现象成为常态ꎬ金融机构间客户交叉现象十分普遍ꎮ由于客户高度交叉ꎬ围绕争取客户金融服务主办行的竞争持续加剧ꎬ传统金融服务遵循 二八定律 ꎬ纷纷将资源投向给银行带来80%利润的高端客户ꎬ从而导致大量 睡眠账户 无人问津ꎬ进而形成大量的 长尾客户 ꎮ
关于长尾理论研究最早开始于2004年美国学者克里斯 安德森ꎬ但至今尚无正式㊁明确的定义ꎮ 长尾客户 一词在国内最早流行于互联网运营领域ꎬ伴随着互联网金融的发展ꎬ长尾概念逐步被引入到金融行业ꎮ文章定义 长尾客户 是指金融资产规模相对较小㊁贡献值较低的个人客户或小微企业客户ꎬ其显著特征是数量庞大㊁单个客户净值较低㊁贡献度与活跃度较低ꎮ2021年12月和2022年1月ꎬ中国人民银行和银保监会先后发布«金融科技发展规划
(2022 2025年)»«关于银行业保险业数字化转型的指导意见»ꎬ明确要求深化金融科技应用ꎬ全面推进银行业保险业数字化转型ꎬ从而提供更精准的金融服务ꎬ用更科学有效的方式激发 长尾客户 的体效应ꎬ提升整体效益ꎮ因此ꎬ如何对庞大的 长尾客户 进行有效识别并为其提供相应的金融服务ꎬ已成为商业银行零售客户经营中亟须解决的问题ꎮ城商行依托本地服务优势ꎬ积累了大量的个人客户ꎬ范玮琛(2022)研究指出ꎬ商业银行长尾客户占据了很大比例ꎬ通常在80%左右ꎮ如何开发并经营好这批长尾客户ꎬ是大部分银行都要面临的一个课题ꎮ探索客户 长尾 原因并针对性地提出提升策略ꎬ是商业银行业务持续经营发展的需要ꎬ也是商业银行真正践行 以客户为中心 服务理念ꎬ优化自身客户结构ꎬ践行普惠金融的必由之路ꎮ
一㊁长尾客户成因
长尾客户形成原因是多方面的ꎬ一方面既有内部客户经营管理重点一直聚焦高端客户的原因ꎬ也有线上金融服务不断普及ꎬ账户开立越来越便捷的原因ꎮ另一方面ꎬ近年来互联网金融的快速发展ꎬ线上批量获客模式的兴起也是商业银行产生长尾客户的重要来源ꎮ总结来看ꎬ主要有以下三个方面的原因: (一)经营战略不重视
传统商业银行客户经营普遍遵循经典 二八定律 ꎬ城商行客经营更是如此ꎮ长期以来ꎬ绝大部分商业银行都将客户经营重心放在高端客户ꎬ各大银
921
行纷纷成立总行高端客户经营管理部门ꎬ专职负责高端客户经营管理ꎮ而体量较大㊁贡献度相对较低的长尾客户则处于长时间无人维护的状态ꎬ久而久之则在银行体系内部形成了大量的长尾客户ꎬ这些长尾客户占到商业银行整体客户体量的80%以上ꎮ因此ꎬ经营战略上的不重视或缺失是造成大量长尾客户的主要原因之一ꎮ
(二)经营能力不足
商业银行传统客户服务模式主要依靠线下营业网点辐射及客户经理维护ꎬ服务半径严重受限于人力及工具支撑ꎬ即使经营者想挖掘存量长尾客户ꎬ面对庞大的长尾客ꎬ也是力不从心ꎬ有的银行主要采取批量化的营销手段ꎬ如批量短信营销等ꎬ大部分银行则不作任何处理ꎬ任由这部分客户 沉默 ꎮ长尾客户在商业银行并未享受到全面的金融服务ꎬ也无法满足客户多样化㊁个性化的需求ꎬ推出的产品常常与客户需求不匹配ꎬ这种模式即 以产品为中心 而非 以客户为中心 ꎮ这种服务模式不仅极大降低了长尾客户的服务体验ꎬ甚至会造成客户流失ꎬ一旦客户流失ꎬ再挽回的难度和成本就会很大ꎮ
(三)批量获客的积累
城商行长尾客户占比较大问题与其业务发展模式联系紧密ꎮ一方面ꎬ早期城商行业务开展模式主要依靠地方政府合作模式ꎬ大量进行批量化获客ꎮ批量化业务为城商行带来了大量的业务机会ꎬ也完成了城商行个人客户的积累ꎮ但由于城商行信息系统基础较差㊁内部管理不规范ꎬ导致大量的客户长期身份得不到核实㊁数据采集不精准㊁维度较少ꎬ这部分客户要实现精细化经营管理难度较大ꎬ久而久之ꎬ就积累了大量的长尾客户ꎮ另一方面ꎬ自2013年以来ꎬ随着互联网金融的快速发展ꎬ部分银行为快速获客ꎬ纷纷通过自建渠道或与第三方互联网企业合作的模式ꎬ通过线上批量业务ꎬ积累了大量长尾客户ꎮ
二㊁运用XGBoost算法搭建长尾客户提升模型
(一)建模样本说明
为使建模样本数据更具代表性ꎬ文章选取了G银行作为实证研究对象ꎮG银行是一家资产规模超过6000亿元的中型城商行ꎬ客户总数超1200万ꎬ在城商行中具备较强的代表性ꎮ结合G银行经营实际ꎬ对样本做如下定义:一是将长尾客户定义为:当月
资产低于一万元的客户ꎻ二是将正样本定义为:下月资产较本月大幅提升的客户ꎮ
为了包含前端营销导向㊁年终奖发放等因素导致客户资产波动ꎬ文章选择了多个时间节点对建模样本按正负样本进行抽样ꎮ
(二)特征变量选取
1.特征加工文章围绕着长尾客户资产提升ꎬ从6个方面共计
衍生百余个变量ꎬ衍生指标内容ꎬ如表1所示ꎮ
表1㊀特征变量分类
特征变量分类指标内容
资产信息各类资产业务在G行的留存情况交易行为客户资金转入㊁转出㊁工资发放等交易情况
偏好数据客户对各类消费类型的偏好程度产品属性客户当前持有各类产品的状态自然属性客户的基本信息ꎬ如年龄㊁性别等App登录行为
客户登陆各个渠道的行为数据
㊀㊀2.特征分析
文章对特征变量中的异常值㊁重复值进行处理
后ꎬ通过删除93个缺失率高于50%或IV值①<0.1的变量ꎬ最终文章确定入模变量35个ꎬ部分入模变量IV值展示ꎬ如表2所示ꎮ
表2㊀部分入模变量IV值
序号特征名称
IV值1近三月入账金额
1.932最近6个月内活期账户进账金额
1.353该月与上月月日均差值1.224近一年AUM峰值1.195
近半年AUM值离峰值最大差额
1.1
(三)模型构建
模型围绕着长尾客户下月资产是否能较上月大幅提升进行预测ꎮ故采用效率更高㊁效果更好的监督学习算法XGBoost对正负样本进行分类预测ꎮ
XGBoost中文名为梯度提升决策树ꎬ是一个可拓
展的Treeboosting算法ꎬ被广泛用于数据科学领域ꎬ其算法框架遵循2000年Friedman提出的boosting框架(Jeromeꎬ2000)ꎮ与传统GBDT相比ꎬXGBoost能够更快ꎬ更高效的训练模型ꎬ同时为了平衡目标函数和
031 ①
IV值(InformationValue)主要用来对输入变量进行编码和预测能力评估ꎮ特征变量IV值的大小即表示该变量预测能力的强弱ꎮIV值的取值范围是[0ꎬɕ)ꎬ通常ꎬIV值大于0.3说明该特征的预测能力比较强ꎬ大于0.1属于中等ꎮ
模型的复杂程度ꎬ防止过度拟合ꎬXGBoost对损失函数做了二阶泰勒展开ꎬ并在目标函数中加入了正则项ꎬ求整体最
优解ꎮ
XGBoost的基本组成元素为决策树ꎬ计算过程中不断生成新的树ꎬ每棵树都是基于上一棵树和目标值的差值来进行学习ꎬ从而降低模型的偏差ꎬ即将所有决策树的预测值累加起来形成最终模型对样本的预测值ꎮ最终模型结果的输出如下:
yi=ðtk=1fk(xi)
根据XGBoost算法计算35个入模变量的重要性ꎬ部分特征变量重要性排序如表3所示ꎬ结果显示近三月入账金额对模型的重要性最高ꎬ达0.37ꎬ其次为AUM值及AUM月日均值ꎮ
表3㊀部分入模变量重要性
序号特征名称重要性1近三月入账金额0.372AUM值0.123AUM月日均值0.054近一年平均工资0.055近一年AUM峰值0.04(四)模型评价
文章主要采用AUC①和KS②两个指标对模型进行评价ꎬ结果如表4所示ꎬ可以看出ꎬ模型在训练集和测试集上的预测效果基本保持一致ꎬ且AUC值高于0.9ꎬKS值高于0.5ꎬ表明本模型具有较强的区分能力ꎬ能够有效预测下月资产大幅提升的长尾客户ꎮ
表4㊀模型评价指标
模型评价指标AUCKS
训练集0.920.69
测试集0.910.68(五)模型验证
为了验证模型投产后区分能力与开发样本是否保持同等水平ꎬ同时具有较强的稳定性ꎬ文章选取了三个不同时间点的长尾客户数据作为验证集ꎬ对模型进行跨时间验证及稳定性验证ꎮ
1.跨时间验证
选取多个时间点的长尾客户数据对模型AUC及KS进行验证ꎬ验证结果如表5所示ꎬ在三个跨时间验证集上ꎬ模型的AUC保持在0.89ꎬKS保持在0.6以上ꎬ且均与开发样本基本保持一致ꎬ表明本模型投产后仍具有较强的区分能力ꎮ
表5㊀模型评价指标跨时间验证
模型评价指标AUCKS
4月0.890.62
5月0.890.62
6月0.890.6
㊀㊀2.稳定性验证
选取多个时间点的长尾客户数据对各特征变量PSI③进行计算ꎬ计算结果如表6所示ꎬ特征变量的PSI均在0.1以下ꎬ表明文章构建的模型具有较强的稳定性ꎮ
表6㊀部分特征的PSI值
特征名称4月PSI5月PSI6月PSI
近半年最近一次入账
1000距今的天数0.060.070.07近一年AUM变异系数0.010.010.01
近一年活期变异系数0.010.010.01
近半年AUM值离
峰值最大差额000
近一年AUM峰值000(六)模型结果
模型输出结果为下月长尾客户资产大幅提升的概率值ꎮ对模型预测概率进行排序ꎬ结合G行客户数据量ꎬ如表7所示ꎬ将概率按区间划分为高㊁中高㊁中㊁低四个概率等级ꎮ对客户资产提升概率精准预测后ꎬ针对不同概率等级客户制定专属提升方案ꎬ从而实现节约成本㊁提升营销成功率的效果ꎮ
131
①②
③AUC反映了分类器对样本进行分类的能力ꎬAUC越大ꎬ模型性能越好ꎬAUC值介于(0.5ꎬ0.7]时说明其有较低的准确性ꎬAUC在(0.7ꎬ0.9]是就说明有一定的准确性ꎬAUC的值大于0.9时说明模型有较高的准确性ꎮ
KS(Kolmogorov-Smirnov)值衡量的是好坏样本累计分部之间的差值ꎮ根据行业内的规范ꎬ一般KS值要大于0.2才是一个可用的模型ꎮks<0.2说明没有区分能力ꎻ0.2ɤks<0.3说明区分能力一般ꎻ0.3ɤks<0.5ꎬ说明区分能力中等ꎻ0.5ɤks<0.75说明区分能力强ꎻksȡ0.75说明区分能力太过ꎬ模型可能过拟合ꎮ
PSI是用来衡量模型在不同的数据集上稳定性的指标ꎬ主要是通过计算预期分布以及实际分布的差异来进行衡量ꎮ通常当PSI大于0.2时则认为不稳定ꎬ需要考虑重新调整模型ꎮ
表7 模型预测概率划分
预测概率区间概率等级[0ꎬ0.4)
低概率[0.4ꎬ0.5)中概率
[0.5ꎬ0.6)中高概率[0.6ꎬ1)高概率三㊁长尾客户提升策略建议
(一)优化客户经营机制
建立全量客户经营机制ꎬ将客户经营策略从 以高端客户为主 调整为 高端客户与基础客户并重 ꎮ建立与全量客户经营理念相适应的客户分层㊁分级管理机制ꎬ可参考高端客户管理模式ꎬ探索建立基础客户维护专业团队ꎬ通过专业化㊁系统化的客户维护模式开展客户经营ꎮ在做好客户细分的基础上ꎬ建立长尾客户梯度提升计划ꎬ细分梯度目标ꎬ实现长尾客户逐级跃
升ꎮ同时ꎬ建立长尾与高端客户之间的转介通道ꎬ以提升基础客户价值㊁做大做优高端客户为目标ꎬ逐步畅通基础客户向高端客户的输送通道ꎮ
(二)完善各项支撑保障
为长尾客户经营匹配专项资源及考核支撑ꎮ在考核中ꎬ强化新增获客关键环节把控ꎬ调整新增拓客考核指标ꎬ侧重考核获客质量ꎻ将存量客户提升㊁高净值客户挖掘等指标纳入业务考核目标ꎮ在资源支撑上ꎬ通过匹配专项资源支撑ꎬ建立以线上化为主的活客㊁粘客机制ꎮ在专属权益打造㊁专属产品等方面ꎬ针对长尾客户特点ꎬ打造专属金融服务圈ꎮ同时ꎬ参照高端客户服务模式ꎬ建立适合长尾客户的客户关怀计划ꎬ提高客户归属感与认同感ꎮ
四㊁结论
长尾客户经营逐步受到重视ꎬ体现了商业银行客户运营持续精细化ꎮ存量客户作为一座尚未充分发掘的 金矿 ꎬ正受到越来越多的关注ꎮ自2015年以来ꎬ国内以大数据㊁互联网㊁人工智能等技术为代表的金融科技迅速发展ꎬ新技术的应用为商业银行如何打开这座 金矿 提供了更多的思路和工具ꎬ进一步做深㊁做细全量客户经营ꎬ服务好全量客户ꎬ对赋能商业银行普惠金融和促进整个社会经济发展具有重要意义ꎮ文章以有效提升长尾客户体㊁推进实现全量客户经营为目标出发ꎬ分析了区域性商业银行面临的现状ꎬ以G银行为例ꎬ利用XGboost算法构建了大数据挖掘模型ꎬ并提出了差异化的长尾客户提升策略ꎬ为城商行如何经营好存量长尾客户经营ꎬ提供了一套相对完善的解决思路和方案ꎮ但是ꎬ由于机构㊁地域等之间的差异性ꎬ文章入模变量的选择因地域㊁机构㊁数据质量等原因最终可能会存在一定差异ꎮ
参考文献:
[1]陈宝华ꎬ柳炳祥ꎬ万川南.基于虚拟技术中logistic回归模型在睡眠客户预测中的应用[J].数字技术与应用ꎬ2016(8):69-70.
[2]段治龙.中小银行账户激活 123工作法 [J].中国农村金
融ꎬ2021(10):74-75.[3]范玮琛.长尾理论视角下商业银行个人客户拓展及服
务[J].福建金融ꎬ2022(5):73-76.[4]黄建康ꎬ赵宗瑜.互联网金融发展对商业银行的影响及对策研究  基于价值体系的视域[J].理论学刊ꎬ2016(1):61-68.
[5]霍兵ꎬ张延良.互联网金融发展的驱动因素和策略  基
于长尾理论视角[J].宏观经济研究ꎬ2015(2):86-93ꎬ108.
[6]金煜.城商行高质量发展思考[J].中国金融ꎬ2020(Z1):
正则匹配公司名称103-105.[7]李丰.科技赋能ꎬ助力区域性银行转型发展[J].中国信用
卡ꎬ2021(8):16-20.[8]刘豫闽ꎬ范丽红.城市商业银行面临的挑战与机遇[J].金
融理论与实践ꎬ2001(10):26-28.[9]唐海军ꎬ李非.长尾理论研究现状综述及展望[J].现代管
理科学ꎬ2009(3):40-42.[10]王敏ꎬ马彦姣.大数据时代银行个人客户关系管理[J].西
南金融ꎬ2016(7):30-32.[11]张华.长尾理论在商业银行客户关系管理中的应用探
讨[J].海南金融ꎬ2012(3):67-69.
[12]张明艳.城商行差异化经营策略与实践[J].银行家ꎬ2022
(4):72-73.[13]赵书海. 二八定律 在我国商业银行经营管理中的运
用[J].区域金融研究ꎬ2009(11):54-56.[14]周民源.中国商业银行转型的路径选择研究[J].金融监
管研究ꎬ2012(9):54-68.
[15]ChenTꎬGuestrinC.XGBoost:AScalableTreeBoostingSystem[J].ACMꎬ2016.
[16]FawcettT.AnintroductiontoROCanalysis[J].Pattern
RecognitionLettersꎬ2006ꎬ27(8):861-874.
[17]JrFJM.Taylor&FrancisOnline:TheKolmogorov-
SmirnovTestforGoodnessofFit-JournaloftheAmericanStatisticalAssociation-Volume46ꎬIssue253[J].JournaloftheAmericanStatisticalAssociation.
[18]FriedmanJꎬHastieTꎬTibshiraniR.SpecialInvitedPaper.
AdditiveLogistic
Regression:
Statistical
Viewof
Boosting[J].AnnalsofStatisticsꎬ2000ꎬ28(2):337-407.
[19]WeihrichH.TheTOWSmatrix Atoolforsituational
analysis[J].LongRangePlanningꎬ1982ꎬ15(2):54-66.作者简介:陈萍(1992 ㊀)ꎬ女ꎬ汉族ꎬ贵州遵义人ꎮ主要研究方向:商业银行数据挖掘模型研究ꎮ
231

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。