电力与能源第40卷第1期
2019年2月
DOI:10.11973/dlyny201901019基于文本挖掘的95598投诉工单关键信息提取分析万 磊1,严道波1,杨 勇1,何镇庭2,邱 丹1,吴 迪2(1.国网湖北省电力有限公司,武汉 430070;2.国网湖北省电力有限公司鄂州供电公司,湖北鄂州 436000)摘 要:采用基于正则表达式和Python编程的文本挖掘方法,提取了国网各省市供电公司95598投诉工作单中客户描述的停电次数和实际停电次数的处理意见,对数据进行了分析。结果表明,文本挖掘技术可以有效地应用于从95598投诉文档中提取出非结构化文本数据,当出现两次或两次以上的停电时,客户往往会抱怨更多。
关键词:供电企业;营销管理;用户数据分析;正则表达式;文本挖掘技术
作者简介:万 磊(1964—),男,高级工程师,从事电网运营工作。
中图分类号:F426.61;F274  文献标志码:A  文章编号:2095-1256(2019)01-0070-03
Analysis of 95598Complaint Workorder Key Information Extraction Based on Text MiningWAN Lei 1,YAN Daobo1,Y
ANG Yong1,HE Zhenting2,QIU Dan1,WU Di 2
(1.State Grid Hubei Electric Power Co.,Ltd.,Wuhan 430070,China;
2.State Grid Hubei Electric Power Co.,Ltd.Ezhou Power Supply Company,Ezhou 436000,China)Abstract:The text mining method based on regular expression and Python programming are used to extract thenumber of power cuts described by customers and the actual number of power cuts in the handling opinions inthe handling of 95598complaint work orders of CNNM,and have carried out in-depth analysis.The resultsshow that the text mining technology can be effectively applied to the extraction of unstructured text data from95598complaint documents.When there are two or more power outages,customers tend to complain more.Key words:power supply enterprises;marketing management;user data 
analysis;regular expressions;textmining technology
  用电客户投诉管理作为国网公司优质服务工作的重要一环,需基于95598业务系统,充分挖掘客户投诉工单数据,掌握客户诉求,不断提升客户满意度。国网各省市供电公司95598业务系统均积累了海量的历史客户投诉工单数据,然而客户投诉内容和工单处理结果均以非结构化文本数据的形式存储,严重制约了工单数据中关键信息的提取分析工作和价值发挥。
1 95598投诉工单文本数据应用方向
目前,国网95598投诉受理流程为客服人员接到客户投诉致电后,根据客户描述生成投诉受理内容,由客服人工判别投诉类型并进行投诉处理,形成投诉处理意见。其中,基于投诉受理内容和处理意见两个字段的文本数据,可以开展如下两类应用:①基于客户投诉受理内容,进行投诉类型自动分类;②基于投诉处理意见,提取投诉核查
结果、投诉原因、投诉处理手段等关键信息,深入挖掘客户诉求。本文主要从提取投诉处理意见中的关键信息展开研究分析。
2 文本挖掘及正则表达式
2.1 文本挖掘
文本挖掘[1](Text Mining,简称TM),是抽取有效、新颖、有用、可理解的、散布在大规模文本库中的有价值知识,并且利用这些知识更好地组织信息的过程[2-3]。基于国网95598投诉工单中受理内容和处理意见文本的表达形式、语义特性,以及应用方向,采用正则表达式的匹配、替换和提取等功能,提取工单文本信息。
2.2 正则表达式
正则表达式主要用于描述正则集代数。它是一个用来描述或者匹配一系列符合某个句法规则的字符串的单个字符串,表示某种匹配的规则[4]。
07
万 磊,等:基于文本挖掘的95598投诉工单关键信息提取分析
正则表达式最基本的3种功能是匹配、替换和提取。匹配功能用于把设定的匹配表达式与文本数据进行比较,根据比较结果执行相应的程序[5]。
运用正则表达式抽取95598投诉工单关键信息的步骤如下。
(1)替换不规范的特定字符串。如文本中的中文数字替换为对应的阿拉伯数字;
(2)厘清需要抽取的关键信息在文本中的表达形式,概括为特征模式字符串集合,即正则表达式集合;
(3)将正则表达式集合与目标文本进行匹配,提取与正则表达式所匹配的所有子串。
3 文本挖掘实现及应用
抽取国网某省供电公司2015年1月至2018年4月95598投诉工单28 334件。统计各类工单数量及占比,发现电网建设类工单3 008件,占10.62%;服务投诉类工单3 894件,占13.74%,供电质量类工单10 543件,占37.21%,停送电投诉类工单2 882件,占10.17%,营业投诉类工单8 007件,占28.26%。其中,供电质量投诉占比最高,供电质量投诉主要集中在频繁停电投诉,共8 235件,占比78.11%。以频繁停电投诉工单为例,挖掘工单中文本数据,并进行相关分析。3.1 文本关键信息提取
投诉工单非结构化文本信息主要存储在受理内容和处理意见字段中。从受理内容中提取客户描述的停电次数,从处理意见中提取工作人员核实反馈的实际停电次数。具体步骤如下。
(1)由于填写不规范,工单文本中很多投诉次数为中文数字,查文本中的中文数字种类,建立中文数字字符串集合,为pattern[“一”,“二”,“三”,“四”,“五”,“六”,“七”,“八”,“九”,“十”,“二十”,“三十”……],对应的替换数字集合为re-pl[1,2,3,4,5,6,7,8,9,10,20,30……],Python实现正则替换的函数表达式为re.sub(pattern,repl,string)。
(2)归纳工单文本中的停电信息表达特征集为pattern[“停电”+“\d+”+“次”,“停电共”+“\d+”+“次”,“
停电共计”+“\d+”+“次”,“停”+“\d+”+“次电”,“\d+”+“次停电”,“\d+”+“次故障停电”,“\d+”+“次计划停电”,“\d+”+“次”,“\d+”+“多次”],Python实现正则替换的函数表达式为pattern.findall(string)。
编程实现停电次数提取结果为:从受理内容和处理意见字段中可提取出明确停电次数的工单分别为6 104件和5 315件,分别占全部工单数的74.11%、64.53%。
3.2 工单分析
从受理内容中挖掘停电次数数据,绘制停电次数-频繁投诉工单量分布图,如图1所示。由图1可以看出,客户因1~2次停电产生的投诉仅236件,占比3.87%。当停电3次及以上时,客户投诉倾向较高
图1 受理内容中停电次数-频繁停电工单数量分布图
从工单处理意见中挖掘停电次数数据,绘制停电次数-频繁投诉工单量分布图,如图2所示。由图2可以看出,停电少于4次时,客户投诉工单量随着停电次数的增多迅速增长,表明客户对停电次数增长的忍耐度降低;停电次数超过3次后,投诉工单量随着停电次数的增多呈减少趋势,一方面是由于同一客户发生多次停电的概率小,客户基数小,另一方面是由于部分客户在停电次数较少时就已经投诉。停电1次即投诉的客户696户,供电单位可适当纳入高停电敏感客户。停电2次及以上引起的投诉工单合计4 619件,占比86.9%,因此客户发生1次停电后,供电单位即应引起重视,避免再次停电,引起客户投诉
图2 处理意见中停电次数-频繁停电工单数量分布图
针对受理内容中停电1~2的投诉工单较少,停电10次及以上的投诉工单较多,与处理意见中挖掘得出的结果存在较大偏差,按工单编号对两
万 磊,等:基于文本挖掘的95598投诉工单关键信息提取分析
个字段中提取的停电次数进行比较。受理内容与处理意见字段中均能提取出停电次数的工单4 108件,其中仅1 
343件工单客户投诉描述的停电次数与供电单位核实的次数一致。对2 765件不一致的工单进行比对,绘制停电次数-频繁投诉工单量对比图见图3。从图3中可看出,受理内容中,停电1~2次造成的投诉工单远少于处理意见中的工单,停电3次及以上的工单整体高于处理意见中的工单,即客户描述的停电次数往往高于供电单位核实的停电次数。这一方面是由于客户为发泄停电不满情绪和引起供电单位重视,故意夸大停电次数。另一方面是由于部分客户停电事件非供电单位责任,不计入核实的停电次数中
图3 受理内容与处理意见停电次数比对图
4 结语
(1)采用正则表达式挖掘95598投诉工单中
的关键信息具有较高的现实可行性,能有效发挥
工单数据的分析应用价值。
  (
2)部分客户为发泄停电不满情绪和引起供电单位重视,往往夸大停电次数,针对该类客户,供电单位可采取合适的差异化服务策略。(3)80%以上的频繁停电投诉是由于停电次数达到2次及以上引起,因此针对已经发生过一次停电的客户,供电单位可适当加强该类客户所属线路和台区的在线监测和运维工作,同时合理安排计划停电和临时停电。
参考文献:
[1
]陈志,张国煊.文本挖掘研究进展[J].模式识别与人工智能,2005,18(1):65-74.
CHEN Zhiqun,ZHANG Guoxuan.A survey of text min-ing[J
].Pattern Recognition and Artificial Intelligence,2005,18(1).
[2
]王丽坤,王宏,陆玉昌.文本挖掘及其关键技术与方法[J].计算机科学,2002(12):12-
19.WANG Likun,WANG Hong,LU Yuchang.The textmining and its key technigues and methods[J].ComputerScience,2002(12):12-
19.[3]潘钢.上海移动公司客户投诉管理研究及应用[D].上海:上海交通大学,2013.
[4]沙金.精通正则表达式[M].北京:人民邮电出版社,2008.[5
]LIGER F,QUEEN C M,WILTON P,刘乐亭,译.C#字符串和正则表达式参考手册[M].北京:清华大学出版社,2003.
收稿日期:2018-11-13(本文编辑:赵艳粉櫚櫚櫚櫚櫚櫚櫚櫚櫚櫚櫚櫚櫚櫚櫚櫚櫚櫚櫚櫚櫚櫚櫚櫚櫚櫚櫚櫚櫚櫚櫚櫚櫚櫚櫚櫚櫚櫚櫚櫚櫚櫚櫚櫚櫚櫚櫚)
(上接第58页)
表1 零序功率方向保护继电器试验数据
设备名称保护类型最小零序电压
最小零序电流/A
动作区域/(°)动作时间/s结论循环水泵67 30.0 0.003 1-39~127 0.031合格河水升压泵67 30.1 0.003 0-37~126 0.028合格升压风机
67 
29.8 
0.002 
9-38~128 0.036
合格
信技术的进步,继电保护技术面临着进一步发展的趋势。罗泾燃机电厂继电保护装置采用的均为当时国内外一流的微机型综合保护,
顺应了时代发展的需要,同时对继电保护工作者提出了高素质高要求的期望,也为继保工作者开辟了更为广阔的活动天地。
参考文献:
[1]朱声石.高压电网继电保护原理与技术[M].北京:中国电力出版社,1995.
[2
]王维俭.电气主设备继电保护原理与应用[M].
北京:中国电力出版社,1996.
[3
]张旭俊,上官帖,唐建洪,等.采用零序功率绝对值构成反时限零序电流保护的方案探讨[J].电力系统保护与控制,2009,37(23):41-
正则匹配关键词44.ZHANG Xujun,SHANGGUAN Tie,TANG Jianhong,et al.Research on inverse time current relay based on theabsolute value of zero-sequence power[J].Power SystemProtection and Control,2009,37(23):41-
44.收稿日期:2018-11-09(本文编辑:赵艳粉)
27

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。