融合发展
Integration and Development
基于NLP技术的
反同一客户识别研究
同一客户识别对证券公司反工作具有重要意义,同时也是一个复杂的技术难题,其主要难点在于不同来源客户名称信息的多样化表达,所以需要对客户名进行智能匹配和归一。文本匹配始终是自然语言处理(Natural Language Processing,NLP)所关注的核心问题之一,近年来随着深度学习技术的发展,有很多新模型和新方法用于文本智能匹配。本文设计了一种基于NLP技术的客户名称匹配方法,并基于真实数据评估实验效果。
一、证券公司同一客户识别问题
证券公司的经营活动具有业务种类多、专业性强的显著特点,主要业务包括投资银行、证券经纪、固定收益、股权衍生品、资产管理、托管、证券金融、投资研究等。某些大型的证券公司还拥有海外子公司、期货子公司、资管子公司、私募股权投资子公司等独立法人机构。
为支撑繁多的业务需求与内部管理需求,证券公司内部开发了多套业务系统,如果一个客户(特别是机构客户、产品客户)
与证券公司内部多个部门发生了业务关系,其信息可能会被分别登记在多套系统内。证券公司同一客户识别问题如图1所示。
根据反工作要求(建立客户身份识别制度,审查客户身份;保存客户资料和交易记录;大额和可疑交易报告),证券公司必须能够监测同一客户的全部业务视图,这就需要具备同一客户识别能力。利用个人身份证号、企业统一信用代码、产品备案代码等客户唯一编号进行客户对齐融合,是最直接的方法。但是,有些业务系统没有记录客户唯一编号,或者客户本身没有唯一编号,则上述方法难以奏效,这就需要利用客户名称进行对齐融合。由于不同业务系统分别采集客户信息,可能导致同一个客户的名称并不完全匹配,甚至在文字上差异很大,难以利用简单的数据库操作如SQL中Like 条件处理。因此,需要设计客户名称的智能匹配方法,
中信证券股份有限公司信息技术中心王哲  刘殿兴  岳丰  舒光斌
INTEGRATION
识别文本上存在差异但语义上表达相同含义的客户名称对,同时,匹配方法还要避免出现过多的误判。
在具体工作中,国外机构客户英文名匹配以及产品客户名称匹配是两类比较重要的同一客户识别问题。在这两类问题中,客户本身的唯一识别编号缺失情况较多,需要通过客户名称文本完成同一客户识别。文本匹配是自然语言处理技术关注的重要问题之一,近年来这方面的技术取得了很大进步,为以上问题的解决提供了很多有效的方法。
二、NLP 技术介绍
1.NLP 技术概览
NLP 技术以自然语言为关注对象,综合使用计算机科学、语言学、数学与统计学等专业知识,分析、理解和处理自然语言,是人工智能最重要的研究方向之一。NLP 技术在日常生活中的应用非常广泛,例如搜索引擎、推荐系统、电商系统、智能音箱中都包含很多NLP 算法。近年来,NLP 技术在金融领域也得到广泛应用,例如在
文档智能分析、智能客服机器人、社会舆情分析、智能投研等领域都取得了不错的应用效果。
NLP 技术具体包括自然语言理解(Natural Language Understanding,NLU)和自然语言生成(Natural Language Generation,NLG)两个范畴。自然语言理解是指将自然语言转化为机器可以处理的信息的过程,最早可追溯到“图灵测试”问题的提出。按照机器所需要理解语言水平的高低,自然语言理解研究包含四个层次:一是解析语言的形式,如中文分词、词性标注、句法分析等;二是抽取语言的信息,如实体识别、关系抽取、文本分类、情感分析等;三是理解语言的语义,根据不同语义表示模型,输出语义解析结果,包括基于逻辑表示的语义解析树、基于分布式表示的语义向量等;四是语言推理和语用分析,语言推理是从已知语言信息推导出新知识的过程,语用分析研究语言在不同上下文中的具体含义,如语言的隐喻、幽默等问题。
2.文本匹配问题及相关方法
文本匹配关注文本对之间是否相似,属于自然语言
1  证券公司同一客户识别问题
系统协同
权威数据源
融合发展Integration and Development
理解范畴。文本匹配可以建模为一个二分类问题,通过数学模型计算给定文本对的匹配度(如果接近0则判定为“不匹配”,如果接近1则判定为“匹配”)。针对文本匹配的研究已有很多成果,最直接的文本匹配,是仅考虑文字上的相似度,通常首先计算文本对的词向量,然后计算词向量的相似度。词向量中每个单词权重一般基于TF-IDF等统计方法,相似度计算公式则有Cosine 相似度、Jaccard相似度等。
对于文字相似度的匹配方法,只适合匹配文字上相差不大的文本对,由于自然语言的多样性,同一个含义能够用不同文字表达,所以需要对具有相同语义的文本对进行有效匹配,这样显然难度更大。近年来,深度学习技术迅猛发展,并成功应用于NLP领域,针对文本匹配问题提出了多种深度文本匹配(Deep Text Matching)模型,较好地解决了文本对语义匹配的需求问题,图2为几种常见深度文本匹配模型,本文将综合利用各种文本匹配方法解决实际问题。
三、NLP技术应用探索:同一客户识别方法
1.机构客户英文名的匹配
证券公司及其海外子公司服务大量机构客户,这些机构客户注册在世界各地,不具备诸如统一信用代码、工商注册号等国内客户的唯一编号,需要通过客户英文名称进行匹配识别。通过观察数据发现,不同业务系统中,相同机构客户英文名称完全相同的不到30%,文字差异性主要体现在以下几个方面。
一是单词大小写不一致,可能情况有:全部大写、仅首字母大写、品牌词全部大写而其他单词仅首字母大写、全部小写等。
二是部分常见单词缩写,如Limited(有限
INTEGRATION
司)缩写为LTD、Investment(投资公司)缩写为INVEST、Holding(控股)缩写为HOL等,这些词一般都是描述公司类型的,出现频率很高。
三是有些英文名称中存在“-”“:”“(”“)”“,”“.”等特殊字符。
不同系统机构客户名称的差异主要是文字层面的,可以通过一个经典NLP流程(文本预处理—规则替换—设计单词权重向量—计算文字相似度)给出合理匹配结果,具体计算过程如下。
首先,对机构名称进行标准化,将全部单词字母转为小写,并过滤掉某些特殊符号。
其次,通过挖掘频繁项并结合人工经验,获取常见单词和缩写的对应规则列表,通过规则替换将全部缩写词替换为原来单词。
再次,计算机构客户名X的TF-IDF词向量,它在某个单词W j上权重为:
TF-IDF(W j) = TF(W j)×IDF(W j)
正则匹配公司名称
其中,TF(W j)表示单词Wj在X中出现的次数;IDF(Wj)表示单词W j在语料库中的逆文档频率(Inverse Document Frequency)。
IDF(W j) = Log[机构名称总数/(1+包含W j的机构名称数)]
加入IDF指标是对词频统计的加权修正,能够对在很多机构名中出现的单词进行降权。例如,Limited、Investment等描述公司类型单词的IDF指标都会很小,TF-IDF词向量降低了这些词的影响,把更大匹配权重放在描述机构客户品牌特性的单词上。
最后,计算两个机构客户名称TF-IDF词向量的Cosine相似度,并将相似度足够高的机构客户对视为同一个机构客户。
实现了上述NLP计算流程,将中信证券海外子公司的部分英文客户(数万个)与公司总部维护的全部英文客户(数百万个)进行文本匹配识别。对于每个子公司的机构客户,挖掘文本相似度Top10候选。对实验结果进行分析,在覆盖度上,99%以上子公司机构客户都能与总部客户匹配;在准确度上,采样了200个子公司客户,人工观察匹配结果,有163个子公司客户可以在匹配总部文本相似度Top3候选结果中到真实对应的机构,占比达81.5%;有176个子公司客户可以在匹配总部文本相似度Top5候选结果中到真实对应的机构,占比达88%。由于海外子公司的部分客户是总部业务系统中没有覆盖到的,这部分客户比例估计超过10%,因此本方法能够对海外子公司的绝大多数机构客户名,准确挖掘到总部客户库中的真实匹配结果。
2.产品客户名称的匹配
所谓产品客户,是指证券公司为各种金融产品开立账户的客户,这些产品具有主动投资的行为能力。常见的金融产品包括:私募基金、公募基金、信托理财、银行理财、保险资管、券商资管、收益凭证等。同一产品客户识别的困难在于:一方面,有些金融产品(如养老金产品)无需备案,所以不具备产品备案编号;另一方面,很多海外产品没有统一的产品代码信息,同一金融产品在不同数据源里的产品代码也不一致(如彭博和路透有各自的编码体系,对同一金融产品会用不同的编号来标识)。此外,反监管要求金融产品必须统一识别到产品的粒度,不能识别成其上层的管理人粒度,因而也无法用上层管理人的统一社会信用代码作为唯一识别方式。因此,同一产品客户识别很多时候也需要采用名称匹配的方法。
与机构客户名称匹配相比,产品客户名称匹配难度更大,原因有两点:第一,相同产品在不同业务系统中的登记名称更为多样化,文字的差异不全是大小写、全称与简称等简单情况,还有含义相同但用词不同的情况;第二,还要特别避免一些产品客户名称的误匹配,例如:一家基金公司拥有多种基金产品,但仅通过序号区分,如“××基金1号”“××基金2号”,如果简单考
融合发展
Integration and Development
图3  产品客户名称对匹配度的计算框架
量文字相似性,这两个基金相似度可能很高,会被错误归结为同一个产品。
针对上述第一点,需要考量产品名称文字相似度之外的语义相似度,基于前面介绍的各种深度文本匹配模型,将待比较的两个产品名称映射为分布式向量表示,通过向量Cosine 相似度,刻画产品名称的语义关联。
针对上述第二点,需要利用领域知识设计业务规则,明确区分某些产品,确保不会产生混淆。业务规则的描述主要通过产品客户的属性信息,如归属大类、管理人、投资偏好、产品年限、产品序号等。属性信息有的能够从结构化数据库中直接获得,有的可以从产品名称中基于属性抽取技术进行计算。
根据上述解决思路,设计产品客户名称对匹配度的计算框架,综合运用文字匹配算法、深度文本匹配模型、属性抽取等NLP 技术,为产品客户名称对打分(如图3所示)。
对任意两个产品客户X、Y,在经过标准化预处理后(包括对半角/全角符号、阿拉伯数字/汉字数字的统一化等),首先进行属性计算和业务规则匹配,然后对满足全部规则的产品对,独立计算两方面相似度并加权求和,作为最终匹配度:
Score(X, Y)= R(X, Y)×[a 1×S 1(X,Y)+ a 2×S 2(X,Y)]其中,R(X, Y)表示X、Y 在业务规则下的匹配得分,如果有任意规则不满足,则得分为0且不需要后续计算,否则得分为1;S i  (i =1,2)分别表示X、Y 在TF-IDF 指标下的文字相似度、在深度文本匹配模型下的语义相似度;a i  (i =1, 2)是取值为0~1的常数,作为两类相似度的权重,并满足归一化条件,即:a 1 + a 2 = 1。
具体实现中,设计的典型业务规则如下:R 1表示两个产品归属不同管理人,则产品客户一定不同;R 2表示两个产品归
属两个产品大类,则产品客户一定不同;R 3表示相同管理人的两个产品,如果名称中包含不同的序号值,则产品客户一定不同;R 4表示两个基金产品分别是股票型和债券型,则产品客户一定不同……通过属性向量表达产品各种属性,向量每个位置都用0或1编码,表示该产品是否具有这个属性。属性向量的计算,除了从产品数据库中直接获取,还使用属性抽取方法,包括规则模型、机器学习模型两大类。规则模型主要基于正则表达式,如抽取产品序号信息;机器学习模型使用BiLSTM-CRF 序列标注模型。最终构建的属性向量维度达到了几百维。
产品客户名称的TF-IDF 文字相似度计算方法与机

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。