(19)中华人民共和国国家知识产权局
(12)发明专利说明书
(10)申请公布号 CN 109635285 A
(43)申请公布日 2019.04.16
(21)申请号 CN201811416724.9
(22)申请日 2018.11.26
(71)申请人 平安科技(深圳)有限公司
    地址 518033 广东省深圳市福田区福田街道福安社区益田路5033号平安金融中心23楼
(72)发明人 张依 汪伟 肖京
(74)专利代理机构 广州华进联合专利商标代理有限公司
    代理人 王宁
(51)Int.CI
     
正则匹配公司名称                                                                  权利要求说明书 说明书 幅图
(54)发明名称
      企业全称与简称匹配方法、装置、计算机设备和存储介质
(57)摘要
      本申请涉及大数据技术领域,提供了一种企业全称与简称匹配方法、装置、计算机设备和存储介质。方法包括:对包含待识别简称的文本进行简称识别处理,获得备选简称集合,获取备选简称集合中各备选简称在预设文本库中的词频,根据各备选简称的词频,确定目标简称,遍历预设缩写简称库,获取与目标简称匹配的缩写简称,获取与缩写简称对应的企业全称,当查到目标简称与企业全称共现的文本时,确定企业全称与目标简称匹配成功。一方面通过对识别的简称进行筛选,提高了在简称识别阶段的数据准确性,另一方面在获取与目标简称对应的企业全称后,通过确认目标简称与对应的企业全称是否共现于同一文本,确认是否匹配成功,提高了匹配结果的精确度。
法律状态
法律状态公告日
法律状态信息
法律状态
权 利 要 求 说 明 书
1.一种企业全称与简称匹配方法,所述方法包括:
对包含待识别简称的文本进行简称识别处理,获得备选简称集合;
获取所述备选简称集合中各备选简称在预设文本库中的词频,根据所述各备选简称的词频,确定目标简称;
根据所述目标简称,遍历预设缩写简称库,获取与所述目标简称匹配的缩写简称;
获取与所述缩写简称对应的企业全称;
当查到所述目标简称与所述企业全称共现的文本时,确定所述企业全称与所述目标简称匹配成功。
2.根据权利要求1所述的方法,其特征在于,所述对包含待识别简称的文本进行简称识别处理,获得备选简称集合之前,还包括:
获取包含企业简称的多个样本数据;
根据各所述样本数据对应的已知简称,对各所述样本数据进行简称标注处理,获取携带有简称标注的样本数据集;
根据所述样本数据集,训练得到命名实体识别模型,所述命名实体识别模型用于进行简称识别处理。
3.根据权利要求1所述的方法,其特征在于,所述获取所述备选简称集合中各备选简称在预设文本库中的词频,根据所述各备选简称的词频,确定目标简称包括:
当所述包含待识别简称的文本中存在多类备选简称时,根据备选简称的词语序列,对所述备选简称集合中的备选简称进行分类;
获取每一类别的各个备选简称在预设文本库中的词频,
根据所述每一类别的各个备选简称的词频,确定每一类别的目标简称。
4.根据权利要求1所述的方法,其特征在于,所述根据所述目标简称,遍历预设缩写简称库,获取与所述目标简称匹配的缩写简称之前,还包括:
获取企业全称库,根据企业全称的组成模式,对所述企业全称库中的企业全称进行分类;
根据与所述组成模式对应的预设缩写规则,对各类所述企业全称进行缩写处理,获得与所述企业全称对应的缩写简称集合;
根据所述缩写简称集合,构建与所述企业全称库对应的所述预设缩写简称库。
5.根据权利要求4所述的方法,其特征在于,所述根据与所述组成模式对应的预设缩写规则,对各类所述企业全称进行缩写处理,获得与所述企业全称对应的缩写简称集合之前,还包括:
获取包含企业全称与简称匹配关系的样本数据;
分析所述样本数据中所述企业全称的组成模式,根据所述样本数据中所述企业简称,确定与所述组成模式对应的预设缩写规则。
6.根据权利要求1所述的方法,其特征在于,所述当查到所述目标简称与所述对应的企业全称共现的文本时,
确定所述企业全称与所述目标简称匹配成功之后,还包括:
将匹配成功的所述企业全称与所述目标简称更新至预设的企业全简称匹配数据库。
7.根据权利要求6所述的方法,其特征在于,所述将匹配成功的所述企业全称与所述目标简称更新至预设的企业全简称匹配数据库之后,还包括:
根据预设关键词,搜索包含企业全称与企业简称匹配关系的文本;
提取所述文本中匹配的所述企业全称与企业简称,更新至所述预设的企业全简称匹配数据库。
8.一种企业全称与简称匹配装置,其特征在于,所述装置包括:
备选简称集合获得模块,用于对包含待识别简称的文本进行简称识别处理,获得备选简称集合;
目标简称确定模块,用于获取所述备选简称集合中各备选简称在预设文本库中的词频,根据所述各备选简称的词频,确定目标简称;
缩写简称获取模块,用于根据所述目标简称,遍历预设缩写简称库,获取与所述目标简称匹配的缩写简称;
企业全称获取模块,用于获取与所述缩写简称对应的企业全称;
匹配结果确定模块,用于当查到所述目标简称与所述对应的企业全称共现的文本时,确定所述企业全称与所述目标简称的匹配成功。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
说  明  书
<p>技术领域
本申请涉及大数据技术领域,特别是涉及一种企业全称与简称匹配方法、装置、计算机设备和存储介质。
背景技术
随着大数据技术的发展,出现了舆情分析技术,在未知企业全简称对应关系的情况下,从文本中挖掘企业全简称对应关系一直是舆情类分析绕不开的工作。在日常生活中,对于全称较长的企业名称,习惯用其约定俗成的简称来代替,如“中国银行股份有限公司”经常以简称的形式出现,如“中国银行”或“中行”。

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。