(19)中华人民共和国国家知识产权局
(12)发明专利说明书
(10)申请公布号 CN 109684440 A
正则匹配公司名称(43)申请公布日 2019.04.26
(21)申请号 CN201811527681.1
(22)申请日 2018.12.13
(71)申请人 北京惠盈金科技术有限公司;北京师范大学
    地址 100000 北京市朝阳区望京西路甲50号1号楼7层(新企航孵化器41号)
(72)发明人 陈清华 王建斌 张常青 刘晶 南晓杰 杨秀波 张江 朱瑞鹤 邓建博 李本继
(74)专利代理机构 江苏爱信律师事务所
    代理人 唐小红
(51)Int.CI
     
                                                                  权利要求说明书 说明书 幅图
(54)发明名称
      基于层级标注的地址相似度度量方法
(57)摘要
      本发明公开了基于层级标注的地址相似度计算方法。利用已有的少量层级标注数据产生充足样本训练Address‑LSTM模型作为系统的核心实施基于自动地址层级标注的地址相似度计算。实际运行中,对输入地址数据进行清洗、补全、去除异常符号及其他处理,通过分词、正则表达及再拼接等过程将原始字符串分解成适当的子串序列,利用已经训练好的Address‑LSTM模型标注出每个子串的地址层级标签,然后运用多相似度计算模块及综合集成的方法给出地址间的综合相似度指标。本发明通过部署到计算机上的程序运行,可以大量缩短甚至避免人工核对,在保证准确度的情况下提高金融数据中的实体辨识效率。
法律状态
法律状态公告日
法律状态信息
法律状态
2023-02-28
授权
发明专利权授予
权 利 要 求 说 明 书
1.基于层级标注的地址相似度度量方法,其特征在于,包括以下步骤:
步骤1.基于少量具有精确标注信息的地址数据随机匹配生成大量训练样本,采用机器学习的LSTM模块进行训练,训练完成后将参数固定下来,用于步骤2中的地址层级自动标注;
步骤2.清理地址数据,进行地址实体的识别及自动标注:按规则清理和切分地址实体命名数据,使用已训练优化的模型将地址串进行层级标注;
步骤3.使用多相似度度量和集成综合的方法得到任意两个地址的综合相似性度量:通过一系列的相似度计算方法将每对地址串的对应层级地址进行相似度计算,然后将多个不同方法计算的相似度结果利用机器学习的BP神经网络集成为一个相似度指标。
2.如权利要求1所述的方法,其特征在于,所述步骤1包括:
1-1)收集地址串数据,去除无关字符,通过标准地址库补全、修正及其他规范化处理,得到完整的地址串数据,然后通过分词软件和基于地址保留词,如省、市、区、镇、路、号的规范操作,将地址分解为顺序相连的子串,子串的数量按要求,如不超过12,超过后需要进行归并操作;
1-2)将1-1)中得到的地址串的各个子串按一定的地址分级标准进行标注,如采用省/直辖市、市/市辖区、县/区、乡/街道、行政村/自然村、道路、门牌号、住宅小区、楼号、单元、楼层、房间号这样标准的12级,辅以人工协助,以获得绝对准确可靠的数据;
1-3)利用1-2)中层级标注了的地址子串数据,通过随机拼接的方式生成完整的地址串序列,这种随机组合生成的方式获得足够的训练样本,N个原始数据最多产生N
12
个训练数据;
1-4)创建适用于地址层级的机器学习LSTM模块框架,将1-3)中得到的数据整理为标准的训练数据格式来训练模型,最后得到训练好的Address-LSTM模型。
3.如权利要求1所述的方法,其特征在于,所述步骤2包括:
2-1)将输入的地址对进行清洗、补全及其他规范化等处理,如将楼号信息由汉字转化为数字,得到完整的地址串数据,然后通过分词软件和基于地址保留词的规范操作将地址分解为顺序相连的子串,子串的个数不超过12;
2-2)将2-1)得到的地址子串序列输入到1-4)中得到的Address-LSTM模型,进行地址实体的识别及层级标注,得到由各层级地址实体及其对应层级标签组成的地址串。

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。