(19)中华人民共和国国家知识产权局
(12)发明专利说明书
(10)申请公布号 CN 112784720 A
(43)申请公布日 2021.05.11
(21)申请号 CN202110042586.8
(22)申请日 2021.01.13
(71)申请人 浙江诺诺网络科技有限公司
    地址 310000 浙江省杭州市西湖区双龙街199号金西溪商务中心A座8层
(72)发明人 何依伦
(74)专利代理机构 正则匹配公司名称11227 北京集佳知识产权代理有限公司
    代理人 侯珊
(51)Int.CI
      G06K9/00(20060101)
      G06F40/247(20200101)
      G06F40/289(20200101)
      G06F16/35(20190101)
                                                                  权利要求说明书 说明书 幅图
(54)发明名称
      基于银行回单的关键信息提取方法、装置、设备及介质
(57)摘要
      本发明公开了一种基于银行回单的关键信息提取方法,包括:识别银行回单的初始文字字段;对初始文字字段执行清洗操作,得到目标文字字段;对相邻的目标文字字段间建立动态链接,生成文字字段组合;识别每个文字字段组合的类型,并通过机器学习模型从每个文字字段组合中提取所述银行回单的关键信息。可见,在本方案中,识别银行回单的初始文字字段后,通过对初始文字字段清洗的方式,可避免提取的关键信息出现字段错误、不完整等问题,通过建立文字字段组合的方式,可提高字段间的关联度,从而提高关键信息的完整性和准确性;本发明还公开了一种基于银行回单的关键信息提取装置、设备及介质,同样能实现上述技术效果。
法律状态
法律状态公告日
法律状态信息
法律状态
2021-05-11
公开
公开
权 利 要 求 说 明 书
1.一种基于银行回单的关键信息提取方法,其特征在于,包括:
识别银行回单的初始文字字段;
对所述初始文字字段执行清洗操作,得到目标文字字段;
对相邻的目标文字字段间建立动态链接,生成文字字段组合;
识别每个文字字段组合的类型,并通过机器学习模型从每个文字字段组合中提取所述银行回单的关键信息。
2.根据权利要求1所述的关键信息提取方法,其特征在于,所述对所述初始文字字段执行清洗操作,包括:
识别所述初始文字字段中的停用词,并删除。
3.根据权利要求1所述的关键信息提取方法,其特征在于,所述对所述初始文字字段执行清洗操作,包括:
识别所述初始文字字段中非标准文字字段,并通过预先存储的常用词库对非标准文字字段进行更改。
4.根据权利要求3所述的关键信息提取方法,其特征在于,所述通过预先存储的常用词库对非标准文字字段进行更改,包括:
通过预先存储的公司名词词库对非标准文字字段进行更改;和/或,通过通过预先存储的格式正则规则对非标准文字字段进行更改。
5.根据权利要求1所述的关键信息提取方法,其特征在于,所述识别每个文字字段组合的类型,包括:
通过关键词分类算法、分词分类算法、特定模板分类算法中的任意一者,确定每个文字字段组合的类型。
6.根据权利要求5所述的关键信息提取方法,其特征在于,若通过所述关键词分类算法、分词分类算法、模板分类算法均不能确定文字字段组合的类型,则所述关键信息提取方法还包括:
通过语言分类模型确定文字字段组合的类型。
7.根据权利要求1至6中任意一项所述的关键信息提取方法,其特征在于,所述对相邻的目标文字字段间建立动态链接,包括:
确定各个目标文字字段的位置;
对属于同一水平方向的、且位置相邻的目标文字字段间建立动态链接,和/或,对属于同一垂直方向的、且位置相邻的目标文字字段间建立动态链接,和/或,对不属于同一水平方向和垂直方向的、且位置相邻的目标文字字段间建立动态链接。
8.一种基于银行回单的关键信息提取装置,其特征在于,包括:
识别模块,用于识别银行回单的初始文字字段;
字段清洗模块,用于对所述初始文字字段执行清洗操作,得到目标文字字段;
链接建立模块,用于对相邻的目标文字字段间建立动态链接,生成文字字段组合;
类型识别模块,用于识别每个文字字段组合的类型;
提取模块,用于通过机器学习模型从每个文字字段组合中提取所述银行回单的关键信息。
9.一种电子设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至7任一项所述的基于银行回单的关键信息提取方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的基于银行回单的关键信息提取方法的步骤。
说  明  书
<p>技术领域
本发明涉及信息识别技术领域,更具体地说,涉及一种基于银行回单的关键信息提取方法、装置、设备及介质。
背景技术
近年来,基于深度学习的文字识别落地应用已经非常成熟,在银行回单识别领域中,相关的识别算法是对基于深度学习的文字识别结果进行相关优化工作,优化工作的中心思想是基于关键字模板匹配的方式,来获取银行回单中的关键信息字段,但由于基于深度学习的文字识别在识别银行回单相关任务中,会出现识别的字段分开的问题,导致识别出的银行回单关键信息字段缺失等问题,识别性能不够鲁棒。
因此,如何提高银行回单中关键信息的完整性及准确性,是本领域技术人员需要解决的问题。
发明内容
本发明的目的在于提供一种基于银行回单的关键信息提取方法、装置、设备及介质,以提高银行回单中关键信息的完整性及准确性。
为实现上述目的,本发明提供一种基于银行回单的关键信息提取方法,包括:
识别银行回单的初始文字字段;
对所述初始文字字段执行清洗操作,得到目标文字字段;
对相邻的目标文字字段间建立动态链接,生成文字字段组合;
识别每个文字字段组合的类型,并通过机器学习模型从每个文字字段组合中提取所述银行回单的关键信息。

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。