(19)中华人民共和国国家知识产权局
(12)发明专利说明书
(10)申请公布号 CN 110597760 A
(43)申请公布日 2019.12.20
(21)申请号 正则匹配快代理CN201910882499.6
(22)申请日 2019.09.18
(71)申请人 苏州派维斯信息科技有限公司
    地址 215000 江苏省苏州市高新区竹园路209号
(72)发明人 李华康 王磊 徐梦婷 方浪 孔令军
(74)专利代理机构 苏州市中南伟业知识产权代理事务所(普通合伙)
    代理人 殷海霞
(51)Int.CI
     
                                                                  权利要求说明书 说明书 幅图
(54)发明名称
      用于电子文档合规性判别的智能方法
(57)摘要
      本发明公开了一种用于电子文档合规性判别的智能方法。本发明一种用于电子文档合规性判别的智能方法,包括:步骤S100:采集相关文档的信息并通过自然语言处理技术实现知识粒度的切割,将文本信息转化为无噪声的文本数据;步骤S200:用于判断步骤S100中获得的结构化文档信息是否符合相关领域的格式要求,文档信息是否缺失;步骤S300:分析文档语义逻辑信息,包括文档语义关系信息、语义依存关系和语义角标注;步骤S400:通过文档语义逻辑分析模块得到的信息判断文档语义逻辑上是否存在谬误,是否符合相关领域要求。本发明的有益效果:本发明针对相关领域电子文档中存在的格式错误、信息缺失、语义逻辑错误的问题。
法律状态
法律状态公告日
法律状态信息
法律状态
2023-02-28
发明专利申请公布后的驳回IPC(主分类):G06F16/11专利申请号:2019108824996申请公布日:20191220
发明专利申请公布后的驳回
权 利 要 求 说 明 书
1.一种用于电子文档合规性判别的智能方法,其特征在于,包括:
步骤S100:采集相关文档的信息并通过自然语言处理技术实现知识粒度的切割,将文本信息转化为无噪声的文本数据;
步骤S200:用于判断步骤S100中获得的结构化文档信息是否符合相关领域的格式要求,文档信息是否缺失;
步骤S300:分析文档语义逻辑信息,包括文档语义关系信息、语义依存关系和语义角标注;
步骤S400:通过文档语义逻辑分析模块得到的信息判断文档语义逻辑上是否存在谬误,是否符合相关领域要求。
2.如权利要求1所述的用于电子文档合规性判别的智能方法,其特征在于,步骤100具体步骤如下:
步骤110:获取电子文档;
步骤120:对电子文档中的信息进行解析和抽取;
步骤130:将抽取的文本信息存储为结构化的信息,存储为结构化的json文件,或者使用python中的pandas库存储为csv文件。
3.如权利要求1所述的用于电子文档合规性判别的智能方法,其特征在于,步骤200具体步骤如下:
步骤210:读取步骤130获得的结构化文档数据;
步骤220:文档格式信息判断,对结构化的文档数据进行审查,如果数据中存在空值,则进入步骤240,若数据中不存在空值,则进入步骤230;
步骤230、格式审查通过,保留文档数据;
步骤240、输出报错信息。
4.如权利要求1所述的用于电子文档合规性判别的智能方法,其特征在于,步骤300具体步骤如下:
步骤310:读取文档数据;
步骤320:针对句子中所包含的信息,使用句号和分号对句子进行划分,来表示一整段话的开始和结束,并使用结巴分词来对句子进行分词;
步骤330:针对步骤320分词后的句子,使用自然语言处理技术进行相关领域实体词的抽取,针对不同的领域选择基于领域词典的实体抽取方法或者训练领域相关词向量,通过深度学习的方法来抽取实体;
步骤340:基于步骤330抽取出的实体词,利用自然语言处理技术按照实体-关系-实体的三元组形式进行实体间关系的抽取,使用基于SVM的方法、基于Bi-LSTM-attention的方法抽取关系,或者使用预训练好的模型如斯坦福的Stanford NLP模型或者哈工大的LTP模型进行关系抽取。
步骤350:将步骤330抽取的实体词和步骤340抽取的关系三元组存储为结构化的数据。
5.如权利要求1所述的用于电子文档合规性判别的智能方法,其特征在于,步骤400具体步骤如下:
步骤410:读取文档数据;
步骤420:判断文档中相关实体是否缺失,即相关实体是否为空值,若缺失实体则转入步骤450,如果不缺少实体,则转入步骤430,开始进行实体关系审查;
步骤430:判断关系三元组是否缺失,是否存在逻辑错误、是否符合相关领域的要求,若存在问题,则转入步骤450,若不存在问题,则转入步骤440;
步骤440、文档合规性判别通过;
步骤450,输出报错信息。
6.如权利要求1所述的用于电子文档合规性判别的智能方法,其特征在于,步骤120根据相关领域的标准文档采用关键词匹配、正则表达式匹配等方法进行文档信息的抽取。
7.一种用于电子文档合规性判别的智能系统,其特征在于,包括;
文档信息采集分析模块,此模块用于采集相关文档的信息并通过自然语言处理技术实现知识粒度的切割,将文本信息转化为无噪声的文本数据;
文档格式信息判断模块,此模块用于判断文档信息采集分析模块中获得的结构化文档信息是否符合相关领域的格式要求,文档信息是否缺失;
文档语义逻辑信息分析模块,用于分析文档语义逻辑信息,包括文档语义关系信息、语义依存关系和语义角标注;以及
文档语义逻辑信息判断模块,通过文档语义逻辑分析模块得到的信息判断文档语义逻辑上是否存在谬误,是否符合相关领域要求。
8.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1到6任一项所述方法的步骤。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1到6任一项所述方法的步骤。
10.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1到6任一项所述的方法。

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。