一种基于知识图谱查询的并行抽取方法--688IT编程网

(19)中华人民共和国国家知识产权局

	(12)发明专利说明书
		(10)申请公布号 CN 111091003 A (43)申请公布日 2020.05.01

(21)申请号 CN201911235588.8

(22)申请日 2019.12.05

(71)申请人电子科技大学广东电子信息工程研究院

地址 523000 广东省东莞市松山湖高新技术产业开发区总部二路17号

(72)发明人韩伟红赫中翮陈雷霆李广新

(74)专利代理机构天津市北洋有限责任专利代理事务所

代理人潘俊达

(51)Int.CI

权利要求说明书说明书幅图

(54)发明名称

一种基于知识图谱查询的并行抽取方法

(57)摘要

正则匹配关键词

本发明属于信息抽取的技术领域，具体涉及一种基于知识图谱查询的并行抽取方法，包括：步骤一，提取数据源的URL，获取对应的文本页面；步骤二，对文本页面的内容进行过滤和分词处理，然后在预设的多个规则块中并行地运行信息匹配，对文本页面抽取所需要的实体关系；步骤三，汇总多个规则块的匹配结果，输出对文本页面的抽取结果。本发明的抽取方法可以应用于单文本和多文本的语句，多个规则块能够同时运行、并行地实施所需的匹配，有效地实现了单文本或者多文本中不同的语句的多级并行处理，从而减少了硬件成本和提升了匹配的速度。

法律状态

法律状态公告日	法律状态信息	法律状态

权利要求说明书

1.一种基于知识图谱查询的并行抽取方法,其特征在于,包括:

步骤一:提取数据源的URL,获取对应的文本页面;

步骤二:对所述文本页面的内容进行过滤和分词处理,然后在预设的多个规则块中并行地运行信息匹配,对所述文本页面抽取所需要的实体关系;

步骤三:汇总多个所述规则块的匹配结果,输出对所述文本页面的抽取结果。

2.如权利要求1所述的基于知识图谱查询的并行抽取方法,其特征在于,所述步骤一中,还包括:

若所述数据源仅具有单个URL,直接获取该单个URL对应的文本页面;若所述数据源具有多个URL,调用爬取程序获得该多个URL分别对应的文本页面。

3.如权利要求1所述的基于知识图谱查询的并行抽取方法,其特征在于,所述步骤二中,对所述文本页面的内容进行过滤的过程包括:

根据不同的属性和语义设置若干个筛选词,遍历每一句所述文本页面的内容,比较每一句所述文本页面的内容所包含的实体词与所述筛选词的相似度,若所述相似度低于阈值,则将若干个所述实体词定义为触发词,若所述相似度等于或高于阈值,则将所述文本页面的内容中与所述筛选词相似的实体词删去。

4.如权利要求3所述的基于知识图谱查询的并行抽取方法,其特征在于,所述步骤二中,对所述文本页面进行分词处理的过程包括:

对若干个所述触发词进行分类,每一类所述触发词对应唯一的词性标签。

5.如权利要求4所述的基于知识图谱查询的并行抽取方法,其特征在于,所述步骤二中,所述信息匹配的过程包括:

设置关键词及所述关键词的类别标签,先将所述触发词的词性标签与所述关键词的类别标签进行匹配,若匹配度等于或高于阈值,再将所述触发词与所述关键词进行匹配,并将匹配成功的所述触发词标注为目标词。

6.如权利要求5所述的基于知识图谱查询的并行抽取方法,其特征在于,所述步骤二中,还包括:

对所述关键词基于语义相似度进行同义拓展,再将所述触发词与同义拓展的关键词进行匹配。

7.如权利要求5所述的基于知识图谱查询的并行抽取方法,其特征在于,所述步骤三中,汇总多个所述规则块的匹配结果的过程包括:

对于匹配成功的所述关键词,对所述关键词的匹配次数加1,再对若干个所述关键词按匹配次数进行排序,形成规则集。

8.如权利要求1所述的基于知识图谱查询的并行抽取方法,其特征在于,所述步骤二中,还包括:

在预设的多个规则块中调用自建程序和/或自动程序并行地运行信息匹配,所述自建程序采用构建的正则表达式进行信息匹配,所述自动程序采用构建的搜索表达式进行信息匹配。

688IT编程网

一种基于知识图谱查询的并行抽取方法

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符回溯引用和前后查匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式选择题

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

688IT编程网

一种基于知识图谱查询的并行抽取方法

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符 回溯引用和前后查 匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式 选择题

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

java正则表达式选择题

非零金额正则表达式

基本的元字符回溯引用和前后查匹配模式

java正则表达式选择题

非零金额正则表达式