(19)中华人民共和国国家知识产权局
(12)发明专利说明书
(10)申请公布号 CN 111091003 A
(43)申请公布日 2020.05.01
(21)申请号 CN201911235588.8
(22)申请日 2019.12.05
(71)申请人 电子科技大学广东电子信息工程研究院
    地址 523000 广东省东莞市松山湖高新技术产业开发区总部二路17号
(72)发明人 韩伟红 赫中翮 陈雷霆 李广新
(74)专利代理机构 天津市北洋有限责任专利代理事务所
    代理人 潘俊达
(51)Int.CI
     
                                                                  权利要求说明书 说明书 幅图
(54)发明名称
      一种基于知识图谱查询的并行抽取方法
(57)摘要
正则匹配关键词
      本发明属于信息抽取的技术领域,具体涉及一种基于知识图谱查询的并行抽取方法,包括:步骤一,提取数据源的URL,获取对应的文本页面;步骤二,对文本页面的内容进行过滤和分词处理,然后在预设的多个规则块中并行地运行信息匹配,对文本页面抽取所需要的实体关系;步骤三,汇总多个规则块的匹配结果,输出对文本页面的抽取结果。本发明的抽取方法可以应用于单文本和多文本的语句,多个规则块能够同时运行、并行地实施所需的匹配,有效地实现了单文本或者多文本中不同的语句的多级并行处理,从而减少了硬件成本和提升了匹配的速度。
法律状态
法律状态公告日
法律状态信息
法律状态
权 利 要 求 说 明 书
1.一种基于知识图谱查询的并行抽取方法,其特征在于,包括:
步骤一:提取数据源的URL,获取对应的文本页面;
步骤二:对所述文本页面的内容进行过滤和分词处理,然后在预设的多个规则块中并行地运行信息匹配,对所述文本页面抽取所需要的实体关系;
步骤三:汇总多个所述规则块的匹配结果,输出对所述文本页面的抽取结果。
2.如权利要求1所述的基于知识图谱查询的并行抽取方法,其特征在于,所述步骤一中,还包括:
若所述数据源仅具有单个URL,直接获取该单个URL对应的文本页面;若所述数据源具有多个URL,调用爬取程序获得该多个URL分别对应的文本页面。
3.如权利要求1所述的基于知识图谱查询的并行抽取方法,其特征在于,所述步骤二中,对所述文本页面的内容进行过滤的过程包括:
根据不同的属性和语义设置若干个筛选词,遍历每一句所述文本页面的内容,比较每一句所述文本页面的内容所包含的实体词与所述筛选词的相似度,若所述相似度低于阈值,则将若干个所述实体词定义为触发词,若所述相似度等于或高于阈值,则将所述文本页面的内容中与所述筛选词相似的实体词删去。
4.如权利要求3所述的基于知识图谱查询的并行抽取方法,其特征在于,所述步骤二中,对所述文本页面进行分词处理的过程包括:
对若干个所述触发词进行分类,每一类所述触发词对应唯一的词性标签。
5.如权利要求4所述的基于知识图谱查询的并行抽取方法,其特征在于,所述步骤二中,所述信息匹配的过程包括:
设置关键词及所述关键词的类别标签,先将所述触发词的词性标签与所述关键词的类别标签进行匹配,若匹配度等于或高于阈值,再将所述触发词与所述关键词进行匹配,并将匹配成功的所述触发词标注为目标词。
6.如权利要求5所述的基于知识图谱查询的并行抽取方法,其特征在于,所述步骤二中,还包括:
对所述关键词基于语义相似度进行同义拓展,再将所述触发词与同义拓展的关键词进行匹配。
7.如权利要求5所述的基于知识图谱查询的并行抽取方法,其特征在于,所述步骤三中,汇总多个所述规则块的匹配结果的过程包括:
对于匹配成功的所述关键词,对所述关键词的匹配次数加1,再对若干个所述关键词按匹配次数进行排序,形成规则集。
8.如权利要求1所述的基于知识图谱查询的并行抽取方法,其特征在于,所述步骤二中,还包括:
在预设的多个规则块中调用自建程序和/或自动程序并行地运行信息匹配,所述自建程序采用构建的正则表达式进行信息匹配,所述自动程序采用构建的搜索表达式进行信息匹配。

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。