一种网页学术报告信息抽取方法和系统--688IT编程网

(19)中华人民共和国国家知识产权局

	(12)发明专利说明书
		(10)申请公布号 CN 107122403 A (43)申请公布日 2017.09.01 正则匹配后缀后

(21)申请号 CN201710174575.9

(22)申请日 2017.03.22

(71)申请人安徽大学

地址 230000 安徽省合肥市肥西路3号

(72)发明人赵姝谭世成陈洁陈喜唐杰张燕平

(74)专利代理机构合肥市长远专利代理事务所(普通合伙)

代理人刘勇

(51)Int.CI

权利要求说明书说明书幅图

(54)发明名称

一种网页学术报告信息抽取方法和系统

(57)摘要

本发明公开了一种网页学术报告信息抽取方法和系统，包括：将学术报告网页html标签和学术报告的内容开头替换为对应的固定表示标记，根据相邻两个固定表示标记对学术报告进行分割，得到初步分割结果集合；删除初步分割结果集合中匹配预设黑名单的初步分割结果，得到有效分割结果集合；获取有效分割结果集合中各有效分割结果的开头位置和结尾位置，根据所述开头位置和结尾位置合并提取各有效分割结果对应的属性内容；当属性出现重复，根据属性排列方式将不同属性对应的属性内容分配到相应的学术报告中，并将多个报告中出现且仅出现一次的属性添加到本网页其他报告中；获取学术报告的报告人信息和时间并匹配到学术报告中报告人信息和时间中。

法律状态

法律状态公告日	法律状态信息	法律状态

权利要求说明书

1.一种网页学术报告信息抽取方法,其特征在于,包括:

S1、将学术报告网页html标签和学术报告的内容开头替换为对应的固定表示标记,并根据相邻两个固定表示标记对学术报告进行分割,得到初步分割结果集合;

S2、删除初步分割结果集合中匹配预设黑名单的初步分割结果,得到有效分割结果集合;

S3、获取有效分割结果集合中各有效分割结果的开头位置和结尾位置,再根据各有效分割结果的开头位置和结尾位置合并提取出各有效分割结果对应的属性内容;

S4、判断步骤S3中属性是否出现重复,当判断结果为是时,根据属性排列方式将不同属性对应的属性内容分配

到相应的学术报告中;

S5、获取学术报告的报告人信息和时间并匹配到学术报告中报告人信息和时间中。

2.根据权利要求1所述的网页学术报告信息抽取方法,其特征在于,步骤S1,具体包括:将html转义字符还原,并将表示开始、结束标记的html代码替换为表示结尾的固定表示标记;依次替换题目、报告人、时间、地点、报告人简介、报告简介、主办单位的内容开头标识为相应的固定表示标记;

优选地,在步骤S1中,所述固定表示标记代表的标记类别是唯一的。

3.根据权利要求1所述的网页学术报告信息抽取方法,其特征在于,在步骤S2中,所述黑名单为一组模糊匹配方法的集合,黑名单包括所有属性适用黑名单和单一属性适用黑名单,其中,所述属性为目标学术报告中一段内容的类别特征;

优选地,在步骤S3中,所述获取有效分割结果集合中各有效分割结果的开头位置和结尾位置,具体包括:有效分割结果起始位置为有效分割结果的开头位置,有效分割结果中连续空白内容出现次数达到预设次数的位置为有效分割结果的结尾位置。

4.根据权利要求1所述的网页学术报告信息抽取方法,其特征在于,步骤S4中,所述判断步骤S3中属性是否出现重复,其中所述属性不包括举办单位;

优选地,步骤S4中,在根据属性排列方式将不同属性对应的属性内容分配到相应的学术报告中之后,还包括:当某个属性在多个学术报告中出现且仅出现一次时,将此属性添加到其他学术报告中。

5.根据权利要求1所述的网页学术报告信息抽取方法,其特征在于,步骤S5,具体包括:

根据已有报告人职称生成一个对应列表,将列表按职称词语包含与被包含的顺序由高职位到低职位的顺序进行排序,再根据职称生成的对应列表在报告人和报告人简介中提取出职称最高的作为此报告职称并匹配到报告人信息中;

利用分词算法和正则匹配方法分离出报告人、报告人简介中的机构,并结合相关的、正确的前缀、后缀作为此报告的报告人单位并匹配到报告人信息中;

利用分词算法和正则匹配方法分离出报告人、报告人简介中的名字,作为此报告的报告人姓名并匹配到报告人信息中;

按照预设策略将报告时间补充为UTC时间并匹配到报告人信息中,其中,预设策略包括:获取学术报告对应机构的最新的时间记为最新时间,对所述最新时间出现不规范的时间进行规范化,将12小时进制转化为24小时进制,并按照从整体到部分的捕获策略得到精准的年月日时分,当学术报告原数据没有年份,则使用发布时间中的年份,当发布时间中没有年份,则看最新时间是否为空,若不为空则取最新时间的年份,否则放入没有年份的等待队列,当报告至少具有年月日,则将此时间赋值给所述的最新时间,并查看所述的没有年份的等待队列,若其中不为空,则补上年份并从队列中去除,其他情况不处理;当开始时间缺失时分、结束时间缺失年月日时分的情况时,进行大致偏好时间的填补。

6.一种网页学术报告信息抽取系统,其特征在于,包括:

替换分割模块,用于将学术报告网页html标签和学术报告的内容开头替换为对应的固定表示标记,并根据相邻两个固定表示标记对学术报告进行分割,得到初步分割结果集合;

黑名单模块,用于删除初步分割结果集合中匹配预设黑名单的初步分割结果,得到有效分割结果集合;

内容提取模块,用于获取有效分割结果集合中各有效分割结果的开头位置和结尾位置,再根据各有效分割结果的开头位置和结尾位置合并提取出各有效分割结果对应的属性内容;

报告分类模块,用于判断内容提取模块中属性是否出现重复,当判断结果为是时,根据属性排列方式将不同属性对应的属性内容分配到相应的学术报告中;

内容补充模块,获取学术报告的报告人信息和时间并匹配到学术报告中报告人信息和时间中。

7.根据权利要求6所述的网页学术报告信息抽取系统,其特征在于,所述替换分割模块,具体用于:将html转义字符还原,并将表示开始、结束标记的html代码替换为表示结尾的固定表示标记;依次替换题目、报告人、时间、地点、报告人简介、报告简介、主办单位的内容开头标识为相应的固定表示标记;

688IT编程网

一种网页学术报告信息抽取方法和系统

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符回溯引用和前后查匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式选择题

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

688IT编程网

一种网页学术报告信息抽取方法和系统

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符 回溯引用和前后查 匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式 选择题

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

java正则表达式选择题

非零金额正则表达式

基本的元字符回溯引用和前后查匹配模式

java正则表达式选择题

非零金额正则表达式