(19)中华人民共和国国家知识产权局
(12)发明专利说明书
(10)申请公布号 CN 107122403 A
(43)申请公布日 2017.09.01
正则匹配后缀后
(21)申请号 CN201710174575.9
(22)申请日 2017.03.22
(71)申请人 安徽大学
    地址 230000 安徽省合肥市肥西路3号
(72)发明人 赵姝 谭世成 陈洁 陈喜 唐杰 张燕平
(74)专利代理机构 合肥市长远专利代理事务所(普通合伙)
    代理人 刘勇
(51)Int.CI
     
                                                                  权利要求说明书 说明书 幅图
(54)发明名称
      一种网页学术报告信息抽取方法和系统
(57)摘要
      本发明公开了一种网页学术报告信息抽取方法和系统,包括:将学术报告网页html标签和学术报告的内容开头替换为对应的固定表示标记,根据相邻两个固定表示标记对学术报告进行分割,得到初步分割结果集合;删除初步分割结果集合中匹配预设黑名单的初步分割结果,得到有效分割结果集合;获取有效分割结果集合中各有效分割结果的开头位置和结尾位置,根据所述开头位置和结尾位置合并提取各有效分割结果对应的属性内容;当属性出现重复,根据属性排列方式将不同属性对应的属性内容分配到相应的学术报告中,并将多个报告中出现且仅出现一次的属性添加到本网页其他报告中;获取学术报告的报告人信息和时间并匹配到学术报告中报告人信息和时间中。
法律状态
法律状态公告日
法律状态信息
法律状态
权 利 要 求 说 明 书
1.一种网页学术报告信息抽取方法,其特征在于,包括:
S1、将学术报告网页html标签和学术报告的内容开头替换为对应的固定表示标记,并根据相邻两个固定表示标记对学术报告进行分割,得到初步分割结果集合;
S2、删除初步分割结果集合中匹配预设黑名单的初步分割结果,得到有效分割结果集合;
S3、获取有效分割结果集合中各有效分割结果的开头位置和结尾位置,再根据各有效分割结果的开头位置和结尾位置合并提取出各有效分割结果对应的属性内容;
S4、判断步骤S3中属性是否出现重复,当判断结果为是时,根据属性排列方式将不同属性对应的属性内容分配
到相应的学术报告中;
S5、获取学术报告的报告人信息和时间并匹配到学术报告中报告人信息和时间中。
2.根据权利要求1所述的网页学术报告信息抽取方法,其特征在于,步骤S1,具体包括:将html转义字符还原,并将表示开始、结束标记的html代码替换为表示结尾的固定表示标记;依次替换题目、报告人、时间、地点、报告人简介、报告简介、主办单位的内容开头标识为相应的固定表示标记;
优选地,在步骤S1中,所述固定表示标记代表的标记类别是唯一的。
3.根据权利要求1所述的网页学术报告信息抽取方法,其特征在于,在步骤S2中,所述黑名单为一组模糊匹配方法的集合,黑名单包括所有属性适用黑名单和单一属性适用黑名单,其中,所述属性为目标学术报告中一段内容的类别特征;
优选地,在步骤S3中,所述获取有效分割结果集合中各有效分割结果的开头位置和结尾位置,具体包括:有效分割结果起始位置为有效分割结果的开头位置,有效分割结果中连续空白内容出现次数达到预设次数的位置为有效分割结果的结尾位置。
4.根据权利要求1所述的网页学术报告信息抽取方法,其特征在于,步骤S4中,所述判断步骤S3中属性是否出现重复,其中所述属性不包括举办单位;
优选地,步骤S4中,在根据属性排列方式将不同属性对应的属性内容分配到相应的学术报告中之后,还包括:当某个属性在多个学术报告中出现且仅出现一次时,将此属性添加到其他学术报告中。
5.根据权利要求1所述的网页学术报告信息抽取方法,其特征在于,步骤S5,具体包括:
根据已有报告人职称生成一个对应列表,将列表按职称词语包含与被包含的顺序由高职位到低职位的顺序进行排序,再根据职称生成的对应列表在报告人和报告人简介中提取出职称最高的作为此报告职称并匹配到报告人信息中;
利用分词算法和正则匹配方法分离出报告人、报告人简介中的机构,并结合相关的、正确的前缀、后缀作为此报告的报告人单位并匹配到报告人信息中;
利用分词算法和正则匹配方法分离出报告人、报告人简介中的名字,作为此报告的报告人姓名并匹配到报告人信息中;
按照预设策略将报告时间补充为UTC时间并匹配到报告人信息中,其中,预设策略包括:获取学术报告对应机构的最新的时间记为最新时间,对所述最新时间出现不规范的时间进行规范化,将12小时进制转化为24小时进制,并按照从整体到部分的捕获策略得到精准的年月日时分,当学术报告原数据没有年份,则使用发布时间中的年份,当发布时间中没有年份,则看最新时间是否为空,若不为空则取最新时间的年份,否则放入没有年份的等待队列,当报告至少具有年月日,则将此时间赋值给所述的最新时间,并查看所述的没有年份的等待队列,若其中不为空,则补上年份并从队列中去除,其他情况不处理;当开始时间缺失时分、结束时间缺失年月日时分的情况时,进行大致偏好时间的填补。
6.一种网页学术报告信息抽取系统,其特征在于,包括:
替换分割模块,用于将学术报告网页html标签和学术报告的内容开头替换为对应的固定表示标记,并根据相邻两个固定表示标记对学术报告进行分割,得到初步分割结果集合;
黑名单模块,用于删除初步分割结果集合中匹配预设黑名单的初步分割结果,得到有效分割结果集合;
内容提取模块,用于获取有效分割结果集合中各有效分割结果的开头位置和结尾位置,再根据各有效分割结果的开头位置和结尾位置合并提取出各有效分割结果对应的属性内容;
报告分类模块,用于判断内容提取模块中属性是否出现重复,当判断结果为是时,根据属性排列方式将不同属性对应的属性内容分配到相应的学术报告中;
内容补充模块,获取学术报告的报告人信息和时间并匹配到学术报告中报告人信息和时间中。
7.根据权利要求6所述的网页学术报告信息抽取系统,其特征在于,所述替换分割模块,具体用于:将html转义字符还原,并将表示开始、结束标记的html代码替换为表示结尾的固定表示标记;依次替换题目、报告人、时间、地点、报告人简介、报告简介、主办单位的内容开头标识为相应的固定表示标记;

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。