(19)中华人民共和国国家知识产权局
(12)发明专利申请
(10)申请公布号 (43)申请公布日 (21)申请号 201910355419.1
(22)申请日 2019.04.29
(71)申请人 毕昀
地址 100025 北京市朝阳区慈云寺桥远洋
国际E座25层
(72)发明人 毕昀 
(74)专利代理机构 北京一品慧诚专利代理事务
所(普通合伙) 11762
代理人 黄岳巍
(51)Int.Cl.正则匹配关键词
G06F  16/958(2019.01)
G06F  17/24(2006.01)
(54)发明名称网站简历自动解析方法、计算机设备和存储介质(57)摘要本发明提供一种网站简历自动解析方法、计算机设备和存储介质,所述方法包括以下步骤:S1,将网站简历转化成XML简历文本;S2,通过正则表达式将所述XML简历文本拆分成基本信息块和复杂信息块;当没有可识别的关键字时,则将XML简历文本的前3-15行文本作为基本信息块,而其余文本作为复杂信息块;S3,将基本信息块转换成TXT文本,通过自然语言处理对TXT文本进行解析,得到包括姓名、性别、年龄、籍贯和职业中一种或多种的基本信息要素,并将其填入相应的简历模板;和S4,采用XML路径语言对复杂信息块进行切割,得到教育经历子块、工作经历子块和项目经历子块,从教育经历子块、工作经历子块和项目经历子块提取信息,并将其填入相对应
的简历模板。权利要求书2页  说明书5页  附图1页CN 110222292 A 2019.09.10
C N  110222292
A
权 利 要 求 书1/2页CN 110222292 A
1.一种网站简历自动解析方法,所述方法包括以下步骤:
S1,将网站简历转化成XML简历文本;
S2,通过正则表达式对关键字进行识别以寻切分点,进而将所述XML简历文本拆分成基本信息块和复杂信息块;
当没有可识别的关键字时,则将所述XML简历文本的前3-15行文本作为基本信息块,而其余文本作为复杂信息块;
S3,将所述基本信息块转换成TXT文本,通过自然语言处理对所述TXT文本进行解析,得到包括姓名、性别、年龄、籍贯和职业中一种或多种的基本信息要素,并将其填入相应的简历模板;和
S4,采用XML路径语言对所述复杂信息块进行切割,得到教育经历子块、工作经历子块和项目经历子块,从所述教育经历子块、所述工作经历子块和所述项目经历子块提取信息,并将其填入相应的简历模板。
2.根据权利要求1所述的网站简历自动解析方法,其中,所述步骤S1中所述的网站简历是通过互联网超文本传输协议从诸
如猎聘网、中华英才网、脉脉网、领英网和各地区人才网的包括人才简历的网站得到的。
3.根据权利要求1或2所述的网站简历自动解析方法,其中,所述步骤S2还包括:S201,建立关键词库;
优选地,所述关键词库中的关键词包括:教育背景、教育经历、工作经历、工作经验、培训经历、项目经历、项目经验、自我评价、职业意向、求职意向、期望行业、期望职能、期望地点、期望年薪和语言能力。
4.根据权利要求1或2所述的网站简历自动解析方法,其中,所述步骤S2包括:
S201,建立关键词库;和
S202,基于所述关键词库,通过正则表达式从所述XML简历文本中检索相匹配的文本,将所述XML简历文本中先出现的、所述关键词库中的任一关键词作为切分点,进而将所述XML简历文本拆分成基本信息块和复杂信息块;
优选地,所述关键词库中的关键词包括:教育背景、教育经历、工作经历、工作经验、培训经历、项目经历、项目经验、自我评价、职业意向、求职意向、期望行业、期望职能、期望地点、期望年薪和语言能力。
5.根据权利要求1至4中任一项所述的网站简历自动解析方法,其中,所述步骤S2中,当没有可识别的关键字时,则将所述XML简历文本的前5-10行文本作为基本信息块,将其余部分文本作为复杂信息块。
6.根据权利要求1至5中任一项所述的网站简历自动解析方法,其中,所述步骤S3中所述的TXT文本不包括XML格式标记。
7.根据权利要求1至6中任一项所述的网站简历自动解析方法,其中,所述步骤S3中是通过自然语言处理工具包对所述TXT文本进行解析的。
8.一种计算机设备,所述设备包括处理器和存储器,其中,所述存储器用于存储计算机指令,所述处理器用于运行所述存储器存储的计算机指令,以实现权利要求1至7中任一项所述的网站简历自动解析方法。
9.一种计算机可读的存储介质,所述存储介质存储有一个或者多个程序,所述一个或
2

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。