(19)中华人民共和国国家知识产权局
(12)发明专利说明书 | ||
(10)申请公布号 CN 109948120 A (43)申请公布日 2019.06.28 | ||
(21)申请号 CN201910260863.5
(22)申请日 2019.04.02
(71)申请人 深圳市前海欢雀科技有限公司
地址 518000 广东省深圳市前海深港合作区前湾一路1号A栋201室(入驻深圳市前海商务秘书有限公司)
(72)发明人 钟实 陈少燕 潘志锋
(74)专利代理机构 北京科亿知识产权代理事务所(普通合伙)
代理人 汤东凤
(51)Int.CI
权利要求说明书 说明书 幅图 |
(54)发明名称
一种基于二元化的简历解析方法 | |
(57)摘要
本发明公开了一种基于二元化的简历解析方法包括:批量读入简历;把批量读入简历的转换成HTML以及TXT文本格式;判断转换成HTML格式的简历是否可以套用简历精确识别模板;根据正则表达式的方法,利用XPATH对转化成HTML文本格式的简历信息进行解析,并对解析后的简历信息进行评分,判断是否高于预定义的阈值;利用TensorFlow构建的BI‑LSTM‑CRF机器学习模型进行简历信息命名实体提取;利用标签字典及结合命名实体提取识别出简历信息,进行简历信息各个板块切割;遍历各个简历板块内容,利用数据链表存储提取出的简历信息内容;将经过简析的简历信息用JSON或XML结构化数据进行存储。本发明可以在有限的简历样本的基础上,实现对简历信息的精准识别。 | |
法律状态
法律状态公告日 | 法律状态信息 | 法律状态 |
2023-03-14 | 授权 | 发明专利权授予 |
权 利 要 求 说 明 书
1.一种基于二元化的简历解析方法,其特征在于,其包括:step1,批量读入简历;step2,把批量读入简历的转换成HTML以及TXT文本格式;Step3,判断转换成HTML文本格式的简历信息是否可以套用简历精确识别模板,如果可以就跳到Step4,如果不可以就跳到Step5;Step4,根据正则表达式的方法,利用XPATH对转化成HTML文本格式的简历信息进行解析,并对解析后的简历信息进行评分,判断是否高于预定义的阈值,若评分高于预定义的阈值,则跳到Step8,若评分低于预定义的阈值,则跳转到Step5;Step5,利用TensorFlow构建的BI-LSTM-CRF机器学习模型进行简历信息命名实体提取;Step6,利用标签字典及结合命名实体提取识别出简历信息,进行简历信息各个板块切割;Step7,遍历各个简历板块内容,利用数据链表存储提取出的简历信息内容;Step8,将经过简析
的简历信息用JSON或XML结构化数据进行存储。
2.根据权利要求1所述的一种基于二元化的简历解析方法,其特征在于,在step1中,通过提供WEB接口形式,接受经HTTP POST请求传入的简历信息。
3.根据权利要求2所述的一种基于二元化的简历解析方法,其特征在于,所述简历信息为单个简历文件时,则读取指定目录内的所述单个简历文件。
4.根据权利要求2所述的一种基于二元化的简历解析方法,其特征在于,所述简历信息为批量简历压缩包时,则读取指定目录内的所述批量简历压缩包,调用相关解压程序,将所述批量简历压缩包发送到解压的队列中进行解压。
5.根据权利要求1所述的一种基于二元化的简历解析方法,其特征在于,在step2中,利用文本转换工具Libreoffice及PDF to TXT分别将简历源文档转换成HTML以及TXT文本格式。
6.根据权利要求5所述的一种基于二元化的简历解析方法,简历源文档为MHT、docx、doc或者PDF文本格式。
7.根据权利要求1所述的一种基于二元化的简历解析方法,其特征在于,在step5中,采用Python语言下包含GPU加速的TensorFlow版本。
8.根据权利要求1所述的一种基于二元化的简历解析方法,其特征在于,在step5中,基于BI-LSTM-CRF的模型构造一个混合了大量不同类型的简历信息的语料标注库,其采用人工或者半自动方式标注语料库,基于标注好的语料库,生成一个训练模型,在这个训练模型中,采用类似双层长短记忆网络(BI-LSTM)来表示每个词,这个词向量由两部分合并,一部分是基于中文维基语料库并利用GloVe训练的出来的词向量
另一部分,是字符级别的向量
该训练模型的下面一层是CRF层,进行句子级的序列标注,通过挖掘词与相邻词的标识的相互影响关系。
9.根据权利要求1所述的一种基于二元化的简历解析方法,其特征在于,在step6中,各个板块包括基本信息、求职意向、自我评估、教育经历、工作经历、项目经验、实习经历、培训经历和语言能力。
正则匹配前半部分到某个字符结束说 明 书
<p>技术领域
本发明涉及的是简历解析方法,具体而言,尤其涉及一种基于二元化的简历解析方法。
背景技术
简历解析,可以归类为自然语言处理(NaturalLanguageProcessing)的一个任务集,其中一个重要部分是命名实体识别(NER),在简历分析的任务,需要识别出待处理简历文本中包括:人名,邮件地址,电话号码,籍贯,教育经历中的学校、专业、日期,工作经历中的职位、公司名称、日期等各种信息。
现有技术中的同类简历解析技术,主要有如下几种方式:(1)专利CN105787047A公开的一种简历信息的抽取解析转换方法,其包括计算机读入存放简历的文件路径,读取文件流,抽取出文本内容,输出一个大文本字符串,读入抽取的大文本字符串,进行解析,将解析出的简历信息组成简历信息模型;(2)专利CN107145584A公开了一种基于ngram模型的简历解析方法,该方法为:预先收集简历样本,将常用字段关键词划分为不同类别形成分类词典,采用ngram模型统计出每一常用字段关键词转变到各样本关联词的转移概率,查待解析简历中与常用字段关键词相匹配的目标关键词,如果目标关键词对应的转移概率大于预定阈值,根据目标关键词更新每一常用字段关键词对应的转移概率,并对待解析简历中的有效关键词增加前缀标注和后缀标注,对待解析简历的文本内容进行分段提取并输出;(3)专利CN107392143A公开了一种基于SVM文本分类的简历精确解析方法,其包括:一、在framework下操作Microsoftoffice,将各种格式的简历文件转换为PDF格式,再由PDF转换为xml
格式文件;二、提取xml格式下各简历文本行的标签并生成相应的特征向量;三、对各简历文本行进行标注,根据标注值和各简历文本行对应的特征向量采用SVM进行分类训练,得到分类器;四、根据得到的分类器对各简历进行切割,并分块解析提取信息,从而完成各简历的精确解析。
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论