高校就业信息平台的垂直搜索引擎实现
摘要:利用开源软件lucene工具包实现一个基于垂直搜索的高校就业信息平台,为大学生就业提供专业对口、内容全面、权威准确的就业信息,大力促进高校毕业生的就业。
关键词:lucene 垂直搜索 就业
1 概述
近年来,随着高校扩招规模的逐年加大,毕业生数目也随之水涨船高,各大城市招聘市场的火爆场面更是让众多的毕业生望而生畏。通过网络平台发布就业/招聘信息越来越受到大学生和企业双方的重视。本文采用开源工具包lucene实现了一个基于b/s模式的高校就业信息平台,为大学生提供专业对口、信息准确、实时高效、可以设定就业地域/薪酬水平等等的垂直搜索服务。
2 高校就业信息平台的总体框架
本系统包括以下模块:
2.1 信息采集模块 本模块采用网络蜘蛛自动采集网页信息,获取与招聘信息有关的网页,并对这些网页进行
存储,之后运用信息抽取技术,提取出网页的结构化信息,如招聘企业的地址、工作类别、工资待遇、相关要求等,并将这些数据存入数据库当中,为用户提供查询和检索信息。
2.2 数据库管理模块 本平台主要包括两个数据库。网页采集数据库:用于存储网络蜘蛛已经采集到的网页信息,已经发现但是还没有遍历的新url列表,网页权值的存储以及索引和数据字典信息存储等等。信息数据库:用于存储所有招工单位的基本信息。包括企业名称、地址、电话、招工岗位、薪酬、和其他具体要求等等。
2.3 信息检索显示模块 此模块是用户和该平台的一个信息交互窗口,给用户提供最终的查询结果,同时还提供了供用户选择的查询方式。用户可以根据自己的需要选择查询方式和显示方式,最终在此模块中对用户展现结果。
3 系统实现
3.1 网页信息抓取 在本环节中,系统使用元搜索引擎根据用户输入的关键字获取相关的内容,然后派出网络蜘蛛抓取相关的网页,经过一系列的处理以后存入索引库以供以后的查询使用。
为了保证检索精度,对抓取网页的hits算法进行了改进。描述如下:第一步:初始化,把网页的authority
值和hub权值初值都设为1;第二步:按照规则,把所有链接的authorityhub权值计算出来;第三步:按照下面的公式进行计算,直到收敛。ai=hj*authority ji
3.2 使用如下正则达式来限制网络蜘蛛的爬行范围:
#accept hosts in .domainbeaccept.name
+ttp//[a-z0-9]*.*招聘网站url
3.3 页面信息分析 常见的就业招聘信息网页都是通
过类似于表格的结构化形式对招聘信息进行描述的。针对网页的html源码使用如下算法抽取单位信息:第一步:去掉html中的标记和网页描述符号,得到网页中描述招工单位的具体内容的词语或词组,采用分隔符将这些词隔开。这样在网页html描述中就只剩下“单位”、“职位”、“工资”、“日期”、“兼职”等字段。第二步:根据网页中的注释符号将网页中说明程序功能的注释提取出来,将这些注释与招工单位的一些描述性文字进行比对,得到招工单位的一些信息。第三步:本平台中的招工信息数据库中存储了一些相关的职位信息字段,把从网页中获取到的相关字段和上述数据库中的字段进行比对和分析,可以获得比较良好的匹配度。第四步:根据前面的比较得到匹配字段后,按照顺序取出这些匹配字段:如“联想集团、销售人员、3000/月、20
10-12-8”作为相应字段的值存入数据库中。第五步:将前四步循环,当遇到下一个代码“!”时停止。第六步:上述环节结束后将网页的url添加到数据库中,然后由人工的方式进行处理。在本平台运行的过程中,可以实现动态调整。在试运行阶段发现,如果用户输入的关键字和数据库中的相关字段匹配程度较高,本平台可以实现高达90%以上的查询精确度。
3.4 建立系统索引 本文使用如下方法建立系统索引:①读取招聘信息数据库中的内容,然后创建一个实现了与数据库链接方法和读取数据库内容方法的类。②创建高校学生就业平台和lucene的交互接口。③为存储高校学生就业单位的数据库建立索引。
3.5 信息检索 本平台获取到用户输入的查询关键字后,通过lucene接口将关键字提交给查询分析器,查询分析器将关键字分析转换成基本的关键字的逻辑组合用来执行搜索过程,检索结束后返回一个命中集。用户在进行检索的时候可以选择查询范围和条件。
4 总结
本论文使用开源工具包lucene实现了高校就业信息平台。通过使用垂直搜索技术实现了对大学生就业信息专业化、高精度的深入检索,避免了通用搜索引擎宽泛的缺陷,给大学生就业提供了一个专业对口、信息实时、准确、全面的搜索工具。
参考文献:
[1]陈向东.宠物用品垂直搜索引擎研究与设计[m].西北农林科技大学,2010.
[2]苗海.基于聚类算法的垂直搜索引擎技术研究,北京信息科技大学学报,2013.
[3]郭姣.基于webgis的五金产业信息搜索系统的设计与实现[m].正则匹配到第一个关键字就停止山西财经大学,2011.
[4]冯效栋.垂直搜索引擎技术在网络舆情巡控中的研究与应用[m].中国海洋大学,2010.

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。