信电1&
China Computer&Communication救据犀初术2021年第2期
基于大数据技术的岗位信息爬取与分析
李连天
(阳江职业技术学院,广东阳江529566)
摘要:随着计算机网络技术的迅速发展,网络招聘信息平台已成为招聘者发布信息和应聘者获取职位的主要途径.大量的网络招聘信息蕴含着用人单位和市场对人才需求的情况,诸如对人才的能力、素质等方面的要求.本文探索使用Scrapy框架爬取Web技术岗位的招聘信息,并使用pandas库进行数据清洗和数据分析,最后使用matplotlib技术进行可视化分析.通过职位分析结果能够帮助求职者了解用人单位的具体情况,高校也可以根据职位分析结果制订人才培养计划。
关键词:爬虫;Web;招聘信息;pandas;Matplot lib
中图分类号:TP311.13-4文献标识码:A文章编号:1003-9767(2021)02-177-04
Crawling and Analysis of Job Information Based on Big Data Technology
LI Liantian
(Yangjiang Polytechnic,Yangjiang Guangdong529566,China)
Abstract:With the rapid development of computer network technology,online recruitment information platforms have become the main way for recruiters to release information and candidates to obtain positions.A large amount of online recruitment information contains the needs of employers and the market for talents,such as the requirements for talents9abil让y and quality.This article explores the use of Scrapy framework to crawl the recruitment information of Web technical positions,and use the pandas library for data cleaning and data analysis,and finally use matplotlib technology for visual analysis.The job analysis results can help job seekers understand the specific situation of the employer,and universities can also formulate talent training plans based on the job analysis results.
Keywords:crawler;Web;recruitment information;pandas;Matplotlib
0引言
随着互联网技术的迅速发展,网上信息呈爆发式增长。数据库中以文本形式存储的信息越来越多,包含各种数据源的文本,如研究报告、研究论文、数字图书馆、和页面等。企业一般会把人才招聘
信息发布到互联网上,这些招聘信息含有用人单位对人才的需求及能力要求,在一定程度上代表了人才需求的未来走向「1。本文主要探索利用现代技术手段从互联网上获取人才招聘信息,分析用人单位对人才的需求特点,能够帮助高校及时了解社会对人才的需求变化情况,进而针对性地调整人才培养方案和设置相关课程,同时也能帮助应聘者从网络上获取招聘信息,做好求职前的准备工作。
1数据获取与分析设计
1.1数据获取与分析设计流程
本文采用爬虫技术获取网络招聘信息,并对获取的岗位招聘信息进行分析,主要分为爬虫、数据清洗和数据分析可视化。
1.2爬虫模块设计流程
爬虫系统模块包括Fidder抓包、解析网页文本、Scrapy框架爬取和Mysql爬虫数据保存。爬虫模块设计流程如图1所示。
作者简介:李连天(1977-),男,广西玉林人,硕士研究生,副教授。研究方向:算法分析、数据库技术、大数据等。
2021年第2期
”与电■
China Computer & Communication
数据清洗流程模块用于将sql 格式转化为xlsx 格式,
并进行数据清洗,如图2所示。
图2數据清洗
1.4数据可视化分析模块设卄
根据词云、企业类型比例、公司规模数量、学历与工资 关系、工作经验等进行数据可视化分析,如图3所示。
图3数据可视化分析内容
2关键技术分析2.1爬虫技术
网站为了防止爬虫带来的服务器过载,或多或少会对爬 虫进行限制。最有效的反爬措施是对爬虫IP 进行限制。本项
目遇到的最大问题就是网站会限制同一 IP 进行频繁访问,爬 虫过程中经常会出现爬虫失败。
本文在爬取招聘网站的岗位招聘信息时,所用的工具
(技术)如下:集成环境pycharm 、数据库MySQL 、抓包
工具Fiddler 、scrapy 爬虫框架技术和信息抓取scrapy 内置的
Selector 技术等。首先,进入招聘网站搜索关键岗位信息, 以”Web ”为例,到Web 岗位信息,采用抓包工具Fiddler
进行抓包,抓取信息以XML 的格式进行传输,将这个数据
包的链接复制下来即可进行爬虫。其次,创建scrapy 爬虫框架, 用scrapy 内置Selector (iq )ath )对网页文本进行解析。最后,
将爬取的内容保存到mysql 数据库中。
2.2数据清洗
爬取的数据存在一些不规范的数据,会影响分析结果,
需要对不规范的数据进行清洗。为了方便数据清洗和数据可 视化,本文从My$ql 中只提取了招聘名称、公司名称、学历、
待遇等信息。第一步,数据清洗工具采用Python 第三方库
pandas 、numpy 和re 。第二步,剔除重复的数据。第三步,
提取包含所需数据的岗位。爬虫时可能会爬取其他岗位的信 息,所以需要清理不需要的数据,例如:Web 岗位的数据可
能混有python 、java 岗位的数据,需要去除无关数据。第四步, 为了方便和防止数据统计出错,需要对空值进行填充或删除。
第五步,对数据进行规范化操作。例如,与待遇相关的数据, 有的是千元/月,有的是万元/月,也有字符,如果不 进行规范化,无法进行统计分析和可视化操作。为了规范数
据,只取最低工资和最高工资,删除原来的工资表,替换为
2021年第2期
信■与电Ifi
China Computer&Communication
數据库較术
最低工资和最高工资。数据清洗完成后如表1所示。
表1数据表
id obname coname degree cityname workyear welfere salary cotype cosize
1Web前
端端
浙江东方
网络有限
公司
2Web工广东嘉盛程师有限公司
3Web开上海亿鑫
发工程科技有限
师公司
2
杭州
大专广州
上海
五险
一金
茶貸上市公司50-100
罗;冒民营企业少于50
1.5-1.8
万/月
合资50-150
2.3数据可视化
使用matplotlib技术分析数据,进行数据可视化分析。本项目通过对企业类型、企业规模、平均工资、工作经验能数据进行分析,能够全面了解Web行业的前景和人才需求情况。
2.3.1企业类型
根据企业类型数据进行分析,各企业类型占比如图4所示,从中可以看岀招聘Web岗位的企业一般是民营企业。
2.3.2公司规模
招聘Web前端岗位的企业一般只有50~150人,如图5所示。
图5公司规模2.3.3学历对应的平均工资
根据Web岗位数据中的每月最低工资和最高工资求平均值,得出某个职位的平均工资。从图6可以看出,学历越高工资越高,不同层次的人才有明显的差别。
图6不同学历对应的平均工资(千元/月)
2.3.4工作经验对岗位的需求情况分析
对有工作经验要求的岗位进行统计分析,分析结果如图7所示。大部分的Web岗位不限经验,说明Web岗位对学历的要求并不高,门槛不高,但如果有工作经验会更受企业欢迎。
工作经验/年
图7工作经验要求情况
235岗位职责和岗位要求分析
针对岗位职责和要求提取出现次数多的词汇,用词云技术进行分析,分析结果生成的云词出现频率高的有Web、前端、前端开发、开发等词汇。
3结语
本文主要探索利用大数据技术手段从互联网上爬取招
數据库敎术
2021年第2期
信■与兔IB
China Computer & Communication
聘信息的岗位信息,对岗位信息进行数据清洗和处理,然 后通过matplotlib 技术对数据进行统计分析。数据可视化能
够宜观反映用人单位对人才的需求特点,有助决策层领导 直观了解人才的需求情况,帮助高校及时了解社会对人才
的需求情况,并有针对性地调整人才培养方案和设置相关 课程。
参考文献
[1]钟晓旭,胡学钢.基于数据挖掘的Web 招聘信息
相关性分析[J].安徽建筑工业学院学报(自然学科
版),2010,18(4):23-45.
[2] 王静.Web 对象的信息抽取的关键技术研究[D],西安:西
安电子科技大学,2011.
[3] 刘大成.Python 数据可视化之matplotlib 实践[M].北京:
电子工业出版社,201&
[4] 刘玉华,陈建国,张春燕•基于数据挖掘的国内大学生
web技术的三个关键技术就业信息双向推荐系统[J].沈阳大学学报(自然科学
版),2015,27(3):226-232.
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论