2021.2
作者简介:宋超(1983-),男,硕士,讲师,研究方向:网络安全技术。
1概述
市场调研是高职院校专业建设的基础,浏览招聘
网站是获取市场情况、岗位信息最为快捷的途径,但随着招聘信息越来越多,获取和分析这些信息变成了一件难事。Python 语言作为一种当前最为流行的数据分析语言,有着简单易学、面向对象、可扩展、库丰富等特点。
2Python 爬虫工具获得“招聘网”信息
以某知名招聘网站为例,以地点“无锡”,岗位
“计算机/互联网/通信”。利用Python 程序爬取招聘网站的岗位信息,程序如下ceshi.py。
import requests #导入第三方模块requests 库
ptions import RequestException import re #导入正则表达式库
def get_one_page(url,headers):#加载页面的函数try://尝试进行页面访问
response =(url,headers =headers)#设置访问http 头部
except RequestException:#出现异常情况return None #不返回值def parse_one_page(html):
pattern=repile('<spaclass="name">(.*?)</span>',re.S)#设置正则表达式定位网页中爬取数据的位置,爬#取岗位的地理位置和岗位名称
items =re.findall(pattern,html)#使用正则表达式进#行筛选
print(items)#打印出筛选的结果def main():#主函数
for num in range(1,29):#设置抓取的页面数量
url ='XX.XX/tech/pn'+str (num)+'/?
PGTID=0d303655-0005-dab7-e124-225e44
bd36b8&ClickID=3'#浏览器访问网页的URL 和变量#num 进行拼接,形成新的URL
user_agent ='Mozilla/4.0(compatible;MSIE 5.5;Windows NT)'#设置访问的浏览器类型
headers ={'User-Agent':user_agent}#设置http #代理的头部信息
html=get_one_page(url,headers)#调用访问网页#的函数get_one_page()
parse_one_page(html)#调用获取网页信息函数#parse_one_page
if _name_=='_main_':#主程序入口
main()#调用main 函数
该代码的原理就是利用循环语句不断构造相似的URL,使得计算机模拟网页访问的过程并自动运行,继而批量的获取网站信息,最后通过Python 中re 模块,
利用正则表达式筛选出需要的数据信息。值得注意的是一些网站存在着一定的防爬机制,如对访问次数进行限制、IP 地址过滤、加入验证码等,因此在上述代码中可以加入time、pillow、thread 等python 工具模块,利用模块的内置方法如设置访问间隔、识别简单的验证码等绕过防爬机制。
运行Python 程序ceshi.py,共抓取957个岗位名称和地理信息,其中岗位名称如下:
[IT 专员,项目经理,移动宽带装维人员,网络运营,计算机硬件工程师,企业服务项目跟进高薪,网络管理员,高薪网络运营主管+单休,软件测试/双休/年底双薪,UI 设计培直招网站推广,技术绘图,社运营,五险一金+双休+IT 维护,诚聘网管3名+管吃住,技术支持/维护,南长宽带装Python 数据工具在高职院校市场调研中的应用
宋超,华臻
(无锡旅游商贸高等职业技术学校,江苏无锡214000)
要:从高职院校市场调研入手,利用Python 爬虫工具获取招聘网上相关岗位信息,并对获得的信息利用Python 数据工具进行筛选和分析,为高职院校的专业建设、课程调整提供了一些有价值的建议。
关键词:Python 语言;数据工具;市场调研
57
2021.2
维+五险一金,急聘网店运营客服,项目质量工程师,品牌策划运营4K+会做图,技术文员,网络管理员,运营推广人员,地下电解水技术业务经理,视频拍摄剪辑,社区运营/8K,物业项目经理+五险包吃,网络管理员,金属工程师,售后安装工程师,星探运营,通信维护工程师......]
类似也可以构造代码抓取每个岗位的具体要求,数据如下:
[[技术支持/维护,薪资面议,(电脑软6硬件维修维护,具有良好的沟通和协调能力,能吃苦耐劳,工作学习主动积极,认真负责!),(不限)],网络运营专员/助理,薪资面议,(6负责粉丝的运营维护,负责数据统计,负责文案编写,无需经验,统一培训~)(不限)],[项目经理/主管,[,薪资面议,(电脑软6硬件维修维营专员/助理,薪资面议,(6负责粉丝的运营维护,负责数据统计,负责文案编写,无需经验,统元/月6,(能够独立完成软件系统代码的实现,编写代码注释和开发文档。有自己的软件作品供考察。能独自开发过APP 和小程序,快递类、旅游类、外语学习类、本地外送商城等相关领域。)(不限)],[技术支持/维护,5000-8000元/月,(处理公司各类数据,熟悉电脑系统......]
3Python 数据工具对“招聘网”信息的挖掘
以下利用Python 中jieba 工具对上文的岗位数据信
息进行分词处理,统计每个分词出现的频率,从而得出每个岗位相应的热度,以及岗位要求的热度情况,程序cipin.py 如下:
import jieba #加载jieba 中文分词模块
txt =open (r"C:\Users\Administrator\Desktop\test\岗位.txt",encoding="utf-8").read()#读取数据
stopwords =[line.strip()for line in open(r"C:\Users\Ad⁃ministrator\Desktop\test 过滤.txt",
encoding="utf-8").readlines()]#加载停用的分词数#据表
words =jieba.lcut(txt)#对岗位数据进行分词counts ={}#设置一个统计词频的变量
for word in words:#利用for 循环遍历变量words 中#的各个分词
if word not in stopwords:#如果遍历到的词不在停#用词表中
if len(word)==1:#不统计字数为一的词
#continue
else:counts[word]=(word,0)+1
#否则查询到的分词统计量加1
items =list(counts.items())#将分词磁频结果转换成#列表进行存储
items.sort(key=lambda x:x[1],reverse=True)#在列表#中根据磁盘大小进行排序
for i in range(30):#遍历前30个词频最高的词语
word,count =items [i]print ("{:<10}{:>7}".format (word,count))#输出词语及对应的词频
运行cipin.py,可以看到岗位中被提及最多的3个词为[运营175媒体54网络20],显然在无锡地区信息类专业需求量最大的岗位是“运营类”,几乎占据了岗位总需求量的20%以上,其次是媒体类,说明随着数字经济的普及,市场对信息类人才的需求,从纯技术类转成了相关的服务类如网店运营、媒体传播、数据维护等;而在岗位具体的要求上,经过Python 词频统计排名前三位的词语是“沟通、经验、管理”,可见信息类专业人才培养中更要注重客户的沟通能力、工程的管理能力。利用Python 数据工具,同样可以对岗位薪金和岗位学历进行获取和分析,从结果上看信息类专业83.5%的岗位的起薪在3000以上,对学历的要求大都也在大专以上,但需要工作经验的岗位较多(32.5%)。由
此笔者对今后信息类高职院校专业课程的设置提出以下几个建议:(1)增设一些“运营”类课程,如网站运
营、网络运营、新媒体运营等;
(2)注重“人际交
往”、
“礼仪”、
“演讲口才”等相关课程教学工作;python 爬虫教学
(3)加快学校与企业的对接如“1+X”试点工作,增长学生的企业经验,提高学生的动手能力。
4结语
通过Python 工具获取和分析了招聘网相关的岗位
信息,结果表明高职院校信息类专业需要注重“运营”类和“交际”类课程的建设,同时加强校企合作,让学生具备一定实践经验。Python 中与数据挖掘相关的模块还有很多如Pandas,Scipy,scikit-learn 等,这些工具的使用也是今后研究的重点。
参考文献
[1]方骥,谢慧敏.Python 在大数据挖掘和分析中的应
用研究[J].数字技术与应用,2020,(9).[2]刘畅.数据类岗位招聘需求信息研究[D].兰州财经大学,2019.
[3]葛琳,杨娜.Python 招聘数据分析[J].计算机与
网络,2020,(6).
58

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。