Python数据工具在高职院校市场调研中的应用--688IT编程网

2021.2

作者简介：宋超(1983-)，男，硕士，讲师，研究方向：网络安全技术。

1概述

市场调研是高职院校专业建设的基础，浏览招聘

网站是获取市场情况、岗位信息最为快捷的途径，但随着招聘信息越来越多，获取和分析这些信息变成了一件难事。Python 语言作为一种当前最为流行的数据分析语言，有着简单易学、面向对象、可扩展、库丰富等特点。

2Python 爬虫工具获得“招聘网”信息

以某知名招聘网站为例，以地点“无锡”，岗位

“计算机/互联网/通信”。利用Python 程序爬取招聘网站的岗位信息，程序如下ceshi.py。

import requests #导入第三方模块requests 库

ptions import RequestException import re #导入正则表达式库

def get_one_page(url,headers):#加载页面的函数try://尝试进行页面访问

response =(url,headers =headers)#设置访问http 头部

except RequestException:#出现异常情况return None #不返回值def parse_one_page(html):

pattern=repile('<spaclass="name">(.*?)</span>',re.S)#设置正则表达式定位网页中爬取数据的位置，爬#取岗位的地理位置和岗位名称

items =re.findall(pattern,html)#使用正则表达式进#行筛选

print(items)#打印出筛选的结果def main():#主函数

for num in range(1,29):#设置抓取的页面数量

url ='XX.XX/tech/pn'+str (num)+'/?

PGTID=0d303655-0005-dab7-e124-225e44

bd36b8&ClickID=3'#浏览器访问网页的URL 和变量#num 进行拼接，形成新的URL

user_agent ='Mozilla/4.0(compatible;MSIE 5.5;Windows NT)'#设置访问的浏览器类型

headers ={'User-Agent':user_agent}#设置http #代理的头部信息

html=get_one_page(url,headers)#调用访问网页#的函数get_one_page()

parse_one_page(html)#调用获取网页信息函数#parse_one_page

if _name_=='_main_':#主程序入口

main()#调用main 函数

该代码的原理就是利用循环语句不断构造相似的URL，使得计算机模拟网页访问的过程并自动运行，继而批量的获取网站信息，最后通过Python 中re 模块,

利用正则表达式筛选出需要的数据信息。值得注意的是一些网站存在着一定的防爬机制，如对访问次数进行限制、IP 地址过滤、加入验证码等，因此在上述代码中可以加入time、pillow、thread 等python 工具模块，利用模块的内置方法如设置访问间隔、识别简单的验证码等绕过防爬机制。

运行Python 程序ceshi.py，共抓取957个岗位名称和地理信息，其中岗位名称如下:

[IT 专员，项目经理，移动宽带装维人员，网络运营，计算机硬件工程师，企业服务项目跟进高薪，网络管理员，高薪网络运营主管+单休，软件测试/双休/年底双薪,UI 设计培直招网站推广，技术绘图，社运营，五险一金+双休+IT 维护，诚聘网管3名+管吃住，技术支持/维护，南长宽带装Python 数据工具在高职院校市场调研中的应用

宋超，华臻

（无锡旅游商贸高等职业技术学校，江苏无锡214000）

摘

要：从高职院校市场调研入手，利用Python 爬虫工具获取招聘网上相关岗位信息，并对获得的信息利用Python 数据工具进行筛选和分析，为高职院校的专业建设、课程调整提供了一些有价值的建议。

关键词:Python 语言；数据工具；市场调研

2021.2

维+五险一金，急聘网店运营客服，项目质量工程师，品牌策划运营4K+会做图，技术文员，网络管理员，运营推广人员，地下电解水技术业务经理，视频拍摄剪辑，社区运营/8K，物业项目经理+五险包吃，网络管理员，金属工程师，售后安装工程师，星探运营，通信维护工程师......]

类似也可以构造代码抓取每个岗位的具体要求，数据如下:

[[技术支持/维护，薪资面议,(电脑软6硬件维修维护，具有良好的沟通和协调能力，能吃苦耐劳，工作学习主动积极，认真负责!),(不限)]，网络运营专员/助理，薪资面议,(6负责粉丝的运营维护，负责数据统计，负责文案编写，无需经验，统一培训~)(不限)],[项目经理/主管,[，薪资面议,(电脑软6硬件维修维营专员/助理，薪资面议,(6负责粉丝的运营维护，负责数据统计，负责文案编写，无需经验，统元/月6,(能够独立完成软件系统代码的实现，编写代码注释和开发文档。有自己的软件作品供考察。能独自开发过APP 和小程序，快递类、旅游类、外语学习类、本地外送商城等相关领域。)(不限)],[技术支持/维护,5000-8000元/月,(处理公司各类数据，熟悉电脑系统......]

3Python 数据工具对“招聘网”信息的挖掘

以下利用Python 中jieba 工具对上文的岗位数据信

息进行分词处理，统计每个分词出现的频率，从而得出每个岗位相应的热度，以及岗位要求的热度情况，程序cipin.py 如下:

import jieba #加载jieba 中文分词模块

txt =open (r"C:\Users\Administrator\Desktop\test\岗位.txt",encoding="utf-8").read()#读取数据

stopwords =[line.strip()for line in open(r"C:\Users\Ad⁃ministrator\Desktop\test 过滤.txt",

encoding="utf-8").readlines()]#加载停用的分词数#据表

words =jieba.lcut(txt)#对岗位数据进行分词counts ={}#设置一个统计词频的变量

for word in words:#利用for 循环遍历变量words 中#的各个分词

if word not in stopwords:#如果遍历到的词不在停#用词表中

if len(word)==1:#不统计字数为一的词

#continue

else:counts[word]=(word,0)+1

#否则查询到的分词统计量加1

items =list(counts.items())#将分词磁频结果转换成#列表进行存储

items.sort(key=lambda x:x[1],reverse=True)#在列表#中根据磁盘大小进行排序

for i in range(30):#遍历前30个词频最高的词语

word,count =items [i]print ("{:<10}{:>7}".format (word,count))#输出词语及对应的词频

运行cipin.py，可以看到岗位中被提及最多的3个词为[运营175媒体54网络20]，显然在无锡地区信息类专业需求量最大的岗位是“运营类”，几乎占据了岗位总需求量的20%以上，其次是媒体类，说明随着数字经济的普及，市场对信息类人才的需求，从纯技术类转成了相关的服务类如网店运营、媒体传播、数据维护等；而在岗位具体的要求上，经过Python 词频统计排名前三位的词语是“沟通、经验、管理”，可见信息类专业人才培养中更要注重客户的沟通能力、工程的管理能力。利用Python 数据工具，同样可以对岗位薪金和岗位学历进行获取和分析，从结果上看信息类专业83.5%的岗位的起薪在3000以上，对学历的要求大都也在大专以上，但需要工作经验的岗位较多(32.5%)。由

此笔者对今后信息类高职院校专业课程的设置提出以下几个建议:(1)增设一些“运营”类课程，如网站运

营、网络运营、新媒体运营等;

(2)注重“人际交

往”、

“礼仪”、

“演讲口才”等相关课程教学工作;python 爬虫教学

(3)加快学校与企业的对接如“1+X”试点工作，增长学生的企业经验，提高学生的动手能力。

4结语

通过Python 工具获取和分析了招聘网相关的岗位

信息，结果表明高职院校信息类专业需要注重“运营”类和“交际”类课程的建设，同时加强校企合作，让学生具备一定实践经验。Python 中与数据挖掘相关的模块还有很多如Pandas,Scipy,scikit-learn 等，这些工具的使用也是今后研究的重点。

参考文献

[1]方骥，谢慧敏.Python 在大数据挖掘和分析中的应

用研究[J].数字技术与应用,2020,(9).[2]刘畅.数据类岗位招聘需求信息研究[D].兰州财经大学,2019.

[3]葛琳，杨娜.Python 招聘数据分析[J].计算机与

网络,2020,(6).

688IT编程网

Python数据工具在高职院校市场调研中的应用

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符回溯引用和前后查匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式选择题

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

688IT编程网

Python数据工具在高职院校市场调研中的应用

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符 回溯引用和前后查 匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式 选择题

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

java正则表达式选择题

非零金额正则表达式

基本的元字符回溯引用和前后查匹配模式

java正则表达式选择题

非零金额正则表达式