数据库与信息管理
python 爬虫教学本栏目责任编辑:王
力
基于网络爬虫的大数据岗位职业技能的分析
姚超
(武汉软件工程职业学院,湖北武汉430205)
摘要:为了更加客观且全面地了解当下各企业对大数据岗位的职业技能要求,他首先通过网络爬虫技术针对前程无忧网
站上各个企业所发布与大数据相关的岗位进行信息提取并保存,然后通过分词技术对提取到的岗位信息进行分词,最后对分词后的数据进行统计分析。通过分析,他得到了相对客观的大数据岗位职业技能需求信息,这为后续地大数据人才培养方案制定提供了更加客观全面的数据支撑。关键词:网络爬虫;大
数据;职业技能;信息抽取;数据分析中图分类号:TP319
文献标识码:A
文章编号:1009-3044(2019)27-0001-02
开放科学(资源服务)标识码(OSID ):
Analysis on Vocational Skills of Big Data Posts Based on Web Crawler YAO Chao
(Wuhan Vocational College of Software and Engineering,Wuhan 430205,China)
Abstract:In order to be more objective and comprehensive about the understanding of the various enterprises vocational skill re⁃quirements for big data posts,firstly,he extracted and saved the information of posts related to big data released by various enter⁃prises`on 51job through web crawler technology,and then divided the extracted post information into words by word segmenta⁃tion technology.Finally,he analyzed the data after word segmentation by statistics.Through the analysis,he obtained relatively ob⁃jective information about the vocational skill demands of the big data posts,and provided more objective and comprehensive data support for the subsequent formulation of big data talent training plan .
Key words:web crawler;big data;vocational skills;Information Extraction;data analysis
2015年国务院印发的《促进大数据发展的行动纲要》[1]
这一重要文件极大地加速了大数据行业及大数据职业教育的发展,同时也促使社会对大数据专业人才需求的激增。2016年,《普通高等学校高等职业教育专业(专科)目录》增补了“大数据技
术与应用专业”[2]
,2017年高职院校正式以“大数据技术与应用”专业开始招生。截至目前,“大数据技术与应用”专业还没有毕业生,各高职院校的“大数据技术与应用”专业均处于探索研究阶段。为了能够更加客观且全面地了解当下各企业对大数据岗位的职业技能要求,从而实现对当前高职院校“大数据技术与应用”专业人才培养方案的修订与完善,本文将通过网络爬虫等技术从前程无忧招聘网站上获取有关大数据岗位相关信息并做分析。
1整体设计
为了实现获取大数据岗位信息并进行分析,本文的功能涉及三个模块:网络爬虫、数据储存和数据处理与分析。其中网络爬虫的实现方案有很多,因为Scrapy 框架具体高效和功能强大等特点[3],本文采用Scrapy 框架实现网络爬虫以获取的大数据岗位相关信息。由于MongoDB 具有高性能、易部署、易
使用、
存储数据非常方便等特点[4],本文的数据存储模块采用Mon⁃goDB 来保存获取到的大数据岗位信息。因为通过爬虫获取到的岗位信息数据均是中文文本信息,本文需要对中文文本信息进行分词处理然后再分析,jieba 模块是目前最好的Python 中文分词组件[5],因此本文采用jieba 模块来对岗位描述的文本信息进行处理并使用pyecharts 模块来对分析的结果进行展示。具体的设计方案如图1所示。
2大数据岗位信息获取与存储
2.1网络爬虫的设计与实现
1)明确爬虫目标。
根据需求,本文将关注的焦点放在前程无忧招聘网站上有关专科学历的大数据岗位信息。如果只搜索以上信息,将会出现大量与大数据岗位不符合的信息,如:销售员、电话客服等。为避免此种情况出现,本文将搜索范围限定在有1-3年工作经历的招聘岗位上,此时得到的信息将更加符合大数据专业。具体的搜索结果如图2所示,其中被矩形框标记的内容则是本文所需要的部分信息。在图2中可以发现其中仍然包含有极少
收稿日期:2019-05-25基金项目:2018-2019年度工业和信息化职业教育教学科研课题《基于网络大
数据的高职大数据技术与应用专业人才培养方案的研
究与实践》(GS-2019-07-18)
作者简介:姚超(1987—),男,湖北武汉人,工程师,硕士,主要研究方向为大数据和软件技术。
1
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论