⼤数据实训项⽬
⽂章⽬录
⼀、项⽬概况
1、项⽬介绍
利⽤python编写爬⾍程序,从招聘⽹站上爬取数据,将数据存⼊到MongoDB数据库中,将存⼊的数据作⼀定的数据清洗后做数据分析,最后将分析的结果做数据可视化。
2、项⽬要求
1、具体要求:招聘⽹站上的数据,选择两个招聘⽹站。招聘⽹站包括:智联招聘、前程⽆忧、应届⽣求职、拉勾、中华英才⽹。
2、评分标准:选取⽹站总分5分,若只选取⼀个⽹站爬取数据得3分。
3、爬取字段
1)、具体要求:职位名称、薪资⽔平、招聘单位、⼯作地点、⼯作经验、学历要求、⼯作内容(岗位职
责)、任职要求(技能要求)。2)、评分标准:
(1)搭建爬⾍框架并运⾏:5分;
(2)选择合适格式保存数据:5分;
(3)爬取部分字段:5分;
(4)爬取全部字段:10分。
4、数据存储
1)、具体要求:将爬取的数据存储到hdfs上。利⽤flume收集⽇志。若整个过程利⽤mangdb转hdfs则为15分。
2)、评分标准:
(1)正确搭建hadoop平台:10分;
(2)正确选择flume协议传输形式:10分,若部分正确则5分;
(3)能将数据存储到hdfs:10分。
5、数据分析、转化、演⽰
具体要求(要求:1、利⽤hive进⾏分析,2、将hive分析结果利⽤sqoop技术存储到mysql数据库中,并最后显⽰分析结果。):
(1)分析“数据分析”、“⼤数据开发⼯程师”、“数据采集”等岗位的平均⼯资、最⾼⼯资、最低⼯资,并作条形图将结果展⽰出来;(2)分析“数据分析”、“⼤数据开发⼯程师”、“数据采集”等⼤数据相关岗位在成都、北京、上海、⼴州、深圳的岗位数,并做饼图将结果展⽰出来。
(3)分析⼤数据相关岗位1-3年⼯作经验的薪资⽔平(平均⼯资、最⾼⼯资、最低⼯资),并做出条形图展⽰出来;
(4)分析⼤数据相关岗位⼏年需求的⾛向趋势,并做出折线图展⽰出来。
⼆、环境配置
1、JDK
2、Hadoop集
3、zookeeper
4、hiveeval是做什么的
5、sqoop
6、flume
三、爬取数据
1、创建项⽬
scrapy startproject job02
cd job02
scrapy genspider chinahr chinahr
2、编写主程序进⾏数据爬取
3、编写pipelines,进⾏数据保存
4、编写settings,进⾏相关配置
5、编写items,进⾏字典定义
6、爬取数据
数据量:389000
四、数据分析
1、Flume收集⽇志
编写conf⽂件,监听⽂件⽬录,并将监听数据存储到hdfs
我这⾥监听的⽬录是/opt/data
在⽬录有⽂件时,flume将监听到的数据上传到/Hadoop/flume⾥⾯,并⾃动创建了⼀个⽇期和时间的⽬录存放⽇志
2、数据存储到hdfs

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。