大数据实训项目--688IT编程网

⼤数据实训项⽬

⽂章⽬录

⼀、项⽬概况

1、项⽬介绍

利⽤python编写爬⾍程序，从招聘⽹站上爬取数据，将数据存⼊到MongoDB数据库中，将存⼊的数据作⼀定的数据清洗后做数据分析，最后将分析的结果做数据可视化。

2、项⽬要求

1、具体要求：招聘⽹站上的数据，选择两个招聘⽹站。招聘⽹站包括：智联招聘、前程⽆忧、应届⽣求职、拉勾、中华英才⽹。

2、评分标准：选取⽹站总分5分，若只选取⼀个⽹站爬取数据得3分。

3、爬取字段

1）、具体要求：职位名称、薪资⽔平、招聘单位、⼯作地点、⼯作经验、学历要求、⼯作内容（岗位职

责）、任职要求（技能要求）。2）、评分标准：

（1）搭建爬⾍框架并运⾏：5分；

（2）选择合适格式保存数据：5分；

（3）爬取部分字段：5分；

（4）爬取全部字段：10分。

4、数据存储

1)、具体要求：将爬取的数据存储到hdfs上。利⽤flume收集⽇志。若整个过程利⽤mangdb转hdfs则为15分。

2)、评分标准：

（1）正确搭建hadoop平台：10分；

（2）正确选择flume协议传输形式：10分，若部分正确则5分；

（3）能将数据存储到hdfs：10分。

5、数据分析、转化、演⽰

具体要求（要求：1、利⽤hive进⾏分析，2、将hive分析结果利⽤sqoop技术存储到mysql数据库中，并最后显⽰分析结果。）：

（1）分析“数据分析”、“⼤数据开发⼯程师”、“数据采集”等岗位的平均⼯资、最⾼⼯资、最低⼯资，并作条形图将结果展⽰出来；（2）分析“数据分析”、“⼤数据开发⼯程师”、“数据采集”等⼤数据相关岗位在成都、北京、上海、⼴州、深圳的岗位数，并做饼图将结果展⽰出来。

（3）分析⼤数据相关岗位1-3年⼯作经验的薪资⽔平（平均⼯资、最⾼⼯资、最低⼯资），并做出条形图展⽰出来；

（4）分析⼤数据相关岗位⼏年需求的⾛向趋势，并做出折线图展⽰出来。

⼆、环境配置

1、JDK

2、Hadoop集

3、zookeeper

4、hiveeval是做什么的

5、sqoop

6、flume

三、爬取数据

1、创建项⽬

scrapy startproject job02

cd job02

scrapy genspider chinahr chinahr

2、编写主程序进⾏数据爬取

3、编写pipelines，进⾏数据保存

4、编写settings，进⾏相关配置

5、编写items，进⾏字典定义

6、爬取数据

数据量：389000

四、数据分析

1、Flume收集⽇志

编写conf⽂件，监听⽂件⽬录，并将监听数据存储到hdfs

我这⾥监听的⽬录是/opt/data

在⽬录有⽂件时，flume将监听到的数据上传到/Hadoop/flume⾥⾯，并⾃动创建了⼀个⽇期和时间的⽬录存放⽇志

2、数据存储到hdfs

688IT编程网

大数据实训项目

发表评论

推荐文章

应用程序的安全检测方法、装置、电子设备和存储介质

nginx map用法正则

VBA之正则表达式(1)--基础篇

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

热门文章

一种任意人头与任意人体的3D结合方法

正则匹配c语言中8进制

fortran数据格式

python中文本转数字用的公式

gh 文本变数值

js判断输入是否为正整数、浮点数等数字的函数代码

qt浮点数正则表达式

QT正则表达式限制输入值

手机号码和电话号码的正则表达式

str转浮点-概述说明以及解释

英豪结尾的诗句

Java正则表达式:符合以特定字符串开头,以特定字符串结尾的所有结果

machinebuilder使用手册

ASP.NET网站建设基本常用代码

LCD显示实时时钟

经纬度正则表达式解析

前端科学计数法转数字

python正则表达式re之compile函数解析

pythonunittest之断言及示例

[lua]lua中匹配字符串小数

最新文章

nginx map用法正则

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

python中re.findall函数实例用法

nginx url表达式

nginx 正则匹配参数

标签列表

688IT编程网

大数据实训项目

发表评论

推荐文章

应用程序的安全检测方法、装置、电子设备和存储介质

nginx map用法 正则

VBA之正则表达式(1)--基础篇

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

热门文章

一种任意人头与任意人体的3D结合方法

正则匹配c语言中8进制

fortran数据格式

python中文本转数字用的公式

gh 文本变数值

js判断输入是否为正整数、浮点数等数字的函数代码

qt浮点数正则表达式

QT正则表达式限制输入值

手机号码和电话号码的正则表达式

str转浮点-概述说明以及解释

英豪结尾的诗句

Java正则表达式:符合以特定字符串开头,以特定字符串结尾的所有结果

machinebuilder使用手册

ASP.NET网站建设基本常用代码

LCD显示实时时钟

经纬度正则表达式解析

前端科学计数法转数字

python正则表达式re之compile函数解析

pythonunittest之断言及示例

[lua]lua中匹配字符串小数

最新文章

nginx map用法 正则

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

python中re.findall函数实例用法

nginx url表达式

nginx 正则匹配参数

标签列表

nginx map用法正则

nginx map用法正则