Spark大数据分析与实战:RDD编程初级实践Spark大数据分析与实战:RDD编程...--688IT编程网

Spark⼤数据分析与实战：RDD编程初级实践Spark⼤数据分析与实战：RDD编程

初级实践

Spark⼤数据分析与实战：RDD编程初级实践

⼀、安装Hadoop和Spark

具体的安装过程在我以前的博客⾥⾯有，⼤家可以通过以下链接进⼊操作：

** 提⽰：如果IDEA未构建Spark项⽬，可以转接到以下的博客： **

⼆、启动Hadoop与Spark

查看3个节点的进程

master slave1 slave2

Spark shell命令界⾯与端⼝页⾯

三、spark-shell交互式编程

请到教程官⽹的“下载专区”的“数据集”中下载，该数据集包含了某⼤学计算机系的成绩，数据格式如下所⽰： Tom,DataBase,80 Tom,Algorithm,50 Tom,DataStructure,60 Jim,DataBase,90

Jim,Algorithm,60 Jim,DataStructure,80 …… 请根据给定的实验数据，在spark-shell中通过编程来计算以下内容：** 如果不到数据可以从这下载：数据集链接：提取码：z49l **

（1）该系总共有多少学⽣；

shell命令：

val lines = sc.textFile("file:///opt/")

lines.map(row=>row.split(",")(0)).distinct().count

运⾏截图：

（2）该系共开设来多少门课程；

shell命令：

lines.map(row=>row.split(",")(1)).distinct().count

运⾏截图：

（3）Tom同学的总成绩平均分是多少；

shell命令：

lines.filter(row=>row.split(",")(0)=="Tom").map(row=>(row.split(",")(0),row.split(",")(2).toInt)) .mapValues(x=>(x,1))

.reduceByKey((x,y) => (x._1+y._1,x._2 + y._2))

.mapValues(x => (x._1 / x._2))

.collect()

运⾏截图：

（4）求每名同学的选修的课程门数；shell命令：

lines.map(row=>(row.split(",")(0),1))

.reduceByKey((x,y)=>x+y)

.collect

hadoop与spark的区别与联系

运⾏截图：

（5）该系DataBase课程共有多少⼈选修；shell命令：

lines.filter(row=>row.split(",")(1)=="DataBase").count

运⾏截图：

（6）各门课程的平均分是多少；

shell命令：

lines.map(row=>(row.split(",")(1),row.split(",")(2).toInt))

.mapValues(x=>(x,1))

.reduceByKey((x,y) => (x._1+y._1,x._2 + y._2))

.mapValues(x => (x._1 / x._2))

.collect()

运⾏截图：

（7）使⽤累加器计算共有多少⼈选了DataBase这门课。shell命令：

val accum = sc.longAccumulator("My Accumulator")

lines.filter(row=>row.split(",")(1)=="DataBase")

.map(row=>(row.split(",")(1),1))

.values

.foreach(x => accum.add(x))

accum.value

运⾏截图：

688IT编程网

Spark大数据分析与实战:RDD编程初级实践Spark大数据分析与实战:RDD编程...

发表评论

推荐文章

应用程序的安全检测方法、装置、电子设备和存储介质

nginx map用法正则

VBA之正则表达式(1)--基础篇

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

热门文章

一种任意人头与任意人体的3D结合方法

正则匹配c语言中8进制

fortran数据格式

python中文本转数字用的公式

gh 文本变数值

js判断输入是否为正整数、浮点数等数字的函数代码

qt浮点数正则表达式

QT正则表达式限制输入值

手机号码和电话号码的正则表达式

str转浮点-概述说明以及解释

英豪结尾的诗句

Java正则表达式:符合以特定字符串开头,以特定字符串结尾的所有结果

machinebuilder使用手册

ASP.NET网站建设基本常用代码

LCD显示实时时钟

经纬度正则表达式解析

前端科学计数法转数字

python正则表达式re之compile函数解析

pythonunittest之断言及示例

[lua]lua中匹配字符串小数

最新文章

nginx map用法正则

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

python中re.findall函数实例用法

nginx url表达式

nginx 正则匹配参数

标签列表

688IT编程网

Spark大数据分析与实战:RDD编程初级实践Spark大数据分析与实战:RDD编程...

发表评论

推荐文章

应用程序的安全检测方法、装置、电子设备和存储介质

nginx map用法 正则

VBA之正则表达式(1)--基础篇

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

热门文章

一种任意人头与任意人体的3D结合方法

正则匹配c语言中8进制

fortran数据格式

python中文本转数字用的公式

gh 文本变数值

js判断输入是否为正整数、浮点数等数字的函数代码

qt浮点数正则表达式

QT正则表达式限制输入值

手机号码和电话号码的正则表达式

str转浮点-概述说明以及解释

英豪结尾的诗句

Java正则表达式:符合以特定字符串开头,以特定字符串结尾的所有结果

machinebuilder使用手册

ASP.NET网站建设基本常用代码

LCD显示实时时钟

经纬度正则表达式解析

前端科学计数法转数字

python正则表达式re之compile函数解析

pythonunittest之断言及示例

[lua]lua中匹配字符串小数

最新文章

nginx map用法 正则

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

python中re.findall函数实例用法

nginx url表达式

nginx 正则匹配参数

标签列表

nginx map用法正则

nginx map用法正则