spark集部署--688IT编程网

概述

本文是对spark1.6.0分布式集的安装的一个详细说明，旨在帮助实施人员按照本说明能够快速搭建并使用spark集。

软件版本

Scala2.10.6。

Spark-1.6.。
Java jre 1.7。

注：spark依赖jre 和scala。行为计算的spark集依赖hadoop集，所以请先部署hadoop集。

安装前准备

在每台机添加hosts（root用户）

修改文件/etc/hosts,添加各节点IP和主机名映射。

安装jre。

1.安装jre。

2.配置环境变量。

3.验证安装是否成功，执行命令java -version查看java版本。

安装scala

1.安装Scala。

2.配置环境变量：

1　配置SCALA_HOME,值为安装后的scala home目录。

2　配置PATH,添加上$SCALA_HOME/bin。

3.验证安装是否成功，执行命令 scala -version，查看scala版本。

配置SSH免密码登录

集各个节点之间最好配置免密码登录。

集的master节点到zookeeper集节点配置免密码登录。

SPARK安装

1.解压安装包到安装目录。

2.配置环境变量。

1　配置SPARK_HOME,值为安装后的spark home目录。

2　配置PATH,添加上$SPARK_HOME/bin。

SPARK配置

配置文件所在目录：spark home目录下conf目录下。

配置运行时环境

1.基于plate复制出一份新文件spark-env.sh。

2.修改spark-env.sh添加如下环境变量：

export SPARK_DAEMON_JAVA_OPTS=

"-veryMode=ZOOKEEPER

-keeper.url=master:2181

-keeper.dir=/spark"

export JAVA_HOME=/data/jdk7

export SCALA_HOME=/data/scala

export HADOOP_CONF_DIR=/data/hadoop-2.5.2/etc/hadoop

export SPARK_LOCAL_DIRS=/data/spark/tempdatas/spark_local_dirs

export SPARK_PID_DIR=/data/spark/tempdatas/spark_local_dirs/pid

各个参数变量的含义见下表,请按实际值修改：

SPARK_DAEMON_JAVA_OPTS	keeper.url	zookeeper主机名和端口号
SPARK_DAEMON_JAVA_OPTS	keeper.dir	zookeeper中存储spark元数据的目录
SPARK_DAEMON_JAVA_OPTS	pdir	临时io文件目录
JAVA_HOME	JAVA_HOME	Java 安装目录
SCALA_HOME	SCALA_HOME	Scala安装目录
HADOOP_CONF_DIR	HADOOP_CONF_DIR	Hadoop配置文件目录
SPARK_LOCAL_DIRS	SPARK_LOCAL_DIRS	Spark运行时临时数据目录
SPARK_PID_DIR	SPARK_PID_DIR	Pid信息存储文件存放位置

功能参数配置

1.基于plate复制出一份新的文件f

2.修改f

添加参数变量配置:

abled true

spark.eventLog.dir hdfs://master:9000/spark/logs

spark.history.fs.logDirectory hdfs://master:9000/spark/logs

ainedApplications 15

spark.abled true

spark.worker.cleanup.interval 3600

112g

spark.driver.maxResultSize 4g

spark.serializer org.apache.spark.serializer.KryoSerializer

s 32

spark.worker.timeout 300

sparkwork.timeout 300

spark.logConf true

spark.eventLogpress true

spark.abled true

spark.rpc.numRetries 6

l 86400

aClassPath /data/spark/hbaselib/sdk_hbase_dependency-jar-with-dependencies.jar

各个功能参数描述见下表，：

scala不是内部或外部命令

spark.master	集master所在节点名和端口号
abled	Job运行日志记录开关
spark.eventLog.dir	Job运行日志目录，与spark.history.fs.logDirectory配置位置一致
spark.history.fs.logDirectory	历史日志目录
ainedApplications	WEBUI中展示的完成job数。
spark.abled	Worker端临时文件清理开关
spark.worker.cleanup.interval	Worker端临时文件清理间隔时间
	单个executor的内存占用大小
	Driver端内存占用大小
spark.driver.maxResultSize	Driver端存储RDD的内存最大值阈值
spark.serializer	发送到网络的数据对象或者缓存的数据对象的序列化方式。
s	单个executor占用核心数
spark.worker.timeout	Worker通信超时时间
spark.akka.timeout	Akka通信超时时间
sparkwork.timeout	各个节点之间网络通信超时时间
spark.rpc.lookupTimeout	Rpc通信过程查操作超时时间
spark.rpc.askTimeout	Rpc通信过程请求操作超时时间
spark.logConf	自定义日志配置开关
spark.eventLogpress	Job日志压缩开关
spark.abled	额外Shuffle过程守护线程开关
spark.rpc.numRetries	Rpc超时后重试次数
l	Job元数据保留时间、RDD过期时间。
aClassPath	Executor运行时，使用的外部类库
aClassPath	Driver运行时，使用的外部类库

slave节点配置

688IT编程网

spark集部署

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符回溯引用和前后查匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式选择题

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

688IT编程网

spark集部署

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符 回溯引用和前后查 匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式 选择题

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

java正则表达式选择题

非零金额正则表达式

基本的元字符回溯引用和前后查匹配模式

java正则表达式选择题

非零金额正则表达式