概述
本文是对spark1.6.0分布式集的安装的一个详细说明,旨在帮助实施人员按照本说明能够快速搭建并使用spark集。
软件版本
Scala2.10.6
Spark-1.6.
    Java jre 1.7
注:spark依赖jre 和scala。行为计算的spark集依赖hadoop集,所以请先部署hadoop集。
安装前准备
在每台机添加hosts(root用户)
修改文件/etc/hosts,添加各节点IP和主机名映射。
安装jre。
1.安装jre。
2.配置环境变量。
3.验证安装是否成功,执行命令java -version查看java版本。
安装scala
1.安装Scala。
2.配置环境变量:
1 配置SCALA_HOME,值为安装后的scala home目录。
2 配置PATH,添加上$SCALA_HOME/bin。
3.验证安装是否成功,执行命令 scala -version,查看scala版本。
配置SSH免密码登录
集各个节点之间最好配置免密码登录。
集的master节点到zookeeper集节点配置免密码登录。
SPARK安装
1.解压安装包到安装目录。
2.配置环境变量。
1 配置SPARK_HOME,值为安装后的spark home目录。
2 配置PATH,添加上$SPARK_HOME/bin。
SPARK配置
配置文件所在目录:spark home目录下conf目录下。
配置运行时环境
1.基于plate复制出一份新文件spark-env.sh。
2.修改spark-env.sh添加如下环境变量:
export SPARK_DAEMON_JAVA_OPTS=
"-veryMode=ZOOKEEPER
-keeper.url=master:2181 
-keeper.dir=/spark"
export JAVA_HOME=/data/jdk7
export SCALA_HOME=/data/scala
export HADOOP_CONF_DIR=/data/hadoop-2.5.2/etc/hadoop
export SPARK_LOCAL_DIRS=/data/spark/tempdatas/spark_local_dirs
export SPARK_PID_DIR=/data/spark/tempdatas/spark_local_dirs/pid
各个参数变量的含义见下表,请按实际值修改:
SPARK_DAEMON_JAVA_OPTS
keeper.url
zookeeper主机名和端口号
SPARK_DAEMON_JAVA_OPTS
keeper.dir
zookeeper中存储spark元数据的目录
SPARK_DAEMON_JAVA_OPTS
pdir
临时io文件目录
JAVA_HOME
JAVA_HOME
Java 安装目录
SCALA_HOME
SCALA_HOME
Scala安装目录
HADOOP_CONF_DIR
HADOOP_CONF_DIR
Hadoop配置文件目录
SPARK_LOCAL_DIRS
SPARK_LOCAL_DIRS
Spark运行时临时数据目录
SPARK_PID_DIR
SPARK_PID_DIR
Pid信息存储文件存放位置
功能参数配置
1.基于plate复制出一份新的文件f
2.修改f
添加参数变量配置:
abled          true
spark.eventLog.dir              hdfs://master:9000/spark/logs
spark.history.fs.logDirectory    hdfs://master:9000/spark/logs
ainedApplications 15
spark.abled    true
spark.worker.cleanup.interval    3600
    112g
    5g
spark.driver.maxResultSize 4g
spark.serializer    org.apache.spark.serializer.KryoSerializer
s    32
spark.worker.timeout    300
sparkwork.timeout  300
spark.logConf          true
spark.eventLogpress true
spark.abled true
spark.rpc.numRetries 6
l 86400
aClassPath /data/spark/hbaselib/sdk_hbase_dependency-jar-with-dependencies.jar
aClassPath  /data/spark/hbaselib/sdk_hbase_dependency-jar-with-dependencies.jar
各个功能参数描述见下表,:
scala不是内部或外部命令
spark.master
集master所在节点名和端口号
abled
Job运行日志记录开关
spark.eventLog.dir
Job运行日志目录,
spark.history.fs.logDirectory配置位置一致
spark.history.fs.logDirectory
历史日志目录
ainedApplications
WEBUI中展示的完成job数。
spark.abled
Worker端临时文件清理开关
spark.worker.cleanup.interval
Worker端临时文件清理间隔时间
单个executor的内存占用大小
Driver端内存占用大小
spark.driver.maxResultSize
Driver端存储RDD的内存最大值阈值
spark.serializer
发送到网络的数据对象或者缓存的数据对象的序列化方式。
s
单个executor占用核心数
spark.worker.timeout
Worker通信超时时间
spark.akka.timeout
Akka通信超时时间
sparkwork.timeout
各个节点之间网络通信超时时间
spark.rpc.lookupTimeout
Rpc通信过程查操作超时时间
spark.rpc.askTimeout
Rpc通信过程请求操作超时时间
spark.logConf 
自定义日志配置开关
spark.eventLogpress
Job日志压缩开关
spark.abled
额外Shuffle过程守护线程开关
spark.rpc.numRetries
Rpc超时后重试次数
l
Job元数据保留时间、RDD过期时间。
aClassPath
Executor运行时,使用的外部类库
aClassPath
Driver运行时,使用的外部类库
slave节点配置

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。