概述
本文是对spark1.6.0分布式集的安装的一个详细说明,旨在帮助实施人员按照本说明能够快速搭建并使用spark集。
软件版本
Scala2.10.6。
Spark-1.6.。
Java jre 1.7。
Java jre 1.7。
注:spark依赖jre 和scala。行为计算的spark集依赖hadoop集,所以请先部署hadoop集。
安装前准备
在每台机添加hosts(root用户)
修改文件/etc/hosts,添加各节点IP和主机名映射。
安装jre。
1.安装jre。
2.配置环境变量。
3.验证安装是否成功,执行命令java -version查看java版本。
安装scala
1.安装Scala。
2.配置环境变量:
1 配置SCALA_HOME,值为安装后的scala home目录。
2 配置PATH,添加上$SCALA_HOME/bin。
3.验证安装是否成功,执行命令 scala -version,查看scala版本。
配置SSH免密码登录
集各个节点之间最好配置免密码登录。
集的master节点到zookeeper集节点配置免密码登录。
SPARK安装
1.解压安装包到安装目录。
2.配置环境变量。
1 配置SPARK_HOME,值为安装后的spark home目录。
2 配置PATH,添加上$SPARK_HOME/bin。
SPARK配置
配置文件所在目录:spark home目录下conf目录下。
配置运行时环境
1.基于plate复制出一份新文件spark-env.sh。
2.修改spark-env.sh添加如下环境变量:
export SPARK_DAEMON_JAVA_OPTS=
"-veryMode=ZOOKEEPER
-keeper.url=master:2181
-keeper.dir=/spark"
export JAVA_HOME=/data/jdk7
export SCALA_HOME=/data/scala
export HADOOP_CONF_DIR=/data/hadoop-2.5.2/etc/hadoop
export SPARK_LOCAL_DIRS=/data/spark/tempdatas/spark_local_dirs
export SPARK_PID_DIR=/data/spark/tempdatas/spark_local_dirs/pid
各个参数变量的含义见下表,请按实际值修改:
SPARK_DAEMON_JAVA_OPTS | keeper.url | zookeeper主机名和端口号 |
SPARK_DAEMON_JAVA_OPTS | keeper.dir | zookeeper中存储spark元数据的目录 |
SPARK_DAEMON_JAVA_OPTS | pdir | 临时io文件目录 |
JAVA_HOME | JAVA_HOME | Java 安装目录 |
SCALA_HOME | SCALA_HOME | Scala安装目录 |
HADOOP_CONF_DIR | HADOOP_CONF_DIR | Hadoop配置文件目录 |
SPARK_LOCAL_DIRS | SPARK_LOCAL_DIRS | Spark运行时临时数据目录 |
SPARK_PID_DIR | SPARK_PID_DIR | Pid信息存储文件存放位置 |
功能参数配置
1.基于plate复制出一份新的文件f
2.修改f
添加参数变量配置:
abled true
spark.eventLog.dir hdfs://master:9000/spark/logs
spark.history.fs.logDirectory hdfs://master:9000/spark/logs
ainedApplications 15
spark.abled true
spark.worker.cleanup.interval 3600
112g
5g
spark.driver.maxResultSize 4g
spark.serializer org.apache.spark.serializer.KryoSerializer
s 32
spark.worker.timeout 300
sparkwork.timeout 300
spark.logConf true
spark.eventLogpress true
spark.abled true
spark.rpc.numRetries 6
l 86400
aClassPath /data/spark/hbaselib/sdk_hbase_dependency-jar-with-dependencies.jar
aClassPath /data/spark/hbaselib/sdk_hbase_dependency-jar-with-dependencies.jar
各个功能参数描述见下表,:
spark.master | 集master所在节点名和端口号 |
abled | Job运行日志记录开关 |
spark.eventLog.dir | Job运行日志目录, 与spark.history.fs.logDirectory配置位置一致 |
spark.history.fs.logDirectory | 历史日志目录 |
ainedApplications | WEBUI中展示的完成job数。 |
spark.abled | Worker端临时文件清理开关 |
spark.worker.cleanup.interval | Worker端临时文件清理间隔时间 | scala不是内部或外部命令
单个executor的内存占用大小 | |
Driver端内存占用大小 | |
spark.driver.maxResultSize | Driver端存储RDD的内存最大值阈值 |
spark.serializer | 发送到网络的数据对象或者缓存的数据对象的序列化方式。 |
s | 单个executor占用核心数 |
spark.worker.timeout | Worker通信超时时间 |
spark.akka.timeout | Akka通信超时时间 |
sparkwork.timeout | 各个节点之间网络通信超时时间 |
spark.rpc.lookupTimeout | Rpc通信过程查操作超时时间 |
spark.rpc.askTimeout | Rpc通信过程请求操作超时时间 |
spark.logConf | 自定义日志配置开关 |
spark.eventLogpress | Job日志压缩开关 |
spark.abled | 额外Shuffle过程守护线程开关 |
spark.rpc.numRetries | Rpc超时后重试次数 |
l | Job元数据保留时间、RDD过期时间。 |
aClassPath | Executor运行时,使用的外部类库 |
aClassPath | Driver运行时,使用的外部类库 |
slave节点配置
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论