spark之Standalone模式部署配置详解--688IT编程网

spark之Standalone模式部署配置详解

spark运⾏模式

hadoop分布式集搭建Spark 有很多种模式，最简单就是单机本地模式，还有单机伪分布式模式，复杂的则运⾏在集中，⽬前能很好的运⾏在Yarn和 Mesos 中，当然 Spark 还有⾃带的 Standalone 模式，对于⼤多数情况 Standalone 模式就⾜够了，如果企业已经有Yarn 或者 Mesos 环境，也是很⽅便部署的。

1.local(本地模式)：常⽤于本地开发测试，本地还分为local单线程和local-cluster多线程;

2.standalone(集模式)：典型的Mater/slave模式，不过也能看出Master是有单点故障的；Spark⽀持ZooKeeper来实现

< yarn(集模式)：运⾏在 yarn 资源管理器框架之上，由 yarn 负责资源管理，Spark 负责任务调度和计算

< mesos(集模式)：运⾏在 mesos 资源管理器框架之上，由 mesos 负责资源管理，Spark 负责任务调度和计算

< cloud(集模式)：⽐如 AWS 的 EC2，使⽤这个模式能很⽅便的访问 Amazon的 S3;Spark ⽀持多种分布式存储系

统：HDFS 和 S3

Spark Standalone集部署

准备⼯作

1.这⾥我下载的是Spark的编译版本，否则需要事先⾃⾏编译

2.Spark需要Hadoop的HDFS作为持久化层，所以在安装Spark之前需要安装Hadoop，这⾥Hadoop的安装就不介绍

了，给出⼀个教程

3.实现创建hadoop⽤户，Hadoop、Spark等程序都在该⽤户下进⾏安装

4.ssh⽆密码登录，Spark集中各节点的通信需要通过ssh协议进⾏，这需要事先进⾏配置。通过在hadoop⽤户的.ssh

⽬录下将其他⽤户的id_rsa.pub公钥⽂件内容拷贝的本机的authorized_keys⽂件中，即可事先⽆登录通信的功能

5.Java环境的安装，同时将JAVA_HOME、CLASSPATH等环境变量放到主⽬录的.bashrc，执⾏source .bashrc使之⽣

效

部署配置

这⾥配置⼯作需要以下⼏个步骤：

1.解压Spark⼆进制压缩包

2.配置conf/spark-env.sh⽂件

3.配置conf/slave⽂件

下⾯具体说明⼀下：

配置Spark的运⾏环境，将plate模板⽂件复制成spark-env.sh，然后填写相应需要的配

置内容：

export SPARK_MASTER_IP=hadoop1

export SPARK_MASTER_PORT=7077

export SPARK_WORKER_CORES=1

export SPARK_WORDER_INSTANCES=1

export SPARK_WORKER_MEMORY=3g

其他选项内容请参照下⾯的选项说明：

# Options for the daemons used in the standalone deploy mode:

# - SPARK_MASTER_IP, to bind the master to a different IP address or hostname

# - SPARK_MASTER_PORT / SPARK_MASTER_WEBUI_PORT, to use non-default ports for the master

# - SPARK_MASTER_OPTS, to set config properties only for the master (e.g. "-Dx=y")

# - SPARK_WORKER_CORES, to set the number of cores to use on this machine

# - SPARK_WORKER_MEMORY, to set how much total memory workers have to give executors (e.g. 1000m, 2g)

# - SPARK_WORKER_PORT / SPARK_WORKER_WEBUI_PORT, to use non-default ports for the worker

# - SPARK_WORKER_INSTANCES, to set the number of worker processes per node

# - SPARK_WORKER_DIR, to set the working directory of worker processes

# - SPARK_WORKER_OPTS, to set config properties only for the worker (e.g. "-Dx=y")

# - SPARK_HISTORY_OPTS, to set config properties only for the history server (e.g. "-Dx=y")

conf/slave⽂件⽤户分布式节点的配置，这⾥只需要在slave⽂件中写⼊该节点的主机名即可

将以上内容都配置好了，将这个spark⽬录拷贝到各个节点scp -r spark hadoop@hadoop2:~

接下来就可以启动集了，在Spark⽬录中执⾏sbin/start-all.sh，然后可以通过netstat -nat命令查看端⼝

7077的进程，还可以通过浏览器访问hadoop1:8080了解集的概况

Spark Client部署

Spark Client的作⽤是，事先搭建起Spark集，然后再物理机上部署客户端，然后通过该客户端提交任务给Spark集。

由于上⾯介绍了Standalone分布式集是如何搭建的，这⾥只需将集上的spark⽂件夹拷贝过来。

最简单的Spark客户端访问集的⽅式就是通过Spark shell的⽅式：bin/spark-shell --master spark://hadoop1:7077这样就可以访问集了。

这样在浏览器的Spark集界⾯上就可以看到Running Applications⼀栏中有Spark shell的应⽤在执⾏。

Spark Standalone伪分布式部署

伪分布式是在⼀台机器上进⾏部署来模拟分布式的集，这⾥部署的过程和Standalone集的部署是类似的，事前的⼯作都是⼀样的，这⾥只是在配置⽂件中做相应的修改就可以了。

这⾥还是配置这两个⽂件：

配置conf/spark-env.sh⽂件

配置conf/slave⽂件

修改spark-env.sh⽂件，修改master的ip，这⾥主机名和⽤户ip分别在/etc/hostname和/etc/hosts⽂件中进⾏配置

export SPARK_MASTER_IP=jason

export SPARK_MASTER_PORT=7077

export SPARK_WORKER_CORES=1

export SPARK_WORDER_INSTANCES=1

export SPARK_WORKER_MEMORY=3g

slave⽂件中，填写⾃⼰的主机名，⽐如我的主机名jason

总结

以上就是本⽂关于spark之Standalone模式部署配置详解的全部内容，感兴趣的朋友可以继续参阅：、、等，希望对⼤家有所帮助。感谢各位对⽹站的⽀持！

688IT编程网

spark之Standalone模式部署配置详解

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

688IT编程网

spark之Standalone模式部署配置详解

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时 正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

java正则表达式选择题

非零金额正则表达式

半小时正则表达式