DSS部署-12、DSS安装
DataSphere Studio⼀键安装使⽤⽂档
补充nginx配置,测试yum是否好⽤,准备配置⽂件
links默认使⽤python,建议安装python2
web的install.sh中,需要本地安装后,然后去掉nginx的安装,及防⽕墙的处理部分脚本
修改全家中中conf的config.sh中的nginx端⼝为⾮8088 ,不能与yarn冲突
⼀、使⽤前环境准备
a. 基础软件安装
Linkix需要的命令⼯具(在正式安装前,脚本会⾃动检测这些命令是否可⽤,如果不存在会尝试⾃动安装,安装失败则需⽤户⼿动安装以下基础shell命令⼯具):
telnet tar sed dos2unix mysql yum unzip expect
MySQL (5.5+)
JDK (1.8.0_141以上)
Python(2.7)
Nginx
Hadoop(2.7.2,Hadoop其他版本需⾃⾏编译Linkis) ,安装的机器必须⽀持执⾏ hdfs dfs -ls / 命令
Hive(2.3.3,Hive其他版本需⾃⾏编译Linkis),安装的机器必须⽀持执⾏hive -e "show databases"命令
Spark(⽀持2.0以上所有版本) ,安装的机器必须⽀持执⾏spark-sql -e "show databases"命令
Tips:
如您是第⼀次安装Hadoop,单机部署Hadoop可参考: ;分布式部署Hadoop可参考:。
如您是第⼀次安装Hive,可参考:。
如您是第⼀次安装Spark,On Yarn模式可参考:。
b. 创建⽤户
例如: 部署⽤户是hadoop账号(可以不是hadoop⽤户,但是推荐使⽤Hadoop的超级⽤户进⾏部署,这⾥只是⼀个⽰例)
1. 在所有需要部署的机器上创建部署⽤户,⽤于安装
sudo useradd hadoop
1. 因为Linkis的服务是以 sudo -u ${linux-user} ⽅式来切换引擎,从⽽执⾏作业,所以部署⽤户需要有 sudo 权限,⽽且是免密的。
vim /etc/sudoers
hadoop ALL=(ALL) NOPASSWD: NOPASSWD: ALL
1. 确保部署 DSS 和 Linkis 的服务器可正常执⾏ hdfs 、hive -e 和 spark-sql -e 等命令。在⼀键安装脚本中,会对组件进⾏检查。
2. 如果您的Pyspark想拥有画图功能,则还需在所有安装节点,安装画图模块。命令如下:
下载pip(适⽤于python3)
curl bootstrap.pypa.io/get-pip.py -o get-pip.py
下载pip(适⽤于python2)
curl bootstrap.pypa.io/pip/2.7/get-pip.py -o get-pip.py
安装pip
python get-pip.py
升级pip
pip install --upgrade pip
安装matplotlib
python -m pip install -i pypi.tuna.tsinghua.edu/simple matplotlib
pip install matplotlib
c.安装准备
⾃⾏编译或者去组件release页⾯下载安装包:
1. 下载安装包
1. 下载 DSS & LINKIS ⼀键安装部署包,并解压。以下是⼀键安装部署包的层级⽬录结构:
├── dss_linkis # ⼀键部署主⽬录
├── bin # ⽤于⼀键安装,以及⼀键启动 DSS + Linkis
├── conf # ⼀键部署的参数配置⽬录
├── - # DSS后台安装包
├── -dist.zip # DSS前端安装包
├── - # Linkis安装包
d. 修改配置
打开conf/config.sh,按需修改相关配置参数:
vim conf/config.sh
参数说明如下:
说明,DSS_WEB_PORT端⼝需要保证不能 与YARN REST URL端⼝冲突,可以改为8099或其他可⽤端⼝
>>>> ⼀键安装部署的基本配置 >>>>
# 部署⽤户,默认为当前登录⽤户,⾮必须不建议修改
# deployUser=hadoop
# ⾮必须不建议修改
# LINKIS_VERSION=1.0.2
### DSS Web,本机安装⽆需修改
#DSS_NGINX_IP=127.0.0.1
#DSS_WEB_PORT=8099
# ⾮必须不建议修改
#DSS_VERSION=1.0.0
## Java应⽤的堆栈⼤⼩。如果部署机器的内存少于8G,推荐128M;达到16G时,推荐⾄少256M;如果想拥有⾮常良好的⽤户使⽤体验,推荐部署机器的内存⾄少达到32G。
export SERVER_HEAP_SIZE="128M"
>>>>>>>>>>>>mysql下载下来没安装包
>>>># Linkis 的配置开始 >>>>#
>>>># Linkis 的配置开始 >>>>#
>># ⾮注释的参数必须配置,注释掉的参数可按需修改 >> >>>>>>>>>>>>
### DSS⼯作空间⽬录
WORKSPACE_USER_ROOT_PATH=file:///tmp/linkis/
### ⽤户 HDFS 根路径
HDFS_USER_ROOT_PATH=hdfs:///tmp/linkis
### 结果集路径: file 或者 hdfs path
RESULT_SET_ROOT_PATH=hdfs:///tmp/linkis
### Path to store started engines and engine logs, must be local ENGINECONN_ROOT_PATH=/appcom/tmp
#ENTRANCE_CONFIG_LOG_PATH=hdfs:///tmp/linkis/
### ==HADOOP配置⽂件路径,必须配置==
HADOOP_CONF_DIR=/appcom/config/hadoop-config
### HIVE CONF DIR
HIVE_CONF_DIR=/appcom/config/hive-config
### SPARK CONF DIR
SPARK_CONF_DIR=/appcom/config/spark-config
# for install
#LINKIS_PUBLIC_MODULE=lib/linkis-commons/public-module
## YARN REST URL
YARN_RESTFUL_URL=127.0.0.1:8088
## Engine版本配置,不配置则采⽤默认配置
#SPARK_VERSION
#SPARK_VERSION=2.4.3
##HIVE_VERSION
#HIVE_VERSION=1.2.1
#PYTHON_VERSION=python2
## LDAP is for enterprise authorization, if you just want to have a try, ignore it. #LDAP_URL=ldap://localhost:1389/
#LDAP_BASEDN=dc=webank,dc=com
#LDAP_USER_NAME_FORMAT=cn=%s@xxx,OU=xxx,DC=xxx,DC=com
# Microservices Service Registration Discovery Center
#LINKIS_EUREKA_INSTALL_IP=127.0.0.1
#LINKIS_EUREKA_PORT=20303
#LINKIS_EUREKA_PREFER_IP=true
### Gateway install information
#LINKIS_GATEWAY_PORT =127.0.0.1
#LINKIS_GATEWAY_PORT=9001
### ApplicationManager
#LINKIS_MANAGER_INSTALL_IP=127.0.0.1
#LINKIS_MANAGER_PORT=9101
### EngineManager
#LINKIS_ENGINECONNMANAGER_INSTALL_IP=127.0.0.1
#LINKIS_ENGINECONNMANAGER_PORT=9102
### EnginePluginServer
#LINKIS_ENGINECONN_PLUGIN_SERVER_INSTALL_IP=127.0.0.1
#LINKIS_ENGINECONN_PLUGIN_SERVER_PORT=9103
### LinkisEntrance
#LINKIS_ENTRANCE_INSTALL_IP=127.0.0.1
#LINKIS_ENTRANCE_PORT=9104
#LINKIS_ENTRANCE_PORT=9104
### publicservice
#LINKIS_PUBLICSERVICE_INSTALL_IP=127.0.0.1
#LINKIS_PUBLICSERVICE_PORT=9105
### cs
#LINKIS_CS_INSTALL_IP=127.0.0.1
#LINKIS_CS_PORT=9108
>>>># Linkis 的配置完毕 >>>>#
>>>>>>>>>>>>
>>>>### DSS 的配置开始 >>>>###
>># ⾮注释的参数必须配置,注释掉的参数可按需修改 >>
>>>>>>>>>>>>
# ⽤于存储发布到 Schedulis 的临时ZIP包⽂件
WDS_SCHEDULER_PATH=file:///appcom/tmp/wds/scheduler
### This service is used to provide dss-framework-project-server capability.
#DSS_FRAMEWORK_PROJECT_SERVER_INSTALL_IP=127.0.0.1
#DSS_FRAMEWORK_PROJECT_SERVER_PORT=9002
### This service is used to provide dss-framework-orchestrator-server capability.
#DSS_FRAMEWORK_ORCHESTRATOR_SERVER_INSTALL_IP=127.0.0.1
#DSS_FRAMEWORK_ORCHESTRATOR_SERVER_PORT=9003
### This service is used to provide dss-apiservice-server capability.
#DSS_APISERVICE_SERVER_INSTALL_IP=127.0.0.1
#DSS_APISERVICE_SERVER_PORT=9004
### This service is used to provide dss-workflow-server capability.
#DSS_WORKFLOW_SERVER_INSTALL_IP=127.0.0.1
#DSS_WORKFLOW_SERVER_PORT=9005
### dss-flow-Execution-Entrance
### This service is used to provide flow execution capability.
#DSS_FLOW_EXECUTION_SERVER_INSTALL_IP=127.0.0.1
#DSS_FLOW_EXECUTION_SERVER_PORT=9006
### This service is used to provide dss-datapipe-server capability.
#DSS_DATAPIPE_SERVER_INSTALL_IP=127.0.0.1
#DSS_DATAPIPE_SERVER_PORT=9008
##sendemail配置,只影响DSS⼯作流中发邮件功能
EMAIL_HOST=smtp.163
EMAIL_PORT=25
EMAIL_USERNAME=xxx@163
EMAIL_PASSWORD=xxxxx
EMAIL_PROTOCOL=smtp
>>>>### DSS 的配置结束 >>>>###
如下地址需要配置
###HADOOP CONF DIR #/appcom/config/hadoop-config HADOOP_CONF_DIR=/opt/modules/hadoop-2.7.2/etc/hadoop/
###HIVE CONF DIR #/appcom/config/hive-config
HIVE_CONF_DIR=/opt/modules/apache-hive-2.3.3/conf
###SPARK CONF DIR #/appcom/config/spark-config
SPARK_CONF_DIR=/opt/modules/spark-2.3.2-bin-hadoop2.7/conf e. 修改数据库配置
请确保配置的数据库,安装机器可以正常访问,否则将会出现DDL和DML导⼊失败的错误。
vi conf/db.sh
### 配置DSS数据库
MYSQL_HOST=127.0.0.1
MYSQL_PORT=3306
MYSQL_DB=dss
MYSQL_USER=root
MYSQL_PASSWORD=asdf1234
## Hive metastore的数据库配置,⽤于Linkis访问Hive的元数据信息
HIVE_HOST=127.0.0.1
HIVE_PORT=3306
HIVE_DB=hive
HIVE_USER=root
HIVE_PASSWORD=asdf1234
f.修改wedatasphere-dss-web-1.0.1-dist配置
install.sh中的如下部分需要处理
centos7(){
# nginx是否安装
#sudo rpm -Uvh /packages/centos/7/noarch/RPMS/arch.rpm #调整点:1
# yum安装的部分nginx,缺少“/etc/nginx/conf.d/⽂件夹”,所以nginx⼿动安装,详见第8部分
#sudo yum install -y nginx
#echo "Nginx installed successfully"
# 配置nginx
dssConf
# 解决 0.0.0.0:8888 问题
yum -y install policycoreutils-python
semanage port -a -t http_port_t -p tcp $dss_port
# 开放前端访问端⼝
#调整点2
#【如果⽤于测试,本地已关闭防⽕墙,不需要执⾏】
#firewall-cmd --zone=public --add-port=$dss_port/tcp --permanent
#调整点3
#重启防⽕墙
# 【如果⽤于测试,本地已关闭防⽕墙,不需要执⾏】
#firewall-cmd --reload
# 启动nginx
systemctl restart nginx
# 调整SELinux的参数
sed -i "s/SELINUX=enforcing/SELINUX=disabled/g" /etc/selinux/config
# 临时⽣效
setenforce 0
}
⼆、安装和使⽤
1. 执⾏安装脚本:
sh bin/install.sh
# 看具体执⾏到哪⼀步
sh -v bin/install.sh
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
关于安卓手机的牛逼软件termux使用
« 上一篇
wordpress安装和使用图文教程(新手指南)
下一篇 »
推荐文章
热门文章
-
随机森林特征选择原理
2024-10-02 -
自动驾驶系统中的随机森林算法解析
2024-10-02 -
随机森林算法及其在生物信息学中的应用
2024-10-02 -
监督学习中的随机森林算法解析(六)
2024-10-02 -
随机森林算法在数据分析中的应用
2024-10-02 -
机器学习——随机森林,RandomForestClassifier参数含义详解
2024-10-02 -
随机森林 的算法
2024-10-02 -
随机森林算法作用
2024-10-02 -
监督学习中的随机森林算法解析(十)
2024-10-02 -
随机森林算法案例
2024-10-02 -
随机森林案例
2024-10-02 -
二分类问题常用的模型
2024-10-02 -
绘制ssd框架训练流程
2024-10-02 -
一种基于信息熵和DTW的多维时间序列相似性度量算法
2024-10-02 -
SVM训练过程范文
2024-10-02 -
如何使用支持向量机进行股票预测与交易分析
2024-10-02 -
二分类交叉熵损失函数binary
2024-10-02 -
tinybert_训练中文文本分类模型_概述说明
2024-10-02 -
基于门控可形变卷积和分层Transformer的图像修复模型及其应用
2024-10-02 -
人工智能开发技术的测试和评估方法
2024-10-02
最新文章
-
基于随机森林的数据分类算法改进
2024-10-02 -
人工智能中的智能识别与分类技术
2024-10-02 -
基于人工智能技术的随机森林算法在医疗数据挖掘中的应用
2024-10-02 -
随机森林回归模型的建模步骤
2024-10-02 -
r语言随机森林预测模型校准曲线
2024-10-02 -
《2024年随机森林算法优化研究》范文
2024-10-02
发表评论