[大数据运维]第29讲:大数据平台的硬件规划、网络调优、架构设计、节点规...--688IT编程网

[⼤数据运维]第29讲：⼤数据平台的硬件规划、⽹络调优、架构设计、节点规划第29讲：⼤数据平台的硬件规划、⽹络调优、架构设计、节点规划

⾼俊峰（南⾮蚂蚁）

这⼀课时，我将向你介绍 Hadoop ⼤数据平台的硬件选型、⽹络⽅⾯的架构设计和存储规划等内容。

⼤数据平台硬件选型

要对 Hadoop ⼤数据平台进⾏硬件选型，⾸先需要了解 Hadoop 的运⾏架构以及每个⾓⾊的功能。在⼀个典型的 Hadoop 架构中，通常有 5个⾓⾊，分别是 NameNode 、Standby NameNode 、ResourceManager 、NodeManager 、DataNode 以及外围机。

其中 NameNode 负责协调集上的数据存储，Standby NameNode 属于 NameNode 的热备份，ResourceManager 负责协调计算分析，这三者属于管理⾓⾊，⼀般部署在独⽴的服务器上。

⽽ NodeManager 和 DataNode ⾓⾊主要⽤于计算和存储，为了获得更好的性能，通常将 NodeManager 和 DataNode 部署在⼀起。

1.对 NameNode 、ResourceManager 及其 Standby NameNode 节点硬件配置

由于⾓⾊的不同，以及部署位置的差别，对硬件的需求也不相同，推荐对 NameNode 、ResourceManager 及其 Standby NameNode 节点选择统⼀的硬件配置，基础配置推荐如下表所⽰：

对于 CPU ，可根据资⾦预算，选择 8 核、10 核或者 12 核。

对于内存，常⽤的计算公式是集中 100 万个块（HDFS blocks ）对应 NameNode 需要 1GB 内存，如果你的集规模在 100 台以内，NameNode 服务器的内存配置⼀般选择 128GB 即可。

由于 NameNode 以及 Standby NameNode 两个节点需要存储 HDFS 的元数据，所以需要配置数据盘，数据盘建议⾄少配置 4 块，每两块做 raid1，做两组 raid1；然后将元数据分别镜像存储到这两个 raid1 磁盘组中。⽽对于 ResourceManager ，由于不需要存储重要数据，因⽽，数据盘可不配置。

⽹络⽅⾯，为了不让⽹络传输成为瓶颈，建议配备光纤接⼝⽹卡，节点之间带宽要保证在 10GB 左右。

最后，主机电源推荐都是⽤双电源，虽然有⼀些费电，但可保证这些重要节点的稳定性，不⾄于出现电源故障直接宕机的情况。

2.对 NodeManager 、DataNode 节点服务器硬件配置

下⾯再说下企业通⽤和主流的 NodeManager 、DataNode 节点服务器硬件配置，如下表所⽰：

由于 NodeManager 、DataNode 主要⽤于计算和存储，所以对 CPU 性能要求会⽐较⾼，推荐 2 路 14 核。

内存⽅⾯，如果分布式计算中涉及 Spark 、HBase 组件，那么建议配置⼤内存，每个节点 256GB 内存是个不错的配置。

磁盘⽅⾯，DataNode 节点主要⽤来存储数据，所以需要配置⼤量磁盘，磁盘单盘使⽤，⽆须做 raid ，磁盘⼤⼩推荐每块 8T 。不建议使⽤更⼤的单盘，当然如果有条件，也可采购 SSD 磁盘，但是 SSD 磁盘成本太⾼，需要根据预算来定。

每个 DataNode 建议配置 8 ~ 10 块硬盘，具体数量，需要根据总共需要的存储空间⽽定。例如，假设总共需要存储 800TB 的数据，HDFS 的块副本数为 3，如果每个 DataNode 配置 10 块 8T 的硬盘，那么，采购 30 台 DataNode 服务器即可。NodeManager 节点也会存储⼀些分析任务的中间结果以及⽇志等临时数据，建议这些数据的存储路径和 HDFS 的数据存储路径分开，单独规划 3~5 块 4~8T 磁盘来存储这

硬件

配置CPU

推荐 2 路 8 核、2 路 10 核或 2 路 12 核等，主频⾄少 2~2.5GHz 内存

推荐 64~512GB 磁盘

分为 2 组，系统盘和数据盘，系统盘 2T*2，做 raid1；数据盘 4~8T 左右，数据盘单盘使⽤，⽆须做 raid ⽹卡

万兆⽹卡（光纤卡），存储越多，⽹络吞吐就要求越⾼电源最好配置冗余电源，如预算不⾜，也可使⽤

单电源

些临时数据即可，同理，这些磁盘也⽆须做 raid，单盘使⽤即可。

在⽹络⽅⾯，也建议 NodeManager 和 DataNode 采购光纤接⼝⽹卡，所有 NodeManager、DataNode 节点连接到光纤交换机，保证节点之间 10GB ⾼速⽹络传输。

最后，在电源⽅⾯，可根据预算，决定是否采购双电源，在集模式下，NodeManager 或 DataNode 某个节点故障对 Hadoop 影响不⼤，所以使⽤单电源也是可⾏的。

⼤数据平台⽹络架构设计

1.Hadoop 基础⽹络架构

普通的 Hadoop ⽹络⼀般由两层结构组成：接⼊交换机和汇聚交换机（或者核⼼交换机），在具体布线上采⽤ TOR ⽅式，在⼀个 42U 的标准服务器机柜的最上⾯安装接⼊交换机，每个服务器的光纤⽹⼝都接⼊到机柜上部的光交换机上，这个接⼊交换机再通过光纤，接⼊到⽹络机柜的汇聚或核⼼交换机上。

基本架构如下图所⽰：

在上图中，列出了三个机柜，在每个机柜上有两个 10GE 的 TOR 交换机，这两个交换机为主、备模式，然后这些主、被交换机在通过光纤接⼊到上层的 100GE 汇聚交换机上。这种部署默认可以最⼤限度地保证⽹络的传输质量和稳定性。

在每个机柜中都可部署相应的 Hadoop 服务，可以看出，机柜 1 和 2 分别部署了 NameNode 的主、被节点，这两个主、备节点分开部署到不同的机柜，可以最⼤限度保证 NameNode 的可靠性，不建议将主、备节点部署到同⼀个机柜中，因为如果某个机柜发⽣故障（电源故障、⽹络故障），那么主、备将失去存在的意义。

同理，ResourceManager 节点也部署了主、备的 HA 功能，这两个节点也不能在⼀个机柜中，这是⼀个基本常识。此外，在每个机柜中，都分布着 NodeManager 和 DataNode 节点，并且这两个服务是部署在⼀起的。

此外，在三个机柜中，还有 Hadoop gateway 节点，这些节点相当于⽤户与 Hadoop 的交互接⼝，通过这些节点提交任务到 Hadoop 集中，通常这些节点也可以有多个，建议分布在多个机柜中。

2.Hadoop 机架感知机制

所谓机架感知就是⾃动了解 Hadoop 集中每个机器节点所属的机架，某个 Datanode 节点是属于哪个机柜并⾮智能感知的，⽽是需要Hadoop 的管理者⼈为地告知 Hadoop 哪台机器属于哪个机柜。

这样在 Hadoop 的 Namenode 启动初始化时，会将这些机器与机柜的对应信息保存在内存中，⽤来作为 HDFS 写数据块操作分配Datanode 列表时（⽐如 3 个 block 对应三台 Datanode）选择 DataNode 的策略。

⽐如，要写三个数据块到对应的三台 Datanode，那么通过机架感知策略，可以尽量将三个副本分布到不同的机柜上。

默认情况下，Hadoop 的机架感知功能没有启⽤。所以，通常情况下，Hadoop 集的 HDFS 在选机器时，是随机选择的，这在某些情况下会影响 HDFS 读写性能，进⽽影响作业的性能以⾄于整个集的服务。

⽽在开启了机架感知后，不同节点之间的通信能够尽量发⽣在同⼀个机架之内，⽽不是跨机架，同时，为了提⾼容错能⼒，Namenode 节点会尽可能把数据块的副本放到多个机架上，进⽽提升数据的安全性。

要查看当前集机架配置情况，可执⾏如下命令：

[hadoop@namenodemaster conf]$ hdfs dfsadmin -printTopology

Rack: /default-rack

172.16.213.103:9866 (slave002)

172.16.213.169:9866 (slave003)

172.16.213.70:9866 (slave001)

可以看到默认所有节点都是⼀个机架 default-rack，此时没有配置机架感知。要配置机架感知，⾸先需要⾃定义机器机架位置，编写机架配置⽂件 rack.data，内容如下：

172.16.213.103 slave002 /switch1/rack2

172.16.213.70 slave001 /switch1/rack1

172.16.213.169 slave003 /switch1/rack3

这⾥将三个节点分别放到三个不同的机柜中。

然后还需要配置⼀个机架感知脚本，假定脚本名称为 rack.sh，内容如下：

#!/bin/bash

HADOOP_CONF=/etc/hadoop/conf/

while [ $# -gt 0 ] ;

nodeArg=$1

exec<${HADOOP_CONF}/rack.data

result=""

while read line

ar=( $line )

if [ "${ar[0]}" = "$nodeArg" ]||[ "${ar[1]}" = "$nodeArg" ]

then

result="${ar[2]}"

done

shift

if [ -z "$result" ]

then

echo -n "/default-rack"

else

echo -n "$result"

done

将此脚本放⼤ Hadoop 配置⽂件⽬录下即可，并授予可执⾏权限。

hbase主要用来储存什么数据最后⼀步，还需要修改 l ⽂件，添加机架感知脚本，添加如下内容：

<name&pology.script.file.name</name>

<value>/etc/hadoop/conf/rack.sh</value>

</property>

配置完成后，需要重启 NameNode 服务，配置才能⽣效。

重启服务后，要验证机架感知配置是否⽣效，可执⾏如下命令：

[hadoop@namenodemaster conf]$ hdfs dfsadmin -printTopology

Rack: /switch1/rack1

172.16.213.70:9866 (slave001)

Rack: /switch1/rack2

172.16.213.103:9866 (slave002)

Rack: /switch1/rack3

172.16.213.169:9866 (slave003)

可以看出，HDFS 的机架感知配置已经成功。

3.⼤数据平台架构设计要点

在构建⼤数据平台之前，⾸先要考虑需要的存储容量、计算能⼒、是否有实时分析的需求、数据的存储周期等因素，然后再根据这些需求进⾏平台的架构设计。

同时，还要考虑平台的健壮性，例如，任意⼀个节点宕机都不会影响平台的正常使⽤，任何⼀个磁盘的损坏都不会导致数据丢失等。

针对 Hadoop ⼤数据平台的基础架构，最基本的要求是保证 NameNode、ResourceManager 这些管理节点的⾼可⽤性，因此这些节点必须要做 HA。

此外，为了保障 HDFS 数据的安全性，对 Hadoop 块存储⼀定要设置合适的副本数。例如，设置 3 个副本，那么集中任意 2 个 datanode 节点故障宕机，都不会丢失数据。

在⽹络⽅⾯，建议每个节点的服务器采⽤双⽹卡绑定，⽹络设置为冗余模式，并和交换机做冗余绑定，做到单个⽹卡故障或者单个交换机故障，都能保证此节点⽹络正常运⾏。

下⾯是⼀个典型的 Hadoop ⼤数据平台部署拓扑，如下图所⽰：

从图中可以看出，NameNode、ResourceManager 节点都部署了⾼可⽤功能，任何⼀个节点故障都不会影响集的存储和计算。此

外，DataNode 节点可根据存储周期、存储容量、计算任务数进⾏扩容和缩容，并且扩容、缩容可在线直接进⾏，不影响集运⾏。

此外，在 Hadoop 集之外，还要跟 Hadoop 配合的⼀些外围应⽤，例如 ambari，⽤来⾃动化运维、监控 Hadoop 集，Hadoop gateway ⽤于和 Hadoop 集的交互接⼝，⽽ DNS server 和 NTP server 主要⽤于 Hadoop 集内部的主机名解析与时间同步。Zookeeper Server ⽤于 Hadoop 集中的仲裁和协调调度。

⼤数据平台存储、计算节点规划

对⼤数据平台存储和计算资源的规划，需要根据实际应⽤需求判断，例如，现有的和⽇增长的数据量、数据的存储周期、每天计算任务的中间结果数据量，以及数据冗余空间，⽐如保持⼏个副本等实际应⽤需求。

我以⼀个实际案例举例说明：⽬前有数据量 500TB，每天数据量增长 2T 左右，数据块副本为 3，所有数据存储周期为 2 年，根据这个需求，就可以算出需要的存储节点数。

2 年数据量需要的存储空间：(2*3)*(365*2)=4380TB

总共需要的存储空间：4380TB+(500*3)TB=5880TB

如果以⼀个存储节点 12 块 4T 硬盘来计算，则需要约（5880TB/48TB=147）123 个存储节点；⽽如果采⽤⼀个存储节点 10 块 8T 硬盘来计算，需要约（5880TB/80TB=147）74 个存储节点即可。

那么此时如何选择每个节点硬盘的⼤⼩呢？这就要看⼤数据平台需要的计算资源有多少了，很显然，按照 4T 硬盘 12 块来规划的话，可获得更多的计算资源（CPU、内存），但此⽅案需要采购 123 台服务器，成本较⾼；反之，如果采⽤ 10块 8T 硬盘来规划的话，那么只需要74 台服务器即可，此时可计算 74 台服务器是否能满⾜计算资源的要求，如果能满⾜，那么这个磁盘规划就是最合适的。

对于计算资源规划，要看都运⾏哪些应⽤，如果是 Spark、HBase、ElasticSearch 这类吃内存的⼤数据

组件，那么建议计算节点所选的服务器的内存⼀定要⼤，最好 64GB 起，能有 128GB 更好。由于前期对计算资源需求很难评估，所以可根据上⾯这个原则去配置 CPU 和内存即可，如果遇到计算性能瓶颈，可以在后期进⾏⽔平扩展，⾮常⽅便。

⼤数据平台对硬件的规划原则：如果能够确切地知道存储和计算的资源需要，那么就按照这个需求来配置即可；但如果⽆法准确地评估出存储和计算资源需求量，那么⼀定要留下可扩展的余地，⽐如留下⾜够的机柜位置、⽹络接⼝、磁盘接⼝等。在实际应⽤中，存储容量⼀般很好预估，但计算资源很难预估，因此留下⾜够的扩展接⼝，是必须要考虑的⼀个问题。

总结

本课时主要介绍了 Hadoop ⼤数据平台的硬件选项、⽹络⽅⾯的架构设计和存储规划等内容。其中如何对⼤数据平台做好存储、计算等资源的规划，⾄关重要，它也是运维⼤数据平台的第⼀步，如果前期规划不当，到后期发现架构不合理，那么需要修改或者扩展将⾮常困难，所以这部分内容需要你反复练习揣摩。

688IT编程网

[大数据运维]第29讲:大数据平台的硬件规划、网络调优、架构设计、节点规...

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符回溯引用和前后查匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式选择题

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

688IT编程网

[大数据运维]第29讲:大数据平台的硬件规划、网络调优、架构设计、节点规...

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符 回溯引用和前后查 匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式 选择题

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

java正则表达式选择题

非零金额正则表达式

基本的元字符回溯引用和前后查匹配模式

java正则表达式选择题

非零金额正则表达式