集团大数据平台系统配置方案
1.1硬件系统配置建议
1.1.1基础Hadoop平台集配置规划
根据此次大数据平台的建设要求,大数据平台需要满足全量3PB数据的存储要求,根据数据的特点,大概30%为结构化数据,70%为非结构化数据,并以此进行估算。其中:
1)结构化数据的数据量为:
3PB*30%=0.9PB=922TB(结构化数据全部进入数据仓库)
对于结构化数据存储容量要求为:
922TB*(3+1+0.5)/3*1.3=1798TB
注:对结构化数据,采用3倍副本冗余存储,1倍中间结果余留,0.5倍索引存储空间,3倍数据压缩,0.3倍空间余留。
2)非结构化数据的数据量为:
3PB*70%=2.1PB=2151TB
对于非结构化数据存储要求为:
2151TB*3=6453TB
非结构化数据采用3倍副本冗余存储。
3)全量数据存储容量要求为:
1798TB(结构化数据)+6453TB(非结构化数据)=8251TB
DataNode单节点存储容量推荐配置为:4TB*12=48TB
基础Hadoop平台DataNode节点数为:8251TB/48TB=172节点
因此,DataNode服务器推荐配置为:
表10-1 推荐配置
hadoop分布式集搭建
服务器
推荐配置及说明
节点数量
172个节点
CPU
两路8核处理器E5-2650 v3或以上
内存
128GB ECCDDR4
硬盘
2个600G的SAS硬盘,15000RPM,RAID1,作为系统盘
12个4TB的SATA硬盘,7200RPM,不做RAID1
网络
双电口万兆(10Gbps)以太网卡
另外:对于此次搭建的大规模Hadoop集,需要单独规划Zookeeper 9个节点,NameNode 2个节点,Resource Manager 2个节点,HMaster 5个节点,总共9+2+2+5=18个节点
综上所述,基础Hadoop平台节点规模如下:
表10-2 节点规模
节点数量
(X86服务器数量)
功能简述
DataNode
172
存储/计算节点
NameNode
2
管理节点
Zookeeper
9
Hadoop分布式系统中的高可靠的协调系统
Resource Manager
2
负责集中所有资源的统一管理和分配
HMaster
5
为Region Server分配region负责Region Server的负载均衡
总共
190
针对NameNode,Zookeeper,Resource Manager,HMaster等角的功能和性能要求,服务器建议采用如下配置:

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。