Hadoop3.0大数据平台性能
作者:李士果 卢建云
hadoop分布式集搭建来源:《电子技术与软件工程》2019年第05期
作者:李士果 卢建云
hadoop分布式集搭建来源:《电子技术与软件工程》2019年第05期
摘要;;; 针对发布的Hadoop3.0,本文研究了Hadoop3.0大数据平台性能。首先,采用华为云服务器搭建大数据平台;其次,利用Hadoop框架提供的基准性能测试程序进行性能验证,测试指标包括TestDFSIO、MRBench和TeraSort。最后,对比分析不同负载、不同数据量对平台性能的影响。实验结果表明,Hadoop3.0在HDFS读写能力、MapReduce计算能力上均表现出较优的性能。
【关键词】大数据 Hadoop3.0 性能测试
1 引言
Hadoop作为开源的分布式系统基础架构,具有高扩展性、高可靠性、高容错性、低成本等特性,在政府、金融、工业、教育等领域得到了广泛的应用。Hadoop平台发展至今,发布了三个大版本,分别是Hadoop1.0、2.0和3.0。从Hadoop1.0到Hadoop2.0,增加了资源管理系统Yarn,使得Hadoop2.0具有更好的扩展性和性能,并支持多种计算框架。近来,Apache发布了Hadoop3.0版本,该版本在功能和性能方面做了多项改进,使得Hadoop3.0在存储和计算性能方面得到很大提升。因此,对Hadoop3.0平台性能进行研究具有重要的实际应用意义。本文基于华为云服务器搭建Hadoop3.0完全分布式集,使用Hadoop3.0提供的
基准测试程序对平台进行性能测试。分析对比不同负载、不同数据量对Hadoop3.0平台的性能影响。
2 Hadoop3.0平台特性
Hadoop是Apache旗下一个顶级分布式计算开源框架项目,主要包括两个核心组件:分布式存储子系统HDFS和分布式计算子系统MapReduce。Hadoop采用主/从架构管理存储和计算。通常,在Hadoop完全分布式集上,运行了一系列后台程序。这些后台程序代表了不同的服务,例如NameNode、DataNode、Secondary NameNode、JobTracker、TaskTracker等。其中NameNode、Secondary NameNode、JobTracker运行在Master节点上,而在每个Worker节点上,部署一个DataNode和TaskTracker,以便这个Worker服务器运行的数据处理程序能尽可能直接处理本机的数据。Hadoop3.0框架如图1所示。
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论