Hadoop云计算平台的研究及实现
作者:吴俊森
来源:《硅谷》2014年第15期
作者:吴俊森
来源:《硅谷》2014年第15期
摘 要 随着电子商务的兴起,传统的服务器集技术在处理大数据时越来越显得力不从心。Hadoop是一种开源的云计算技术,包含HDFS文件系统及MapReduce编程模型两大核心,在处理海量数据、数据挖掘、电商推荐系统等领域有其独到的优势。文章介绍了Hadoop的基本原理,实现了搭建了Hadoop集,从而实现了一个基于Hadoop的云计算平台。
关键词 Hadoop;云计算;HDFS
中图分类号:TP3 文献标识码:A 文章编号:1671-7597(hadoop分布式集搭建2014)15-0051-02
在大数据时代,数据动辄以T级计算,传统的集技术已经难以存储、分析并处理如此大量的数据。为了提高集系统中硬件资源的利用率,分布式文件系统得到了广泛的应用。Google公司先后提出了BigTable、GPFS以及MapReduce等分布式技术,为处理海量数据提供了宝贵的经验;Hadoop分布式系统框架也应运而生,并在日志分析、商业数据分析等领域得
到广泛应用。目前Hadoop集应用最为成熟的是Yahoo公司,在其生产环境Hadoop集中有超过4000台节点,对其业务运营、客户关系分析等有着重要的现实意义。Hadoop开源项目诞生以来,国内的研究开始较晚,加之国内多数研究机构、厂商等的谨慎保守态度,Hadoop生态系统在云计算领域的应用进展一直比较缓慢。Hadoop技术在国外如火如荼的发展表明,深入研究Hadoop技术的基本原理,实现一个基于Hadoop的云计算平台,有着重要的现实意义。
1 Hadoop基本原理
作为一种开源的分布式云计算技术,Hadoop能够在廉价的服务器上创建集,实现集的横向扩展。Hadoop集主要包括两大核心:HDFS分布式文件系统和MapReduce计算框架。从Yahoo公司的Hadoop平台运行情况可以得知,Hadoop平台有如下优势:1)集中的节点可以是廉价的商用机器,这些大量的机器组成的集能够可靠地处理大规模数据文件;2)多个数据节点上可以并行处理同一个任务,具有高并发性,有效提高了工作处理周期;3)默认情况下,Hadoop集中的数据块会有三个副本,这种备份机制提高了业务数据的冗余性,即使集中的某一服务器发生故障,也不会造成数据丢失的情况。
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论