2020.30科学技术创新基于Hadoop 集的词频统计应用
刘顺
(四川信息职业技术学院信息工程系,
四川广元628017)近年来,随着计算机、智能终端的普及,每天产生了大量数据,数据规模成几何增长,为了满足海量数据的存储和分析,这就需要大量的计算机协同工作,随着信息技术的飞速发展,各种网络应用带来了数据规模的高速增长,
为了满足海量数据存储和分析需求,需要使大量计算机协同工作共同完成空前复杂的任务,基于这些原因Apache 软件基金会旗下的一个开源分布式计算平台,它就是Hadoop 。该平台是基于Java 语言开发的,核心是HDFS 和MapReduce 。HDFS 具有高容错性和高扩展性等优
点,允许用户将Hadoop 部署在价格低廉的服务器上,形成分布式系统MapReduce 。用户根本不用关心底层实现的技术,就可以实现程序的开发和调用。因此用户通过Hadoop 可以轻松的组织计算机资源,搭建自己的分布式计算平台,完成海量数据的处理。
Hadoop 的原理很简单,其中最核心的就是底层的HadoopDistributedFile System (HDFS )这个文件,它分布在计算机集内所有的节点上。HDFS (对于本文)的上一层是MapReduce 引擎,通过对Hadoop
分布式计算平台最核心的分布式文件系统HDFS 、MapReduce 处理过程,这些基本涵盖了Hadoop 分布式平台的所有技术核心。
对于Hadoop 的集来讲,可分成两大类角:Master 和Salve 。一个HDFS 集是由一个NameNode 和若干个DataNode 组成的。本章将从搭建环境准备以及具体的搭建、配置内容展开,对整个搭建过程进行展示。
1硬件环境与软件准备
本项目仅仅只是测试Hadoop 的相关功能,虚拟机不需要良好的性能,只要满足最低要求即可,我们选择的是单核CPU ,1G 的内存空间,一张网卡,虚拟机硬盘大小设置为10G 即可,这只是规划空间,根据实际使用的大小占用空间。
软件准备,关于Hadoop 的版本选择,我选择官方开源版本hadoop-2.6.5.tar 。Hadoop 是基于Java 开发,我们在安装hadoop
前需要对虚拟机进行JDK 安装,这里我选择较新的版本jdk-7u80-linux-x64.tar 。为方便在物理主机与虚拟机之间传输软件包文件,将使用WinSCP 工具。我们在云主机上选择VMware ,该软件拥有桌面虚拟化,在主机上需要安装虚拟化软件。Workstation 是功能强大的本地桌面虚拟化软件,用户可以轻松的
在一个系统里面实现完整的不同的操作系统和完整的虚拟网络环境。Linux 系统镜像选择的是Centos7x86_64镜像。2集规划
本项目采用的是虚拟机centos7克隆多个虚拟机,这个
centos7安装时需要带桌面功能。从以往的经验来看,我们在项目实施的时候可以采用安装好一台虚拟机,然后根据项目需求克隆多台虚拟机,并且为了防止安装错误,在一台环境设置好了后,将“快照”,设置为模板,便于在社会错误的时候,返回,也可以需要新建虚拟机的时候,从之前设置的模板中恢复即可,
这样可以快速部署虚拟机,节约安装操作系统和虚拟环境设置的时间,本次项目采用的是64位的虚拟机。从前期的项目需求中可以看出,要使用好hadoop 集,需要3台以上的计算机,最简单的方法就是从快照中恢复3台计算机,并且将网络模式设置为“NAT 模式”,便于外网的访问,实时传送需要的软件,和系统补丁等等。根据项目的需求,
我们需要对三台虚拟机进行相关的配置,包括虚拟主机名字,IP 地址、网络规划、
域名等等。3节点安装
虚拟化软件很多,我们在云主机上选择VMware ,该软件拥有桌面虚拟化,在主机上需要安装虚拟化软
件。Workstation 是功能强大的本地桌面虚拟化软件,用户可以轻松的在一个系统里
面实现完整的不同的操作系统和完整的虚拟网络环境,我们将使用VMware Workstation Pro 新建虚拟机。(1)选择准备好的Centos7x86_64镜像进行安装。
(2)根据引导选择为虚拟机选择1G 内存、20G 硬盘与NAT 类型网卡。hadoop分布式集搭建
(3)点击完成,按着默认引导安装后进入虚拟机使用ipa 命
令查看当前主机ip 地址。
作者简介:刘顺(1983-),男,汉族,四川眉山人,本科,四川信息职业技术学院信息工程系,
讲师,研究方向:云计算、计算机网络技术。
要:Hadoop 是最近几年比较火的名词,也是大数据爱好者比较推崇的一种技术,是分布式系统基础架构,主要是实现了
一个分布式文件系统,简称为HDFS ,用户不需要深入的了解分布式底层技术就能很好的使用或者开发
分布式程序。Hadoop 还有一个优点就是存储大量的半结构化数据集,利用计算机集通过Hadoop 实现高并发高速率的运算和存储,也非常擅长数据分布式的计算,可以快速跨多台计算机处理大型的数据集,而且可以保障数据的安全实现数据冗余,不会因为一个磁盘的损坏造成数据的丢失,Hadoop 的框架中最核心的设计就是:HDFS 和MapReduce 。HDFS 为海量的数据提供了存储,则MapReduce 为海量的数据提供了计算。
关键词:HDFS ;MapReduce ;Hadoop 中图分类号:TP311.13
文献标识码:A
文章编号:2096-4390(2020)30-0097-02
97--

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。