文章编号:1007-757X(2021)05-0174-03
—种Hadoop海量电信数据云计算平台设计与实现
郛拴岐
(陕西警官职业学院信息技术系,陕西西安710021)
摘要:在科技迅猛发展的背景下,4G在我们的日常生活中应用得越发广泛,甚至在部分地区已经实现了5G信号全覆盖。实际问题也接踵而至,当前所采用的数据分析法性能略显不足,不能满足大批量电信数据的处理要求,于是人们将侧重点放在新型云计算平台的设计与实现上。Hadoop作为开源框架,除了具备大规模分布式计算能力,还拥有较强的可伸缩性。基于此种条件,设计了一款海量电信数据云计算平台,并通过仿真测试证明了其拥有可行性,可以大幅度提升海量电信数据的分析及处理速度。
关键词:Hdoop;海量电信数据;云计算平台;仿真实验
中图分类号:TN87文献标志码:A
Design and Implementation of a Hadoop Massive
Telecom Data Cloud Computing Platform
GUO Shuanqi
(Department of Information Technology,Shanxi Police College,Xi'an710021,China)
Abstract:In the context of rapid technological development,4G has become more and more widely used in daily lives,and even 5G signal coverage has been achieved in some areas.Practical problems have also followed.The current data analysis methods are slightly insufficient in performance,and cannot meet the processing requirements of large quantities of telecommunication data.Therefore,people focus on the design and implementation of new cloud computing platforms.As an open source framework,Hadoop has strong scalability in addition to large-scale distributed computing capabilities.Based on this condition,a massive telecom data cloud computing platform was designed,and its feasibility was proved through simulation tests,which can greatly improve the analysis and processing speed of massive telecom data.
Key words:Hadoop;massive telecommunication data;cloud computing platform;simulation experiments
0引言
随着4G时代的到来,移动业务日渐增多,产生的电信数据更是以TB级速度上涨,这也为运营商的运营和管理造成了一定的压力&运营商只有快速处理每日产生的大批量电信数据,才能掌握电信用户的实际需求,设计出更具针对性的业务套餐供客户选择,提升自身竞争力。原有的关系型数据库已经难以满足当下海量电信数据的处理需求,若想提升数据处理速度,必须配以高性能机器,投入成本有所提升,为运营商带来了一定的压力,而Hdoop技术的发展和成熟很好地解决了这一问题&Hdoop作为一种开放式源代码架构,主要用于大型数据库,利用MapReduce编程软件划分数据,完成电信信息的兼并处理工作,效率高更加节省时间& Hadoop还具备优异的伸缩性、容错性,适配多款硬件,实际应用能力强&
1应用技术简介
1.1云计算
云计算是近年来新兴的计算机技术,是基于互联网服务人数增加、使用和交付创建出来的,是将并行计算和分布式计算整合起来的计算机技术,契合当前网络计算综合发展的需求&使用云计算后,系统会平均分配计算任务,各资源池上的任务数量相对统一,确保各资源池拥有充足的计算力来完成计算任务。信息存储空间和服务能力,并且具有安全性、共享性、扩展性和投入资金低等多项优点。以服务内容为划分依据,分为软件、平台、基础设备。以数据为中心点,
在数据合并处理、编程和虚拟化等方面都发挥了非常大的作用
1.2Hadoop平台技术介绍
Hadoop是由Apache基金会注资研发的,可应用在廉价PC机器上,作为分布式集系统结构,拥有着安全、高效、可
扩展和成本低等优势&由于其自身是不需要付费的开放性平台,用户在使用时拥有更多的灵活性,完成程序分布&Hadoop包含多个子项目,其具体分布如图1所示&
图1Hadoop的项目结构
1.2.1HDFS介
HDFS是一个分布式文件软件,自身拥有高容错性。该软件在调取数据时运用的是高吞吐技术,因此在性能一般的
作者简介:郭拴岐(1979-),男,硕士,讲师,研究方向:计算机网络&
PC机上也能使用,不仅可以提升系统的工作性能,还能减少
资金投入,适用于存有大批量电信数据的软件当中&HDFS 应用的是主/从结构(master/slave),最早研发的版本中,架构体系包含一个控制模块和多个数据模块,控制节点负责存储和管理元数据信息,一般情况下一个集系统中只配备一台机器,代替控制模块工作。数据节点则不同,可以同时配备多个机器,共同运转&作为普通软件,借助心跳机进行通信&
1.2.2MapReduce介绍
在进行程序开发时,技术人员会将复杂的设计流程拆分
为多个子任务,子任务之间存在着两种关系。一种是依赖关系,任务的前后顺序不能发生变化,此种情况下不能对任务进行并行处理。第二种则是独立关系,对前后顺序没有明确
的要求,可以进行并行处理&因为所需要处理的数据数量极
多,且在处理时间上也有硬性规定,因此需要大量的机器来完成这一工作,MapReduce编程模型的出现很好的解决了这些问题(勺。
MapReduce是于2004年研发出的一款分布式程序设计
模型,可对大于1TB的海量数据集进行并行处理,因其使用
方法简单,应用得相对广泛。在MapReduce研发成功之后,它取代了ad hoc程序,以新款谷歌索引的身份被应用,这也从侧面证明了MapReduce拥有良好的使用性能。应用MapReduce时,需要对输入文件进行切割,再将分割后的文件传输给Map函数,根据程序员便携的函数将接收到的文件映射成中间小文件&完成映射后在传送至Reduce,对其进行合并、缩减处理。因其具体操作流程都是一早由程序员设定好的,因此在使用时更具有灵活性。
2基于Hadoop海量电信数据云计算平台的设计流程
电信运营商分析、处理大批量电信数据时,采用的仍是固有的关系型数据库,若想使用此种分析方法,必须借助高性能机器来完成,不仅耗时长,分析效率也不尽人意,影响业务决策的时效性&基于此种情况,本文提出了建新型云计算平台的构想,结合MapReduce编程软件,完成数据的整理工作,提升数据分析速率,从根本上解决电信运营商难以管理、分析海量电信数据的现状⑷。
2.1平台设计的目标和原则
设计此款平台的目的是为了提升数据处理的时效性,在构建云计算平台的过程中,可以选用性能一般PC服务器,以此来完成海量电信数据的分析工作,提升数据分析的速率,不仅可以为电信运营商节省投资成本,还能为业务决策提供更具时效性和准确性的辅助参考信息&设计原则包含3个
方面,分别为经济原则、高效原则和安全原则。经济原则,由Hadoop对件要并高!因此建平台的过程中可以充分地调动现有资源,在搭建Hdoop云计算平台时可以使用低端PC服务器&高效原则,依靠精准测算力,快速处理数据,使其更具高效性&安全原则,在构建平台和应用时,应该将自身和信息安全考虑进去,通过必要措施规避使用风险。
2.2
以海量电信数据自身具备的特点出发,云计算平台在框架结构上可以分成3部分,如图2所示&
-|营销目标客户定回|针对性营销方案丽]|营销效果评估|:
行为模型
网络流量
/价值模型\
客户位置客户上网行
模型为模型
11
客户语音客户短信
行为模型
分析结果
用户交往
圈特征
用户位置
特征
用户流量
特征
终端使用
情况
重入网
特征
增值业务
情况[数据仓库|用户位置信息||用户通信信息||业务使用情况|:
Habse^Hive、Pig、Zookeeper MapReduce
:HDFS|客户基本数据|A口数据||~Gb口数据||WLAN数据|[
图2云计算平台框架结构
2.2.1数据层
网络域数据囊括Gb,A和WLAN等多个端口的数据信息,业务支撑域包含的则是用户端的数据,设计自身信息、业务订购和消费数据等多个层面。这些数据通过Hdoop云计算平台上的HDFS模块来进行存储,用Hbase、Hive、Pig和ZooKeeper等软件对所存储的数据进行管理,利用SQL进行统计!MapReduce整
完后HDFS中!方
后续的导出和使用()。
2.2.2模型层
模!对结整出的信息ETL
并将其汇总,以此为参数创建分析模型。以客户自身信息、业务订购和消费数据等多个层面入手,创建分析模型,包含用户位置、上网行为、短信行为等多种基础模型,并通过虚拟测试分析出用户位置、离网状态和交际圈等多种信息,可以更好地掌握用户的使用状态&
2.2.3应用层
应用层的工作内容则是利用模型层所分析出的数据锁定目标客户,从用户所处地理位置,日常生活轨迹、套餐业务和增值业务的选择情况等方面入手,设计更能吸引目标客户的运营方案,并对实际推行情况进行总结&
2.3平台功能模块
云计算平台包含四个功能模块,如图3所示&
|基于Hadoop的海量电信数据云计算平台|
丄
集
管
理
一
丄
任
务
管
理
一
丄
数
据
管
理
一
丄
用
户
管
理
一
图3功能模块具体划分
对图3中的4个模块进行了进一步划分。用户管理模!开通户、、交4个方
面。数据管理模块,负责信息的上传、下载,发现无实际应用价值的信息时,及时将其删除。任务管理模块,及时申请自身承接任务,并对申请结果进行反馈。集管理模块,对任务推进、节点管理进程进行监测()。
2.4
云计算平台的网络拓扑包含两个功能分区:前端操作、后端生!4。
;|用户操作终端
交换机~~交换机
"用户操作终端H :: |防火墙H 交换机| 操作区 [I 企业内网]
生产区
Web 服务器|
I 应用服务器|I 数据库服务器Secondary NameNode
NameNode
Hadoop 集局域网JobTracker
—iDateNode^ TaskTrackerl —[D^teNode 、TaskTfacker]图4云计算平台网络拓扑结构图
后端生产区:Hadoop 集局域网由NameNode, Second ary NameNode 和JobTrack 三台服务器构成。NameNode 服
务器的工作内容是对海量电信数据进行分割和保存,并实时
监测DateNode 的运行状态。在平台运行时,系统最先完成
的是信息读取工作,通过访问NameNode 服务器,摸清数据
文件所处位置,随后再与其进行通信。如果在运行过程中出 现某一个DateNode 宕机的情况,会自动启动副本以供应用
程序访问,确保云计算平台可以正常运行& Secondary Nam-
eNode 服务器的工作内容则是监控HDFS 的工作状态,并完
成和NameNode 的通信工作,将HDFS 原始数据的快照进行
存储,当NameNode 发生运行故障时,可将所存储的快照当
做备用设备使用。JobTacker 服务器的工作内容是对计算 任务进行总体调控和监控各节点的工作状态,部分任务失败 时,会自动重启,重新完成任务⑻&
3云设计平台的部分实现和效果
3. 1 底层Hadoop 集部署的实现
具体设备配置信息如表1所示&
表1集设备配置信息
Hadoop1
NameNode
IBM X350Pentium 3 XEOM 700 MHzx21 GB 36. 4 GB Hadoop2
JobTracker
IBM X350Pentium 3 XEOM 700 MHzx2
2 GB
36. 4 GB Hadoop3NameNode 、TaskTracker IBM X225Intel XEOM 2. 0 GHzx1512 MB 72 GB
Hadoop4
NameNode 、TaskTracker IBM X342Pentium 3 1.2 GHzx1
512 MB 36. 4 GB Hadoop5NameNode 、TaskTracker
IBm346
Intel XEOM 3. 2 GHzx1
512 MB
146. 8 GB
11用户操作终康卜| 111堡垒机展诃
H 3.2
在提前部署好的虚拟云计算平台进行相关实验&实验
一:利用分布式计算法,对单数据节点进行MapReduce 计 算,测试时长大约为63分钟()。计算过程如表2所示&
表 2 实 MapReduce 计算 过程
hadoop jar wangfen. jar/wfinput/wfoutput ExecuIewiIhouIargumenIforhelp.
20/08/10 11 : 29 : 31 INFO input. FileInput Format : Total input
pathstoprocess3
20/08/10 11: 29: 31 InFO mapreed. JobClient : map 0 % reduce0%
20/08/1012 "31 "55InFO mapreed.JobClient "Reduceinputre-
cords'36955090
实验二:利用分布式计算法,对双数据节点进行MapRe duce 计算,测试时长大约为37分钟,计算过程如表3所示&
表 3 实
MapReduce 计算 过程
hadoop jar wangfen2. jar/wfinput/wfoutput Execute without argument for help.
20/08/16 06: 54. 12 WARN mapred. JobClient : Use GenericOp-
tionsParser for parsing the arguments. Applications should imple ment Tool for the same.
20/08/16 07 : 31 21 Info mapred. JobClient : Reduce input records
'36955090
通过实验数据我们可以得知,运用Hdoop 分布式计算
法可以大幅度提升计算速率,将测算时间缩短了 3小时以 上,且数据节点越多云计算平台的整体性能越好(0)。
4总结
由于传统数据分析法无法满足大批量电信数据处理的 需求,基于此种情况,提出了基于Hdoop 海量电信数据云计
算平台设计的构想,对其设计流程和功能模块进行了具体阐
述,并通过虚拟实验证明了其具备可行性,可以帮助电信运 营商提升海量数据的计算效率&
参考文献
:1 & 胡圣.基于Hadoop 的海量电信数据云计算平台分析
[J &.电子世界2016(15))3.
% 2 & 陈林琳.基于Hadoop 的海量电信数据云计算平台研
究[J &.电脑知识与技术2015,11(34))-7.
:3 & 黎宏剑,刘恒,黄广文,等.基于Hadoop 的海量电信数
据云计算平台研究[J &.电信科学2012 28(8))085.
%4 & 马俊涛,黄如生.以混合存储模型实现云计算平台对
电信海量数据的处理[J&.移动通信,2011,35 (7): 76-79S
% 5 & 张建勋,古志民,郑超.云计算研究进展综述[J &.计算
机应用研究 2010 27(2) )29433.hadoop分布式集搭建
% 6 & 王栋.基于NI TestStand 的超高频电子标签清点功能
自动化测试序列软件的设计与实现[J &.集成电路应 用,2018(4) )6-69.
% 7 & 桂训发.基于Lab VIEW 及TestStand 的自动化功能
测试系统研究[J &.科技创新与应用,2017 (16):
107-108
% 8 & 李文海,许舒人.基于Hadoop 的电子商务推荐系统的
设计与实现%J &.计算机工程与设计,2014,35 (1))
130-136
% 9 & 郭永香.以虚拟化技术为基础的云计算平台架构探索
%J &.电子世界 2020(15))798.
%10& 郑宇煜,陈栩聪,丘洪伟.云计算环境下的数据挖掘
%J &.科技视界2019(36) )96197.
(
)20200820)
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论