毕业设计-IaaS与⼤数据平台⽅案设计与实施
毕业设计
设计题⽬:IaaS与⼤数据平台⽅案设计与实施专业班级:
学⽣姓名:
指导教师:
设计时间:2019年5⽉13⽇-2019年6⽉7⽇XXXXXXXXXXX学院
XXXXXXXX学院毕业设计任务书
任务下达⽇期:2019年5⽉13⽇-2019年6⽉7⽇
设计题⽬:IaaS平台与⼤数据平台⽅案设计与实施
设计主要内容和要求:
该云平台使⽤的是先电版IaaS平台(XianDian-IaaS-v2.2.iso)以及配置资料。该平台由2台服务器组成,1
台控制节点(controller),1台计算节点(compute)根据先电提供的脚本⽂件,可以快速的部署IaaS平台。在IaaS平台上创建两个云主机⽤来部署先电⼤数据平台,⼀台master和⼀台slaver1。先电⼤数据平台是基于Ambari进⾏⼆次开发的Hadoop分布式集配置管理⼯具,该平台通过安装向导来进⾏集的搭建。
先电⼤数据平台⽀持作业与任务执⾏的可视化与分析,能够更好地查看依赖和性能。它的⽤户界⾯⾮常直观,⽤户可以轻松有效地查看信息并控制集。
教学团队负责⼈签字:指导教师签字:年⽉⽇年⽉⽇
XXXXXXX毕业设计指导教师评语
评语:
该⽣能⽐较全⾯的完成毕业设计的任务,⽅案合理、⽅法正确,能综合运⽤本专业的基础知识,分析问题和解决问题的强⼒较强。能够运⽤相关开发技术及软件,进⾏资料收集、加⼯和处理。
本⽂是通过先电提供的软件包,基于IaaS平台的⼤数据平台⽅案设计,该平台由2台服务器组成,1台控制节点(controller),1台计算节点(compute)根据先电提供的脚本⽂件,可以快速的部署IaaS平台,先电⼤数据平台是使⽤IaaS 云主机部署的。先电⼤数据平台是基于Ambari进⾏⼆次开发的Hadoop
分布式集配置管理⼯具,该平台通过安装向导来进⾏集的搭建,简化了集部署和管理,然后再简单介绍了⼤数据的应⽤等。
该设计符合专业培养⽬标,达到了综合训练的⽬标。该⽣查阅⽂献资料的能⼒较强,能全⾯收集相关资料,⽂题相符、重点突出、内容完整,层级结构安排科学,逻辑关系清楚,格式符合规范要求。
成绩:
指导教师签名:
年⽉⽇
XXXXXXX学院毕业设计答辩记录
摘要
随着云时代的来临,⼤数据也吸引越来越多的关注,企业在⽇常运营中⽣成、积累的⽤户⽹络⾏为数据。这些数据是如此庞⼤,计量单位通常达到了pb、eb甚⾄是zb。hadoop作为⼀个开源的分布式⽂件系统和并⾏计算编程模型得到了⼴泛的部署和应⽤。⼤数据(big data),指⽆法在⼀定时间范围内⽤常规软件⼯具进⾏捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策⼒、洞察发现
⼒和流程优化能⼒的海量、⾼增长率和多样化的信息资产。本⽂将介绍基于OpenStack平台,使⽤云主机实现Hadoop完全分布式集的具体搭建过程与基于hive的数据分析平台的设计与实现。
OpenStack是⼀个由NASA(美国国家航空航天局)和Rackspace合作研发并发起的,以Apache许可证授权的⾃由软件和开放源代码项⽬。
OpenStack是⼀个开源的云计算管理平台项⽬,由⼏个主要的组件组合起来完成具体⼯作。OpenStack⽀持⼏乎所有类型的云环境,项⽬⽬标是提供实施简单、可⼤规模扩展、丰富、标准统⼀的云计算管理平台。OpenStack通过各种互补的服务提供了基础设施即服务(IaaS)的解决⽅案,每个服务提供API以进⾏集成。
OpenStack是⼀个旨在为公共及私有云的建设与管理提供软件的开源项⽬。它的社区拥有超过130家企业及1350位开发者,这些机构与个⼈都将OpenStack作为基础设施即服务(IaaS)资源的通⽤前端。OpenStack项⽬的⾸要任务是简化云的部署过程并为其带来良好的可扩展性。
OpenStack包含社区维护的8个核⼼项⽬,还有许多孵化项⽬,其中Swift、Nova 和Glance是最主要的3个项⽬。Swift提供对象存储服务,Nova是提供虚拟换计算服务,Glance提供虚拟机镜像管理服务。此外还包括Keystone⾝份认证服务、Neutron ⽹络服务等项⽬作为辅助模块。上述三⼤主要项⽬既可以单独使⽤,也可以组合起来搭建⼀个通⽤的IaaS云平台。
关键字:OpenStack,云计算, Hadoop,MapReduce,Hive。
⽬录
1 毕业设计单位概况 (1)
1.1 毕业设计时间 (1)
1.2 毕业设计地点 (1)
1.3 毕业设计单位简介 (1)
1.4 毕业设计岗位简介 (1)
2 绪论 (2)
2.1 研究背景 (2)
2.2 研究意义 (2)
3 相关技术分析 (3)
3.1 IaaS体系结构 (3)
3.2 ⼤数据技术简介 (3)
4 平台实现 (5)
4.1 IaaS平台⽅案设计 (5)
4.1.1 IaaS平台部署 (5)
4.2 ⼤数据平台⽅案设计 (9)
4.2.1 ⼤数据平台部署 (9)
4.2.2 管理Hadoop集 (14)
5 总结 (19)
致谢 (20)
参考⽂献 (21)
附录 (22)
1毕业设计单位概况
1.1毕业设计时间
2019年5⽉13⽇⾄2019年6⽉7⽇。
1.2毕业设计地点
XXXXXXXXXXXXXX
1.3毕业设计单位简介
本⼈毕业设计期间的实习单位是:XX科技有限公司
公司拥有⼀批年富⼒强、勇于创新、勇于开拓的专业技术队伍,具有丰富的理论研究基础和研发实践经验,均从事过多年⼤型软件系统的研制开发,对计算机软件尤其是信息平台软件有较深的研究。技术研发同时依托重庆⼯程创新创业研究中⼼和信息学院与中兴学院,具有强⼤的后备研发⼒量⽀撑。
经营范围:
计算机软件开发、计算机系统服务、计算机⽹络技术开发、技术服务、设计、制作、代理、发布⼴告、⽹络维护
销售计算机软件及辅助设备,电脑产品及配件、电⼦产物。通信相关的设计,⼯程,服务等。
1.4毕业设计岗位简介
参与制定公司发展战略、年度经营计划和预算⽅案;组织研究⾏业最新产品的发展⽅向,主持制定公司产品发展战略规划,组织制定和实施重⼤产品决策,及时了解和监督产品发展战略规划的执⾏情况;领导分管部门制度建设并组织实施年度⼯作计划,完成年度任务⽬标;审批⽴项申请报告,主持研发项⽬⽴项⼯作,组织配置各种资源投⼊项⽬开发⼯作,控制开发成本,并监督实施;主持开发新产品项⽬所需的设备选型、试制、改进以及⼯艺设计等⼯作,指导、审核项⽬总体⽅案,对各项⽬进⾏质量控制;与⽤户进⾏技术交流,了解⽤户在技术与业务上的发展要求,并解答⽤户提出的与产品技术相关问题;制定开发⼈员的培训计划,并组织安排公司其他相关⼈员的技术培训。协调研发中⼼与公司各部门的⼯作关系,对各部门提供产品技术⽀持;完成上级领导布置的其他任务。
2绪论
2.1研究背景
数据正在迅速膨胀并变⼤,它决定着企业的未来发展,虽然很多企业可能并没有意识到数据爆炸性增长带来问题的隐患,但是随着时间的推移,⼈们将越来越多的意识到数据对企业的重要性。随着互联⽹的发展,⽹站或者业务系统所需要处理的业务量快速增长,例如在线视频或者图⽚共享⽹站需要为⽤户储存和处理⼤量的数据。这类系统所⾯临的重要问题是,如何在⽤户数量快速增长的情况下快速扩展原有系统,随着⽹络的普及将有越来越多的设备连⼊互联⽹,IT系统将要处理更多的业务量。
hadoop是apache软件基⾦会旗下的⼀个开源分布式计算平台。以hadoop分布式⽂件系统和mapreduce为核⼼的hadoop为⽤户提供了系统底层细节透明的分布式基础架构。hdfs的⾼容错性、⾼伸缩性等优点允许⽤户将hadoop部署在低廉的硬件上,形成分布式系统,mapreduce分布式编程模型允许⽤户在不了解分布式系统底层细节的情况下开发并⾏应⽤程序。
hadoop已经发展成为包含多个⼦项⽬的集合。核⼼内容是mapreduce和hadoop分布式⽂件系统(dhfs)。它也包含了pig、mahout、spark、hive、hbase等⼦项⽬,他们在核⼼层的基础上提供了⾼层服务,为hadoop的应⽤推⼴起到了重要作⽤。
先电⼤数据使⽤ambari为平台提供作业与任务执⾏的可视化与分析,能够更好地查看依赖和性能。通过⼀个完整的RESTful API把监控信息暴露出来,集成了现有的运维⼯具。平台使⽤Ganglia收集度量指标,⽤Nagios⽀持系统报警。
2.2研究意义
通过云计算,可以把分散的、低效的、低⽔平的数据中⼼逐步淘汰替换,让⼦公司的IT变得不再重要,因⽽⼤⼤降低运维成本和使⽤成本。⽽在当下,很多企业的创新都是封闭的。通过云计算,可以让⼤家协同在⼀个社会化的云平台,从⽽让由客户驱动的企业创新成为可能。市场有什么动态,企业可以马上做出反应,并快速进⼊市场。
“⼤数据”是⼀个体量特别⼤,数据类别特别庞杂的数据集合,并且这样的数据集⽆法⽤传统数据库⼯具或常规软件⼯具抓取、管理和处理其内容。⼤数据技术是指从各种各样类型的庞杂数据中,快速的获取有价值的信息的能⼒。适⽤于⼤数据的技术包括⼤规模并⾏处理数据库,数据挖掘电⽹,分布式⽂件系统,分布式数据库,云计算平台和可扩展的存储系统。
3相关技术分析
3.1IaaS体系结构
计算(Compute):Nova。⽤于管理虚拟机实例,根据⽤户需求来提供虚拟服务。负责虚拟机创建、开机、关机、挂起、暂停、调整、迁移、重启、销毁等操作,配置CPU、内存等信息规格。
对象存储(Object Storage):Swift。⼀套⽤于在⼤规模可扩展系统中通过内置冗余及⾼容错机制实现
对象存储的系统,允许进⾏存储或者检索⽂件。可为Glance提供镜像存储,为Cinder提供卷备份服务。
镜像服务(Image Service):Glance。⼀套虚拟机镜像查及检索系统,⽀持多种虚拟机镜像格式(AKI、AMI、ARI、ISO、QCOW2、Raw、VDI、VHD、VMDK),有创建上传镜像、删除镜像、编辑镜像基本信息的功能。
⾝份服务(Identity Service):Keystone。为OpenStack其他服务提供⾝份验证、服务规则和服务令牌的功能,管理Domains、Projects、Users、Groups、Roles。
⽹络&地址管理(Network):Neutron。提供云计算的⽹络虚拟化技术,为OpenStack其他服务提供⽹络连接服务。为⽤户提供接⼝,可以定义Network、Subnet、Router,配置DHCP、DNS、负载均衡、L3服务,⽹络⽀持GRE、VLAN。插件架构⽀持许多主流的⽹络⼚家和技术,如OpenvSwitch。
块存储(Block Storage):Cinder。为运⾏实例提供稳定的数据块存储服务,它的插件驱动架构有利于块设备的创建和管理,如创建卷、删除卷,在实例上挂载和卸载卷。
UI 界⾯(Dashboard):Horizon。OpenStack中各种服务的Web管理门户,⽤于简化⽤户对服务的操作,例如:启动实例、分配
IP地址、配置访问控制等。
测量(Metering):Ceilometer。像⼀个漏⽃⼀样,能把OpenStack内部发⽣的⼏乎所有的事件都收集起来,然后为计费和监控以及其它服务提供数据⽀撑。
部署编排(Orchestration):Heat。提供了⼀种通过模板定义的协同部署⽅式,实现云基础设施软件运⾏环境(计算、存储和⽹络资源)的⾃动化部署。
数据库服务(Database Service):Trove。为⽤户在OpenStack的环境提供可扩展和可靠的关系和⾮关系数据库引擎服务。
3.2⼤数据技术简介
Apache的Hadoop项⽬是可靠的、可扩展的、开源的、分布式计算软件。Apache的
Hadoop软件库是允许通过相对简单的程序模型构建计算集为庞⼤的数据集进⾏分布式计算的框架。Hadoop的设计思想可以将计算模式从单节点服务器扩展为数以千计的计算集,每⼀个单独的服务器都提供⾃主的本地计算及存储能⼒。Hadoop:Hadoop体系最底层的⼀个模块,为Hadoop各⼦项⽬提供各种⼯具。
HDFS:是Hadoop应⽤程序中主要的分布式储存系统,HDFS集包含了⼀个NameNode(主节点),这个节点负责管理所有⽂件系统的元数据及存储了真实数据的DataNode(数据节点,可以有很多)。H
DFS针对海量数据所设计,所以相⽐传统⽂件系统在⼤批量⼩⽂件上的优化,HDFS优化的则是对⼩批量⼤型⽂件的访问和存储。
MapReduce:是⼀个软件框架,⽤以轻松编写处理海量(TB级)数据的并⾏应⽤程序,以可靠和容错的⽅式连接⼤型集中上万个节点。
Hive:Apache Hive是Hadoop的⼀个数据仓库系统,促进了数据的综述(将结构化的数据⽂件映射为⼀张数据库表)、即席查询以及存储在Hadoop兼容系统中的⼤型数据集分析。
web前端毕业设计新颖题目Pig:Apache Pig是⼀个⽤于⼤型数据集分析的平台,它包含了⼀个⽤于数据分析应⽤的⾼级语⾔以及评估这些应⽤的基础设施。
HBase:Apache HBase是Hadoop数据库,⼀个分布式、可扩展的⼤数据存储。它提供了⼤数据集上随机和实时的读/写访问,并针对了商⽤服务器集上的⼤型表格做出优化——上百亿⾏,上千万列。
ZooKeeper:Zookeeper它是⼀个针对⼤型分布式系统的可靠协调系统,提供的功能包括:配置维护、名字服务、分布式同步、组服务等。
Sqoop:Sqoop是⼀个⽤来将Hadoop和关系型数据库中的数据相互转移的⼯具,可以将⼀个关系型数据库中数据导⼊Hadoop 的HDFS中,也可以将HDFS中数据导⼊关系型数据库中。
Mahout:Apache Mahout是个可扩展的机器学习和数据挖掘库,当前Mahout⽀持
主要的4个⽤例:
推荐挖掘:搜集⽤户动作并以此给⽤户推荐可能喜欢的事物。
聚集:收集⽂件并进⾏相关⽂件分组。
分类:从现有的分类⽂档中学习,寻⽂档中的相似特征,并为⽆标签的⽂档进
⾏正确的归类。
频繁项集挖掘:将⼀组项分组,并识别哪些个别项会经常⼀起出现。
Ambari:Apache Ambari是⼀个基于web的⼯具,⽤于配置、管理和监视Apache Hadoop集,⽀持Hadoop HDFS、Hadoop MapReduce、Hive、HCatalog,、HBase、ZooKeeper、Oozie、Pig和Sqoop。Ambari同样还提供了集状况仪表盘。
Spark:Spark 是在Scala 语⾔中实现的,它将Scala ⽤作其应⽤程序框架。
4平台实现
4.1IaaS平台⽅案设计
4.1.1IaaS平台部署
该云平台使⽤的是先电版IaaS平台(XianDian-IaaS-v2.2.iso)以及配置资料。该平台由2台服务器组成,1台控制节点(controller),1台计算节点(compute)根据先电提供的脚本⽂件,可以快速的部署IaaS平台。服务器系统安装时,两个节

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。