分布式存储在云平台基础架构层中的应
用和部署分析
【导读】本文从分布式存储架构特点引入云环境下提供分布式存储的使用场景,以及银行业中适合承载的业务类型。并对分布式存储在云环境下的基本部署进行描述。希望能够加深大家对云环境中分布式存储应用管理的理解,以充分利用分布式存储实现块存储、文件存储、对象存储的方式和特点,补充集中式企业存储的短板,针对PB级别海量非结构化数据等典型场景,体现存调优势。
随着互联网数据规模越来越大,并发请求越来越高,传统的关系数据库系统在性能、价格、可扩展性方面已经不能很好地满足需求。谷歌、亚马逊等互联公司率先在后台基础设施中引入超大规模分布式存储系统,用来解决海量数据的存储问题。与传统的集中式存储技术不同,分布式存储没有将数据存储在某个特定节点上,而是通过网络将各个节点分散的存储资源汇聚成一个虚拟的存储备,将数据分散在各处。相较于集中存储,分布式存储成本低,扩展性好,弱化了关系数据模型,可以得到高并发和高性能。
1分布式存储概念及特点
分布式存储系统,是将数据分散存储在多台独立的设备上。传统的网络存储系统采用集中的存储服务器存放所有数据,存储服务器成为系统性能的瓶颈,也是可靠性和安全性的焦点,不能满足大规模存储应用的需要。随着各行业数字化转型的加速,越来越多的数据被生产出来,分布式存储成为我们应对海量数据挑战的重要助力。从20世纪80年代开始,历经几十年的演进,分布式存储已经走过了四个阶段:第一阶段是1980年代的网络文件系统,通过少量服务器实现网络环境下的简单文件共享;第二阶段是1990年代的共享SAN文件系统,已经能够外接SAN设备实现更大的文件系统;第三阶段是2000年代的Share-NOthing存储,开始利用通用服务器构建起高扩展的存储系统;第四阶段是2010年代逐步产生的企业级云存储,这类存储开始具备丰富的企业特性,存储性能、效率和数据保护能力有了显著的增强,开始在各行各业中广泛应用。
此外,不同类型的数据需要用不同的分布式存储系统去处理。图片、视频等非结构化数据,由于个体相互之间没有关联,体积大,采用二级制,通常使用分布式文件系统进行存储;自描述的数据结构和内容混在一起的半结构化数据,比较简单的可以用分布式键值系统存储,较为复杂的一般采用分布式表格系统来存储区;结构化数据由分布式数据库存储。
2云计算的概念及特点云计算是网格计算、分布式计算(DiStribUteeICOmPUting)、并行计算(Para11e1Computing)效用计算(Uti1ityComputing)、网络存储、虚拟化(Virtua1ization)x负载均衡(1OadBa1anCe)等传统计算机和网络技术发展融合的产物。广义云计算指服务的交付和使用模式,指通过网络以按需要、易扩展的方式获得服务。这种服务可以是IT软件和互联网相关服务,也可以是其他服务。狭义云计算指云数据库服务IT基础设施的交付和使用模式,指通过网络以按需、易扩展的方式获得所需资源。总体来说云计算具有以下几个特点:1)超大规模:
“云”具有相当的规模,企业私有云一般拥有数百上千台服务器并且能够横向平滑扩展,“云”赋予了用户前所未有的计算能力;2)虚拟化:云计算支持用户在任意位置、使用各种终端获取应用服务。所请求的资源来自“云”,而不是固定的有形的实体。应用在“云”中某处运行,但实际上用户无需了解、也不用担心应用运行的具体位置;3)高可靠性:“云”使用了数据多副本容错、计算节点同构可互换等措施来保障服务的高可靠性;4)通用性:云计算不针对特定的应用,在“云”的支撑下可以构造出千变万化的应用,同一个“云”可以同时支撑不同的应用运行;5)高可扩展性:“云”的规模可以动态伸缩,满足应用和用户规模增长的需要;6)按需服务:“云”是一个庞大的资源池,你按需购买;7)廉价性:由于“云”的自动化集
中式管理使大量企业无需负担日益高昂的数据中心管理成本,“云”的通用性使资源的利用率较之传统系统大幅提升,因此用户可以充分享受“云”的低成本优势。
3分布式存储在云环境下的应用场景
3.1分布式存储系统架构
云和A1时代,数据迎来海量增长。高速5G通信、高清8K视频、自动驾驶和大数据分析等越来越多的新兴应用正逐步推高对数据存储的需求。企业不断扩展业务边界,整合云场景存储资源,以更低Teo(Tota1CostofOwnership)、更灵活的弹性部署应对非结构化数据快速增长。在这样的背景下,分布式存储架构成为了首选。各存储厂家纷纷推出自己的分布式存储产品,通过存储系统软件将每个硬件节点的本地存储资源组织起来,按需为上层应用提供文件存储、对象存储、大数据存储和块存储服务。实现海量数据储存更经济、多样性数据使用更高效、在线业务承载更可靠。其系统架构如图1
目前大多分布式存储产品都会提供基于三层的分布式存储架构,会融合分布式
文件、对象、大数据和块多个服务形态,支持文件、对象、大数据服务部署在一个集,
并统一管理,整体功能架构由存储接口层、存储服务层、存储引擎
层和存储管理组成,如图2所示,此外还会提供一些杀毒、异构开源存储管理的特功能。
分布式存储系统具有海量数据储存更经济、多样性数据使用更高效、在线业务承载更可靠等优势,已被广泛应用于如下场景:
1)HPC(HighPerformanceComputing)场景:在气象、基因、石油等HPC高性能计算场景,应用对分布式存储的性能要求高。文件服务提供的DPC可减少跨网络传输延迟,并提供标准接口给应用,在不修改应用的情况下提供比标准协议更高的性能。
2)内容存储、备份归档场景:高性能、高可靠的企业级对象存储资源池可满足互联网数据、在线音频/视频、企业网盘等实时在线业务吞吐量大、热点数据频繁访问的业务需求,以及长期保存、在线访问需求。例如应用于金融电子票据影像、双录(录音/录像),医疗影像、政企电子文档和车联网场景存储、备份或归档。
3)大数据分析场景:大数据计算存储分离解决方案可整合传统数据孤岛,构建统一的企业大数据资源池,结合大比例EC、存储和计算分离按需部署和扩容等企业级能力,实现大数据业务效率提升及TCO降低。例如应用于金融大数据分析、运营商日志留存大数据和政务大数据等。

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。