DOI :10.19392/j.cnki.1671-7341.201920082
Hadoop 平台的分布式重删存储系统研究
荆东星
湘西民族职业技术学院
湖南吉首
416000
摘要:在本篇文章当中,我们针对数据中心存在大量的数据冗余的问题进行了简单的探讨,并且对于备份数据造成的存储容量浪费现象,提出了一种基于Hadoop 平台的分布式重复数据删除解决方案。
关键词:Hadoop ;分布式重删;存储系统一、我们对于重复数据删除技术进行研究和探讨分析我们可以从图1当中了解到,对于删除重复数据技术来讲,它内在的主要思想是:可以将存入到内部的数据进行分
成块,
接着对于这一类的数据进行判断是否进行存储。如果没有进行存储的话,那么便需要使用到存储块的指针来进行存
储。因此在本篇文章当中,
我们主要是对基于数据块的重复数据删除技术进行简单的探讨和分析
图1基本流程分析
二、相关工作探讨
对于分布式删除技术,主要是指分布式集存储系统中的
删除操作。在当前的分布式重删数据主要面对着效率,
磁盘大小,可靠性以及扩展性等方面的问题,因此相关的工作人员就考虑到使用Hadoop 平台来进行操作。对于Hadoop 平台来讲,它有着高效率,低成本,高容错等优点,能够将自动并行化,负
载均衡等多项复杂的操作变为简化,
大大的减轻了程序员的工作内容。
三、基于Hadoop 平台的分布式重删存储系统在基于Hadoop 平台的重删研究当中,我们需要使用到Ma-pReduce 的方式来进行重删并行化,但是重删的速度仍然需要有效的提高。虽然分布式重删可以在很大的程度上提升重删
速度,
但是在每一个节点当中仍然保留了一部分的指纹值,从而会在一定的程度上影响到数据的重删率。本文实现了一个
基于Hadoop 分布式平台的可扩展分布式删除集,
固定块用于离线和精确地存储备份数据,可以备份和使用某些大型文件。相应的也提高了重删的速度。我们主要是按照KB 级的大小分块来进行数据块级的重删。系统体系如图2所示
图2重删系统结构分析
(一)并行化重删分析
为了能够很好的提高重删速度,我们对MapReduce 这一个机制进行了大力的改进,并且减少了Reduce 的流程,仅仅是通过Map 函数并能够实现相应的一些功能和操作。大致的说来,对于系统当中存在的MAP 函数,这一个函数主要是对数据进
行读取和预处理操作的。而对于REDUCE 函数来讲,
它主要是进行负责合并MAP 中间产生的数据。因此对于REDUCE 函数
来讲,
它不能实现分组以及排序等操作。进行处理。并且能够在一定的程度上有效的避免Shuffle 以及Sort 这两个阶段的处理延时,因此在本篇文章当中忽略了Reduce 这一个操作,我们
只需要通过MAP 函数便可以实现重删等操作,hadoop分布式集搭建
并且还可以提高重删的速度。
(二)可扩展性
在集当中可扩展是内部的一个重点关键,因此,如何在
扩展簇大小的同时有效地实现重复数据删除的性能和容量,
这也是我们在设计集时需要注意的问题,对于系统当中的地层
来讲,
它是基于HADOOP 平台来进行操作的,其内部当中的索引表会保存在数据当中,那么当我们在进行删除操作以及查询操作的时候便有着很好的扩展性能。
当我们需要扩展集的大小时,我们可以通过在元数据服
务器节点的配置文件中注册来在线添加和删除存储节点,
接着我们还需要操作系统来完成数据平衡操作,当系统在对数据进
行处理的过程中,
系统出现了负载的情况发生,我们能够加入MAPPER节点来让系统内部的处理性能有所提高,另外,对于增加重删存储节点还可以在一定的程度上扩展存储容量。
(三)重删操作之后如何进行快速恢复为了快速恢复已删除的文件,我们添加了元数据表来存储文件数据的信息。对于系统来讲,其内部的操作只需要对元
数据表进行简单的维护和保存便可,
我们在进行保存的过程中,可以发现在该表当中我们可以将文件保存为记录。对于数
据表来讲内部有着两个方面,
第一个方面,主要是要用对文件的绝对路径进行记录,另一个方面是用于对文件的数据信息进
行记录,并且在记录的过程当中需要对文件的大小以及块偏移
值信息进行有效的保存。我们可以从图3当中看出元数据表和索引表的关系
图3两者的关系
当对于删除过后还需要进行恢复的文件来讲,那么我们便需要按照文件的路径来进行搜索,接着搜索到文件的原始数据信息便可。然后我们可以浏览存储在文件元数据中的块信息,这样我们就可以获得块指纹值。然后我们可以通过块指纹值
到索引表,
这样我们就可以得到数据块的具体存储位置。经过几次后,我们可以获得原始文件了。
四、结语
总体的说来,我们为了能够更好的让系统的可用性变得十
分稳定,
应当在日后的操作当中,采用纠删编码技术来对需要进行备份的文件进行备份等相关操作。通过对存储的单一副
本数据进行编码,
从而有效的提高系统的可靠性。参考文献:[1]王奏鸣.分布式重复数据删除系统中路由方法的研究[D ].重庆大学,2017.
[2]刘青,付印金,倪桂强,梅建民.基于Hadoop 平台的分
布式重删存储系统[
J ].计算机应用,2016,36(02):330-335.[3]王建辉,石宇良.支持文件重删的HDFS 分布式备份系
统研究[
J ].电子设计工程,2014,22(04):19-22.项目:湖南省教育厅科学研究项目(NO.17c1578)
9
9科技风2019年7月
电子信息

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。