大容量数据高速备份方法研究
作者:田挚 王燕云 郧晓光 梁丽芳
来源:《科技风》2021年第05期
        摘 要:随着社会信息化的高速发展,地理空间数据呈海量增长,给数据存储和管理带来了巨大的挑战。本文在对河北省地理信息数据存储现状研究的基础上,基于传统的SAN存储架构,制定了备份策略,开发了智能磁盘读写引擎,使用读写引擎整合数据,建立特征库,对重复数据采用镜像存储,实现了快速高效的数据备份,为大容量数据备份提供了切实可行的技术手段。
        关键词:数据;备份;读写引擎;研究
        1 绪论
        随着社会信息化的高速发展,人们每时每刻都在产生不可估量的信息数据,随着卫星导航技术和物联网技术的广泛应用,从空天地专业传感器扩展到物联网中无所不在的非专业传感器,数据获取传感器网形成庞大的空天地传感器资源,产生前所未有的时空大数据。特别是卫星遥感大数据、城市实景地图、出行轨迹大数据等地理空间数据正呈海量增长,给数据存储和管理带来了巨大的挑战。数以TB级的数据备份需要超长时间,数据备份成为一件费时费力的事情,同时,经统计,在备份的数据中,重复的地理信息数据占了较大的比重,存储管理的成本也随着数据的剧增急剧增加。
        网络备份系统的研究和开发,开始于20世纪80年代中期,目前国内被采用最多的备份策略主要有以下两种:
        (1)完全备份。即定期对全部数据进行完整备份。这种方法直观简单,缺点是所需时间长,所占磁盘存储空间大;优点是恢复时间短,操作简便。
        (2)增量备份。即只备份上一次备份后增加和修改过的数据。由于没有重复的备份数据,节省了磁盘空间和缩短了备份时间,缺点是一旦发生灾难,恢复数据比较困难。
        目前河北省地理信息数据备份主要采用传统数据管理方式,以完全备份为主增量备份为辅,在数据管理和更新的过程中缺乏有效的技术手段,随着地理信息数据的不断增加,文件数量多,数据量大,在对数据进行上传、下载和查询的过程中需要耗费大量的时间成本,严重影响了地理信息数据管理的工作效率。
        大容量数据高速备份方法研究,通过对地理信息数据的管理及存储现状的研究,规范了现有数据的存储模式,制定了数据存储方案,研发了适用于目前系统平台的文件智能存储系统,通过智能磁盘读写引擎,对现有的各种数据进行整合,在备份数据时对数据文件的特征进行分析,根据备份数据的特征,自动采用不同的备份方案,应用重复数据检索技术,通过智能计算,将重复的大体积的文件,进行镜像存储,在存储系统中对重复的数据仅存储一个数据副本,对于副本以外的重复数据采用指向副本指针的方法来有效消除其他副本,加快拷贝速度,减少数据上传更新、下载和查询中的时间成本,采用技术手段实现了对地理信息數据存储的有效管理。
        2 研究方法及内容
        2.1 研究对象
        省级地理信息数据主要包括卫星图像、遥感数据、三维激光扫描数据、倾斜摄影测量数据、三维模型、4D产品、瓦片数据等地理信息数据,目前采用SAN存储架构(Storage Area Network即“存储区域网络”),存储于磁盘阵列和磁带库中,这种架构是当前最成熟的集中存储系统,使用光纤存储交换机将存储设备和主机系统通过光纤连接起来,通过前端文件服务器对SAN存储系统进行管理,存储的卫星图像、遥感数据等地理信息数据全部以Windows目录及文件的形式进行管理,采用本地复制和远程传输的手段对地理信息数据进行更新和管理。
        2.2 架构设计
        2.2.1 系统架构
        鉴于系统的使用、维护、升级、数据传输等相关情况,在程序架构上,采用C/S模式的基于网络的应用程序架构。服务器采用稳定、高效的Microsoft Windows 2012操作系统作为平台,使用DELPHI语言描述系统业务逻辑。
        2.2.2 智能存储引擎设计
        根据数据文件的特征,在文件拷贝的过程中,进行文件的特征分析,生成数据文件特征库,通过智能计算,将重复的大体积的文件,进行镜像存储,加快拷贝速度,节省时间成本。
        系统部署前对原有数据进行统一更新,并生成数据信息及数据特征库,初步生成系统信息库。后期对新数据更新时,需要和数据内已有数据内容进行对比分析,如系统内不存在内容相同的数据,则对数据进行上传和记录更新操作。系统内存储内容相同的数据,数据不再进行上传操作,只生成相应的更新记录。
        2.3 软件功能
        智能存储系统主要解决文件存储过程中大文件重复存储的问题,利用先进的文件检测算法,快速识别重复文件,同时提高了文件的拷贝速度。具体功能如下:
        存储管理:接管操作系统磁盘文件管理功能。对磁盘文件进行扫描,建立文件指纹库。
        文件输入:外部文件可通过拖拽或者复制粘帖方式拷贝进智能存储系统,并存储到磁盘。对于磁盘中存在的大文件,只建立链接,不重复存储。
前端大文件上传解决方案        文件输出:通过智能存储系统的导出功能将文件拷贝到其他存储介质,还原被链接的文件。
        用户管理:管理员用户可以添加、修改、删除用户。
        日志管理:记录用户的操作日志。
        3 系统测试
        3.1 测试方法
        智能文件存储系统具有严格、详细的数据特征库,对数据文件的内容进行详细对比并生成特征库,确保数据文件在系统中的唯一性。在数据上传的过程中对数据进行对比分析,根据系统规则和分析结果对上传数据采取不同的处理方式。根据测试内容的测试项,分别对测试文件1(1.32GB),测试文件2(1.62MB),测试文件夹1,测试文件夹2(含70M文件,主要测试在文件夹内的大文件是否可以按规则处理),进行数据上传和导出功能测试,测试步骤如下:
        文件进行上传测试。
        在不同目录对文件进行上传测试。
        相同目录对文件进行上传测试。
        文件和数据指针文件进行导出测试。
        3.2 测试结果
        本次测试对智能文件存储系统的核心功能即数据处理功能进行了验证,主要验证结果如下:
        (1)小于10M的文件处理功能。
        直接上传:目录内无相同文件名的文件直接上传。
        覆盖上传:目录内有相同文件名的文件做覆盖处理。
        (2)大于10M的文件处理功能。
        直接上传:系统内无相同数据特征的文件直接上传。
        生成指针文件:系统内数据特征库进行对比,如有相同特征的文件不对真实文件进行上传,同时生成数据指针文件。
        实际文件:直接进行导出。
        指针文件:导出真实文件内容。
        与传统数据备份方式相比,本系统在原SAN存储框架的基础之上,引入了智能磁盘读写引擎,使用读写引擎将数据进行整合;备份数据和文件数据分析同时进行,大大缩短了拷贝时间,增加了大容量数据备份效率;同时,考虑到大容量地理信息数据种类繁杂重复较多的特点,系统平台对重复数据采用镜像存储,加快了存储速度,减少了时间成本。对比传统平台单纯的存储和提取操作,本系统增加了条目记录功能,每次数据上传、更新、索引操作都会更新相应条目,使操作更加简洁、高效。
        4 结论
        大容量数据高速备份方法研究,为海量地理信息数据的备份提供了有效可行的技术方法,通过研究成果的应用,加快了地理信息数据存储和传输的速度,节约了时间成本,在地
理国情普查、基础测绘生产、数字城市建设、室内混合智能定位等重大项目中,有效地提高了海量数据的服务效率;同时,研究成果的应用,降低了存储空间,节约了设备购置成本,提高了设备性能,促进地理信息更高效地为社会服务。本课题的研究成果适用于海量数据的备份工作,在这个大数据的时代,可广泛推广至有需求的各行业,其应用前景广阔。
        参考文献:
        [1]李德仁.论时空大数据的智能处理与服务[J].地球信息科学学报,2019,21(12):1826.

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。