网络世界/2009年/2月/9日/第019版
服务器&存储
指纹算法推动重复数据删除发展
杨洋
重复数据删除中引入大量密码学处理技巧导致了系统性能难以进一步提高。而硬件重复数据删除的指纹算法改变了这种状况。
“指纹”算法保障数据完整性字段字符串去重复
重复数据删除技术的实现中,系统通过计算并检查数据块(或文件)的“指纹”,判断该数据块是否与已经存储的“元数据”重复。如果重复,则只需要保留指向该“元数据”的指针。如果“指纹”显示该数据块(或文件)是全新的,则保留该数据块,并作为“元数据”供以后使用。
因此,数据块(或文件)“指纹”的获得是重复数据删除技术的核心,在目前各主要厂商的实现中,“指纹”算法采用的基本都是密码处理中散列函数(hash)算法。良好的散列函数算法可以保证为不同的数据块产生不同的散列值,从而作为重复数据删除技术中的数据块(或文件)的“指纹”。然而,为了保证散列函数的
抗碰撞(collision-resistance,即不同数据块的散列值相同)特性,散列函数算法需要引入大量密码学处理技巧,从而大大增加了数据块(或文件)“指纹”计算对系统处理资源的需求,因此也就导致了系统性能难以进一步提高。
不过与其他算法相比,散列函数作为重复数据删除技术的“指纹”算法是可行的,其对“备份数据完整性”的威胁仅仅存在于理论计算中,而不会对实际应用造成任何实际影响,主流重复数据删除方案提供商多年的实际应用也证实了这一点。
重复数据删除的硬件加速
在目前的重复数据删除系统中,“指纹”的运算都是由通用处理器以软件方式进行,复杂的散列函数处理使系统的处理能力只能达到每秒数十MB的处理能力,远低于一般存储系统每秒数百MB的处理性能需求,因而其应用也就被局限在对处理性能要求不高的离线或近线的备份应用上。
事实上,在存储系统的发展中曾多次遇到类似情况:RAID控制器的奇偶校验处理和数据压缩最早都是通过纯软件方式实现。随着系统性能的提高,纯软件处理逐渐不能满足要求,居于领先地位的厂商便开始使用专门的硬件来加速相关处理,并最终成为高性能存储系统的标准配置。
同样的,在重复数据删除技术面临性能瓶颈的现在,重复数据删除的硬件加速方案,即通过使用专门芯
片,重复数据删除处理中的“指纹”运算将完全由硬件实现,以满足存储系统每秒数百MB和更高的性能需求。
重复数据删除的应用前景
就目前的应用前景而言,重复数据删除技术的应用主要为存储和通信两类产品。在存储产品中,重复数据删除将主要着眼于降低数据存储所需要的物理空间。在通信产品中,其应用主要为减少需要通过WAN连接传输的数据,提高异地数据存储和同步的效率。
在存储应用中,重复数据删除技术能够显著减少必需的存储空间,从而降低购买设备的成本、减少对机架空间的需求,节省能源和散热支出。通过在一定的存储空间中存储更多的数据,系统物理存储资源的管理和维护成本也将进一步降低。
在通信应用中,重复数据删除技术是通过低带宽连接传输大量数据的最佳技术,也是目前唯一的实用技术。重复数据删除技术的使用,将使各种远程数据应用成为可能,包括合并远程办公备份、灾难恢复归档的生成和维护等等。
如果能够解决性能上的瓶颈,凭借在数据缩减上的巨大优势,重复数据删除技术的应用将可
以从离线或近线备份扩展到包括主存储在内的更广泛的领域中。

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。