颇具吸引力的重复数据删除技术
TechTarget中国 发表于:11年12月05日 09:42 [转载] TT中国
用户驱动的新去重技术的发展
Arkeia的高级重复数据删除方式只是一个例子而已,其他公司都在推动重复数据删除技术。CommVault在物理磁带媒介上进行重复数据删除可以作为另一个例子。尽管目前的宣传都集中在基于磁盘的数据保护并暗示磁带可能走向消亡,对于很多企业而言,事实是对于数据的长期保存,磁带仍是一种低成本的方式。
重复数据删除技术被认为是针对磁盘的技术,因为需要重复数据删除的目录,以及所有的唯一性数据在其存储媒介上可以重新组成并被访问。这意味着将重复删除后的数据从磁盘拷贝或移动至磁带时,必须被重新构建,这和数据降低这一最终目的相抵触。不过CommVault Simpana软件能够使得重复删除后的数据拷贝出来归档,而不需重新构建,从而降低了磁带媒介的容量要求。更重要的是,数据可以从磁带媒介上进行恢复而无需先将整盘磁带恢复到磁盘上。
源端的重复数据删除方式正在逐步流行起来,其最大优势在于端到端的高效备份更接近于数据源(提供内容无关,网络带宽节省以及更快速地备份),以及将重复数据删除的处理流程分布在整个环境中(而和目标端重复数据删除系统那样容易产生瓶颈)。以上两种优势在HP的StoreOnce和EMC的Data Domain重复删除产品中充分体现。
虽然HP的Data Protector备份体系架构中在今天还没有内置重复数据删除功能,但用户可以通过StoreOnce重复数据删除产品获取该项功能。 StoreOnce是一个模块化的部件,可以在文件系统中作为一项服务运行。其可以和HP的Data Protector备份软件和HP横向扩展文件系统集成,或植入HP的体系架构组件之中。
StoreOnce的运算包含两个步骤:采集大量数据序列(约10MB)来判定数据重复的可能性,将其排序成重复数据删除的最佳节点,然后通过一次哈希算法来比较更小的数据块。HP的重复数据删除策略比较特别,其可移植,可扩展并且是全局化的。这也意味着重复数据删除的部署可以通过局域网或城域网扩展到整个存储系统中,而无需在重复数据删除层之前转化数据。
EMC的Data Domain Boost选项可以激活Data Domain在NetBackup和Backup Exec OST环境的媒介服务器以及和EMC NetWorker站点中实现重复数据删除的预处理操作。Data Domain软件组件安装在媒介服务器上。通过将重复数据删除工作负载分布式进行,这项操作可以改善性能并提升媒介服务器和Data Domain目标重复数据删除系统之间的网络效率。
