颇具吸引力的重复数据删除技术

TechTarget中国 发表于:11年12月05日 09:42 [转载] TT中国

  • 分享:
[导读]重复数据删除技术能够识别并消除冗余的数据段,从而使得备份消耗的存储空间大幅减少。这使得企业可以存储数月的备份数据以确保快速地恢复(更好的恢复时间目标RTO),以及更频繁地备份,创建更多恢复点(更多的恢复点目标RPO)。

备份软件中的重复数据删除技术

虽然原来只有在称为“下一代”备份软件,比如EMC的Avamar中才包含重复数据删除功能,但这在目前的备份软件中已经非常普遍了。带有重复数据删除功能的备份软件产品包括Arkeia 的Network Backup,Asigra的Cloud Backup,Atempo的Time Navigator,CA的ARCserve,Cofio的Software AIMstor,CommVault的Simpana,Druva 的InSync和Phoenix,EMC的Avamar,i365的EVault,IBM的Tivoli Storage Manager (TSM),Quest Software的NetVault Backup,Symantec的Backup Exec和NetBackup,以及 Veeam Backup 和Replication.

用软件方式时,客户端软件运行在应程序服务器中,其识别并将唯一性的数据传输至备份媒介服务器和目标存储设备上,这样降低了网络传输。另一类软件解决方式在备份服务器上对备份流进行重复数据删除,以消除生产应用服务器端潜在的性能影响。重复数据删除域仅限于通过备份应用程序来进行数据保护;同一环境中的多备份应用程序创建了重复数据删除池。

全局重复数据删除技术无法通过软件方式实现。首先,并非所有供应商都采用同一识别重复数据的技术。一些重复数据删除产品采用德尔塔差分(比如 Asigra),其比较同一备份数据段的设置。德尔塔识别从当前集合和以往备份的集合中比较,选取唯一性的数据块并仅仅传输这部分数据。但其不能够跨不同的数据集进行比较。(比如,不支持全局重复数据删除)

另一种方式是采用哈希算法。一些供应商将备份数据流分为固定大小的数据块(从8KB到256KB),产生一个哈希值并将其在之前数据块哈希计算目录中比较。唯一的哈希表示唯一的数据应当进行存储,而一个重复的哈希值表示冗余数据,因此只有指向唯一数据的指针会被存储。另外的供应商通过变化大小的数据块提高文件修改后通常字段被检测到的概率。这种方式找到文件中可能产生的自然模式或中断点并以此分配数据。即使数据块随着文件变更而迁移,这种方式更易于找到重复的部分。交替数据段长度变化的方式较每个字段唯一编号,需要供应商更多的跟踪比较工作,而这也会影响目录的大小和计算所需的时间。

Arkeia Software使用另一种其称为高级重复数据删除技术的方式。通过滑动窗口数据块大小和一种分两步的高级匹配技术优化其重复数据删除技术。文件并分割成固定的数据块,不过数据块会有重叠,这样当文件修改后,这些数据边界容纳了插入的字节。Arkeia基于文件类型,通过自动分配固定数据块大小(1KB到 32KB)增加了另一层优化。该技术同时使用滑动窗口来判定重复数据块位于文件中每个字节的具体位置。高级重复数据删除技术可以实现高比率的删除率并在加速流程的过程中最小化错误发生。

[责任编辑:王振]
昆腾公司已经算是存储行业的“老手”了,在磁带市场一直保持着优势。随着存储技术的发展,昆腾又适时做出调整,开展磁盘方面的业务。
官方微信
weixin
精彩专题更多
华为OceanStor V3系列存储系统是面向企业级应用的新一代统一存储产品。在功能、性能、效率、可靠性和易用性上都达到业界领先水平,很好的满足了大型数据库OLTP/OLAP、文件共享、云计算等各种应用下的数据存储需求。
12月15日,中国闪存联盟成立,同时IBM Flash System卓越中心正式启动
DOIT、DOSTOR、易会移动客户端播报中国存储峰会盛况。
 

公司简介 | 媒体优势 | 广告服务 | 客户寄语 | DOIT历程 | 诚聘英才 | 联系我们 | 会员注册 | 订阅中心

Copyright © 2013 DOIT Media, All rights Reserved.