重复数据删除:固定和可变长度数据块

比特网 发表于:12年12月26日 09:00 [转载] 比特网

  • 分享:
[导读]为了更细粒度的检测重复数据,可以将文件分割成固定大小的数据块,这就是基于固定大小数据块的重复数据检测。实现时,首先将存储系统中所有的文件按固定大小划分成数据块,计算每个数据块的hash函数值,将所有的hash函数值单独存储起来构成hash值库。

1) 消除过小块

先按照原始算法标识块边界,再反复合并小于或等于某个限定值L的块,直到所有的块都大于L。实际应用中,一般是在chunk size到达限定值L之前忽略掉指纹。

2) 避免过大块

先用原始算法标识块边界,再将大于限定值T的块划分成n个等于T的块,最后那块可能小于等于T。缺点是对于大块,重复了固定分块的缺点:在块头部某个位置插入字节会造成整个块hash值的改变,其实块中大部分内容是保持不变的。

3) 双划分因子

用两个D的值:每次计算D和D'(例如D'=D/2)两套指针,若找到了D'-match,不马上划分为块边界,先记录下来。如果D- match在设定的Tmax之前有了,就用D-match,若到了Tmax还没有,就看之前有D'-match否,有就用D'-match划分,没有就用 Tmax。

4) 双边界,双划分因子

结合以上三种方法。

u A low-bandwidth network file system

Muthitacharoen A, Chen B, Maziéres D. In: Proc. of the 18th ACM Symp. on Operating System Principles (SOSP 2001). New York: ACM Press, 2001. 174−187.

LBFS是由MIT开发的一款网络文件系统,目标在于减少传输带宽,传输之前判断数据块是否已经在目标机器上存在,如果存在则不用发送数据块。另 外,LBFS用SHA-1值的前64为作块索引,有冲突的可能性。更新采用非同步方式,服务器端先应答客户端,在更新数据库。所以LBFS使用数据库管理 块的hash值,但并不依赖于数据库。服务器端与客户端共享相同的数据库索引号。LBFS的dedupe主要工作原理如下图所示:

LBFS的显著优点是一次只需要考虑两个文件,方便快速;缺点是一个文件的重复数据可能分布在多个文件中,这样的方法能检测到的重复数据非常有限。 LBFS也同上面一样,为防止分块中的极端现象,设置了块大小的最大、最小值。在LBFS的测试数据中,滑动窗口大小事48bytes,平均块大小为 8KB,最小的块为2KB,最大块为64KB。

[责任编辑:黄辉]
大黄
以备份起家的CommVault近两年的解决方案不断向更全面的数据保护转型,并对数据管理、数据挖掘也有了一些关注。CommVault中国区技术总监蔡报永接受采访时表示CommVault将继续做一家专注做数据管理和信息管理的软件厂商。
官方微信
weixin
精彩专题更多
华为OceanStor V3系列存储系统是面向企业级应用的新一代统一存储产品。在功能、性能、效率、可靠性和易用性上都达到业界领先水平,很好的满足了大型数据库OLTP/OLAP、文件共享、云计算等各种应用下的数据存储需求。
12月15日,中国闪存联盟成立,同时IBM Flash System卓越中心正式启动
DOIT、DOSTOR、易会移动客户端播报中国存储峰会盛况。
 

公司简介 | 媒体优势 | 广告服务 | 客户寄语 | DOIT历程 | 诚聘英才 | 联系我们 | 会员注册 | 订阅中心

Copyright © 2013 DOIT Media, All rights Reserved.