重复数据删除:固定和可变长度数据块
比特网 发表于:12年12月26日 09:00 [转载] 比特网
相关阅读:重复数据删除:基于相同数据的检测
1.2 数据块级别相同
1.2.1 固定大小数据块
为了更细粒度的检测重复数据,可以将文件分割成固定大小的数据块,这就是基于固定大小数据块的重复数据检测。实现时,首先将存储系统中所有的文件按固定大小划分成数据块,计算每个数据块的hash函数值,将所有的hash函数值单独存储起来构成hash值库。当有新的数据需要存储时,同样按照这个固定的大小将其划分成数据块,用每块的hash函数值同hash值库中的逐一比较。如果发现新的数据块hash函数值已经存在于哈市值库中,说明这块数据已经在系统中存储过,无需再次存储,只要将指向这个hash函数值所代表的数据块的指针存入相应位置即可;如果新的数据块hash函数值不在hash值库中,则将其实际存储到系统中,并将新的hash函数值添加到库里。实现流程如下图所示。

图 固定大小数据块检测
经典文献
u Venti: A new approach to archival storage
Quinlan S, Dorward S. In: Proc. of the 1st Usenix Conf. on File and Storage Technologies (FAST 2002). Berkeley: USENIX Association, 2002. 89–102.
几乎所有涉及dedupe的文章都提到了Venti系统。它是贝尔实验室设想的一款用于归档数据的网络存储系统原型。它和Plan 9操作系统绑定,所以不能用于诸如Windows,Linux之类系统的后端存储设备。Venti以固定大小数据块作为存储单位,并且计算每个数据块的SHA-1值作为块标识,通过比较块的hash值检测重复数据。
比较值得一提的是Venti的write-once策略。每个数据块占用唯一一个地址,多次写入相同的数据块地址相同,所以同一个数据块只存储一次。数据块不能删除,这也是永久或者备份存储的理想选择。另外,Venti还实现了快照功能。Venti 实现了一个针对大磁盘索引的cache,用以加速fingerprint 查找。由于fingerprint 当中没有位置信息,它的索引cache 不是很有效。尽管用8 个磁盘并行查找fingerprint,它的吞吐率只是局限于7MB/sec 以内。

