数据重删技术概述

网络 发表于:12年10月25日 14:57 [转载] DOIT.com.cn

  • 分享:
[导读]本篇文章主要介绍数据重删的一些基本概念。

1.源端去重 && 宿端去重

源端去重(Source Deduplication)首先在客户端计算待传输数据的指纹并通过与服务端进行指纹比对发现和消除重复内容,然后仅向服务端发送非重复数据内容 , 从而达到同时节约网络带宽和存储资源的目标。

宿端去重( Destination Deduplication)直接将客户端的数据传输到服务端,并在服务端内部检测和消除重复内容。两种部署方式都能够提高存储空间效率,其主要区别在于源端去重通过消耗客户端计算资源换取网络传输效率的提升。

也不见得在源端去重能够节省多大的网络开销啊~毕竟首先得与宿端进行通信,源端去重会将重删过程划分成好几个阶段。

2.当前去重方法突破性能瓶颈的主要技术手段包括(1)构造内存快速索引(布隆过滤器)、挖掘数据局部性(缓存)、利用数据相似性(extreme binning)和使用新型存储介质(chunkstash)

3.重复数据删除技术主要分为两类:

(1)相同数据的检测技术和

相同数据主要包括相同文件及相同数据块两个层次. 完全文件检测(whole file detection,简称WFD)技术主要通过 hash 技术进行数据挖掘; 细粒度的相同数据块主要通过固定分块(fixed-sized partition,简称FSP)检测技术、可变分块(content-defined chunking, 简称CDC)检测技术、滑动块(sliding block)技术进行重复数据的查找与删除.

(2)相似数据的检测与编码技术

利用数据自身的相似性特点, 通过shingle 技术、bloom filter 技术和模式匹配技术挖掘出相同数据检测技术不能识别的重复数据; 对相似数据采用delta 技术进行编码并最小化压缩相似数据, 以进一步缩减存储空间和网络带宽的占用.

4.重删对数据可靠性的影响:

上述这些技术使得共享数据块的文件之间产生了依赖性, 几个关键数据块的丢失或错误可能导致多个文件的丢失和错误发生, 因此它同时又会降低存储系统的可靠性, 为此, 一些研究者又引入了冗余复制技术和纠删码技术等来提高重复数据删除系统的可靠性.

[责任编辑:黄辉]
大黄
以备份起家的CommVault近两年的解决方案不断向更全面的数据保护转型,并对数据管理、数据挖掘也有了一些关注。CommVault中国区技术总监蔡报永接受采访时表示CommVault将继续做一家专注做数据管理和信息管理的软件厂商。
官方微信
weixin
精彩专题更多
华为OceanStor V3系列存储系统是面向企业级应用的新一代统一存储产品。在功能、性能、效率、可靠性和易用性上都达到业界领先水平,很好的满足了大型数据库OLTP/OLAP、文件共享、云计算等各种应用下的数据存储需求。
12月15日,中国闪存联盟成立,同时IBM Flash System卓越中心正式启动
DOIT、DOSTOR、易会移动客户端播报中国存储峰会盛况。
 

公司简介 | 媒体优势 | 广告服务 | 客户寄语 | DOIT历程 | 诚聘英才 | 联系我们 | 会员注册 | 订阅中心

Copyright © 2013 DOIT Media, All rights Reserved.