向Hadoop看齐 RainStor加快数据分析

wangfei 发表于：12年02月17日 13:52 [编译] 存储在线

分享：

[导读]重复数据删除数据库供应商RainStor打算让其分析引擎和企业数据库向Hadoop看齐，而不是让Hadoop的数据向其引擎看齐。

海量数据

满足海量数据需求是Hadoop和RainStor的第三个开发阶段的目标。它花了一年多的时间将Hadoop支持功能整合到它的产品之中，让 RainStor在Hadoop上本地运行，对压缩过和重复数据删除处理过的Hadoop数据执行MapReduce查询和SQL查询命令。公司声称，它可以将重复数据删除和压缩数据的比率提高到40:1，即实现97.5%的压缩率。例如，电信行业的数据记录在内容上存在很高的重复性，这类数据就非常适合进行压缩和重复数据删除处理。

RainStor表示：“在HDFS系统上运行的被压缩过的多结构化数据集可以提供最高的效率，并将群集规模减小50%到80%，这对于降低经营成本来说很重要。”

EMC Isilon与Hadoop以及Greenplum的整合进行得如何了呢?

Bantleman称：“Greenplum不允许你运行MapReduce，它的内部实际上是一个Postgres数据库，主要是并列关系的SQL条目。我们是唯一一款能够在HDFS上运行的数据库，而且我们还增加了支持MapReduce的功能。”

他补充说：“Greenplum、Teradata、Netezza和Vertica都开发了连接软件，让客户可以将数据从Hadoop中抽取出来再输入它们自己的数据库之中。它们不能本地运行Hadoop群集，但我们可以。 RainStor允许客户直接在Hadoop环境中对数据进行分析处理。”

Bantleman说，他认为传输海量数据的做法是非常愚蠢的。