向Hadoop看齐 RainStor加快数据分析
wangfei 发表于:12年02月17日 13:52 [编译] 存储在线
海量数据
满足海量数据需求是Hadoop和RainStor的第三个开发阶段的目标。它花了一年多的时间将Hadoop支持功能整合到它的产品之中,让 RainStor在Hadoop上本地运行,对压缩过和重复数据删除处理过的Hadoop数据执行MapReduce查询和SQL查询命令。 公司声称,它可以将重复数据删除和压缩数据的比率提高到40:1,即实现97.5%的压缩率。例如,电信行业的数据记录在内容上存在很高的重复性,这类数 据就非常适合进行压缩和重复数据删除处理。
RainStor表示:“在HDFS系统上运行的被压缩过的多结构化数据集可以提供最高的效率,并将群集规模减小50%到80%,这对于降低经营成本来说很重要。”
EMC Isilon与Hadoop以及Greenplum的整合进行得如何了呢?
Bantleman称:“Greenplum不允许你运行MapReduce,它的内部实际上是一个Postgres数据库,主要是并列关系的SQL条目。 我们是唯一一款能够在HDFS上运行的数据库, 而且我们还增加了支持MapReduce的功能。”
他补充说:“Greenplum、Teradata、Netezza和Vertica都开发了连接软件,让客户可以将数据从Hadoop中抽取出来再输入它们自己的数据库之中。它们不能本地运行Hadoop群集,但我们可以。 RainStor允许客户直接在Hadoop环境中对数据进行分析处理。”
Bantleman说,他认为传输海量数据的做法是非常愚蠢的。
