向Hadoop看齐 RainStor加快数据分析
wangfei 发表于:12年02月17日 13:52 [编译] 存储在线
很快,真的很快
RainStor的Hadoop产品可以避免传输海量数据,它对Hadoop数据执行查询的速度比其他解决方案都要快。Bantleman称,RainStor可以将数据分析的速度提高10到100倍。
他引述了一个极端的例子来说明RainStore分析功能的速度,在纽约证券交易所,分析师有一项任务是计算单只股票的日均交易价格。 2011年11月的时候,每天的交易次数在150万次左右,每项交易的交易价格都被储存在一个Hadoop数据库中。
利用Hadoop MapReduce成批运行花了4个小时的时间才计算完,而利用RainStor MapReduce只用了80分钟就完成了同样的工作量。 RainStor MapReduce执行筛选程序花了2分钟,而RainStor SQL只用了8秒的时间。
Bantleman面无表情地提供了这些数据。显然,用Hadoop MapReduce要花4个小时来计算某一只股票的日均交易价格,而对RainStor本地储存的Hadoop数据执行SQL查询命令的速度要快1800倍。
分区筛选与硬算
Bantleman称:“我们有分区筛选的功能。大多数数据库都是用行列数和行索引来给数据定位的。 RainStor筛选功能可以告诉我那些数据不用读取。查询可以找出包含元数据的那些分区。 但是硬读式的查询方案需要把所有的数据都读取一遍,这要花很多的时间,但是我们就不用花那么多的时间了。”
当RainStor在成批运行中不得不去读取所有数据的时候,它的速度还是比其他方案快3倍,因为它的数据被压缩了25倍,而原始的Hadoop数据是没有经过压缩的。Bantleman说:“我们可以查询得更快,因为输入输出数据量被大幅减少了。”
RainStor Hadoop产品的其他优势还包括地理复制,以及能够设置数据的保留和过期时间。数据可以根据一项计划被输入,并且能够根据计划的变化做出相应调整,这样它就可以通过不同的计划被调阅,而不用每次重新提取。
展望未来,Bantleman相信机对机通信将导致企业和各类组织需要处理的数据量的巨大增长。他还说,如果你需要将海量数据储存在基于闪存的存储内存之中,那么他认为海量数据压缩和重复数据删除将会具有很高的价值。 这可以大幅减少企业和组织需要处理的数据数量。
RainStor Enterprise Big Data Analytics On Hadoop现已上市销售。
