向Hadoop看齐 RainStor加快数据分析

wangfei 发表于:12年02月17日 13:52 [编译] 存储在线

  • 分享:
[导读]重复数据删除数据库供应商RainStor打算让其分析引擎和企业数据库向Hadoop看齐,而不是让Hadoop的数据向其引擎看齐。

DOSTOR存储在线 2月17日国际报道:重复数据删除数据库供应商RainStor打算让其分析引擎和企业数据库向Hadoop看齐,而不是让Hadoop的数据向其引擎看齐。

Hadoop正逐渐成为存储海量数据的标准,但大多数商业智能分析软件比如Greenplum、Netezza和Teradata等推出的相关产品并没有为Hadoop文件系统即HDFS提供本地支持,因此数据必须被抽取出来,然后再移动到分析引擎。这个过程需要时间,储存该过程中复制的数据也需要磁盘空间。

RainStor的首席执行官John Bantleman向我们简要介绍了RainStor对Hadoop的支持功能,他说,现有的商业智能分析软件对抽取的Hadoop数据的常规操作通常要花好几个小时的时间,而RainStor的分析引擎支持Hadoop,因此分析数据的速度要快很多,比它说的快10到100倍。在接受这个说法以前,让我们先来看看RainStor的发展历程。

RainStor最初起源于一家名为Clearpace的英国公司,当时还是2008年。该公司的NParchive产品可以将甲骨文数据库或其他的RDBMS中的那些不经常被访问到的数据进行重复数据删除处理并归档在廉价的SATA磁盘上,重复数据删除的比率为20:1或者更高。SQL数据库的常规运行与NParchive无关,因此没有必要将数据重新释放。

Bantleman将Clearpace带到了硅谷,然后将公司和产品的名称更换为RainStor。第二阶段的开发主要是朝着电信领域前进的,主要是想利用它的数据库来解决每天上百亿网络事件记录的存储问题。

用Hadoop MapReduce来查询某一只股票某一天在纽约股市交易中的平均价格可能需要4个小时的时间,这比利用SQL查询命令在RainStor本地存储的Hadoop数据库中查询的速度快1800倍。

RainStor的其中一家客户是日本软银集团。它储存了2PB的原始数据,那些数据经过压缩和重复数据删除处理后的容量为135TB,数据被储存在惠普scale-out NAS磁盘整理存储设备上。 它可以在2到5秒的时间里查出某一位用户在一天里所做的事情。传统数据库/数据仓库解决方案可能包括了数个PB的数据,平均每TB数据的平均成本为2万美元,这意味着一个容量为3PB的客户数据库需要花费高达6000万美元的成本。 RainStor/惠普的硬件系统的价格大约为500万美元。

[责任编辑:王振]
昆腾公司已经算是存储行业的“老手”了,在磁带市场一直保持着优势。随着存储技术的发展,昆腾又适时做出调整,开展磁盘方面的业务。
官方微信
weixin
精彩专题更多
华为OceanStor V3系列存储系统是面向企业级应用的新一代统一存储产品。在功能、性能、效率、可靠性和易用性上都达到业界领先水平,很好的满足了大型数据库OLTP/OLAP、文件共享、云计算等各种应用下的数据存储需求。
12月15日,中国闪存联盟成立,同时IBM Flash System卓越中心正式启动
DOIT、DOSTOR、易会移动客户端播报中国存储峰会盛况。
 

公司简介 | 媒体优势 | 广告服务 | 客户寄语 | DOIT历程 | 诚聘英才 | 联系我们 | 会员注册 | 订阅中心

Copyright © 2013 DOIT Media, All rights Reserved.