注册
存储在线
您的位置:主页 > 分析评论 > 存储分析 > 正文

存储分析 Watson对于数据存储意味着什么?

存储在线 11年02月17日 17:53 【原创】 作者:lxy 责任编辑:李旭阳

导读:数据存储摆脱服务器的阴影,成为自成体系的系统是来源于对数据性能的需求;那么,海量数据的整合、排列以及分析,是否也将成为一套独立的市场?

关键词: 海量数据 IBM 存储 Watson

不知道从什么时候开始,我们的电视荧屏上出现了一批类型非常独特的节目--智力挑战赛。无论是那个曾经引起无数效仿的著名节目《谁将成为百万富翁》,还是我国的"砸金蛋",这类节目都吸引了众多的参与者以及数以万计的观众,而吸引他们的无疑是天价的奖金或者奖品。当然,要想在这类节目中折冠,参与者也需要有非比寻常的知识积累和情商。今天,这样的故事在美国的一档电视智力问答节目《危险边缘》上再次上演,优胜者Watson以绝对优势战胜两名对手,捧走了77147美元奖金。而他(它)的这一胜利,应该足以在科技发展史上留下一个烙印。

Watson是谁?

当然,我们这里所讲的Watson不是福尔摩斯里面的医生,也不是超市,更不是Windows里面的那个不太常被人关注的程序。

Watson是IBM所研发出来的最新的大型智能计算机,其命名源自于IBM的创始人ThomasJWatson。其主要组成为90个跑在Linux系统上的POWER 750服务器,内含2880个处理器内核、4TB的内置存储以及15TB的RAM(也有说法是16TB RAM),这些服务器设备被放在了10个机架上面。值得一提的是,其存储系统所采用的是经过特殊优化的IBM Scale-out架构NAS产品--SONAS。

在《贫民窟的百万富翁》这部电影中,男主角通过生活的历练,获取了很多鲜为人知的知识和经验,而这些"财富"使得他最终得到了大笔的金钱。而作为一部机器,Watson何以能够获得如此多的内容积累呢?这全都是依靠其所存储的多达2亿页的文档信息。依靠这些内容,Watson能够在三秒钟内从海量数据中寻找到同问题有逻辑关系的列表,并从中筛选出契合度最高的答案,按下抢答按钮。

然而,从存储的角度来讲,Watson真的是依靠海量数据检索来取胜的吗?

海量数据的本源

IBM博客作者Tony Pearson的文章中,我们能够找到一些非常有意思的东西。Pearson是这样描述Watson的数据处理过程的:"当Watson启动时,其15TB的RAM都会被装载,此后,DeepQA(IBM的智能分析软件)进程从内存载入。IBM Research表示,在实际应用的数据总量中(分析和索引数据,知识库等),用于生成候选答案和评估证据的大小在1TB以内。

当然,这并不是Watson存储的总容量,根据了解,其所挂接的IBM SONAS集群总容量为21.6TB。当然,如同上文所说,其中很大一部分都是分析和索引数据、应用以及知识库。

是的,尽管Watson似乎无所不知,不过其所依靠的基础并非我们所想象的海量数据,而只是一个1TB驱动器所能承载下的内容。

数据分析引擎,比去重更有效的精简之道?

长期以来,我们对于数据的关注范围似乎局限在了一个小圈子里,数据管理、数据精简、数据保护......然而,在这些之外呢?数据存储摆脱服务器的阴影,成为自成体系的系统是来源于对数据性能的需求;那么,海量数据的整合、排列以及分析,是否也将成为一套独立的市场?

如今,无论是惠普、IBM还是EMC,已经有越来越多的厂商开始关注数据分析方面的技术进展。Watson在竞赛中的成功至少说明了一点,数据引擎的作用是巨大的。这样一个强大的数据引擎,不仅需要有性能强劲的服务器集群、存储集群、高速网络,而且还需要开发出同最终应用范围相匹配的算法和逻辑结构。

从战胜了人类棋手的深蓝,到在智力竞赛中获胜的Watson一共历经了14年时间,在这段长时间的跨度中,企业级应用的成长并不仅仅是工艺制程、原理结构、制造原料等等,还包括着数据结构、技术协议以及逻辑算法等我们不能看到,捕捉到的信息。而这些内容,毫无疑问是由人类所创造并且改进的。从这一点上来说,Watson的最终胜利也是人类在科学技术方面的胜利。

  • 人人网
  • 转播到腾讯微博腾讯微博
  • 新浪微博
  • Infortrend EonStor G7 核心“聚”变 Infortrend EonStor G7 核心“聚”变 2012年05月11日 Infortrend普安科技于2012年1月正式发布了G7平台(第七代)控制器架构磁盘阵列系统——ESDS S16F-R2850。该套磁盘阵列系统最大可配置240颗3.5寸SAS 2.0 界面的机械磁盘或SSD高速固态磁盘,当然也可以使用大容量、高性价比的SATA界面磁盘。Infortrend G7产品在性能表现方面也十分突出,基于RAID 5校验机制可提供不低于5500MBps顺序读和 3000MBps 顺序写带宽,在随机IOPS性能方面的表现高达每秒700000次.
  • 众志和达企业专区 众志和达企业专区 2012年04月26日 众志和达坚持以客户需求为中心的自主创新,拥有基于自主知识产权的SoC (Storage-on-Chip芯片级存储)技术、SureSave智能化存储管理软件及应用存储开发平台等核心技术,提供信息存储与数据安全领域的全面解决方案。
  • 大数据的风险 今日忽视明日遭殃 大数据的风险 今日忽视明日遭殃 2012年04月25日 在大数据的三个重要议题:非结构化数据超越结构化数据、结构化数据量激增和对结构化与非结构化数据进行商业分析之中,前两个议题的解决是第三个议题能够得以实现的基础和前提…