存储真是神奇的行业,似乎总可以在各种不幸之中找到发展契机。
911事件使全球用于容灾的预算急剧增加,而世通和安然那起举世瞩目的弊案,竟然鬼使神差般催生出个针对信息管理的法案??塞奥法案(Sarbanes-Oxley Act)。拜其所赐,各上市公司纷纷按照要求整补IT系统,这自然又为存储厂商提供了一席盛宴。于是乎,存储领域中一个新的概念开始流行,那便是大名鼎鼎的“信息生命周期管理”(Information Lifecycle Management缩写为ILM)。
然而,这个针对美国塞奥法案量身设计的ILM到底对中国用户有多大意义姑且不谈,仅就名称而言,就有颇多值得玩味之处。为什么不是“数据生命周期管理”呢?存储技术的对象难道不是数据吗?
在某个还算权威的网站上,某位还算权威的人士对此有番论述。大意如下:
“数据生命周期管理”关心的是文件的普通属性,例如文件大小、类型、创建及修改时间等等。而“信息生命周期管理”,作为前者的升华,可以提供更为复杂灵活的数据处理机制。举例来说,前者仅可以对某一文件类型或某一创建时间的文件进行搜索;而后者则可以对销售记录中某一客户的所有相关信息进行搜索。
读罢心生两个结论。一是ILM果然境界甚高,已经远远超出“数据”的层次;二是如此定位似乎Oracle和SQL Server也应该是ILM整体方案的重要部分。最擅长处理数据关系的,本来就是关系型数据库嘛!
不过再看看存储行业的魁首EMC公司,其市值也不过是Oracle公司的三分之一,微软公司的十分之一。即便是丝毫不懂存储技术的门外汉,估计也能察觉出其中的不妥。相信ILM的倡导者当初肯定也注意到这点,否则索性定名为IM(Information Management)岂不更显大家之风范,更见境界之高远?!而巧妙的插入Lifecycle这个字眼,实乃ILM核心所在,其中包含三重玄机。
首先是基本划清了ILM与数据库等功能应用的界限??以语意为核心的均属功能应用,以时态为核心的才算ILM;
其次是籍此衍生出“数据阶段”、“成本时效”等诸多新名词,为兜售陈年旧酒提供了炫目的新瓶;
最后一个作用是尽力与存储扯上些关系,让善良的人们相信眼下这个ILM是从存储技术中的HSM(Hierarchical Storage Management,分层存储管理)发展而来。
当然存储厂商自己都心知肚明ILM其实并非生长于存储领域,与HSM等存储技术根本没有任何继承性可言。不然的话,EMC公司就不会一边在网站上语焉不详的宣讲“数据并非生而平等”,一边加紧收购Documentum、Captiva、ProActivity等非传统存储领域的公司。反观IBM、HP等并非专注于存储领域的大型杂货铺,虽然也陆续收购了些FileNet等公司,但在阐述ILM理念时手脚却放得更开,可见ILM中显然非存储因素成份更多。
那么到底是哪些因素呢?在回答这个问题之前,我们先来回答另一个看上去简单得多的问题:数据真的可以保存10年、20年甚至更久的时间吗?那些LTO和DLT技术的拥护者先别急着赌咒发誓,我并不是在质疑介质技术的可靠性,而是质疑10年之后:
即便介质完好,是否能够找到读取这些介质的设备?
即便找到了兼容的读取设备,是否还能在操作系统上找到驱动程序?
即便成功读出介质上的0和1,是否能完好的还原为数据文件?
即便文件得以还原,是否还能找到识别并打开文件的应用程序?
回顾10年之前,我的毕业论文是在学校一台XENIX终端上完成的。那款当时颇为先进的图文混排编辑器,现在连名字都想不起来了。如果当年满心欢喜的将论文资料备份到那个I/F接口的9轨磁带机中,如今要让这份资料重见天日的最好办法,恐怕就是请系里资料室的老师吃顿大餐,让他帮忙去落满灰尘的废纸堆中寻找当年的打印稿。这至少比尝试存储厂商的各类技术胜算多些。
其实上面提到的问题是个非常古老的话题,从计算机诞生后不久就进入人们的视野,并随着IT技术的广泛普及和快速更新而日益严重。只是存储行业历史相对太短,所以发展至今存储业者才逐渐意识到,长时间的数据归档和迁移工作,仅靠块级乃至文件系统级的努力,是断然无法完成的,必须依赖包括应用在内的系统整体环境记录及处理手段。
业界专门研究解决此类问题的领域被称为内容管理行业,被EMC收购的Documentum和被IBM收购的FileNet就都属于这个行业。那是一个历史非常悠久的领域。其主要行业协会ARMA成立于1955年,相比存储行业1997年12月才成立的SNIA,内容管理的历史早了近半个世纪。所以,请不要简单的以为Documentum和FileNet是EMC和IBM收编的部署,他们其实是被请入门的老师。
有趣的是,昔日连老师们都不敢轻言的一些问题,如今到了学生手中却轻而易举的提出N多解决方案。ARMA虽专注内容管理52年之久,但其目前讨论的主要问题依然是记录标准和规则制定部分,凡涉及到具体产品及实施案例无不措辞谨慎。而某存储厂商则颇具初生牛犊不怕虎之气势,在ARMA.org首页上俨然成竹在胸的打出广告:“端到端的记录管理,独特的解决方案满足您企业独特所需”。
佩服!之余不免要问上一句,贵公司搞清楚“记录管理”的含义了吗?依IT技术的现实状况及业界共识,“记录管理”中所指的“记录”不仅限于电子记录,还包括纸媒等传统形式。而且“记录管理”是包含周期规划、安全性规划、存储手段规划、回溯性支持、他项目标支持、法规隐私、内容筛选、业务关联……等多维度立体结构,何来一根绳子般的“端到端”呢?这可不是4Gb光纤通道。
如此夸夸其谈,绝不仅见于这一则广告。翻开几大厂商关于ILM的描述,用极为粗略的眼光也很容易发现,其中务虚甚多而务实寥寥。这倒也不足为怪,因为以目前的技术现状而言,ILM根本就是空中楼阁而已。但奇怪的是,日前居然有些厂商信誓旦旦的声称已经发布了ILM产品。这我就有些不解了。即便考虑最简化的ILM系统,若要从应用层面识别信息内容,并能将其妥善管理,还要考虑业务变化、平台迁移、应用升级、格式转换等因素,这该是何等浩大的工程啊!
各个行业中各类应用种类之繁多暂且不提,仅支撑应用的各色常见引擎平台就已经不下千种,常见数据格式和交换协议又数以百计,操作系统还算好说,但大大小小也有十种开外。请问那些所谓ILM产品都支持了吗?如果只能支持一两个特定的操作系统、特定的数据库、特定的Web引擎、特定的编程接口,那就只是一种叫做“封闭系统”的贼船。
退一步说,纵使有客户心甘情愿,我仍然怀疑那贼船能否承担得起ILM的责任。从Lifecycle的角度出发,ILM产品至少要考虑操作系统和平台引擎的软件升级和技术更新。负责任的话,还需要考虑用户本身业务的发展变化。如果周边的环境纷纷升级更新,估计这ILM产品在还没来得及管理数据的生命周期之前,就得先面对自己的“生命周期”。
在认识问题的深度上,存储业者不仅明显落后于其他IT领域的专业人士,甚至还滞后于非IT领域及行业客户的认知。怀揣ILM理念的存储厂商经常与塞奥法案一同提及的HIPAA,是美国前总统克林顿在1996年签署的健康保险可转移性和责任法案(Health Insurance Portability and Accountability Act)。其主旨根本不是针对数据信息,而是规范整个医疗行业的行为。如果ILM的拥护者还能借HIPAA来彰显其理念先进的话,那我是不是也可以翻开一名罪犯小学作文本上的优秀评语而为其辩护免罪呢?
存储技术如今终于与内容管理技术互相借鉴融合,这本是一件好事,但如果妄自尊大的将内容管理算做存储领域的分支就有些可笑了。无论各厂商如何奋力在产品上贴金,也无论行业协会成立多少讨论组,毕竟存储的本质是资源,而不是内容。虽然近年发展出许多性能、功能、管理性、可用性等等修饰存储资源的定语,但万不可以为存储能够成为系统平台和应用软件的指挥棒。
以超级乐观的态度展望未来,也许海市蜃楼般的ILM真的能够在某天得以实现。按其拥护者当下的设想,那时候的“存储技术”中不仅应囊括智能数据库技术、新型网络及数据交换技术、向后兼容性极佳的操作系统和各类应用技术,说不定还要包含代码生成和编译技术。倘若这样的理想果真成为现实,“存储技术”也真该理直气壮的改改称呼。
对了,就叫“信息技术”,如何?
董唯元专栏:信息生命周期管理,皇帝的新装?
未经允许不得转载:存储在线-存储专业媒体 » 董唯元专栏:信息生命周期管理,皇帝的新装?