数据存储产业服务平台

富通云腾:非关键业务数据管理之最佳实践

“应用与数据分离,通过构建应用融合的桥梁,数据服务这样一个平台或数据服务这样的方式,围绕对象存储、分布式存储构建新的应用形态来提升非关键业务数据的价值。” 富通云腾云存储产品总监李建军在2020中国数据与存储峰会第二存储与数据管理论坛上发表主题演讲,结合多行业场景,分享了非关键业务数据管理这一重要领域的最佳实践。

富通云腾云存储产品总监李建军
李建军先生在云原生应用软件产品开发、解决方案设计方面拥有丰富的经验,目前带领产品和解决方案团队,为客户提供云共享协作,云备份、云归档等非结构化数据管理解决方案。

什么是非关键业务数据?非关键业务数据的管理问题为什么如此重要?

第一是以沟通为中心,主要是以沟通消息为主。沟通过程中会形成一些记录或者是一些结果出来,这些结果会保存在各个邮件系统,但是以人为中心的时候,企业中的用户,他们会写一些文件或者是做一些文档,往往以共享、协同或者是搜索来去做的事情。这个时候文件实际上在个人电脑或者在服务器上面,比如说共享服务器或者是其他一些地方或者是邮件,从邮件把附件找出来,对文件进行编辑。第三,就是传统以业务为中心,比如说ERP、CRM客户关系系统或者是供应链系统包括很多合同,面向结构化的数据,这个时候需要登录业务系统或者是新找到一个销售客户,需要把信息登录上去,电话或者是地址各种信息登录上去,信息最终保存到业务系统当中去了。这里的主要目标就是非关键业务,更多是文件或者是文档,或者是半结构化、结构化、非结构化的结构存在的,我们可以看到沟通和以人为中心的时候,各个之间是要交互的,实际上数据最终是分散的,比如存在邮件、即时通讯、OA,存在各个地方去了。早期我们企业说白了是以结构化应用数据,以业务性为中心的时候,对数据关注度不够,第一个分散很难管,第二个这个数据量相当大,结构化应用颗粒度相对小,比如盘阵和块存储来存储,几个T就可以搞定。但是如果集中去存这些非结构化,非关键业务数据的时候,它的颗粒度相对要大,难于管理,而且没有一定的逻辑,往往是跟人相关或者是跟沟通相关。企业非关键业务往往是在零散的存储、分散性的存储,如果说随着新的第二存储,分布式存储、对象存储成熟以后,企业会考虑到把分散的数据存到分布式或者对象上面去。这时会产生新的业态,怎么样把沟通为中心的应用或者以人为中心的应用,甚至是以业务中心为应用这些非结构化,非关键性的数据怎么能够存到对象和分布式,这是数据在其中的表现形式一个简单的分析。第二存储的应用场景在不断扩大传统的块和文件市场在下降,分布式增长很快,比例不多说了。第二存储应用场景也在不断扩大,刚才梁总谈到了数据保护、数据备份、数据存储,包括逐渐延展到数据管理,数据管理和数据存储是两层关系,它俩之间从技术视角来看没有绝对的关联性,还有从共享、数据分析、数据安全领域。

从传统分布式存储、对象存储、第二存储,以存储保护和备份的场景主要延展到管理共享和分析,我们先看看管理。所谓谈到管理一定有集中的概念,怎么能够管得住。第二非结构化数据或者非关键业务数据更强调共享。共享刚刚谈到了,我在邮件里面发给别人,别人在邮件里面接收,如果在企业微信或者是即时通讯工具共享数据的时候,只能在这里做,或者在个人电脑做或者是其他的方式去做。这个时候共享的能力仅仅局限于文件本身,共享的通道和入口是很零散的过程,共享并不是很方便。既然这个非结构化的数据价值出来以后一定是在存储集中完成以后,能够对共享能力再去挖掘价值。比如说是不是基于合同优化过程包括供应链过程,是不是能够把文件快速发送出去或者共享出去,这就是在分析过程中,包括数据安全,数据安全除了数据备份和保护,在结构化应用包括容器方面,从应用视角来看,非结构化数据备份是一个很复杂的事情。比如,企业有一万员工,备份5000员工个人PC数据,这就是很复杂的事,不单单是存储,一个PB的存储。第二个还有网络,第三个用什么样的软件来存,如果是传统的NBU来做,那个成本一个点要三百块钱的话,5000个人就是150万,企业很难推行,是不是有新的方法帮助客户完成个人数据,甚至是应用中的一些非结构化数据备份能力?

从场景来看怎么样有新的场景和新的方法。协议互通、EC、重删压缩、高密、全闪、内置搜索引擎等技术达成极致效率是分布式存储的核心竞争力。软硬件深度配合,云上云下协同,实现极致性能和智能管理成为分布式存储发展的重要趋势。

应用融合提供的是数据服务桥梁一定是数据服务的概念,数据服务应该为应用能够提供服务这样一个能力。从及时性能和智能管理应该成为分布式发展重要趋势,结合所有分布式或者说对象核心竞争力发展趋势会影响到整个非关键业务数据管理能力。换句话说,第二存储是基础,这个基础打的牢靠,后面才有可能做这件事情。

如何提升非关键业务数据的价值?

提升非关键业务数据价值,首先数据要有价值,第一,企业逐渐向互联网转型,数字化转型或者是互联网转型,这种传统的应用模式,数据库加存储。制造业里,现在推电商卖空调,开店要借很多的服务器,不管是公有云资源还是私有云的服务器,借大量的服务器来做业务形态,如果是传统模式来看,比如原来应用可能支持内部用户就一万人企业,只能支持一万人企业,应用形态是能够定义出来的,比如说需要十台服务器,需要多少存储,需要多少备份,是可以算出来的。但是在互联网行业里面,尤其是做手机银行,大部分建手机银行,这种形态来看用户数是不确定的,这个时候怎么搭建应用平台,这是需要反反复复思考的问题。

第二,分布式存储解决了海量数据的存储问题,但企业如何解决数据管理的问题,管理就包含很多刚刚谈到的共享、分析甚至以后的备份,新的备份问题怎么去做。第三个数据安全、合规,以前结构化应用很多方法在保护它的安全甚至保护合规,但是非结构化应用,如果用传统方式来做那个代价太高昂,对于非关键业务数据本身的价值来说,可能企业也做不起,我们需要用新的方法来迎合数据安全和合规的问题从这三个点来看,刚刚谈到企业的价值要和传统做结构化运营有一定的转化转型。从金融行业、制造业、医疗行业,这三个行业里面找了一些典型的应用,我们先看一下,金融行业里面做的文件数据管控。金融行业相对来说也算走得比较快,大规模完成了信息化平台建设,比如像OA、邮件反反复复更新好几轮了,包括以企业微信、钉钉等也走向了企业的平台化。第二可能从门户角度,刚刚谈到了OA,包括生产应用、安全,包括第三方接口都做了很多场景建设。

如果企业以前大规模自己开发了一些,即时通信软件,但是效果不是特别好,企业微信走到金融客户以后,它有一个诉求。第一,所有这些数据应该是能够通过企业微信快速转发或共享;第二,所有这些数据保存,比如说移动端不能落到本地,刚刚谈到数据安全,不能够落在本地,也就是手机端不能存文件只能看。第三个这个数据必须落在企业内部,一方面引入了公有云服务,这也是一个趋势,以后应用会逐渐地用到公有云的SaaS服务,突破口就在移动即时通讯工具,企业微信这个突破口,这个数据要保存内部,同时应用是互联网化的SaaS服务,这是第三个诉求。第四,所有在企业内部安全部署都要走DIM,要符合安全管理一套策略,数据的流转包括中间痕迹跟踪都要做明确。

同时企业生产应用接口,ERP的生产或者类似合同管理、合规性管理,类似所有的入口都应该希望能够共享互联互通。以前企业要做内审的时候,其他的应用要导出多少文件以后做内审检查。现在来看,是不是内审系统直接看到所有权限或者允许做的检查的事情,这是从用户文件管理场景需求。第二个很大的一个诉求来自于员工,金融行业桌面云或者是系统化更多在研发领域比较多,真正在办公行业还是以个人电脑,就是纯物理机方式,笔记本的方式,甚至有的企业出现了平板电脑。也就是说,员工以前开会找数据,领导跟你要数据都得从自己的电脑找,甚至从部门去找,这个面临一个问题,既然有一定价值就要考虑备份的问题,通过评估一套传统方式备份代价太高了。换句话说,几万人梳理出核心员工也有大几千人,这些人的备份就是很困难的事情。第三,我们企业这些应用要打通,以前我们结构化应用靠传统方式去做是可以的,但是非结构化数据怎么打通?我们把这种文件作为一个应用附件,它本身并不参与到客户应用流程中去,它提供的是什么?共享的能力,因为我本身也是做应用出身的,其实对于应用来讲,它最喜欢什么事情?首先第一个不用关注存储存在哪里,第二个存储权限管理信息或者是数据管理信息是能够被我所用,我只要用它就可以,因为我上面有一套逻辑,每个应用都有业务逻辑的概念。视角和关注度放在逻辑角度来看,按照需求随机取所需要的数据,能够提供共享,权限管理甚至是安全的管理,这就够了。通过这样一种方式,我们帮助客户建立这样的数据服务平台,比如说提供共享的能力,包括一些版本能力,包括权限管理能力,包括一些用户管理的统计报表,还有一些搜索的东西。

非结构化数据管理价值第一点是搜索,能够帮助用户快速找到这个数据,以前我们说找数据只能从自己的电脑去找,甚至去邮件里面去找,现在是不是在微信里面,企业微信就可以找到这个文件,这个文件有可能在邮件系统,我能不能找到邮件。我们通过这样一层数据服务的能力,通过跟企业应用来做桥梁,相当于中间是一个桥梁,把各个应用之间的数据汇总到数据服务平台,通过数据服务平台给企业应用提供数据共享、数据权限管理,数据安全管理。这样的话,企业的应用关注点在于怎么样做好自己的应用,这是在金融行业企业应用需求、场景需求包括解决方案。我们再看一下金融互联网业务数据管理案例分享,这是更细分的事情。金融行业如果说做手机银行,手机银行做会员交易,以前开户是在柜台开,在营业厅开是可以的,因为都是排队,这个系统的压力可以算出来,根据一天开多少个通道,一共有多少个营业厅,多少分行或者是支行,有多少营业所可以算出来,这个应用到底需要多大的能力,我可以让他排队。但是在手机银行或者是银行开发了很多互联网业务,比如说开饭票或者是聚餐,互联网业务的时候,它的客户群体会变得很模糊,像一些股份制银行,保守估计客户群体应该在几千万,我们的应用数据跟着它做几千万,这肯定是不可行的。一定回到技术传统方式,我们说把应用和数据分开,应用要做业务逻辑,比如说从用户的认证,比如说从一个APP进去之后,比如说找一个账单或者找一个饭票,进入饭票业务或者是电影票业务,打印什么什么东西,下载电影票的票根或者是票据,真正生成单据的时候是可以拍照截图,这些都是应用逻辑做的事情。但是存在里面的交易中间形成的图片或者是文件,我们是不是可以放在存储上面去,对于银行客户来说,一定要把存储放在内部,这是核心和基本要求。在企业里面来看,我们能够把一个应用和数据的通道打通分开,分开以后让应用走应用的逻辑,比如后面都是做结构化的处理,真正的用户通过本身的客户端包括移动的应用,包括PC的应用,可以直接存储。把存储暴露到互联网当中,里面一定有很多控制的逻辑,包括传统ATB协议可以提供签名验证,还可以提供时效,各种各样的问题都会出来了,我们通过这种方法的解决降低用户在手机业务、手机银行或者是互联网业务的硬投入,硬投入对于企业来讲根据算产值和模式算出来的,一定是有新的方法或者是比较好的解决方法,帮助用户解决同时满足互联网业务场景,同时又解决安全问题,这是需要更多考虑的一个场景,这就是一个应用与数据分离的场景。应用和数据非结构化和非关键业务来说,这种数据分离场景会越来越多,而且以后对于用户来讲,如果用户的应用和数据分开以后,应用选择面会更广。

我们说重应用在企业中逐渐会变成SaaS应用,为什么?只要数据和应用能够分开,选择会更容易,如果这个应用不好用,可能要换一家,发展方向还是有很多问题。从场景来看结果来看,应用会越来越轻,数据会越来越重。我们再看一下制造业,制造业比金融业慢一个节奏,因为它的应用,信息化建设角度来说还是一个,虽然做了虚拟化,只是虚拟化的烟囱而已,以前是物理的烟囱,现在是虚拟化的烟囱而已。它的诉求很明显,有几百套共享服务器,部门甚至以项目组都申请了一个20个T或者是几百个T的共享服务,这种共享服务对于企业来讲,企业以前的存储主要是块,文件后来出现一些包括对象。随着对象存储这种分布式存储逐渐这种价格,包括技术成熟度逐渐上来以后,会考虑到是不是能够用分布式存储和对象存储,来解决大规模散布在几百台数量NAS或共享块存储。这样的话,第一个降低了管理复杂度,因为以前最痛苦的就是换盘,第二个这个内部用户需要一台共享服务器,因为对制造业来说,内部的IT有很强的管控能力,安全的要求,数据要加密,很严格,所以为了共享数据方便,本身不能拿出U盘共享,发邮件数据量很大,不能那么做,通道不畅通,怎么办?他们逐渐通过建设统一文件数据管理平台,从以前办公的概念变成生产的概念,以前只负责解决办公的问题,现在涵盖办公、生产、开发、营销、售后服务文件型数据,随着电商业务逐渐拓展,它会逐渐把电商业务形态搬回到公司内部来,上面存了大量的信息,如何搬到数据共享平台来解决数据管理问题。制造业对于身份安全管理,包括操作留痕要求很高,制造业对文件管理还是在集中的概念,如何安全存的问题,因为它们的应用是烟囱式,这种虚拟化烟囱式的打通还是任重道远,这是制造业文件管理案例。

再看一下产线,现在制造业对产线质量的跟踪,自动化产线的时候会拍照,我会存在本地的服务器上,比如说存三个月,剩下通过移动硬盘导走,导到一个大的硬盘上或者导到共享服务器,或者是文件服务器。但是制造业质量跟踪时间越来越长,以前可能在线查三个月,现在要查一年两年,因为零部件一旦出现问题,通过前端的应用系统包括追踪到拍照的痕迹,这就面临一个问题,怎么样解决效率问题?比如一分钟拍一次或者每30秒拍一张,24小时不停这个产线,中间照片数量会很高很大,以前的方式传到小服务器或者是PC上,再导到存储上面去,这种方式很慢,而新的方式,比如传到对象存储,这样快很多,容量大很多,可能支持在线一年两年三年。我们刚才说追溯的时候,以前产线图片虽然有规则,但是找起来也不容易,是不是可以通过对象存储,内设搜索引擎,通过这种来去对接文件进行搜索,照片快速照片,包括批量的下载,一次要找一组图出来,追溯这个图,通过搜索引擎的方式,这都是对象存储或者是分布式存储自带的生态,进而简化了用户做应用,简化了方式。他们对数据进行上传的时候打标签,比如说进行的批次或者是对照片操作人都可以打进去,通过这种方式存到对象存储以后,我们支持对目标搜索。现在应用对存储来说,打标签的话能够实现快速的,这就是分布式存储和对象存储的优势。比如说它有两个GB之间的关联关系,以前怎么做?

需要把这边的数据拿移动硬盘寄到那边去或者发到那边去或者是出差带过去。现在应用只要标记,对重点跟踪的图片,只要应用打标记,这个时候底下的存储会把数据转移到另一个存储上面,利用对象存储分发能力或者是转移能力,这样降低整个企业使用应用复杂度,因为他的关注点就是在产线数据怎么能够快速保存,经济化保存,快速找到数据快速处理,这是它的目标。

制造业来看,目前还是比金融行业慢一点,更多是解决存储以后怎么高效利用数据或者是管理数据。医疗影像领域更加复杂,第一个医疗里面的应用系统比较多,一般三甲医院都是比较多一些。从医疗影像数据来看,基本上有三个场景,第一个是临床整治,疾病整治领域,还有就是科研,第三个就是教学,通过医疗影像进行教学。传统的方式通过PACS系统,PACS系统实际上就是ECM典型应用场景或者是应用模式。现在医疗影像产品越来越多,以前一个医院可能有几十台CT,像核磁共振、CT、B超,现在随着产品价格下来。第二个以租代买,甚至说商业模式变化以后,导致一个三甲医院基本一半的科室都是跟影像关系,连看牙都有影像的概念。这个时候数据量增加会很快,但是医生阅片的时延时效,包括清晰度,照片的颗粒度上来了。每次医生都要去几百张照片浏览,这种对时延要求很高,现在基本上跨科室是一个老大难的问题,比如内科的人怎么看其他科室的影像。这是很困难很复杂的事情,涉及到很多管理上包括实际上的应用场景问题,但是这个场景来看是存在的,这是医生告诉我:从多模视角帮助病人发现问题。我们现在的做法,到内科看完了,外科再拍一个,或者一个医院到另外一个医院都要重新拍,它需要大量的样本。

其实对于科研研究也是一样的,需要大量的样本进行训练,通过快速训练提升对疑难杂症效果的分析,医学教学关注一些典型或者是原始图像获取的问题。从一线目前医学影像来看,PACS来看,PACS系统从原来造价很高到现在造价很低,厂家逐渐从原来一千多家到现在几百家、几十家,但是现在面临一个问题,PACS系统越来越慢,这是很多医院的共识。对于用户来讲就是换PACS,这家服务不好,选择一家产品的时候支持能力是很重要的选择。但是对于应用来讲要换它,就存在历史数据的迁移问题,因为ECM产品迁移又带数据库又带存储的时候,这个数据量小是可以的没问题,现在一个三甲医院历史五年数据都在两百T到三百T,这个数据怎么能够迁得出来?这是很痛苦的事情。第二,现在PACS系统本身这种共享权限通过很多方式来做,第三个备份很复杂,医院的信息科都是孙子辈的,现在影像是粗放式管理,投入产出比严重不匹配,本身来说影像数据有30%到40%是垃圾数据,我怎么对影像数据从源头上治理,我们提出了跟医院在探讨的,能不能把应用分开,把PACS和数据分开,PACS作为数据标记,因为PACS前面更多是一些应用,怎么通过数据去看图像,分析图像。

真正数据存储要分开,通过应用和存储分开,包括存储和数据存储,因为医院不像传统的金融行业,它有大量的空间有机房有电力,很多医院缺乏电力,没有电没有空间,公有云是否是一个选择方向。现在很多三甲医院逐渐在公有云上把整个IT托管到公有云上,这也是一个选择方向,数据要存储,通过这种解耦的方式来解决数据共享的问题,解耦以后才能可能共享。第二个包括医政,医院医政跟企业管理部门是一样的,必须解决数据信息安全问题,我们都知道病人的片子有一些个人隐私信息在里面,这时候怎么样道德合规的问题,包括安全合规的问题,通过解耦以后才可能做数据质量治理,辅助解决大量无效数据、从源头治理。怎么通过治理的方式尽量降低存储的成本,在这个基础上在线时间更长,这都是需要解决的问题。我们通过解耦的方式来帮助客户满足科研、临床、教学这样一些数据需求。刚才整个介绍了三个行业,从金融行业到制造业到医疗行业这些数据管理案例,我们看了一下非结构数据发展方向。第一个存储概念,分布式存储、对象存储是我们的基础,我们随着利用随着分布式存储和对象存储技术本身成长成熟,我们去利用成熟技术或者构建,通过以它为基础构建一个新的生态方式,用这种低成本解决非关键业务数据量关键问题。第三个谈到非关键业务数据很大的场景是共享,怎样能够随时获取。随着整个企业业态,从PC电脑到桌面云,到平板到移动化办公,是不是能够更好支持共享,尤其智能终端出来以后,是不是能够支持共享。第三个很难做就是行业发展方向怎么样做数据分类,非结构化的数据分类有点像百度搜索做的网页爬虫,怎么去做分类,包括预处理。非结构化数据或者非关键性数据量很大,只有通过预处理方式才能加速找到数据,如果一个企业从十个亿数据找一个数据,通过预处理能力,来解决数据快速获取问题,包括已经开始做的像监控数据挖掘甚至是图像分析,已经有很多案例,通过数据分析的方式,场景也是逐渐在丰富逐渐在完整化,通过这种方式来提升非关键业务的价值。

最后谈到安全的概念,现在有加密技术,比如医疗数据的脱敏问题,但实际上从企业来看,我们碰到了电子制造业问题,比如国际化部署的问题,比如分公司在欧洲,在美洲美国,有很多在东南亚、新加坡,怎么解决数据合规问题?这都涉及到数据流转问题,刚刚谈到非关键业务基础一定是数据量很大,这个量大到一定程度的时候这个问题就会显现出来。所以我们说安全也是一个非结构性管理很重的方向。

—— END —— 

2020中国数据与存储峰会演讲嘉宾PPT下载页面来了!(点击此处下载活动资料)

2020中国数据与存储峰会圆满落幕,大会由百易传媒(DOIT)主办,以“新数智,新未来”为主题,特邀中国工程院郑纬民院士以及中国电子学会、中国计算机学会存储专委会、SNIA等单位的嘉宾,与西部数据、英特尔、浪潮、IBM、华为、戴尔科技集团、新华三、深信服、紫晶存储、青云QingStor、威固、Memblaze等领先供应商以及北京建工、平安科技、红星酒业等典型企业用户代表,探讨新数据时代存储技术发展趋势,分享数字化转型成果,共话智慧未来。

未经允许不得转载:存储在线-存储专业媒体 » 富通云腾:非关键业务数据管理之最佳实践