中国数据存储服务平台

秦岭:如何让关键业务更高效、更可靠

6月21日,由DOIT传媒、存储在线、中国计算机学会存储专业委员会、武汉光电国家实验室联合主办的2017中国闪存峰会在北京盛大开幕。本届峰会以“把握闪存绽放 追逐梦想”为主题,聚焦闪存产业链全生态发展,吸引了来自政府、企业用户、产业供应商、学术研究机构,以及主流媒体各方的共同关注。同时,有超过6000人通过线上参与了本次会议。

会上,华为技术有限公司存储市场总监秦岭分享了“如何让关键业务更高效、更可靠”主题演讲。内容如下:

大家上午好我是来自华为的产品线,在这一块是负责华为市场相关的工作。华为其实在闪存领域已经有了十多年的技术积累。早期我们主要是在服务器领域,主要是面向一些BAT互联网厂商,通过闪存的介质来对他们的应用加速,再后来我们逐步把闪存技术用到阵列里面,我们在2011年,我们发布了第一代全产能阵列。第一代它的特点是非常高的性能,因为在闪存的价格还比较贵,所以说我们的用户买闪存主要是来解决性能问题,来做性能加速的,随着我们技术的发展,我们看到我们的目前很多用户他们闪存已经不仅仅只看中性能,而且越来越多的看中我的效率,看中我的可靠性,所以说在去年发布了第三代的全产能阵列到V3,在提高高性能也能保证关键业务,同时给用户提供非常高的效率。

那这其实针对大的NA客户根据他们的需求来做的统计和调研。其实我们通过这个图可以看到,企业有宝马、大众集团,运营商有我们的中国移动、包括海外的德国电信、法国电信、意大利电信等等的。即使是T21的应用仍然需要一毫秒的低时延,另外我们的用户考虑性价比,已经不单单是单纯看存储的IOPS一个指标,而是结合容量来去考量,所以这一块有IOPS每TB,它提供高性能的同时有一定高的效率。另外像双活容灾复制是必选项,所以我们的用户用闪存已经不再是性能加速,而是用闪存全面替换数据的阵列。我们用户闪存过渡来说带来什么好处呢?我们来看几个案例?首先第一个案例它是来自于申万宏源证券,这是国内比较知名证券行业的公司。券商业务就比较典型了,它是属于高频的交易性的业务,所以对时延对性能要求会非常非常高。我们可以看到在过去这十来年里面,券商的业绩来说会随着市场的表现有一些波动,但是整体来说的话,业绩还是一直在不断的往上去发展的。所以说随着业绩的高速发展,它对存储的阵列对业务焦急的性能优非常高的要求,以前的传统阵列是不错的,能够达到3毫秒的低时延,反应在业务上6万笔的交易每秒钟。但是随着业务的增长传统架构已经不能满足它的业务需求了。所以在这里面我们给它推荐了一个方案就是全闪存的方案。对全闪存的阵列来说,我们经过实际业务的测试,我们能够提供0.5毫秒稳定的低时延,在0.5毫秒低时延,我每秒钟做15万笔的交易,性能比以前翻了一番,足够满足未来五年增长的需求,这一块是我们闪存通过性能来帮助我们的用户来解决他这种业务的性能问题。我们看另外一个案例,就是意大利Telecom。运营商这几年并不是那么景气,传统的业务在大幅度的萎缩,所以面临这种背景下,对IT部门,提出了一个更高的挑战,像IT部门有一个关键的考核指标每年降OPEX20%,怎么去达成呢?它线网有很多的这种传统阵列,有66套传统阵列,每年这66套传统阵列维护费用、升级费用,包括整个数据中心的能耗空间开销是非常非常高的。所以我们这边给他推荐了一个方案,就是我用23套全闪存阵列来去替换现有66套传统阵列,基本上是一套换两套,并且通过闪存在线数据缩小的技术来降低它的成本,来提供更低的能耗、更少的空间,以及更少的人力维护,经过测算我们可以实现OPEX下降成本达到60%以上,所以我们看这案例的话,闪存不但性能上帮助用户,其实在效率方面也可以来帮助我们的用户。

因为我们华为用闪存是一个常态,所以说我们的闪存阵列保证可靠性,因为上面是数据,数据一旦丢失的话后果是会非常非常严重。另外是要保证快的同时还要稳。另外就是要保证一个高的效率,让我们用户在享受闪存带来的这种高性能的同时,让它保证一个更低的TCO,要达成这三点来说的话都有很多技术,这边就不一个一个去介绍,比如说硬件方面我们有资源控制芯片,来做一个性能加速。就是内部的带宽相比传统阵列宽了一倍,保证我内部的带宽性能是非常非常高的,软件方面的话,我们针对优化保证闪存效率能够充分发挥出来,同时我有很多新的这种解决闪存可靠性问题的技术,比如说双活等等,通过这一些软件技术和硬件技术结合在一起,就是OCeanstor Dorado,一个是高性能,我们OCeanstor DoradoV3,能够提供四百万的IOPS同时0.5的低时延。所以说这么高的IOPS时延还非常低基本上可以满足我们所有用户的这种阵列方面的需求。当然它不光是快而且非常的可靠。DoradoV3来说的话也提供了阵列双活技术。

3:1的数据承诺,所以保证我们用户买的更少,用的更多。能够在性能加速的同时,数据可靠的同时,投入相比于传统不会增加,而会降低,我们的TCO来说的话相比传统来说能够帮助用户节约50%以上。接下来的话我对三点来说简单介绍一下,性能方面的话,它的配制是四个控制器V3,它的性能是100万的LOPS,同时在我最大的IOPS0.4毫秒,相比传统阵列的话,如果达到你的LOPS吞吐值往往时延非常非常高,一般是5毫秒、10毫秒,你性能再怎么压,它的时延也不会非常陡的去上升,这是一个四控版本的100万。V3来说的话是16控,如果我增加控制器的话我可以实现性能的线性增长,在下半年我们会测试一个16控的版本,我们预计是测试成绩是在400万LOPS的性能。这大家日后可以关注一下。

这么高的性能来说,背后是依靠什么样的技术来实现呢?这边有一个华为针对闪存技术就是FlashLink,有三部分,一个是华为自研的高性能盘,通过盘内我们的芯片,我们来实现我们FTL层硬件的卸载,另外一个面向闪存存储系统,因为我们知道传统阵列来说的话是面向传统的硬盘来做设计的,传统硬盘性能比较慢,闪存盘比较快,所以我针对闪存盘来说我传统阵列算法并不太适合,所以我面向闪存特点来说的话,我是重新来设计我的存储系统。第三点来说的话我们看到华为有自研的闪存盘,同时我也有自研的存储系统,我们这边就会想盘和存储之间,我们能不能开放一些接口,使得盘和阵列高效结合,就是我们盘和控制器之间是有接口,这样我在阵列在使用闪存的时候能够达到效率最优,从而达到400万LOPS和0.5秒的低时延。

一个是顺序写,我们知道我们数据中心数据库虚拟化这一些大部分都是随机IO,其实它的性能表现来说并不是特别的好,所以在这里面的话,我在存储阵列里面会把LO整列大块,来保证我的盘内的碎片非常非常少,另外的话还有一个原数据独立分驱技术。因为刚才知道我们盘有PE还有查写说明问题,如何来降低查写如何降低垃圾回收,所以这一块精细化的数据布局,就是我把热数据和冷数据尽量的分开放。因为我们知道热数据非常快,因为混在一块,我们看到块里面很多数据都是无效,这样的话就会造成大量的浪费,造成大量垃圾回收的撤销。对于阵列来说哪一些数据是很典型的热数据其实就是原数据,原数据是变化非常非常快,数据来说是相对比较冷,所以在阵列落盘的时候我会告诉盘哪个数据是原数据,哪个数据是冷数据,这样盘在存数据会把这一些数据放在不同的Black里面,通过数据减少性能损失达到30%以上。

另外一个就是我端到端IO升级的调度,通常阵列里面它会对EILO做优化,如果我们采用的第三方盘内无法知道控制器,来自于业务LO,还是控制器自身一些开销成本的LO,比如说远程复制做一些LO,比如说快照盘的重构都会有LO,这一些是盘无法识别出来,所以这一块我们盘口联动,当我们EOLO落到盘有一个标识有一个读请求,如果这读请求EILO等着盘给它返回结果,所以通过这技术我能够保证在业务高峰期,仍然包括一个时延达到最低的。

所以可以看到通过这种凡是Link技术提高性能,在可靠性方面来说的话,我们做三级可靠性的架构,从盘面层面,我们硬件方面我们有这种涂层来提高闪存的效率。而内部算法主要是LTT来提高我们的闪存寿命。架构层面我们引入了一个新的技术,叫做RAIDTP,就是同一份组有容忍3份冗余,所以说我可以保证同一个RAID同时三盘故障数据不丢失,相比于传统的这种RAID6保护技术可靠性提高了100倍。我们为什么要用RAIDTP技术这也跟闪存技术介质发展是有关系,因为传统来说的话,RAID6保护级别是最高,我同事两盘故障不丢失,这保护级别在传统的技术里面其实是足够用的。但是我们可以看到传统的盘容量相对来说比较小,像600G、900G,一个T是主流的发货容量,闪存这一块相比传统硬盘来说的话就是容量的力度会越来越高。

下半年的话华为会有7.6T的盘明年会有16T和32T,当盘容量增加的时候,盘保护级别已经不够用了。为什么?举一个例子比如说传统我用一块盘是1TB,我发生故障之后我可能用10个小时来做数据的重构。将来我如果用32T的盘怎么办?我需要320个小时。如果是用传统技术我这320个小时里面我的可靠性是大幅降低的。因此就是我需要有更多的冗余,这样即使我发生大盘的故障我的可靠性不会下降,这样帮助我们的用户放心采购大容量的盘更好的优化成本。另外在方案级来说的话,我们有阵列双活技术,来提供我们关键业务达到6个9的高可用。这边重点讲一下免网关双活,首先一个AA双活,就是两台阵列都是AA都是可以同时读写,它的好处一个业务的部署相对灵活,另外的话就是你的切换的速度会比较快。相比于传统的AP技术,就是我的切换速度快业务部署相对灵活。另外就是免网关就是阵列提供的功能而不需要额外的硬件网关设备,所以它在整个架构上要比以前更加简单,管理起来比较容易性能也比较好、成本也会比较低。另外提一句就是目前我们中国区面向闪存的有一个促销活动,就是买全闪存送双活。我们也希望通过这活动能够帮助我们用户,用更低的成本来构建它的可靠的数据中心,通过双活的方案,我们给用户6个9的高可靠。

刚才主要介绍的是我们V3又快又稳全闪存。接下来我重点讲一下在效率方面的一些技术。这一块是基础软件包里面是性能无损,通过这技术我们可以大幅度的来缩减用户的存储量,来降低数据中心的能耗和机房。比如说我以前需要买100T的数据,现在我只需要买33TB的数据就已经够了。所以我们希望通过这技术我们用户能够在享受闪存带来的高性能、高可靠的同时,并不会增加他在这种经济方面的负担。

这边的话我们在中国区,今天是面向全球的承诺。买华为多阵列我们承诺达到3:1的缩减,如果达不到,我们华为来为用户赔盘。当然我们业内不同的友商有不同的承诺,可能各自的条件、条款都不一样。华为如果我达不到我们给用户赔偿,有的达到不到给送一些业务,但是用户要容量还是要服务,还是我们用户自己的选择。

所以刚才看到我们的OCeanstor Dorado,非常高的性能能够达到400万,同时提升0.5毫秒。并且我们承诺3:1的数据缩减来降低我们的用户成本,这边我们看一下它的真面目到底是什么。这边有两款,一款是OCeanstor Dorado5000V3,它定位是终端市场,它比较经济易用,是两优的存储形态。另外一款是OCeanstor Dorado6000V3是独立的散热控制器,外接SSD的控制框,它面向中高端的市场以及高端。在明年会有高端的OCeanstor Dorado180000这一块也希望大家多多的关注,所以大家根据我们的需求来选择一款需要的产品。这边的话是我们未来我们存储产品线,在闪存方面的一些规划、一些方向。我们看到去年是发布了我们的OCeanstor DoradoV3全产品阵列。今年我们在介质层面要来做NVB的盘我们来进一步降低时延提供更高的性能。像我们现在的OCeanstor DoradoV3就已经支持的NVB盘,至于用户喜欢哪个由用户来决定。在下半年会出大容量的盘,会出7T、8T。明年存储是我们华为企业的大年,我们来做一个更新换代,由现在的V3更换到为V5。同时在存储网络这边会推NOF这是我们基于一肽网构建的网络,所以未来用户存储都是一张网,都是一肽架构,这样的成本会更加的低管理起来会更加的容易。到了2020年之后,我们认为在那时候我们数据中心就应该全面进入全产业的形态,这样会出一些分布式的存储,那个时候我们认为用户的冷数据也会存放在闪存方面,所以这一块也希望大家多多持续关注华为的技术。这就是我今天主要介绍的内容,感谢大家。

未经允许不得转载:存储在线 » 秦岭:如何让关键业务更高效、更可靠
分享到: 更多 (0)