中国数据存储服务平台

忆恒创源PBlaze III PCIe闪存加速卡品鉴分析

DOSTOR存储在线 9月3日原创报道:在品鉴PBlaze III PCIe闪存加速卡之前,了解一下忆恒创源。

忆恒创源属于国内为数不多的创业型存储公司,在闪存加速卡方面有着自己明确的路线图。从其忆恒创源高层演讲的一张PPT图片可以看出来,在针对互联网关键型数据库、传统行业非关键型数据库等方面,忆恒创源都有着自己的布局,包括PBlaze、EBlaze和DBlaze三条产品线。

IDC数据显示2020年地球上将有40ZB数据需要存储。存储行业未来接下来3年内,闪存将是非常突出的技术。机械硬盘已经不能满足数据存储的要求,企业级存储对于闪存的需求越来越明显。闪存能够带来的优势也是非常突出,不论国内厂商还是国外厂商都在发力闪存领域。

在面临这样的闪存行业发展背景下,忆恒创源硬件闪存卡架构采用了硬件闪存卡技术。业界专家指出,“Device-Based与Host-Based架构相比,忆恒创源的Device-Based架构更加智能化,同时拥有更高的性能,和可靠性。忆恒创源Memblaze的硬件闪存加速卡产品能够将CPU从繁杂的FTL操作中解放出来,不需要考虑CPU抢占和内存占用的问题,更好的去完成用户自身的应用。如果说PCIe 闪存加速卡是企业级SSD市场的未来,那么硬件闪存加速卡就是PCIe闪存加速卡的未来。”

忆恒创源将PCIe 闪存加速卡划分为三代产品,如下:

第1代采用ROC(RAID on Chip)架构,一些厂商通过RAID控制器,将多个SATA SSD拼接到同一块PCIe板卡上,而不是把这些SATA SSD和RAID卡分别放入插槽中。这些产品大多集成了4~6个SATA/SAS模块,从操作系统端可以发现4~6个SATA/SAS设备。虽然形式上是一个标准的PCIe板卡,但是这种方式除了能节省硬盘槽位,却不能带来任何其他好处,依然遵循着SATA/SAS协议。这种产品CPU需要通过多次协议转换才能访问到NAND Flash存储的数据,模块与模块之间并不能够做均衡处理,RAID控制器引入了更多的延时,同时可靠性较低,存在着多个故障点。

第2代软件闪存加速卡——采用Host-Based 架构,此类产品通过PCIe总线连接具有特定功能的闪存控制器,不需要遵循SATA/SAS存储协议就可以直接访问闪存,带宽和延时功能相比ROC架构得到了较大提升。而Host-Based架构的最大问题是FTL(Flash Translation Layer)是在主机端实现的, 因此消耗了大量的内存资源(3 GB~10 GB,消耗1%存储容量的内存)以及CPU计算资源(采用主机CPU实现FTL的算法 —— Wearleveling, Garbage Collection,Flash Management)。此外还需要获得NAND Flash的状态,与主机之间的通信中断非常频繁,带来大量的硬件中断处理。

第3代硬件闪存加速卡——采用Device-Based 架构,Device-Based产品与Host-Based产品的最大区别在于,Device-Based PCIe 闪存卡的FTL(Flash Translation Layer)是在板卡内部进行处理的,而Host-Based PCIe 闪存卡产品的FTL是在驱动端完成的。

Memblaze的硬件闪存加速卡控制器内部集成了嵌入式CPU以及硬件加速模块,对Nand Flash的状态实时监控,并且采用创新算法对元数据进行高效处理,减少与主机之间的状态信息交互,降低中断频率,提升Wearleveling效率,有效减少了产品的IO延时。

综上所述,Device-Based 的PCIe 闪存卡比Host-Based和ROC的PCIe闪存卡在架构方面具有非常明显的优势。

需要指出的一点,PBlaze III PCIe闪存加速卡还采用平滑延迟技术,大家都知道:“平均延时”和“延时抖动”是企业级Flash存储的两个重要指标。

各种存储设备的访问延迟时间差异如下图:


从上图可以看出,Flash与HDD之间的延时相差3个数量级,通过采用Flash存储卡可以消除大量CPU的无效等待,从而提高IT系统的整体性能。

Memblaze的“Ultra-Low Latency Wearleveling on Device-Based”和“Latency Smoothing Technology”,分别针对这两个重要指标进行底层算法优化,满足当今企业最为苛刻的应用需求。据忆恒创源联合创始人公司总经理殷雪冰介绍,Memblaze的PBlaze系列产品拥有业界优秀的延时特性,通过在服务器端部署PBlaze产品,这种分布式的临近存储大大降低了服务器访问数据的延时,使得数据中心的TCO(总体拥有成本)显著下降。

Memblaze拥有IO延时平滑的专利技术,可以针对个别超长延时的IO请求进行削峰滤波处理(类似电容器滤除高电压脉冲的工作原理,在时间围上对IO延时进行滤波),当运行在较高IOPS情况下,Memblaze会自动调整GC算法和内部等待队列深度,并将IO延时进行平滑处理,从而避免产生超长延时的IO,减少对后端系统的影响,使得用户的应用运行更加平稳顺滑。

下图为采用FIO测试软件获得的PBlaze系列产品延时波动测试结果:

来自忆恒创源的官方资料显示,Memblaze的Device-Based架构在控制器内部集成了嵌入式CPU以及硬件加速模块对NAND Flash的状态实时监控,并且采用创新算法对元数据进行高效处理,减少与主机之间的状态信息交互,降低中断频率,提升Wearleveling效率,从而有效减少了产品的IO延时。

Memblaze的PBlaze系列产品,在单线程下IO延时低至14 μs,即使在很大IO压力下依然有持续稳定的低的延时表现(4 KB IOPS =320,000 ,IO平均延时低于1 ms)。Memblaze PBlaze与竞争对手同类产品延时进行对比,无论在多线程大压力下以及少线程下均有2倍以上性能优势。

当然,不少文章提到了忆恒创源独有的容量扩展技术——琴键技术。这个技术也应用于PBlaze3 闪存加速卡,其设计思想来源于钢琴的和弦,通过4种不同容量的存储“键”与控制“琴”的组合,能够搭配出多达38种容量的产品,使得PBlaze3 MLC产品从600 GB~2.4 TB,每间隔50 GB就可以配比出一种容量的产品;SLC产品从300 GB~1.2 TB,每间隔25 GB就可以配比出一种容量的产品。

当然了PBlaze III PCIe闪存加速卡采用了硬件固态存储架构、琴键技术和延迟平滑技术之外,还具备数据保护技术、写放大技术、寿命延长技术。可以为用户提供超强纠错、RAID crossNAND、备份模组、随机化、断电保护等数据保护技术,保护数据安全、可用,同时使得MTBF(平均无故障时间)超过2百万小时。同时在写放大技术方面,优化的垃圾回收算法、安全擦除、静动数据分离、动态的空间预留等技术,在不影响性能的前提下,将写放大系数降到最低。另外,在针对闪存寿命方面,特别针对Die的颗粒跟踪技术,减少并智能控制磨损,加上NAND底层管理技术、数字处理技术,使得MLC闪存写入寿命提升10倍(10TB/天的数据写入,寿命可达10年),获得近乎SLC的使用寿命。

其实,在品鉴PBlaze III PCIe闪存加速卡时,淘宝产品经理何燕锋介绍,高效能CDN缓存节点系统结构,便于后期扩容,也包括对硬件存储IO优化——性价比的考量和软件存储IO优化——冷点和热点分布。

他认为采用混合存储,将高速IO存储和低速IO存储,热点数据指向高速存储,冷点数据指向低速存储。但这种优化可以根据业务来做,需要修改应用代码来实现。而采用高速大容量缓存,不需要修改应用代码实现。

针对实际应用方面的情况何燕锋介绍说在杭州华数机房,由低功耗服务器所搭建的CDN节点机群。其中,一个2U空间里能放8台凌动低功耗服务器(8台服务器共享一个机箱),单台服务器功耗仅25W,也就是说,这8台低功耗服务器的总体功耗也才200瓦。这200瓦是什么概念呢?那就是市面上的普通服务器,主要负责调度功能,其功耗为150W,占1U空间。两相对比,低功耗服务器的低功耗高密度的优势十分明显。

他进一步补充道,淘宝CDN缓存对象具有的特征是:18KB以下的对象数量占总数量的80%,而存储量只有不到40%;同时,80%被访问对象所占用的存储空间不到20%。这意味着“热数据”(访问频次高的内容)占的空间其实很小,而“冷数据”(访问频次低的内容)所需存储量很大。因此,淘宝特意为该低功耗服务器引入分层存储机制,所以单台低功耗服务器的硬盘其实是由一块80GB的SSD盘和两块500GB的SATA盘组成。这样,“热数据”存放在SSD盘上,“冷数据”就存放在SATA盘上,从而兼顾速度、容量与成本。而分层存储调度软件则由淘宝独立开发。(阿明)

未经允许不得转载:存储在线 » 忆恒创源PBlaze III PCIe闪存加速卡品鉴分析
分享到: 更多 (0)