中国数据存储服务平台

大模型训练,存储要选Dell PowerScale

大模型很热,所谓“百模大战”就是为了把握先机,一句话,“卷”得很!卷的不仅是大模型训练,其实用户也很卷,都在争取尽快把大模型用起来,将大模型和行业数据进行结合。

不管哪种情况,都要面临一个问题,存储怎么选?

为什么是PowerScale

先说戴尔科技给出的答案:选PowerScale F210和PowerScale F710。

这也是在采访中,戴尔科技集团大中华区信息基础架构解决方案事业部存储业务总经理刘志洪、戴尔科技集团大中华区信息基础架构解决方案事业部存储业务总经理范圣俭、戴尔科技集团大中华区存储产品部总监李海、戴尔科技集团大中华区非结构化数据存储事业部产品经理岑广海共同给出的的答案。

原因也很简单,大模型训练首要因素是算力,大模型之争,某种意义上也是GPU之争,NVDIA给出的算力模型方案是SuperPOD,对于存储算力而言,首要就是对SuperPOD的支持和配合,争取最佳的匹配,为此,NVDIA也对存储给出了认证。

PowerScale就是NVDIA认证过的存储,为其背书。

从技术上说,PowerScale获得认可并不意外。我们都知道PowerScale的前身是Isilon,以集群存储著称,是海量数据文件、并行文件系统的首选。对于大模型训练而言,28936 个 GPU 并行计算,惟有并行文件系统才能够满足需求,PowerScale毫无疑问是佼佼者。

大数据同样看好PowerScale

实际上,大量非结构数据都保存在PowerScale上,由PowerScale对PB级的文件提供专业的管理。这也是PowerScale最擅长的。对于大模型训练,特别是NVIDIA GPUDirect Storage(GDS),需要存储提供支持,以发挥GPU算力的能力。

不仅是大模型训练看好PowerScale,实际上,大数据也看好PowerScale。我们知道大数据的基础Hadoop,所谓HDFS(Hadoop Distributed File System, 分布式文件系统),堪称自带体系,即使这样,大数据也可以接纳PowerScale,将PowerScale作为专业存储基础设施,从而专注于大数据分析和创新。

原因很简单,大量非结构化数据都保存在PowerScale上,谁拥有数据,谁就拥有了发言权。

大模型也是如此。很难想象,行业用户另起炉灶,选择新的存储系统,仅仅海量数据迁移就是一个难题,因此,PowerScale+SuperPOD应该是最好的答案。

选择PowerScale还有一个优势,就是PowerScale能够同时支持IB和以太网连接,方便用户的选择。不仅如此,戴尔科技针对AI大模型训练提供了咨询和服务,这算是产品之外的增值,堪称综合能力的优势。

F210F710的实力

为什么是PowerScale F210和PowerScale F710呢?原因就更简单了,他们是新技术实力的加持者。

F210同时满足高性能和小容量要求的最佳平台,而F710则以1RU的尺寸实现了高性能与大容量的平衡。

有数据显示:新的产品在软件优化的加持下,流式读取性能相较上一代产品提升高达两倍,显著加快了向GPU馈送数据进行模型训练和微调的速度。同样,流式写入性能提高了一倍,可优化AI 工作流程的模型训练和推理阶段的检查点功能。此外,PowerScale 去年的软件和硬件升级有助于加快周转时间,降低试产延迟的风险,并在高并发和延迟敏感型工作负载,如高频交易(HFT)和电子设计自动化(EDA)中,实现最高2.6 倍的性能提升。

其中, F710 在 1U 配置中最多可容纳 10 块硬盘,与 F600 相比,节点密度提高了 25%。同样,通过引入 15TB QLC 硬盘,戴尔科技提高了F210紧凑型配置的存储利用率,容量比 F200 提升了一倍。

F210和F710极大地丰富了PowerScale的NVMe全闪存产品阵容,具有GPU Direct(GDS)以及其他嵌入式功能,例如无中断扩展、多租户功能、支持多协议的通用数据访问、极高安全性以及与公有云的灵活性和无缝互操作性等,正在改变高速存储的游戏规则,并支持要求最苛刻的文件工作负载,如AI和GenAI。

小结

大模型训练有很多的选择,算力有很多的选择,除了GPU之外,也可以选择NPU,选择CPU也是可以的。与之对应,存力也有很多的选择,没有最好,只有更好。最好的选择只有一个标准,就是能够释放全部的能力。

具体到戴尔科技,PowerScale F210和PowerScale F710是他们给出的最佳选择!

未经允许不得转载:存储在线 » 大模型训练,存储要选Dell PowerScale
分享到: 更多 (0)