数据存储产业服务平台

HBM限制“大模型想象力”的原因揭晓!

在XSKY看来,如今内存,特别是HBM内存,限制了大模型的推理能力,也就是想象力!对此,我也深表认同。我们都知道,算力、算法和数据是大模型的重要的推手,其中算力部分,除了GPU之外,HBM内存也是重要的因素,它通过独特的封装方式为GPU提高超高带宽连接,但HBM也有弱点,价格昂贵,容量偏小,目前主流HBM3E单堆容量为 36GB,即使集成多堆 HBM,如 NVIDIA H200 总容量最高达 141GB(144GiB),AMD MI300X 总容量 192GB(8 堆 24GB)。如此,偏小的容量,就限制了外部数据的加载能力,这也是为什么大模型限制上下文长度的原因,所以就有了内存限制大模型想象力的说法。

既然看到了问题,作为一家科技创新的代表企业,XSKY肯定有自己的解决办法。1月15日,XSKY的产品技术解决方案揭晓。其中,XSKY宣布的产品方案不是一个,而是三个,分别是MeshFS、MeshSpace、MeshFusion,XSKY用专为AI场景打造的AIMesh全栈AI数据方案予以概括。

让我们具体看看AIMesh的这些产品,AIMesh被称为数据与内存网,包括:训练数据网MeshFS、全局对象网MeshSpace和推理内存网MeshFusion,是一个“三网合一”的创新架构。

顾名思义,MeshFS主要解决的大模型训练中的FS(文件系统)加载的问题,通过融合XGFS成熟的POSIX语义与XSKY XSEA全闪阵列底座的极致性能,MeshFS支持POSIX/S3/HDFS全协议互通,无需修改Python或TensorFlow训练代码即可运行。从性能上看,MeshFS采用的全分布式架构可以让性能随节点数线性增长,元数据处理延迟低至微秒级,实测顺序读带宽比同类产品提升30%,顺序写带宽超出行业水平50%,彻底解决数据供给滞后问题。

MeshSpace重点用于数据存储,它基于XScale引擎“单桶千亿”的技术积淀,实现从“单桶千亿”到“单桶EB” 级数据湖的进化,通过Global Namespace(全局命名空间)将分散地域的物理集群抽象为逻辑整体。现有XEOS集群可原地升级,数据无需迁移即可自由流动,单个对象存储桶每秒支持百万对象写入,大块写性能提升近50%。

解决了AI模型训练,以及数据存储和准备的问题,接下来,重点需要解决的就是AI模型推理应用场景中的内存墙的问题,如AI 推理中的超长篇上下文、以及多轮对话所导致KVCache爆炸的现象,对此,MeshFusion通过服务器本地 NVMe SSD 转化为 L3 级外部内存,以 1% 的硬件成本实现近乎无限的上下文窗口。从实测结果来看,其与纯 DRAM 的性能差距控制在 10% 以内,高并发场景吞吐量线性增长,资源受限状态下甚至能实现 20% 性能反超。

XSKY CEO&联合创始人胥昕指出:AIMesh的发布不是一次推倒重来的革命,而是基于XSKY十年技术积累(XGFS、XEOS、XScale、XSEA)的自然演进,其产品路线得到头部客户与行业巨头的实战验证。

XSKY CEO&联合创始人胥昕

据透露, XSKY产品为大模型企业Minimax PB级核心训练数据与推理模型数据提供了支撑,Minimax直言:MeshSpace的全局命名空间是就为其混合云“数据孤岛”痛点量身定做的解决方案,MeshFS的高吞吐低延迟也将进一步保障训练效率。此外,Intel与XSKY的合作已走过十年,从早期技术共创到入选Intel精选解决方案,再到CPU新品首发伙伴,XSKY的技术实力持续获得认可。MeshFS对至强处理器指令集的深度优化、MeshFusion对NVMe SSD的巧妙利用让Intel印象深刻,目前双方还在联合预研基于CXL技术的内存池化方案。

ZStack与XSKY是云时代“背靠背的战友”,如今这份默契正向AI时代延伸。ZStack正在构建新一代智算平台,其AIOS智塔产品与AIMesh设计高度契合——MeshFS缓解训练场景的存储I/O瓶颈,MeshFusion降低推理硬件成本,双方期待复制云时代的成功合作模式。低延迟也将进一步保障训练效率。此外,Intel与XSKY的合作已走过十年,从早期技术共创到入选Intel精选解决方案,再到CPU新品首发伙伴,XSKY的技术实力持续获得认可。MeshFS对至强处理器指令集的深度优化、MeshFusion对NVMe SSD的巧妙利用让Intel印象深刻,目前双方还在联合预研基于CXL技术的内存池化方案。

未经允许不得转载:存储在线-存储专业媒体 » HBM限制“大模型想象力”的原因揭晓!