数据存储产业服务平台

万卡集群中的微观博弈!从“超级隧道”到scaleFabric

2026年2月5日至今,中科曙光在国家超算互联网核心节点同时上线的3套scaleX万卡超集群已平稳试运行近两个月。从第一台交换机上电,到系统完成交付、生态适配到正式上线,整体部署仅耗时约36小时。

如今的万卡集群,不再是简单粗暴地堆叠算力。节点数量越多,系统内部的连接就越复杂。计算、存储和网络高度耦合,一处波动就可能被放大,影响整体效率。中科曙光应对这一复杂性的方式,先是通过存储系统的超级隧道技术解决一体化架构下的I/O拥堵与资源竞争问题,再到近期发布首款全栈自研400G无损高速网络scaleFabric,在网络层建立更稳定、高效的传输秩序。

在我看来,就像在庞大的集群“世界”(AI数据中心)里精雕了无数个微观“小世界”(小系统),给这些小世界细化链路、拆分资源、建立传输规则,让每一类流量各行其道,让复杂的事变简单。

scaleFabric是什么?

scaleFabric是曙光自研的RDMA高速网络,强调无损传输,从112G SerDes IP,到交换设备,再到上层管理软件,100%自主研发。曙光信息产业(北京)有限公司scaleFabric产品经理纵瑞博对此给了一个生动的比喻,它和RoCE对比来看,就像是铁路和高速公路,倾向于IB走铁路,规则统一且轨道固定,发车前确认前方是否空闲。RoCE是走高速公路,车辆先上路,拥堵后再通过限速与反馈调节。核心就是——数据发出之前,先确认对面是否具备接收能力。

相比RoCE在高流量场景下可能出现的突发拥堵和丢包风险,scaleFabric在数据发送前会确认对面是否具备接收能力,从源头降低拥塞和丢包概率。可以将其理解为在传输前进行容量确认,而不是在拥塞发生后再调节。

在大规模集群中,直达并不一定更快。无约束的直达传输会导致突发拥堵,继而触发重传机制,放大延迟。scaleFabric通过更可控的流量调度机制,使网络行为更加平稳。

在丢包控制方面,scaleFabric强调端到端无损传输能力。分布式训练对丢包极为敏感,一次重传可能引发多个GPU等待,造成算力浪费。因此,低丢包率本质上是在保护算力效率。

它解决什么问题

对于超级隧道技术,曙光信息产业(北京)有限公司总裁助理、分布式存储产品部总经理石静有一个详细讲解,它是通过虚拟化CPU、内存、网卡和SSD,将物理节点划分为多个“小系统”,为每一类I/O提供专属通道来降低拥堵扩散风险。

这次专访石静介绍了超级隧道技术与scaleFabric如何协同,scaleFabric在网络层延续超级隧道这种微观治理思路。首先通过虚拟网卡技术,将一张物理网卡逻辑拆分为多个“小网卡”,分别承载不同数据流,提升链路稳定性。

另一方面在超万卡规模下,连接数量暴增。每一条连接都需要占用内存资源。通常系统是在最初阶段就为每条连接分配固定的大内存,业务不同很容易造成分配不均。scaleFabric采用基础预分配+动态共享扩展的策略——每条连接先分配最小必要内存保证启动,再根据实际流量动态扩展,避免资源浪费,也提高了整体稳定性。

案例验证

我们知道scaleX万卡超集群在国家超算互联网核心节点已经部署完成。石静围绕AI训练的典型负载做了验证分享。

AI训练场景中,挑战主要来自小文件高频读写。传统做法是靠本地NVMe提升效率。在曙光“算存传”紧耦合架构下,系统通过BurstBuffer构建计算侧缓存层,高频小文件优先在缓存处理,再回传共享存储。结果显示,共享存储在小文件场景下与本地盘差距不明显,使同一套存储体系能覆盖数据准备、训练与检查点回传全过程。

最后

scaleFabric也在保持现有IB生态兼容的前提下实现底层自主。无论是驱动接口(如通用 WORKS API)、通信框架(UCX、MPI),还是管理与运维工具,都能平滑对接,应用无需重写代码即可切换部署。这种兼容式替代,既降低了迁移成本,也提升了自主可控能力,国产IB卡的意义也在于此。

未经允许不得转载:存储在线-存储专业媒体 » 万卡集群中的微观博弈!从“超级隧道”到scaleFabric