万卡集群中的微观博弈！从“超级隧道”到scaleFabric-存储在线-存储专业媒体

2026年2月5日至今，中科曙光在国家超算互联网核心节点同时上线的3套scaleX万卡超集群已平稳试运行近两个月。从第一台交换机上电，到系统完成交付、生态适配到正式上线，整体部署仅耗时约36小时。

如今的万卡集群，不再是简单粗暴地堆叠算力。节点数量越多，系统内部的连接就越复杂。计算、存储和网络高度耦合，一处波动就可能被放大，影响整体效率。中科曙光应对这一复杂性的方式，先是通过存储系统的超级隧道技术解决一体化架构下的I/O拥堵与资源竞争问题，再到近期发布首款全栈自研400G无损高速网络scaleFabric，在网络层建立更稳定、高效的传输秩序。

在我看来，就像在庞大的集群“世界”（AI数据中心）里精雕了无数个微观“小世界”（小系统），给这些小世界细化链路、拆分资源、建立传输规则，让每一类流量各行其道，让复杂的事变简单。

scaleFabric是什么？

scaleFabric是曙光自研的RDMA高速网络，强调无损传输，从112G SerDes IP，到交换设备，再到上层管理软件，100%自主研发。曙光信息产业（北京）有限公司scaleFabric产品经理纵瑞博对此给了一个生动的比喻，它和RoCE对比来看，就像是铁路和高速公路，倾向于IB走铁路，规则统一且轨道固定，发车前确认前方是否空闲。RoCE是走高速公路，车辆先上路，拥堵后再通过限速与反馈调节。核心就是——数据发出之前，先确认对面是否具备接收能力。

相比RoCE在高流量场景下可能出现的突发拥堵和丢包风险，scaleFabric在数据发送前会确认对面是否具备接收能力，从源头降低拥塞和丢包概率。可以将其理解为在传输前进行容量确认，而不是在拥塞发生后再调节。

在大规模集群中，直达并不一定更快。无约束的直达传输会导致突发拥堵，继而触发重传机制，放大延迟。scaleFabric通过更可控的流量调度机制，使网络行为更加平稳。

在丢包控制方面，scaleFabric强调端到端无损传输能力。分布式训练对丢包极为敏感，一次重传可能引发多个GPU等待，造成算力浪费。因此，低丢包率本质上是在保护算力效率。

它解决什么问题

对于超级隧道技术，曙光信息产业（北京）有限公司总裁助理、分布式存储产品部总经理石静有一个详细讲解，它是通过虚拟化CPU、内存、网卡和SSD，将物理节点划分为多个“小系统”，为每一类I/O提供专属通道来降低拥堵扩散风险。

这次专访石静介绍了超级隧道技术与scaleFabric如何协同，scaleFabric在网络层延续超级隧道这种微观治理思路。首先通过虚拟网卡技术，将一张物理网卡逻辑拆分为多个“小网卡”，分别承载不同数据流，提升链路稳定性。

另一方面在超万卡规模下，连接数量暴增。每一条连接都需要占用内存资源。通常系统是在最初阶段就为每条连接分配固定的大内存，业务不同很容易造成分配不均。scaleFabric采用基础预分配+动态共享扩展的策略——每条连接先分配最小必要内存保证启动，再根据实际流量动态扩展，避免资源浪费，也提高了整体稳定性。

案例验证

我们知道scaleX万卡超集群在国家超算互联网核心节点已经部署完成。石静围绕AI训练的典型负载做了验证分享。

AI训练场景中，挑战主要来自小文件高频读写。传统做法是靠本地NVMe提升效率。在曙光“算存传”紧耦合架构下，系统通过BurstBuffer构建计算侧缓存层，高频小文件优先在缓存处理，再回传共享存储。结果显示，共享存储在小文件场景下与本地盘差距不明显，使同一套存储体系能覆盖数据准备、训练与检查点回传全过程。

最后

scaleFabric也在保持现有IB生态兼容的前提下实现底层自主。无论是驱动接口（如通用 WORKS API）、通信框架（UCX、MPI），还是管理与运维工具，都能平滑对接，应用无需重写代码即可切换部署。这种兼容式替代，既降低了迁移成本，也提升了自主可控能力，国产IB卡的意义也在于此。

万卡集群中的微观博弈！从“超级隧道”到scaleFabric

崔欢欢

相关推荐

近期文章