让中国算力更好地跑在中国网络上。
万卡集群已成AI算力标配,而决定有效算力上限的关键——网络却成掣肘。当前业界要么选供应链风险高的海外IB方案,要么选需专业团队反复调参的RoCE方案。
近日,中科曙光发布了首款原生无损RDMA高速网络scaleFabric。它试图打破不用复杂调优,也能让AI集群跑出“满血”性能的行业僵局。
1.网络成AI算力之踵
很长一段时间里,提升算力的思路很简单:堆叠GPU。但在真实的万卡集群中,事情远没有这么容易。
若把万卡集群比作一座超大规模城市,GPU是住宅,CPU是工厂,那么网络就是连接一切的“道路交通系统”。
传统RoCE方案中,这座城市的交通规则极其复杂:为了避免数据包“堵车”(丢包),工程师们设计了各种复杂的“红绿灯系统”(PFC流控)和“导航策略”(ECN拥塞控制)。
这套系统能运转,但异常脆弱。有人形象地比喻:RoCE网络就像“一脚油门一脚刹车”,为了不撞车,必须时刻紧绷神经。
究其根源,RoCE本质是在传统以太网基础上“打补丁”,通过PFC(基于优先级的流量控制)机制模拟无损环境。一旦流量突发,缓冲区瞬间占满,PFC就会像连锁反应般层层传导,这脚“急刹车”,极易引发网络拥塞的链式反应,造成吞吐骤降,甚至全局死锁的风险。
这正是当前AI基建领域的隐秘痛点。
大多数企业没有互联网大厂那样的专家团队,无法常年累月地“调水线”、优化拥塞控制算法。对他们而言,要跑出理想的训练性能,往往要在部署周期和运维复杂度上付出巨大代价。
2.用原生网络解决“堵车”
有没有一种方案,能从底层设计上规避这种复杂性?曙光scaleFabric给出的答案是:回归“原生”。
RDMA技术有三条路径:IB、RoCE和iWARP。其中,RoCE是在广泛部署的以太网“公路”上,通过叠加复杂的流量控制规则(PFC/ECN)来构建“高速无损”通道;而InfiniBand(IB)则是为高性能计算量身定制的“高速铁路”,其基于信用的流控机制是与生俱来的核心设计,如同集中调度、无红绿灯的高铁轨道交通系统。
曙光此次发布的scaleFabric,是国内首个类InfiniBand原生无损RDMA方案,它不是在以太网的旧土壤上修修补补,而是从底层112G PAM4高速Serdes IP,到交换芯片、网卡芯片,再到软件平台,完成了全栈自研的彻底革新。
这种“原生”带来的最直观改变,就是“即插即用”。
基于信用的流控机制(Credit-based Flow Control),是IB网络与生俱来的优势。数据传输前发送端会先确认接收端有足够“空位”(缓冲区)再发车,从根本上杜绝了因资源不足导致的丢包。
相比之下,RoCE的PFC机制,往往是在接收端快撑不住时才“叫停”,这脚“急刹车”本身,就已埋下风险隐患,往往伴随网络性能断崖性下跌或死锁风险。
这意味着,采用曙光scaleFabric的AI集群,不再需要工程师反复估算、调整那根悬在头顶的“水线”。
网络终于回归基础设施的本色:稳定、安静,且高效。
3.部署从“天”到“小时”
底层架构的差异,最终体现在用户最敏感的“建设周期”和“持有成本”上。
在郑州国家超算互联网核心节点,曙光scaleFabric经历了一场严苛考验:3套万卡集群同步上线,从上电到完成网络调试部署,仅用了36个小时。
这是什么概念?
传统RoCE组网方案中,仅一个千卡集群的调优,就往往以“周”为单位,涉及PFC死锁检测、ECN水线调整、拥塞控制策略适配等一系列复杂操作。若面对万卡级别规模,配置复杂度和故障排查难度会指数级上升,部署周期拖至数月也并不罕见。
scaleFabric能实现36小时完成三万卡集群部署,核心在于其集中管控、分布式转发的架构。如果说RoCE是分布式的“各自为政”,每台设备都需要单独调试,那么scaleFabric就像轨道交通的“集中控制”:子网管理系统如同全局调度员,上电3分钟内即可自动发现全网拓扑、完成路由计算,实现一键下发。 对运维人员而言,相当于从“救火队员”变身“指挥官”。
这种快速的部署与稳定运维能力,得到了来自产品研发一线的证实。 中科曙光高端计算总工程师解西国在发布会上详细介绍了支撑scaleFabric的智能运维体系。他指出,该体系基于网络丰富的监控数据,构建了自动化配置管理、主动性能压测、全栈监控、故障诊断自愈、智能分析和数字孪生可视化六大核心能力。这套系统能够自动发现并管理百万量级的设备与端口,并通过主动压测提前发现90%以上的隐性性能风险,从而将集群算力利用率提升20%以上。当故障发生时,能实现毫秒级的链路快速恢复,并通过智能体与运维知识库结合,显著降低超大规模网络的运维门槛。
当一条链路故障时,scaleFabric的快速容错路由能在毫秒级完成切换,且恢复时间不随网络规模增长而延长;而在RoCE网络中,路由收敛往往需要秒级。这期间的训练中断和回滚,可能意味着几十万甚至上百万的经济损失。
4.TCO降低30%的背后
长期以来,企业在IB和RoCE之间的纠结,本质是“性能”与“成本”的博弈:IB虽好,但价格昂贵、供应不稳;RoCE开放,但隐性运维成本极高。
曙光试图在这场“不可能三角”中找到平衡点。
首先是显性成本。通过自研高密度交换芯片(单芯片支持80个400G端口或40个800G口),scaleFabric的组网密度较同类产品提升25%。
这意味着组建同等规模集群时,所需交换机、光模块和线缆数量大幅减少,综合下来,总体网络成本较海外主流IB方案降低约30%。
其次是隐性成本——这也是最容易被忽视的部分。
很多企业选择RoCE,以为抓住了“性价比”,最终却需要雇佣高薪专家团队常年调优。RoCE厂商常宣称产品支持自动调节水线,但问及具体实现方式,答案往往是模糊的“AI/强化学习”,缺乏可落地的明确路径。
而scaleFabric的“原生无损”特性,极大降低了对运维人员经验的依赖。它把网络配置从一门依赖直觉的“艺术”,变成了一门标准化的“科学”。
对于大多数不具备互联网大厂自研能力的传统企业、科研机构和高校计算中心而言,这种“开箱即用”的确定性,本身就是最大的性价比。
这种“确定性”直接转化为可量化的系统效能提升。 中科曙光工业计算方案总监姚浪从系统工程角度分析指出,在大规模并行计算中,计算、存储、网络任何一个环节成为瓶颈,整体效率都会急剧下降,在万卡规模下,这种不平衡会被指数级放大。他以工业仿真为例,当并行规模达到2048核时,通信时间占比可接近50%。姚浪提供的实测数据显示,在并行计算场景中,采用scaleFabric的方案效率可达85%左右,而传统RoCE方案效率约为65%,这意味着有效算力利用率可提升20%以上。 在商业软件测试中,scaleFabric性能达到国际主流同类产品(英伟达NDR 400G网络)的96%-105%。这证明,选择高性能网络不仅是保障稳定,更是直接提升算力资产回报率的关键。
5.跑赢AI算力的开放逻辑
scaleFabric的意义,远不止一款产品的问世,更在于它为中国AI算力生态,提供了一个“开放的基础设施基座”。
中科曙光并未选择封闭自研的路线。在光合组织AI计算开放架构框架下,曙光牵头成立“AIDC高速网络工作组”,携手十多家软硬件合作伙伴,共同开展场景化方案的联合研发。
scaleFabric不仅是国产的,更是开放的。
它原生兼容IB应用生态,支持主流通信库接口,PyTorch、OpenMPI等常用框架无需修改代码,即可无缝迁移。
其技术先进性与开放兼容性,在科研与产业最前沿的应用中得到了交叉验证。 在科研领域,通信是制约算力扩展的核心瓶颈。中国科学院计算技术研究所专家王展的测试结果显示,scaleFabric在单QP通信性能、多QP性能以及端到端延迟等关键微观指标上,与国际领先产品相当甚至部分更优。王展特别指出,其“即插即用”的部署体验和对国产CPU的良好耦合,为科学智能(AI for Science)这类前沿探索提供了可靠的底层支撑。
在产业落地层面,scaleFabric瞄准的是最严苛的超大规模智算场景。 科大讯飞AI工程院智算基础设施架构师鲍中帅结合产业实践分享道,当前AI发展正从训练扩展到推理,亟需强大而稳定的智算底座。曙光在郑州国家超算互联网核心节点部署的scaleX超集群,单机柜集成640张GPU加速卡,正是scaleFabric支撑超万卡集群能力的集中体现。鲍中帅认为,对于企业用户而言,scaleFabric与RoCE并非简单替代关系,而是针对不同场景的选项。 在追求极致性能、确定性和超大规模扩展的智算集群中,原生无损的scaleFabric提供了关键基础;而在其他场景,产业界也在持续优化RoCE方案。这种“双轨”推进的策略,体现了国产算力生态的务实与开放。
与此同时,曙光正联合产业链上下游,推动自主网络标准的制定与优化实践,让中国AI算力不再依赖单一技术路线的“舶来品”,走出一条“开放协作、共同定义”的自主发展之路。
2026年伊始,中国移动就启动了10亿元RoCE交换机集采,而随着国产原生RDMA技术的突破和产品落地,算力网络的国产化替代也全面进入深水区。
中科曙光scaleFabric的出现,不仅填补了国内原生RDMA网络的技术空白,更重要的是,它提供了一种新的范式思考:在追求极致性能的道路上,我们不一定要通过复杂度的飙升来换取。scaleFabric通过集中控制、信用流控和全栈自研,将底层复杂性彻底封装。
让中国算力,更好地跑在中国网络上。当网络不再需要费心“伺候”,当部署周期从数月缩短至数十小时,AI创新的脚步,才能真正轻盈起来。