让万卡算力火力全开，没那么复杂，国产AI算力，满血前进丨甲子光年_科技资讯

让万卡算力火力全开，没那么复杂，国产AI算力，满血前进丨甲子光年

创始人

2026-03-14 00:05:53

0次

让中国算力更好地跑在中国网络上。

万卡集群已成AI算力标配，而决定有效算力上限的关键——网络却成掣肘。当前业界要么选供应链风险高的海外IB方案，要么选需专业团队反复调参的RoCE方案。

近日，中科曙光发布了首款原生无损RDMA高速网络scaleFabric。它试图打破不用复杂调优，也能让AI集群跑出“满血”性能的行业僵局。

1.网络成AI算力之踵

很长一段时间里，提升算力的思路很简单：堆叠GPU。但在真实的万卡集群中，事情远没有这么容易。

若把万卡集群比作一座超大规模城市，GPU是住宅，CPU是工厂，那么网络就是连接一切的“道路交通系统”。

传统RoCE方案中，这座城市的交通规则极其复杂：为了避免数据包“堵车”（丢包），工程师们设计了各种复杂的“红绿灯系统”（PFC流控）和“导航策略”（ECN拥塞控制）。

这套系统能运转，但异常脆弱。有人形象地比喻：RoCE网络就像“一脚油门一脚刹车”，为了不撞车，必须时刻紧绷神经。

究其根源，RoCE本质是在传统以太网基础上“打补丁”，通过PFC（基于优先级的流量控制）机制模拟无损环境。一旦流量突发，缓冲区瞬间占满，PFC就会像连锁反应般层层传导，这脚“急刹车”，极易引发网络拥塞的链式反应，造成吞吐骤降，甚至全局死锁的风险。

这正是当前AI基建领域的隐秘痛点。

大多数企业没有互联网大厂那样的专家团队，无法常年累月地“调水线”、优化拥塞控制算法。对他们而言，要跑出理想的训练性能，往往要在部署周期和运维复杂度上付出巨大代价。

2.用原生网络解决“堵车”

有没有一种方案，能从底层设计上规避这种复杂性？曙光scaleFabric给出的答案是：回归“原生”。

RDMA技术有三条路径：IB、RoCE和iWARP。其中，RoCE是在广泛部署的以太网“公路”上，通过叠加复杂的流量控制规则（PFC/ECN）来构建“高速无损”通道；而InfiniBand（IB）则是为高性能计算量身定制的“高速铁路”，其基于信用的流控机制是与生俱来的核心设计，如同集中调度、无红绿灯的高铁轨道交通系统。

曙光此次发布的scaleFabric，是国内首个类InfiniBand原生无损RDMA方案，它不是在以太网的旧土壤上修修补补，而是从底层112G PAM4高速Serdes IP，到交换芯片、网卡芯片，再到软件平台，完成了全栈自研的彻底革新。

这种“原生”带来的最直观改变，就是“即插即用”。

基于信用的流控机制（Credit-based Flow Control），是IB网络与生俱来的优势。数据传输前发送端会先确认接收端有足够“空位”（缓冲区）再发车，从根本上杜绝了因资源不足导致的丢包。

相比之下，RoCE的PFC机制，往往是在接收端快撑不住时才“叫停”，这脚“急刹车”本身，就已埋下风险隐患，往往伴随网络性能断崖性下跌或死锁风险。

这意味着，采用曙光scaleFabric的AI集群，不再需要工程师反复估算、调整那根悬在头顶的“水线”。

网络终于回归基础设施的本色：稳定、安静，且高效。

3.部署从“天”到“小时”

底层架构的差异，最终体现在用户最敏感的“建设周期”和“持有成本”上。

在郑州国家超算互联网核心节点，曙光scaleFabric经历了一场严苛考验：3套万卡集群同步上线，从上电到完成网络调试部署，仅用了36个小时。

这是什么概念？

传统RoCE组网方案中，仅一个千卡集群的调优，就往往以“周”为单位，涉及PFC死锁检测、ECN水线调整、拥塞控制策略适配等一系列复杂操作。若面对万卡级别规模，配置复杂度和故障排查难度会指数级上升，部署周期拖至数月也并不罕见。

scaleFabric能实现36小时完成三万卡集群部署，核心在于其集中管控、分布式转发的架构。如果说RoCE是分布式的“各自为政”，每台设备都需要单独调试，那么scaleFabric就像轨道交通的“集中控制”：子网管理系统如同全局调度员，上电3分钟内即可自动发现全网拓扑、完成路由计算，实现一键下发。对运维人员而言，相当于从“救火队员”变身“指挥官”。

这种快速的部署与稳定运维能力，得到了来自产品研发一线的证实。中科曙光高端计算总工程师解西国在发布会上详细介绍了支撑scaleFabric的智能运维体系。他指出，该体系基于网络丰富的监控数据，构建了自动化配置管理、主动性能压测、全栈监控、故障诊断自愈、智能分析和数字孪生可视化六大核心能力。这套系统能够自动发现并管理百万量级的设备与端口，并通过主动压测提前发现90%以上的隐性性能风险，从而将集群算力利用率提升20%以上。当故障发生时，能实现毫秒级的链路快速恢复，并通过智能体与运维知识库结合，显著降低超大规模网络的运维门槛。

当一条链路故障时，scaleFabric的快速容错路由能在毫秒级完成切换，且恢复时间不随网络规模增长而延长；而在RoCE网络中，路由收敛往往需要秒级。这期间的训练中断和回滚，可能意味着几十万甚至上百万的经济损失。

4.TCO降低30%的背后

长期以来，企业在IB和RoCE之间的纠结，本质是“性能”与“成本”的博弈：IB虽好，但价格昂贵、供应不稳；RoCE开放，但隐性运维成本极高。

曙光试图在这场“不可能三角”中找到平衡点。

首先是显性成本。通过自研高密度交换芯片（单芯片支持80个400G端口或40个800G口），scaleFabric的组网密度较同类产品提升25%。

这意味着组建同等规模集群时，所需交换机、光模块和线缆数量大幅减少，综合下来，总体网络成本较海外主流IB方案降低约30%。

其次是隐性成本——这也是最容易被忽视的部分。

很多企业选择RoCE，以为抓住了“性价比”，最终却需要雇佣高薪专家团队常年调优。RoCE厂商常宣称产品支持自动调节水线，但问及具体实现方式，答案往往是模糊的“AI/强化学习”，缺乏可落地的明确路径。

而scaleFabric的“原生无损”特性，极大降低了对运维人员经验的依赖。它把网络配置从一门依赖直觉的“艺术”，变成了一门标准化的“科学”。

对于大多数不具备互联网大厂自研能力的传统企业、科研机构和高校计算中心而言，这种“开箱即用”的确定性，本身就是最大的性价比。

这种“确定性”直接转化为可量化的系统效能提升。中科曙光工业计算方案总监姚浪从系统工程角度分析指出，在大规模并行计算中，计算、存储、网络任何一个环节成为瓶颈，整体效率都会急剧下降，在万卡规模下，这种不平衡会被指数级放大。他以工业仿真为例，当并行规模达到2048核时，通信时间占比可接近50%。姚浪提供的实测数据显示，在并行计算场景中，采用scaleFabric的方案效率可达85%左右，而传统RoCE方案效率约为65%，这意味着有效算力利用率可提升20%以上。在商业软件测试中，scaleFabric性能达到国际主流同类产品（英伟达NDR 400G网络）的96%-105%。这证明，选择高性能网络不仅是保障稳定，更是直接提升算力资产回报率的关键。

5.跑赢AI算力的开放逻辑

scaleFabric的意义，远不止一款产品的问世，更在于它为中国AI算力生态，提供了一个“开放的基础设施基座”。

中科曙光并未选择封闭自研的路线。在光合组织AI计算开放架构框架下，曙光牵头成立“AIDC高速网络工作组”，携手十多家软硬件合作伙伴，共同开展场景化方案的联合研发。

scaleFabric不仅是国产的，更是开放的。

它原生兼容IB应用生态，支持主流通信库接口，PyTorch、OpenMPI等常用框架无需修改代码，即可无缝迁移。

其技术先进性与开放兼容性，在科研与产业最前沿的应用中得到了交叉验证。在科研领域，通信是制约算力扩展的核心瓶颈。中国科学院计算技术研究所专家王展的测试结果显示，scaleFabric在单QP通信性能、多QP性能以及端到端延迟等关键微观指标上，与国际领先产品相当甚至部分更优。王展特别指出，其“即插即用”的部署体验和对国产CPU的良好耦合，为科学智能（AI for Science）这类前沿探索提供了可靠的底层支撑。

在产业落地层面，scaleFabric瞄准的是最严苛的超大规模智算场景。科大讯飞AI工程院智算基础设施架构师鲍中帅结合产业实践分享道，当前AI发展正从训练扩展到推理，亟需强大而稳定的智算底座。曙光在郑州国家超算互联网核心节点部署的scaleX超集群，单机柜集成640张GPU加速卡，正是scaleFabric支撑超万卡集群能力的集中体现。鲍中帅认为，对于企业用户而言，scaleFabric与RoCE并非简单替代关系，而是针对不同场景的选项。在追求极致性能、确定性和超大规模扩展的智算集群中，原生无损的scaleFabric提供了关键基础；而在其他场景，产业界也在持续优化RoCE方案。这种“双轨”推进的策略，体现了国产算力生态的务实与开放。

与此同时，曙光正联合产业链上下游，推动自主网络标准的制定与优化实践，让中国AI算力不再依赖单一技术路线的“舶来品”，走出一条“开放协作、共同定义”的自主发展之路。

2026年伊始，中国移动就启动了10亿元RoCE交换机集采，而随着国产原生RDMA技术的突破和产品落地，算力网络的国产化替代也全面进入深水区。

中科曙光scaleFabric的出现，不仅填补了国内原生RDMA网络的技术空白，更重要的是，它提供了一种新的范式思考：在追求极致性能的道路上，我们不一定要通过复杂度的飙升来换取。scaleFabric通过集中控制、信用流控和全栈自研，将底层复杂性彻底封装。

让中国算力，更好地跑在中国网络上。当网络不再需要费心“伺候”，当部署周期从数月缩短至数十小时，AI创新的脚步，才能真正轻盈起来。

上一篇：AI时代，运营商可依托全融合话音网络深度开展AI业务创新

下一篇：拍照出色的折叠屏手机推荐：OPPO Find N6引领无痕时代

让万卡算力火力全开，没那么复杂，国产AI算力，满血前进丨甲子光年

相关内容

热门资讯