无论是DeepSeek、“千问抢奶茶”还是“养龙虾”,现在AI已经渗入我们的生活。随之而来的,便是巨大的算力需求。想要发挥出最高效的算力,网络性能至关重要。目前,AI大模型训练迈入万卡集群时代,主机间高速通信的RDMA技术已成为高端计算系统标配,网络的低延迟、高吞吐、高可靠成为智算/超算建设的核心要求。
当前业内高速网络主要有传统InfiniBand(IB)网络和RoCE网络两类方案,前者长期被英伟达(NVIDIA)垄断,后者不仅无法实现完全国产化,技术短板也多。
为了解决上述问题,3月12日,中科曙光正式发布首款全栈自研400G无损高速网络——scaleFabric。它是国内首款国产InfiniBand原生无损RDMA超高速网络产品,曙光全栈自研,专为大规模万卡集群打造,适配大模型训练、超算任务等高端计算场景,是实现国产算力网络自主可控的核心产品。
这项突破背后有哪些关键点值得关注?中科曙光高级副总裁李斌与中科曙光高速网络互联产品部总工程师万伟向EEWorld解答了相关问题。
为什么必须要做IB
为什么中科曙光要坚持采用InfiniBand原生RDMA路线,而非RoCE路线?
当前,AI大模型已迈入万亿级规模,对算力的需求每九个月翻一番。在此背景下,高速网络成为AI算力发展的关键路径。400G端口带宽正成为主流,并向800G演进,RDMA网络已成为算力中心的事实标准。RDMA在国内主要有三种实现方式:IB(InfiniBand)、RoCE、IWARP。
RoCE网络基于以太网嫁接RDMA技术,本质是“在以太网之上跑IB协议”,用UDP报文封装IB协议,属于嫁接式技术,先天存在协议冗余,性能与可靠性受限,虽兼容IP生态,但存在带宽低、时延高、运维复杂、大规模组网能力弱等技术短板。当前国内厂商以RoCE路线为主。IWARP相对来说,主要面向特定应用场景。
IB性能卓越,但成本高昂。由于是原生RDMA网络,协议栈专为高速通信设计,包头信息短、有效载荷高,是为高端计算打造的专用高速网络。IB以NVIDIA为代表,2019年英伟达完成对Mellanox(迈络思)收购,经过这次收购获取InfiniBand、Ethernet、SmartNIC/DPU及LinkX互连的能力,自此,英伟达就被业界誉为同时拥有NVLinkInfiniBandEthernet技术的“三头蛇怪”。之所以收购迈络思,正是为了补足其产品体系中高速网络这一关键板块。回顾超算发展史,从上世纪90年代Myrinet高速网络的出现,到IB凭借其开放协议和良好的软件生态逐渐占据主导,最终实现了技术垄断。
从核心指标来看,在时延方面,IB交换机为VCT交换,边收边转,交换时延小于300ns,RoCE为“存储-转发”交换,需完整接收数据包再转发,时延是IB的两倍以上(500ns以上),且动态时延易受网络拥堵影响;在带宽方面,主流IB网卡400G,主流RoCE网卡200G,一些国内Roce路线厂商高端交换机(400G/800G)也是基于国外芯片进行设计。
“都说计算、网络、存储是超算及人工智能智算系统的三大核心。对中小规模系统,网络重要性可能次于计算;但对大规模系统而言,有相关调试优化经验的人都知道,网络往往排在第一位。计算决定系统性能的上限,而一旦网络拉垮,可能将整体性能下限归零。从过去的高性能计算到今天的大模型训练,对网络的要求也越来越苛刻。”李斌如是说。
换句话说,也许在一些规模相对较小的领域,RoCE是不错的选择,但大规模集群正在从万卡集群向十万卡集群上迈进,此时我们必须在IB上有所突破,这样才能真正驾驭大规模集群,实现国产化突破。
scaleFabric的优势所在
曙光历时三年研发,实现scaleFabric从底层芯片到上层软件的100%全栈自研,彻底摆脱海外技术依赖,自研范围包括:112G SerDes IP、交换芯片、网卡、交换机、平台软件,构建了从硬件到软件的完整自主技术体系,为产品性能与可靠性奠定核心基础。
李斌介绍,曙光从2000系统开始使用Myrinet,从5000系统起切换到IB,在国内对IB技术的运用已相当灵活。既然IB如此成熟,为何还要自研?他表示:“在美国公司收购IB并形成垄断后,答案已不言而喻。自研能成功,核心在于两点:一是我们深刻理解这项技术和应用场景;二是能够实现网络芯片与自研计算芯片的整体协同。”
本次,scaleFabric共发布三款产品:一是scaleFabric 400单口标准网卡,采用400G接口;二是scaleFabric 400 1U 80口液冷交换机,支持400G/800G模式切换;三是scaleFabric 400 2U 80口风冷交换机,面向传统风冷场景。
核心技术是两颗自研芯片:一是网卡芯片,400G高带宽,自研RDMA引擎;二是交换芯片,64T双向交换容量,转发延时低至260纳秒,采用112G高速Serdes。
scaleFabric远不止自研这么简单,这款产品拥有三个亮点:
一是拥有超强性能,端到端时延<1μs,转发时延260ns,与NVIDIA NDR(国际顶尖IB产品)性能持平,显著优于RoCE网络;单端口带宽800G,较RoCE网络主流交换机领先一到两代,交换容量64T,满足万卡集群大吞吐需求;实测3万卡集群效率领先,典型AI训练任务中网络效率提升40%+。
二是拥有超高可靠,采用IB原生基于信用的流控机制,实现真无损网络,无丢包、无PFC风暴风险;具备链路故障快速恢复技术,故障恢复时间<1ms(毫秒级),RoCE网络需秒级恢复,大模型训练过程完全无感;高容错设计,保障大规模集群长期稳定运行,已实现近万卡验证规模持续稳定运行超10个月。
三是超强扩展,单子网支持11.4万卡规模部署,是市面主流IB产品(4.9万卡)的2.33倍,集群容量提升超133%;支持跨POD大规模组网,适配国家超算互联网、大型智算中心等超大规模算力集群建设需求;已落地国家超算互联网位于郑州的核心节点3万卡商用集群,实现3套scaleX万卡集群同步上线,为国产最大规模真实负载验证。
万伟强调,scaleFabric全面对标英伟达NDR系列,部分规格更优:端口密度上,交换机达80口400G,比NDR的64口提升25%,大幅降低组网成本;最大QP数上,支持256K,是NDR的2倍,更好支撑大规模并行计算;实测性能上,RDMA延时0.93微秒,转发延时260纳秒,达到国内领先水平。
IB本身是一个相对开放的体系,其上层接口已成为业界标准,为了与主流生态兼容,曙光在这一层面遵循相关规范,以实现与上层通信库的无缝对接。万伟介绍道, scaleFabric全面兼容各种通信库,HPC/AI应用无需改代码即可迁移,网络管理与维护方式兼容IB用户习惯,应用无感。针对IB协议老旧问题,我们将最大组网规模提升至11万卡,是IB的2.33倍,组网成本下降30%。
更好地服务中国AI算力发展
目前,郑州国家超算互联网节点已部署三套基于scaleFabric的万卡超级集群,36小时完成部署,累计运行客户超1万,作业超10万+。
能够取得这样的成绩,背后一定拥有许多艰辛。李斌表示,IB真正的难点在底层。物理层与工艺强相关,想把网络做得比IB更好极其困难。研发初期,曙光并无十足把握能达到其水平,过程中经历了诸多艰辛。最终能取得成功,得益于两点:一是站在巨人的肩膀上,长期使用IB产品让我们对其有深刻理解;二是基于这些经验,得以在自研过程中改进其原有设计的不足,规避某些痛点。正因如此,曙光在部分性能上反而实现了超越。
在整个大算力领域,曙光布局主要集中在三个层面:首先是核心计算芯片的研发;其次是硬件层面的高效实现,这不仅是常规的组装集成,随着芯片功率密度、热密度和IO密度的急剧攀升,在供电和冷却等支撑技术上已进入“深水区”,面临着极具挑战性的工程难题,必须在此领域实现技术突破;最后是系统级的协同与生态合作,曙光强调算、存、传的协同,以及与IB等设备的深度融合。通过在不同层级进行布局,并与国内产业链上下游伙伴保持紧密合作,共同构建自主可控的算力生态。
“面向未来,我们有信心将scaleFabric打造成国内广泛使用且普惠的高速网络产品。信心同样源于两点:一是我们有能力持续迭代技术和产品,保持国际先进竞争力;二是我们将秉持极致开放的态度,与产业链上下游合作伙伴在标准、接口、协议及商业模式上全方位合作。”李斌在会议上说道。
“曙光本身就是scaleFabric的最大用户,我们的利益与用户完全一致。全栈自研能力和强大的研发团队,是我们提供一体化高速网络服务体系的底气。我们非常乐意把scaleFabric里面的关键技术开放出来,与我们合作伙伴一起,通过各种方式跟我们合作伙伴一起共同打造国内类InfiniBand的网络生态,更好服务于中国AI算力的发展。”万伟强调道。
来源:电子工程世界(EEWorld)