全球首次!上海AI实验室实现千里算力互联训练千亿模型,降低“卡脖子”风险
创始人
2025-07-20 09:01:19
0

上海人工智能实验室于7月19日发布了一项具有里程碑意义的成果,其研发的DeepLink超大规模跨域混训技术方案,成功应用于中国联通网络,将相隔1500公里的两个异构智算中心“拼成”一个“超级节点”,并完成千亿参数的AI大模型训练。此举在全球首次实现长距离跨域异构智能算力的高效整合,不仅可化解全国算力资源分布不均、利用率不高的瓶颈,更可降低AI行业对特定芯片的依赖,一旦出现供应链波动,将为AI产业提供重要的兜底算力支持,避免被“卡脖子”。

据上海AI实验室介绍,今年2月,他们联合十余家合作伙伴,在上海建成了超大规模跨域混训集群的原型,实现了千亿参数大模型20天不间断训练。在此基础上,他们融合中国联通AINET算力智联网,跨越1500公里,连接了上海和济南之间的智算中心,完成了千亿参数大模型混训。

所谓“跨域混训”,就是将位于不同地域、使用不同芯片架构(即“异构”)的多个算力集群互联起来,“拧成一股绳”用于训练;与之相对的是“单集群+单芯片”训练。对AI大模型训练而言,“跨域+异构”的组合,看起来可以带来“1+1”的算力资源,但效果上却远小于“2”,甚至可能为“0”。此前,国内外尚无利用“跨域+异构”算力集群完成生产级模型训练的先例,原因在于互联技术障碍难以跨越,导致模型混训效率低下,难以为继。此次,上海AI实验室成功实现“零的突破”。实测数据显示,其与中国联通合作开展的跨域混训,等效算力高达单集群单芯片算力的95%以上。

过去几年,顺应AI大模型的爆发,国内算力建设如火如荼,但同时也存在区域算力资源分布和使用不均衡的情况,比如在西部一些地区,因为存在综合成本优势,超前部署了不少算力集群,但因为需求波动和运营问题,算力资源的实际使用率并不高,出现了一定程度的算力闲置。同时,随着AI芯片的快速迭代,以及国产芯片的百花齐放,各个智算中心使用的硬件架构也多有不同。由此,利用创新的标准和技术,整合和盘活跨域异构算力资源,变得越来越有战略价值。

上海AI实验室青年科学家、DeepLink系统团队负责人王辉告诉记者,DeepLink方案创新性地采用“3D+PS”的高内聚低耦合架构,某种意义上可以说是“以算法换带宽”。它将超大规模训练任务分发到远隔千里的各个智算中心,通过算法创新,有效减轻了对网络的压力;用户只需使用普通专线网络,就可开展大模型训练。此外,该方案还能确保在跨域训练中,即使某地智算节点发生故障,整体训练也能继续,显著提升了稳定性。

实际上,除了中国联通,上海AI实验室还与中国电信、商汤、仪电等智算平台进行了合作。其中,基于中国电信息壤算网,在不到10G带宽的网络条件下,实现了北京、上海、贵州三地智算中心的互联和大模型混训,等效算力依然在90%以上。王辉表示,理论上,DeepLink可通过动态配置支持数千公里的跨域混训,这意味着,国内任意两地的智算中心都可借助该方案实现算力整合。

中国联通研究院下一代互联网数据中心网络团队经理徐博华告诉记者,中国联通建设高通量、高性能、高智能的算力智联网AINET,研发了长距无损协议及硬件架构;DeepLink则在算法和软件层面实现一系列首创成果。这次“双向奔赴”的合作,为全国算力资源的高效利用带来许多想象空间。比如,它可将多地“碎片化”的算力捏合在一起,化零为整,变成高价值的资源。着眼将来,一旦规模达到目前10倍乃至更大的AI模型出现,对算力提出新的革命性需求,该方案也有可能让用户不必花天价新建超大型智算中心,而是通过将上一代智算中心进行“低成本组合”,满足训练需求。

上海AI实验室表示,下一步,他们还将进一步通过DeepLink超大规模跨域混训技术方案,组建算力生态,扩大应用范围,推动DeepLink方案能被更多服务商所整合,从而让用户可以像逛超市那样,在全国自由选择高质量、高性价比的算力供给,为全国算力一体化布局注入核心动能。同时,他们也会面向多元算力在AI大模型混合推理、分布式强化学习等需求,进一步完善技术方案。

相关内容

热门资讯

大厂为何正扎堆卷赛博“大白” 出品 | 虎嗅科技医疗组 作者 | 陈广晶 编辑 | 苗正卿 头图 | AI生成 花样翻新的赛博“大...
亚马逊云科技-Redshift... 关键字: [亚马逊云科技, Redshift Serverless, 亚马逊云科技, Redshif...
男子为救朋友遇害,嫌疑人被鉴定... 一名男子为救朋友不幸遇害,这一悲剧令人痛心。经鉴定,嫌疑人患有精神障碍。然而,更让家属难以接受的是,...
原创 吊... 新装修的房屋里,刺鼻的甲醛味总让人提心吊胆。开窗通风、活性炭吸附、空气净化器轮番上阵,但总有人想用一...
探秘科研机构,参访龙头企业,实... 扬子晚报/紫牛新闻记者7月20日获悉,暑期,南京工业大学化工学院组织材料科学探索社会实践服务团,开展...
入伏了!30天的三伏天怎么过?... 入伏啦!这意味着长达 30 天的三伏天正式开启。在这酷热难耐的时节,我们该如何度过呢?快收藏这份避暑...
AI打假AI,拿下SOTA丨厦... AIGI-Holmes团队 投稿 量子位 | 公众号 QbitAI u1s1,AI生成图像已经肉眼难...
累计拖欠罚款及滞纳金近273亿... 俄罗斯对谷歌累计拖欠近 273 亿卢布的罚款及滞纳金采取了强制执行措施。这一举措彰显了俄罗斯在维护国...
着力优化现代化城市体系——深入... 深入贯彻落实中央城市工作会议精神之三,着力优化现代化城市体系。这是推动城市发展的关键之举。通过科学规...
宁波磊磊舞台科技申请便携式电子... 金融界2025年7月19日消息,国家知识产权局信息显示,宁波磊磊舞台科技有限公司申请一项名为“一种便...