中国移动实现智算万卡池在长周期训练场景持续稳定运行
创始人
2025-10-14 21:41:33
0

IT之家 10 月 14 日消息,据人民邮电报今日报道,中国移动近期实现了智算万卡池在长周期训练场景下持续稳定运行,训练稳定性达到行业领先水平,标志着我国在超大规模智算集群管控领域已具备领先水平,解决了超大规模算力集群调度、高可靠通信保障、故障智能诊断与快速自愈等业界难题。

据介绍,人工智能技术正迎来爆发式的发展,大模型参数规模正向万亿级升级,因此智算基础设施的算力密度、稳定性和协同效率面临挑战,万卡级规模协同训练场景是全球普遍面临智算集群稳定性问题。

中国移动基于哈尔滨数据中心智算集群,主导研发全调度以太网(GSE)技术体系,打造慢卡慢网络风险识别、断点续训、AI 运维智能体等新技术,攻克了超大规模智算基础设施运行的关键技术难题。在关键技术突破层面,团队重点攻关三大核心难题:

  • 创新慢卡慢网络风险识别技术,实现典型场景故障全部感知、提升诊断准确率
  • 研发断点续训机制,实现故障节点自动隔离后训练状态的分钟级回滚,硬件故障导致的断训量下降 50%
  • 引入 AI 运维智能体,通过多层架构日志分析系统实现分钟级故障定界,覆盖 25 类软硬件故障解决方案,将故障处理时长从数天级降至分钟级

IT之家从人民邮电报报道获悉,长稳运行能力直接将大模型训练周期缩短近三分之一,资源利用率近 100%,为 AI 技术工业化量产奠定基础,可支撑自动驾驶、生物医药、新材料研发等前沿领域技术进步。此外,中国移动还在黑龙江、广东打造了智算运维样板间。

值得一提的是,在今年 10 月 11 日的 2025 中国移动全球合作伙伴大会主论坛上,中国移动宣布升级“AI+”行动计划,明确到 2028 年底,中国移动将持续加大对人工智能领域的投入力度,总体投入翻一番,建成国内规模最大、技术领先的智算基础设施,探索十万卡智算集群建设,全国产智能算力规模突破 100 EFLOPS。

相关内容

热门资讯

佳都科技业绩会:积极推动交通佳... “公司紧抓人工智能与交通产业深度融合的机遇,持续深化‘佳都知行交通大模型’技术优势,并发布交通行业首...
武山县成功举办第三届中小学生数... 新武山讯(记者 王继明 车彤瑶)10月14日,武山县成功举办第三届中小学生数字素养提升实践活动暨创客...
官方回应“四五十只羊围吃绿化带... 极目新闻记者 张皓10月12日,极目新闻报道了山西太原四五十只羊在大街上围吃绿化带一事。连日来,当地...
美国最大外卖巨头DoorDas... 当洛杉矶的居民在美国最大外卖平台DoorDash上下单时,越来越多鲜红身影开始出现在人行道上,这种通...
原创 万... 1. 故障爆发:全国用户遭遇“激活劫” 10月13日晚至14日,全国大量用户反馈iPhone 17...
茅台镇污水厂解约纠纷:官方否认... 封面新闻记者 马嘉豪贵州仁怀市政府与重庆泰克环保工程有限公司(下称“重庆泰克”)围绕安龙场白酒废水处...
湖北537家企业亮相广交会 企... 湖北日报讯(记者林晶、通讯员沈商轩)10月15日,第138届中国进出口商品交易会(以下简称“广交会”...
以后手机不用插卡了? 三大运营... 最近一段时间,eSIM手机成了热点。大家知道,过去我们普遍使用的实体手机卡叫作SIM卡,而eSIM卡...
美媒“鼓励”特朗普克服恐惧:与... 美国有线电视新闻网(CNN)10月14日报道,美国总统特朗普在以色列议会发表热情洋溢的演讲时明确表示...
神曲《没出息》何以爆火两岸 台湾民进党籍民意代表王世坚早年发言视频,经大陆网友剪辑改编,变成神曲《没出息》爆火海峡两岸。“本来应...