蚂蚁携手人大!发布行业首个原生MoE扩散语言模型
创始人
2025-09-13 00:00:30
0

来源:新浪科技

新浪科技讯 9月12日上午消息,在2025Inclusion·外滩大会上,蚂蚁集团与中国人民大学联合发布业界首个原生MoE架构的扩散语言模型(dLLM)“LLaDA-MoE”。

据介绍,这款新模型通过非自回归的掩码扩散机制,首次通过原生训练的MoE在大规模语言模型中实现了与Qwen2.5相当的语言智能(如上下文学习、指令遵循、代码和数学推理等),挑战了“语言模型必须自回归”的主流认知。

实现数据显示,LLaDA-MoE模型性能效果在代码、数学、Agent等任务上领先于LLaDA1.0/1.5和Dream-7B等扩散语言模型,接近或超越了自回归模型 Qwen2.5-3B-Instruct,仅激活 1.4B 参数即可实现等效3B稠密模型的性能。

据了解,蚂蚁与人大团队攻关 3个月,在LLaDA-1.0基础上重写训练代码,并且基于蚂蚁自研分布式框架 ATorch提供EP 并行等一系列并行加速技术,基于蚂蚁Ling2.0基础模型的训练数据,在负载均衡、噪声采样漂移等核心难题上取得突破,最终采用 7B-A1B(总7B、激活1.4B)的MOE架构完成约 20T 数据的高效训练。(罗宁)

相关内容

热门资讯

复旦大学张志安:AI内容传播治... 9月12日下午,以“规范AI内容 共筑清朗生态”为主题的外滩大会见解论坛在上海举办。论坛上,复旦大学...
卫星捕捉月球背巨型晶体塔影像,... 近日,一则关于月球背面的消息在网络上引发了轩然大波——有卫星拍摄到月球背面出现了一座巨型晶体塔。这个...
世界首个高原水电机组产研基地投... 世界首个高原水电机组产研基地——东方电气西藏林芝产研基地11日在西藏林芝正式建成投用,标志着我国在高...
消息称阿里和百度使用自研芯片训... 9月12日,据科技网站The Information报道,四位知情人士称,阿里巴巴、百度已开始采用内...
苹果、谷歌和Meta正试图完善... 来源:环球市场播报 数十年来,《星际迷航》等剧集和《银河系搭车客指南》等小说中都出现过虚构的通用翻...
上海四院:机器人辅助可视化技术... 近日,同济大学附属上海市第四人民医院神经外科成功实施 “机器人辅助接触性内镜引流导管全程可视化脑干血...
联合国安理会发表声明,强烈谴责... 当地时间9月12日,安理会就也门胡塞武装拘留联合国工作人员发表声明,强烈谴责胡塞武装自2025年8月...
蓝色光标:用AI新范式构建技术... 证券之星消息,蓝色光标(300058)09月12日在投资者关系平台上答复投资者关心的问题。 投资者:...
柯克案枪手遭父亲“举报”后落网... 当地时间9月12日,美国联邦调查局局长帕特尔和犹他州州长考克斯证实,美国总统特朗普的政治盟友查理·柯...
华为Mate XTs非凡大师今... 9月12日首销开启,华为Mate XTs 非凡大师的热度果然名不虚传。网上都在疯传各城市华为门店大排...