谷歌为Gemma 4系列AI模型推出MTP起草器,推理速度最高提升3倍
创始人
2026-05-07 17:31:51
0

IT之家 5 月 7 日消息,谷歌于 5 月 5 日发布博文,宣布为 Gemma 4 系列 AI 模型,推出多 Token 预测(MTP)起草器,利用推测解码架构,推理速度最高可提升 3 倍。

Gemma 4 作为谷歌目前能力最强的开源模型,在发布仅数周内下载量已突破 6000 万次。此次推出的 MTP 起草器,目的是不降低输出质量或推理逻辑的前提下,突破推理效率的极限。

IT之家援引博文介绍,谷歌表示目前标准大语言模型推理通常受限于内存带宽,导致严重的延迟瓶颈。处理器需耗费大量时间将数十亿参数从显存传输至计算单元,造成了计算资源的利用率不足。

而为了解决这个核心痛点,谷歌为 Gemma 4 系列大模型引入推测解码技术,配对重型目标模型(如 Gemma 4 31B)与轻量级起草器(MTP 模型)。

起草器利用闲置算力,在短时间内预测多个未来 Token,目标模型随后并行验证这些令牌。若预测通过,模型可在单次前向传递中确认整个序列,大幅缩短生成时间。

实测数据显示,在 Apple Silicon 芯片上,当 batch sizes 设置为 4 至 8 时,Gemma 4 26B 模型实现了约 2.2 倍的本地加速。开发者可利用该技术在个人电脑及消费级显卡上流畅运行复杂的离线编程与智能体工作流,同时显著降低边缘设备的能耗。

此次更新主要面向对低延迟要求极高的应用场景,包括聊天机器人、编程助手、自主智能体及移动端应用。开发者能在资源受限的环境中部署先进的语言模型,无需牺牲响应速度或计算精度,进一步拓展 AI 应用的边界。

参考

相关内容

热门资讯

干部受同事邀钓鱼溺亡,亲属称死... 大皖新闻讯 近日,湖南省永州市零陵区的王女士告诉大皖新闻记者,其弟王林明在湖南省东安县横塘镇政府工作...
宝鸡首家民营商业航天发动机企业... (宝鸡融媒 王玲)日前,宝鸡巨擎麟瑞科技有限公司智能制造中心投入试生产,我市由此开启商业航天液体火箭...
全身麻醉状态下大脑仍具复杂语言... 来源:科技日报 来自美国贝勒医学院的研究团队发现,人类大脑即使在全身麻醉导致的无意识状态下,仍具备复...
台海鲲潜艇首次展示试射美制操雷... 【文/观察者网 王世纯】据台湾媒体5月7日报道,台湾首艘自制潜艇“海鲲”号(舷号SS-711)在5日...
以专精强根基 以突破拓新局 来源:兵团日报 4月15日,新疆伊帕尔汗香料股份有限公司员工给产品贴上防伪码。 兵团日报常驻记者 ...
昊俣防水取得防水卷材包装机专利... 国家知识产权局信息显示,唐山市昊俣防水材料有限公司取得一项名为“一种防水卷材加工用包装机”的专利,授...
2026年户外出行与通勤旗舰手... 对于经常需要通勤、热爱户外活动的朋友来说,选择一款合适的至关重要。它需要满足单手操作的便捷性、坚固耐...
岳阳市科技馆 “五一” 假日科... 五一节 May Day “快看,羽毛真的飞起来了!羽毛真的飞起来了!”“硬币浮在水面上了,太神奇了!...
中国海警舰艇编队5月7日在钓鱼... 5月7日,中国海警1306舰艇编队在我钓鱼岛领海内巡航。这是中国海警依法开展的维权巡航活动。(总台央...
天津美院通报:40件书画作品完... 【大河财立方消息】 5月7日,天津美术学院发布情况通报,回应近期网络出现关于康建章向学校捐赠书画作品...