原创快手团队放大招，熵比指标与梯度截断，给大模型训练上“双保险”_科技资讯

原创快手团队放大招，熵比指标与梯度截断，给大模型训练上“双保险”

创始人

2025-12-18 13:21:03

0次

文 | 钱钱

编辑 | 阿景

大模型训练到强化学习阶段，最让人头疼的就是“跑偏”。

明明初始策略定得好好的，训练着训练着模型输出就开始离谱，要么回答前言不搭后语，要么干脆脱离任务目标。

最近快手科技语言大模型团队搞出个新机制，叫ERC，专门治这个毛病，据说效果还挺明显。

模型训练总“跑偏”？信任域偏离是顽疾

大模型强化学习，说白了就是让模型在和环境互动中慢慢“学乖”。

一开始模型有个初始策略，就像新手司机拿到的导航路线，照着开就行。

但训练过程中，模型会不断尝试新动作，时间长了，实际策略和初始策略的差距越来越大，这就是“信任域偏离”。

打个比方，你教模型做数学题，初始策略是按步骤计算，结果训练时它发现“蒙答案”有时候得分更高，慢慢就开始偷懒不按步骤来。

表面看得分上去了，实际能力反而退化了。

这种偏离一旦严重，整个强化学习训练就等于白干。

以前解决这个问题，常用的是重要性采样和PPO算法。

重要性采样相当于每次偏离后，强行用初始策略的“权重”去修正，这招有点像新手司机猛打方向盘，不仅没纠正方向，反而可能因为用力太猛导致更严重的偏移。

PPO好点，会限制每次更新的幅度，但它盯着的是局部偏离，全局的策略分布还是可能慢慢走样。

搞不清为啥这些方法总差点意思？其实核心问题在于，它们都只关注“当下这一刻”的偏离，没考虑策略分布的整体变化。

就像管孩子只盯着某次考试成绩，没注意他长期的学习习惯已经跑偏了，治标不治本。

熵比裁剪+双保险设计，ERC机制如何给模型“导航”

快手团队琢磨着，与其被动纠错，不如从源头预防。

他们搞出个“熵比”指标，专门监测策略分布的整体变化。

熵是啥？简单说就是策略的“混乱度”，熵比就是当前策略和初始策略的混乱度比值。

比值一旦超过阈值，说明模型开始“胡思乱想”，得赶紧拉回来。

这思路比以前高级多了。

如果说PPO是“车道偏离预警”，那熵比就是“全局导航系统”，不光告诉你偏离了，还能预判你接下来可能往哪偏。

这个角度确实刁钻，抓住了分布漂移的本质。

光有预警还不够，ERC机制还搞了个“双保险”。

一方面，把熵比裁剪和DAPO目标函数结合，相当于给模型的“学习方向”定了个框，确保更新始终在安全范围内。

另一方面，加入梯度截断机制，就像给油门装了限速器，防止某次更新太激进，直接把模型带沟里。

本来想单纯靠熵比可能就够了，后来发现模型训练时偶尔会出现“局部波动”，单靠熵比反应不过来，加上梯度截断，稳定性一下就上去了。

这俩结合，既有全局把控，又有细节调整，确实考虑得挺周全。

实验数据最有说服力。

他们在不同参数规模的模型上测试，从几千万到几十亿参数，结果都差不多，用了ERC的模型，训练过程中的熵值波动明显变小，梯度范数也更稳定。

在复杂推理任务上，比如多轮对话、逻辑推理，模型回答的准确率和一致性都比以前强不少，不像以前训练时成绩忽高忽低，跟坐过山车似的。

对比其他方法更明显。

跟PPO比，ERC在训练后期的策略稳定性提升不是一点半点，尤其是在需要长期记忆和逻辑连贯的任务上，优势更突出。

现在不少大模型团队都在研究强化学习稳定性，ERC这套思路说不定能成为新标杆。

ERC机制不光解决了快手自家模型的训练问题，更重要的是提供了一种新思路，大模型强化学习，不能只盯着单次奖励和局部优化，得从全局分布入手，打好“预防针”。

以后其他团队再搞类似研究，估计绕不开这个熵比指标了。

未来这机制还有不少可挖的地方。

比如怎么让熵比阈值更智能，根据任务类型自动调整，或者怎么和其他稳定方法结合，搞个“组合拳”。

反正大模型训练这事儿，稳定了才能谈得上效果，ERC机制这步棋，走得确实漂亮。

上一篇：我来教教您“飞驰娱乐.到底有挂吗？”其实是有挂

下一篇：解码脑机“黑科技”：人造视觉的突破走到了哪一步？

原创快手团队放大招，熵比指标与梯度截断，给大模型训练上“双保险”

相关内容

热门资讯

原创 快手团队放大招，熵比指标与梯度截断，给大模型训练上“双保险”

相关内容

热门资讯

原创快手团队放大招，熵比指标与梯度截断，给大模型训练上“双保险”