文 | 钱钱
编辑 | 阿景
大模型训练到强化学习阶段,最让人头疼的就是“跑偏”。
明明初始策略定得好好的,训练着训练着模型输出就开始离谱,要么回答前言不搭后语,要么干脆脱离任务目标。
最近快手科技语言大模型团队搞出个新机制,叫ERC,专门治这个毛病,据说效果还挺明显。
模型训练总“跑偏”?信任域偏离是顽疾
大模型强化学习,说白了就是让模型在和环境互动中慢慢“学乖”。
一开始模型有个初始策略,就像新手司机拿到的导航路线,照着开就行。
但训练过程中,模型会不断尝试新动作,时间长了,实际策略和初始策略的差距越来越大,这就是“信任域偏离”。
打个比方,你教模型做数学题,初始策略是按步骤计算,结果训练时它发现“蒙答案”有时候得分更高,慢慢就开始偷懒不按步骤来。
表面看得分上去了,实际能力反而退化了。
这种偏离一旦严重,整个强化学习训练就等于白干。
以前解决这个问题,常用的是重要性采样和PPO算法。
重要性采样相当于每次偏离后,强行用初始策略的“权重”去修正,这招有点像新手司机猛打方向盘,不仅没纠正方向,反而可能因为用力太猛导致更严重的偏移。
PPO好点,会限制每次更新的幅度,但它盯着的是局部偏离,全局的策略分布还是可能慢慢走样。
搞不清为啥这些方法总差点意思?其实核心问题在于,它们都只关注“当下这一刻”的偏离,没考虑策略分布的整体变化。
就像管孩子只盯着某次考试成绩,没注意他长期的学习习惯已经跑偏了,治标不治本。
熵比裁剪+双保险设计,ERC机制如何给模型“导航”
快手团队琢磨着,与其被动纠错,不如从源头预防。
他们搞出个“熵比”指标,专门监测策略分布的整体变化。
熵是啥?简单说就是策略的“混乱度”,熵比就是当前策略和初始策略的混乱度比值。
比值一旦超过阈值,说明模型开始“胡思乱想”,得赶紧拉回来。
这思路比以前高级多了。
如果说PPO是“车道偏离预警”,那熵比就是“全局导航系统”,不光告诉你偏离了,还能预判你接下来可能往哪偏。
这个角度确实刁钻,抓住了分布漂移的本质。
光有预警还不够,ERC机制还搞了个“双保险”。
一方面,把熵比裁剪和DAPO目标函数结合,相当于给模型的“学习方向”定了个框,确保更新始终在安全范围内。
另一方面,加入梯度截断机制,就像给油门装了限速器,防止某次更新太激进,直接把模型带沟里。
本来想单纯靠熵比可能就够了,后来发现模型训练时偶尔会出现“局部波动”,单靠熵比反应不过来,加上梯度截断,稳定性一下就上去了。
这俩结合,既有全局把控,又有细节调整,确实考虑得挺周全。
实验数据最有说服力。
他们在不同参数规模的模型上测试,从几千万到几十亿参数,结果都差不多,用了ERC的模型,训练过程中的熵值波动明显变小,梯度范数也更稳定。
在复杂推理任务上,比如多轮对话、逻辑推理,模型回答的准确率和一致性都比以前强不少,不像以前训练时成绩忽高忽低,跟坐过山车似的。
对比其他方法更明显。
跟PPO比,ERC在训练后期的策略稳定性提升不是一点半点,尤其是在需要长期记忆和逻辑连贯的任务上,优势更突出。
现在不少大模型团队都在研究强化学习稳定性,ERC这套思路说不定能成为新标杆。
ERC机制不光解决了快手自家模型的训练问题,更重要的是提供了一种新思路,大模型强化学习,不能只盯着单次奖励和局部优化,得从全局分布入手,打好“预防针”。
以后其他团队再搞类似研究,估计绕不开这个熵比指标了。
未来这机制还有不少可挖的地方。
比如怎么让熵比阈值更智能,根据任务类型自动调整,或者怎么和其他稳定方法结合,搞个“组合拳”。
反正大模型训练这事儿,稳定了才能谈得上效果,ERC机制这步棋,走得确实漂亮。