这种方差量化了模型对给定输入的预测不一致性:低方差意味着要么对正确性有高度信心(接近完美的成功),要么对失败有高度信心(完全错误)。
相反,表现方差大的样本更能有效驱动模型降低熵值、明确决策边界,这也是为何只用一条高质量样本,就能快速推动模型的推理性能。
研究人员使用的唯一一条样本如下:
Problem: The pressure P exerted by wind on a sail varies jointly as the area A of the sail and the cube of the wind’s velocity V. When the velocity is 8 miles per hour, the pressure on a sail of 2 square feet is 4 pounds. Find the wind velocity when the pressure on 4 square feet of sail is 32 pounds.
Solution: 12.8 以小博大,性能超越RL
研究人员在多个数学推理任务上测试了熵最小化(EM)的效果,结果显示,仅一条样本、10步训练,EM方法即大幅提高了Qwen2.5-Math-7B的性能:
MATH500测试集:准确率从53%提升到78.8%,提升25.8个百分点; Minerva Math测试集:准确率从11%提升到35.3%,提升24.3个百分点; AMC23测试集:准确率从44.1%提升到70.3%,提升26.2个百分点。
即使只使用一个样本和极少的训练步骤(仅仅10步),EM方法极大地缩小了Qwen2.5-Math-7B与Prime-Zero-7B和RLVR-GRPO等先进的基于RL的模型之间的差距。
特别是在AMC23基准测试中,经过EM增强的Qwen2.5-Math-7B达到了具有竞争力的70.3分,逼近领先的RL模型这些结果清晰地表明,熵最小化(EM),尽管比典型的强化学习方法更简单、数据效率更高,但在增强基础语言模型在数学推理任务上的性能方面,具有巨大的潜力。
那么为什么熵最小化能这么有效果呢?熵在模型的训练和推理过程中起到什么样的作用呢? EM vs.RL:置信度与Logits偏移
大型语言模型在生成每个token时,会先产生一组未经归一化的分数Logits,随后通过Softmax函数转换为概率分布,决定了下一个token的选择。