转载

OpenAI研究 奖励模型过度优化的缩放法则

在根据人类反馈进行强化学习时,通常会针对经过训练以预测人类偏好的奖励模型进行优化。因为奖励模型是一个不完美的代理,根据 Goodhart 定律,过度优化它的值会阻碍 ground truth 性能。这种效果经常被观察到,但由于收集人类偏好数据的费用而没有仔细测量。在这项工作中,我们使用了一个合成设置,其中固定的“黄金标准”奖励模型扮演人类的角色,提供用于训练代理奖励模型的标签。当我们使用强化学习或 best-of-n 采样针对代理奖励模型进行优化时,我们研究了黄金奖励模型分数如何变化。我们发现这种关系遵循不同的函数形式,具体取决于优化方法,并且在这两种情况下,它的系数都与奖励模型参数的数量成正比。我们还研究了奖励模型数据集的大小、奖励模型和策略参数的数量以及强化学习设置中添加到奖励中的 KL 惩罚系数对这种关系的影响。我们探讨了这些实证结果对 AI 对齐的理论考虑的影响。

详细论文