OpenAI研究 测量古德哈特定律
古德哈特定律有句名言:“当一项措施成为目标时,它就不再是一项好的措施。” 虽然最初来自经济学,但在弄清楚如何优化难以衡量或衡量成本高的目标时,这是我们在 OpenAI 必须努力解决的问题。
古德哈特定律 有句名言:“当一项措施成为目标时,它就不再是一项好的措施。” 尽管最初来自经济学,但在弄清楚如何优化难以衡量或衡量成本高的目标时,这是我们在 OpenAI 必须努力解决的问题。通常需要引入一些 代理目标 更容易或更容易衡量的
例如,作为我们使 GPT-3 等模型与人类意图和价值观保持一致的工作的一部分 ,我们希望优化诸如“这种反应有多大 帮助 ?”或“ 这种说法的事实准确性如何 ?”之类的事情。这些都是复杂的目标,需要人类仔细检查。出于这个原因,我们训练了一个模型来预测这些人类偏好,称为 奖励模型,并将奖励模型的预测用作代理目标。但重要的是要跟踪真正目标的优化情况。
在这篇文章中,我们将看看我们如何做到这一点背后的一些数学原理。我们将专注于一个特别容易分析的环境,我们可以在其中获得真正的目标。在实践中,即使是人类偏好也无法衡量我们真正关心的是什么,但我们在这篇文章中将这个问题搁置一旁。
Best-of-n 采样
优化代理目标的方法有很多种,但也许最简单的方法是 最好的——n抽样,也称为 拒绝抽样 或 重新排序。我们简单地采样 n 次,然后根据代理目标选择得分最高的那个。
尽管这种方法非常简单,但它实际上可以与强化学习等更高级的技术相媲美,尽管是以更多的推理时间计算为代价的。例如,在 WebGPT中,我们的 best-of-64 模型优于我们的强化学习模型,部分原因可能是 best-of-64 模型浏览了更多的网站。即使应用 4 种最佳方法,也能显着提升人类偏好。
此外,最好的——n采样性能可靠,数学分析简单,非常适合古德哈特定律及相关现象的实证研究。
best-of-n 采样的数学原理
让我们研究最好的-n更正式地抽样。假设我们有一些样本空间 小号 (比如一组可能的问答对),一些概率分布 P超过 小号,一个真正的目标(或“奖励”) R真的的:小号→R和代理目标 R代理人的:小号→R. 假设我们以某种方式优化 R代理人的从而获得一些新的分布 P‘. 然后:
- 期望 乙X‘~ P‘的[ [ R真的的( x‘) ]的 衡量我们优化真实目标的程度。
- KL 散度 丁吉隆坡的( P‘∥P )衡量我们做了多少优化。例如,如果 P‘是通过从第一个样本中获得的 P位于某个子集中 小号‘⊆小号,那么这个 KL 散度就是样本来自的负对数概率 P 在于 小号‘.
事实证明,在最好的情况下n采样,这两个数量都可以使用来自的样本有效地估计 P.
我们先来看期望。天真的方法是使用蒙特卡洛估计器:运行最好的-n多次采样,测量这些样本的真实目标,然后取平均结果。但是,有一个更好的估计器。如果我们有 否≥n样本来自 P总的来说,那么我们可以同时考虑 这些大小样本的 每个可能子集n(n - 1k - 1的), 在哪里 k是样本在代理目标下的排名,来自 1个(最差)至 否(最好的)。A[A]
这些权重的总和是 (n否的), 给出了Hockey-stick 身份的证明 。有关此处描述的估计器的正式推导,请参阅 WebGPT 论文的附录 I。
这些权重的总和是 (n否的), 给出了Hockey-stick 身份的证明 。有关此处描述的估计器的正式推导,请参阅 WebGPT 论文的附录 I。
除了更有效地使用样本外,这还允许我们为不同的值重用样本 nP(即,只要 P没有质点)。人们可能会天真地猜测答案是 对数n,因为最好的n正在做一些事情,比如登上顶峰 n1个的的分布,这大致是正确的:确切的答案是 对数n−nn - 1的.乙[乙]
提示:表达最好的PDF-n分布作为原始分布的 PDF 和 CDF 的函数。
这些估算器一起使我们能够轻松分析真实目标如何随着应用于代理目标的优化量而变化。
这是来自WebGPT的真实示例 :
最好的-nWebGPT 175B 的性能
超越最佳采样
best-of-的主要限制n采样是 KL 散度随着 n, 所以它只适合应用少量的优化。
为了应用更多优化,我们通常使用强化学习。在我们目前研究的设置中,例如 摘要, 在真正的目标因古德哈特定律而开始下降之前,我们通常能够使用强化学习达到大约 10 nats的 KL。我们必须让 n 达到 60,000 左右才能使用最佳-n,并且我们希望能够通过改进我们的奖励建模和强化学习实践来达到比这更大的 KL。
然而,并非所有的 nats 都是平等的。根据经验,对于小的 KL 预算,最好的nn是“蛮力”方法,使其在信息理论上比强化学习更有效,但在大型 KLs 上计算效率较低。C[C]
最好的-n然而,在信息论意义上不一定是最优的。例如,如果P有一条沉重的右尾,那么对于任何X>0和任何ε>0, 存在分布问这样乙y∼Q _ _的[是]>X和丁吉隆坡的(问∥P )<ε(锻炼)。
作为使我们的模型与人类意图和价值观保持一致的工作的一部分,我们正在积极研究代理目标的缩放属性 。如果您想帮助我们进行这项研究,我们正在 招聘!
脚注
这些权重的总和是 (n否的), 给出了Hockey-stick 身份的证明 。有关此处描述的估计器的正式推导,请参阅 WebGPT 论文的附录 I。↩︎
提示:表达最好的PDF-n分布作为原始分布的 PDF 和 CDF 的函数。↩︎