OpenAI 对齐研究方法
对齐研究是为了使人工智能 (AGI) 与人类价值观保持一致并遵循人类意图。
我们采用迭代的经验方法:通过尝试对齐功能强大的人工智能系统,我们可以了解哪些有效,哪些无效,从而提高我们使人工智能系统更安全、更一致的能力。通过科学实验,我们研究对齐技术如何扩展以及它们会在哪里中断。
我们解决我们最强大的 AI 系统中的对齐问题,以及我们预期在通往 AGI 的道路上遇到的对齐问题。我们的主要目标是尽可能推动当前的对齐想法,并准确理解和记录它们如何成功或失败的原因。我们相信,即使没有全新的对齐想法,我们也可以构建充分对齐的 AI 系统,以大幅推进对齐研究本身。
未对齐的 AGI 可能对人类构成重大风险 ,解决 AGI 对齐问题可能非常困难,需要全人类共同努力。因此,我们致力于在安全的情况下公开分享我们的对齐研究:我们希望对我们的对齐技术在实践中的实际效果保持透明,并且我们希望每个 AGI 开发人员都使用世界上最好的对齐技术。
在高层次上,我们的对齐研究方法侧重于为非常智能的 AI 系统设计可扩展的训练信号,使其与人类意图保持一致。它具有三个主要支柱:
- 使用人类反馈训练人工智能系统
- 训练人工智能系统以协助人类评估
- 训练人工智能系统进行对齐研究
使人工智能系统与人类价值观保持一致还带来了一系列其他重大的社会技术挑战,例如决定这些系统应该与谁保持一致。解决这些问题对实现我们的使命很重要 ,但我们不会在这篇文章中讨论它们。
我们希望对我们的对齐技术在实践中的实际效果保持透明,我们希望每个 AGI 开发人员都使用世界上最好的对齐技术。
使用人类反馈训练人工智能系统
来自人类反馈的 RL 是我们目前用于调整已部署语言模型的主要技术。我们训练了一类名为 InstructGPT的模型 ,该模型源自 GPT-3 等预训练语言模型。这些模型经过训练以遵循人类意图:指令给出的明确意图以及真实性、公平性和安全性等隐含意图。
我们的结果表明,目前以对齐为中心的微调有很多唾手可得的成果:InstructGPT 比 100 倍大的预训练模型更受人类青睐,而其微调成本不到 GPT-3 预训练计算的 2%以及大约 20,000 小时的人工反馈。我们希望我们的工作能激励业内其他人增加对大型语言模型对齐的投资,并提高用户对已部署模型安全性的期望标准。
我们的自然语言 API 是我们对齐研究的一个非常有用的环境:它为我们提供了一个丰富的反馈循环,说明我们的对齐技术 在现实世界中的实际工作情况,基于我们的客户愿意支付的非常多样化的任务集钱。平均而言,我们的客户已经更喜欢使用 InstructGPT 而不是我们的预训练模型。
然而,今天的 InstructGPT 版本 远未完全一致:它们有时无法遵循简单的指令,并不总是真实的,不能可靠地拒绝有害任务,有时会给出有偏见或有毒的反应。一些客户发现 InstructGPT 的响应明显不如预训练模型的创意,这是我们在公开可用的基准上运行 InstructGPT 时没有意识到的。我们还致力于通过人类反馈以及如何提高人类反馈的质量来更详细地科学理解 RL。
调整我们的 API 比调整 AGI 容易得多,因为我们 API 上的大多数任务对人类来说不是很难监督,而且我们部署的语言模型并不比人类更聪明。我们不期望来自人类反馈的 RL 足以对齐 AGI,但它是我们最兴奋的可扩展对齐建议的核心构建块,因此完善这种方法很有价值。
训练模型以协助人类评估
来自人类反馈的 RL 有一个基本的局限性:它假设人类可以准确地评估我们的 AI 系统正在执行的任务。如今,人类在这方面相当擅长,但随着模型的能力越来越强,它们将能够完成人类更难评估的任务(例如,找出大型代码库或科学论文中的所有缺陷)。我们的模型可能会学会告诉我们的人类评估者他们想听什么,而不是告诉他们真相。为了缩放对齐,我们希望使用 递归奖励建模 (RRM)、 辩论和 迭代放大等技术。
目前我们的主要方向是基于 RRM:我们训练的模型可以帮助人类在人类难以直接评估的任务上评估我们的模型。例如:
- 我们训练了一个模型来 总结书籍。如果人类不熟悉这本书,评估书籍摘要需要很长时间,但我们的模型可以通过编写章节摘要来辅助人类评估。
- 我们训练了一个模型来 帮助人们 通过浏览网页并提供引述和链接来评估事实的准确性。在简单的问题上,该模型的输出已经优于人类编写的回答。
- 我们训练了一个模型来对 自己的输出写下批评意见:在基于查询的摘要任务中,对批评意见的协助使人们在模型输出中发现的缺陷平均增加了 50%。即使我们要求人类编写看似合理但不正确的摘要,这仍然成立。
- 我们正在创建一组编码任务,这些任务被选择为很难对无人协助的人进行可靠评估。我们希望尽快发布这个数据集。
即使我们的 AI 系统提出非常有创意的解决方案(如 AlphaGo 的第 37 步),我们的对齐技术也需要发挥作用,因此我们对训练模型特别感兴趣,以帮助人类区分正确与误导或欺骗性的解决方案。我们认为,尽可能多地了解如何使人工智能辅助评估在实践中发挥作用的最佳方法是构建人工智能助手。
训练人工智能系统进行对齐研究
目前还没有已知的可以无限扩展的对齐问题解决方案。随着 AI 的不断进步,我们预计会遇到一些我们在当前系统中尚未观察到的新对齐问题。我们现在预计到其中一些问题,其中一些将是全新的。
我们认为找到一个无限可扩展的解决方案可能非常困难。相反,我们的目标是采用一种更务实的方法:构建和对齐一个系统,该系统可以比人类更快更好地进行对齐研究。
随着我们在这方面取得进展,我们的人工智能系统可以接管越来越多的对齐工作,并最终构思、实施、研究和开发比现在更好的对齐技术。他们将与人类一起工作,以确保他们自己的继任者与人类更加一致。
我们相信评估对齐研究比进行对齐研究要容易得多,尤其是在提供评估帮助的情况下。因此,人类研究人员将越来越多地集中精力审查人工智能系统所做的对齐研究,而不是自己生成这项研究。我们的目标是将模型训练得如此一致,以便我们可以减轻几乎所有对齐研究所需的认知劳动。
重要的是,我们只需要在相关领域具有人类水平能力的“更窄”的 AI 系统,就可以像人类一样进行对齐研究。我们希望这些人工智能系统比通用系统或比人类聪明得多的系统更容易对齐。
语言模型特别适合自动化对齐研究,因为它们“预加载”了通过阅读互联网获得的大量关于人类价值观的知识和信息。开箱即用,他们不是独立的代理人,因此不会在世界上追求自己的目标。要进行比对研究,他们不需要不受限制地访问互联网。然而,许多对齐研究任务可以表述为自然语言或编码任务。
未来版本的 WebGPT、 InstructGPT和 Codex 可以提供作为对齐研究助手的基础,但它们还不够强大。虽然我们不知道我们的模型何时能够足以对对齐研究做出有意义的贡献,但我们认为提前开始很重要。一旦我们训练了一个可能有用的模型,我们计划让外部对齐研究社区可以访问它。
限制
我们对这种调整 AGI 的方法感到非常兴奋,但我们预计随着我们更多地了解 AI 技术的发展,它需要进行调整和改进。我们的方法也有一些重要的局限性:
- 此处列出的路径低估了鲁棒性和可解释性研究的重要性,这是 OpenAI 目前投资不足的两个领域。如果这符合您的个人资料,请申请我们的研究科学家职位!
- 使用 AI 辅助进行评估有可能扩大或放大 AI 助手中存在的甚至细微的不一致、偏见或漏洞。
- 对齐 AGI 可能涉及解决与对齐当今 AI 系统截然不同的问题。我们希望过渡在某种程度上是连续的,但如果存在重大的不连续性或范式转变,那么从 InstructGPT 等对齐模型中学到的大部分经验可能不会直接有用。
- 对齐问题中最困难的部分可能与为我们的 AI 系统设计可扩展和对齐的训练信号无关。即使这是真的,这样的训练信号也是必要的。
- 对齐可以有意义地加速对齐研究的模型可能并不比对齐 AGI 从根本上更容易。换句话说,如果没有正确对齐,可以帮助对齐研究的能力最差的模型可能已经太危险了。如果这是真的,我们将不会从我们自己的系统中获得太多帮助来解决对齐问题。