转载

超对齐简介

超级智能将是人类发明的最具影响力的技术,可以帮助我们解决世界上许多最重要的问题。但超级智能的巨大力量也可能非常危险,并可能导致人类的无能为力甚至人类灭绝。

虽然超级智能一个[一]

在这里,我们专注于超级智能而不是AGI,以强调更高的能力水平。我们对未来几年技术的发展速度有很多不确定性,因此我们选择瞄准更困难的目标,以调整一个功能更强大的系统。

现在看来还很遥远,我们相信它可能会在这十年内到来。

管理这些风险将需要:其他事项,新的治理机构并解决超级智能对齐问题:


我们如何确保人工智能系统比人类更聪明地遵循人类的意图?


目前,我们还没有一个解决方案来引导或控制潜在的超级智能人工智能,并防止它变得流氓。我们目前用于调整 AI 的技术,例如从人类反馈中强化学习,依靠人类监督人工智能的能力。但是人类将无法可靠地监督比我们聪明得多的人工智能系统,B[二]

其他假设也可能在未来崩溃,例如部署期间有利的泛化属性,或者我们的模型无法在训练期间成功检测和破坏监督。

因此,我们目前的对齐技术不会扩展到超级智能。我们需要新的科学和技术突破。

我们的方法

我们的目标是建立一个大致人性化的水平自动对准研究员.然后,我们可以使用大量的计算来扩展我们的工作,并迭代地调整超级智能。

为了对齐第一个自动对齐研究人员,我们需要 1) 开发一种可扩展的训练方法,2) 验证生成的模型,以及 3) 对整个对齐管道进行压力测试:

  1. 为了在人类难以评估的任务上提供训练信号,我们可以利用人工智能系统来协助评估其他人工智能系统 (可扩展的监督)。此外,我们希望了解和控制我们的模型如何将我们的监督推广到我们无法监督的任务(泛化)。
  2. 为了验证我们系统的一致性,我们自动搜索有问题的行为 (稳健性) 和有问题的内件(自动解释性).
  3. 最后,我们可以通过故意训练错位模型来测试整个管道,并确认我们的技术检测到最糟糕的错位类型(对抗性测试)。

我们预计,随着我们对这个问题的了解越来越多,我们的研究重点将发生重大变化,我们可能会增加全新的研究领域。我们计划在未来分享更多关于我们的路线图的信息。

新团队

我们正在组建一个由顶级机器学习研究人员和工程师组成的团队来解决这个问题。

我们将在未来四年内将迄今为止获得的计算的20%用于解决超级智能对齐问题。我们的主要基础研究赌注是我们新的超级对齐团队,但做到这一点对于实现我们的使命至关重要,我们期望许多团队做出贡献,从开发新方法到扩展它们再到部署。

我们的目标是在四年内解决超级智能对准的核心技术挑战。

虽然这是一个令人难以置信的雄心勃勃的目标,我们不能保证成功,但我们乐观地认为,集中、协调一致的努力可以解决这个问题:C[三]

解决问题包括提供证据和论据,使机器学习和安全社区相信它已经解决了。如果我们对解决方案没有很高的信心,我们希望我们的发现能让我们和社区做出适当的计划。

有许多想法在初步实验中显示出希望,我们有越来越有用的进展指标,我们可以使用今天的模型来实证研究其中的许多问题。

Ilya Sutskever(OpenAI的联合创始人兼首席科学家)已将此作为他的核心研究重点,并将与Jan Leike(Alignment负责人)共同领导团队。加入该团队的是我们之前协调团队的研究人员和工程师,以及来自公司其他团队的研究人员。

我们也在寻找优秀的新研究人员和工程师加入这项工作。超级智能对齐从根本上说是一个机器学习问题,我们认为伟大的机器学习专家——即使他们还没有研究对齐——对于解决这个问题至关重要。

我们计划广泛分享这项工作的成果,并将促进非OpenAI模型的一致性和安全性视为我们工作的重要组成部分。

这个新团队的工作是对OpenAI现有工作的补充,旨在改善当前型号的安全性像 ChatGPT 一样,以及理解和减轻人工智能的其他风险,例如滥用、经济破坏、虚假信息、偏见和歧视、成瘾和过度依赖等。虽然这个新团队将专注于将超级智能人工智能系统与人类意图相结合的机器学习挑战,但我们面临着相关的社会技术问题。积极与跨学科专家合作确保我们的技术解决方案考虑更广泛的人类和社会问题。