转载

OpenAI研究 关于语言模型安全和滥用的经验教训

我们描述了我们的最新想法,希望能帮助其他 AI 开发人员解决已部署模型的安全性和滥用问题。

概括

强大的人工智能系统的部署丰富了我们对安全和滥用的理解,远远超过仅通过研究所能实现的。值得注意的是:基于 API 的语言模型滥用通常以我们最担心的不同形式出现;我们已经确定了我们正在使用新颖的基准和分类器解决的现有语言模型评估的局限性;基础安全研究为人工智能系统的商业应用提供了显着的好处。

在过去的两年中,我们了解了很多关于如何使用和滥用语言模型的知识——如果没有实际部署的经验,我们就无法获得这些见解。2020 年 6 月,我们开始向开发人员和研究人员提供 OpenAI API 的访问权限,这是一个用于在 OpenAI 开发的新 AI 模型之上访问和构建应用程序的接口。以降低危害风险的方式部署 GPT-3、Codex 和其他模型带来了各种技术和政策挑战。

我们的模型部署方法概述

大型语言模型现在能够执行 非常广泛的任务,通常是开箱即用的。它们的风险概况、潜在应用和对社会的更广泛 影响仍然 知之甚少 。因此,我们的部署方法强调持续迭代,并利用以下策略来最大限度地发挥部署的好处,同时降低相关风险:

  • 部署前风险分析,利用越来越多的安全评估和红队工具(例如,我们使用 下面讨论的评估检查我们的 InstructGPT 是否有任何安全降级)
  • 从小用户群开始(例如,GPT-3 和我们的 InstructGPT 系列开始时都是私人测试版)
  • 研究新用例试点的结果(例如,探索我们可以安全地启用长篇内容生成的条件,与少数客户合作)
  • 实施有助于掌握使用情况的流程(例如,审查用例、令牌配额和速率限制)
  • 进行详细的回顾性审查(例如,安全事故和重大部署)
Flow diagram of a Development & Deployment Lifecycle

负责任的部署没有灵丹妙药,因此我们尝试在开发和部署的每个阶段了解并解决我们模型的局限性和潜在的滥用途径。这种方法使我们能够在小范围内尽可能多地了解安全和政策问题,并在启动更大规模部署之前整合这些见解。

负责任的部署没有灵丹妙药。

虽然并不详尽,但我们迄今为止投资的一些领域包括A[A]

这篇文章基于我们通过 API 部署语言模型的方法,因此所描述的课程和缓解措施与那些同样追求基于 API 的部署的人最相关。但是,我们也希望一些讨论与那些使用语言模型构建第一方应用程序的人以及那些考虑开源发布语言模型的人有关。

:

由于干预的每个阶段都有局限性,因此需要采用整体方法。

在某些方面我们可以做得更多,但我们仍有改进的余地。例如,当我们第一次研究 GPT-3 时,我们将其视为内部研究工件而不是生产系统,并且没有像我们原本可能那样积极地过滤掉有毒的训练数据。我们已经投入更多资金来研究和去除后续模型中的此类材料。在我们没有关于该主题的明确政策的情况下,我们花了更长的时间来解决一些滥用情况,并且在迭代这些政策方面做得更好。我们将继续迭代一套安全要求,以最有效地解决风险,同时也清楚地传达给开发人员并最大限度地减少过度摩擦。

尽管如此,我们相信,与更不干涉的方法相比,我们的方法使我们能够衡量和减少语言模型使用带来的各种危害,同时使我们的方法在学术、艺术和商业方面得到广泛应用楷模。[乙]

这篇文章旨在解释和分享我们的方法,而不是建议所有参与者都必须采用相同的方法,或者相同的方法适用于所有可能的人工智能系统。不同的部署方法各有利弊,不同的模型或多或少会从部署前的研究中获益,在某些情况下,不同参与者采用不同的部署路径可能很有价值。


语言模型误用的多种形式和规模

自2018 年和 2019 年在 GPT-2 上开展早期工作以来,OpenAI 一直积极研究人工智能滥用的风险, 我们  特别关注人工智能系统赋能影响力操作。我们  外部专家合作开发 概念证明 ,并促进  第三方对此类风险进行仔细分析。我们仍然致力于解决与支持语言模型的影响力操作相关的风险,并且最近共同组织了一个关于该主题的研讨会。 C[C]

有关该研讨会的更多详细信息将包含在即将出版的基于该研讨会的出版物中。

然而,我们已经发现并阻止了数百名试图滥用 GPT-3 的行为者,其目的范围比为影响行动制造虚假信息更广泛,包括以我们没有预料到或我们预料到但没有预料到的方式如此普遍。[D]

我们强调的针对滥用的缓解措施也在不断发展。例如,考虑到之前的影响操作案例涉及人们手动编写长格式误导性内容,我们最初将长格式文本生成作为威胁向量。考虑到这一点,我们为生成的文本设置了最大输出长度。然而,根据对长格式生成的试点研究,我们发现输出限制对政策违规几乎没有影响——相反,我们开始相信,短格式内容放大或增加对误导性内容的参与可能是更大的风险。

 我们的 用例指南、 内容指南以及内部检测和响应基础设施最初是针对我们根据内部和外部研究预期的风险,例如使用 GPT-3 生成误导性政治内容或使用 Codex 生成恶意软件。我们的检测和响应工作随着时间的推移而发展,以响应“在野外”遇到的真实滥用案例,这些案例在我们最初的风险评估中并不像影响操作那样突出。示例包括针对可疑医疗产品的垃圾邮件促销和种族主义幻想的角色扮演。

为了支持语言模型滥用及其缓解的研究,我们正在积极探索共享今年安全事件统计数据的机会,以具体化关于语言模型滥用的讨论。

风险和影响测量的难度

语言模型的风险和影响的许多方面仍然难以衡量,因此难以以负责任的方式进行监控、最小化和披露。我们积极利用现有的语言模型评估学术基准,并渴望继续在外部工作的基础上进行建设,但我们也发现,现有的基准数据集通常无法反映我们在实践中看到的安全和滥用风险。[E]

从寻求对真实语言模型输出的安全性进行整体评估的从业者的角度来看,现有数据集的局限性示例包括:过于狭窄的关注点(例如,仅测量职业性别偏见),过于广泛的关注点(例如,在“毒性”的保护伞下衡量一切),倾向于抽象出使用和背景的细节,未能衡量 生成 语言模型使用的维度(例如,使用多项选择风格),与真实语言模型用例中通常使用的提示在风格上不同的提示,未捕获实践中重要的安全维度(例如,输出遵循或忽略安全-指令中的动机约束),或者没有捕获我们发现与滥用相关的输出类型(例如,色情内容)。

这种局限性反映了这样一个事实,即学术数据集很少是为了告知语言模型的生产使用这一明确目的而创建的,并且没有从大规模部署此类模型中获得的经验中受益。因此,我们一直在开发新的评估数据集和框架来衡量我们模型的安全性,我们计划很快发布。具体来说,我们开发了新的评估指标来衡量模型输出中的毒性,还开发了内部分类器来检测违反我们 内容政策的内容,例如色情内容、仇恨言论、暴力、骚扰和自残。这两者反过来也被用来改进我们的预训练数据F[F]

虽然我们的努力专门针对解决现有基准和我们自己的模型中的局限性,但我们也承认我们使用的方法存在局限性,例如基于分类器的数据过滤。例如,在操作上定义我们旨在通过过滤检测的内容区域具有挑战性,并且过滤本身会引入有害的偏见。此外,有毒数据的标记是这项工作的关键组成部分,确保这些标记者的心理健康是整个行业的挑战。

- 具体来说,通过使用分类器过滤内容和评估指标来衡量数据集干预的效果。

沿各个维度可靠地对单个模型输出进行分类很困难,而在 OpenAI API 的规模上衡量它们的社会影响就更难了。我们进行了多项内部研究,以便为此类衡量建立机构力量,但这些研究往往提出的问题多于答案。

我们特别感兴趣的是更好地了解我们模型的经济影响以及这些影响的分布。我们有充分的理由相信,当前模型的部署对劳动力市场的影响在绝对意义上可能已经很显着,并且随着我们模型的能力和范围的增长,它们也会增长。迄今为止,我们已经了解了各种局部影响,包括对由个人执行的现有任务(例如文案撰写和摘要)(有时会导致工作置换和创建)的生产力的巨大提高,以及 API 解锁以前不可行的新应用程序的情况,例如 大规模定性反馈的综合。但是我们对净效应缺乏很好的理解。

我们认为,对于那些开发和部署强大的人工智能技术的人来说,直面他们工作的积极和消极影响是很重要的。我们在本文的结尾部分讨论了朝这个方向迈出的一些步骤。

人工智能系统的安全性和实用性之间的关系

在我们 于 2018 年发布的章程中,我们说我们“担心后期 AGI 开发成为一场没有时间采取充分安全预防措施的竞争性竞赛。” 我们随后 发表了 对竞争性人工智能发展的详细分析,并密切关注 后续 研究。同时,通过 OpenAI API 部署人工智能系统也加深了我们对安全与实用协同作用的理解。

例如,绝大多数开发人员更喜欢我们的 InstructGPT 模型——这些模型经过微调以遵循用户意图G[G]

我们 API 的相关“用户”可能是构建应用程序的开发人员或与此类应用程序交互的最终用户,具体取决于上下文。关于我们对齐的模型所反映的价值观存在着深刻的问题,我们希望在对齐语言模型更有帮助、更真实和危害更小时,对如何平衡广泛的可能用户的价值观和竞争目标建立更细致的理解。

——在基本的 GPT-3 模型之上。然而,值得注意的是,InstructGPT 模型最初并非出于商业考虑,而是旨在在长期对齐问题上取得进展。实际上,这可能意味着客户更喜欢专注于任务并理解用户意图的模型,以及不太可能产生有害或不正确输出的模型。H[H]

更多对齐的模型也有更多的实际优势,例如减少对“及时工程”的需求(提供所需行为的示例以将模型引导到正确的方向),节省模型上下文窗口中可用于其他目的的空间。


其他基础研究,例如我们利用从互联网检索到的信息来更真实地回答问题的工作,也有可能提高人工智能系统的商业效用。[我]

除了研究,我们还发现其他以安全为动机的干预措施有时会给客户带来意想不到的好处。例如,旨在遏制垃圾邮件或误导性内容的速率限制也有助于客户控制费用。

这些协同作用不会总是发生。例如,功能更强大的系统通常需要更多时间来进行有效评估和调整,从而排除了立即获利的机会。由于负面的外部性,用户的效用和社会的效用可能不一致——考虑全自动文案写作,这对内容创作者有利,但对整个信息生态系统不利。

看到安全与公用事业之间强大协同作用的案例令人鼓舞,但我们致力于投资安全和政策研究,即使它们与商业效用相抵触。

我们致力于投资安全和政策研究,即使它们与商业效用相抵触。

参与方式

上面的每一个教训都提出了自己的新问题。我们可能仍未能检测和预测哪些类型的安全事件?我们如何才能更好地衡量风险和影响?我们如何才能继续提高模型的安全性和实用性,并在它们出现时在这两者之间进行权衡?

我们正在与其他部署语言模型的公司积极讨论其中的许多问题。但我们也知道,没有任何一个组织或一组组织能够回答所有问题,我们想强调几种方式,让读者可以更多地参与理解和塑造我们对最先进人工智能系统的部署。

首先,获得与最先进的人工智能系统交互的第一手经验对于理解它们的能力和影响是非常宝贵的。在对我们有效检测和响应滥用的能力更有信心后,我们最近结束了 API 候补名单。受支持国家和地区的个人 可以通过在此处 注册来快速访问 OpenAI API  。

其次,研究我们特别感兴趣的主题(例如偏见和滥用)的研究人员以及将从财政支持中受益的研究人员可以使用 此表格申请补贴的 API 积分。外部研究对于增进我们对这些多方面系统的理解以及更广泛的公众理解至关重要。

最后,今天我们发布了一份 研究议程, 探索与我们的 Codex 系列模型相关的劳动力市场影响,并呼吁外部合作者开展这项研究。我们很高兴与独立研究人员合作研究我们技术的影响,以便为适当的政策干预提供信息,并最终将我们的思维从代码生成扩展到其他模式。

如果您有兴趣负责任地部署尖端人工智能技术, 请申请 加入 OpenAI!

脚注

  1. 这篇文章基于我们通过 API 部署语言模型的方法,因此所描述的课程和缓解措施与那些同样追求基于 API 的部署的人最相关。但是,我们也希望一些讨论与那些使用语言模型构建第一方应用程序的人以及那些考虑开源发布语言模型的人有关。↩︎

  2. 这篇文章旨在解释和分享从我们的方法中学到的知识,而不是建议所有参与者都必须采用相同的方法,或者相同的方法适用于所有可能的人工智能系统。不同的部署方法各有利弊,不同的模型或多或少会从部署前的研究中获益,在某些情况下,不同参与者采用不同的部署路径可能很有价值。↩︎

  3. 有关该研讨会的更多详细信息将包含在即将出版的基于该研讨会的出版物中。↩︎

  4. 我们强调的针对滥用的缓解措施也在不断发展。例如,考虑到之前的影响操作案例涉及人们手动编写长格式误导性内容,我们最初将长格式文本生成作为威胁向量。考虑到这一点,我们为生成的文本设置了最大输出长度。然而,根据对长格式生成的试点研究,我们发现输出限制对政策违规几乎没有影响——相反,我们开始相信,短格式内容放大或增加对误导性内容的参与可能是更大的风险。↩︎

  5. 从寻求对真实语言模型输出的安全性进行整体评估的从业者的角度来看,现有数据集的局限性示例包括:过于狭窄的关注点(例如,仅测量职业性别偏见),过于广泛的关注点(例如,在“毒性”的保护伞下衡量一切),倾向于抽象出使用和背景的细节,未能衡量 生成 语言模型使用的维度(例如,使用多项选择风格),与真实语言模型用例中通常使用的提示在风格上不同的提示,未捕获实践中重要的安全维度(例如,输出遵循或忽略安全-指令中的动机约束),或者没有捕获我们发现与滥用相关的输出类型(例如,色情内容)。↩︎

  6. 虽然我们的努力专门针对解决现有基准和我们自己的模型中的局限性,但我们也承认我们使用的方法存在局限性,例如基于分类器的数据过滤。例如,在操作上定义我们旨在通过过滤检测的内容区域具有挑战性,并且过滤本身会引入有害的偏见。此外,有毒数据的标记是这项工作的关键组成部分,确保这些标记者的心理健康是整个行业的挑战。↩︎

  7. 我们 API 的相关“用户”可能是构建应用程序的开发人员或与此类应用程序交互的最终用户,具体取决于上下文。关于我们对齐的模型所反映的价值观存在着深刻的问题,我们希望在对齐语言模型更有帮助、更真实和危害更小时,对如何平衡广泛的可能用户的价值观和竞争目标建立更细致的理解。↩︎

  8. 更多对齐的模型也有更多的实际优势,例如减少对“及时工程”的需求(提供所需行为的示例以将模型引导到正确的方向),节省模型上下文窗口中可用于其他目的的空间。


    ↩︎

  9. 除了研究,我们还发现其他以安全为动机的干预措施有时会给客户带来意想不到的好处。例如,旨在遏制垃圾邮件或误导性内容的速率限制也有助于客户控制费用。

    ↩︎

作者

致谢

感谢 Lilian Weng、Rosie Campbell、Anna Makanju、Bob McGrew、Hannah Wong、Ryan Lowe、Steve Dowling、Mira Murati、Sam Altman、Greg Brockman、Ilya Sutskever、Percy Liang、Peter Welinder、Ethan Perez、Ellie Evans、Helen Ngo、 Helen Toner、Justin Jay Wang、Jack Clark、Rishi Bommasani、Girish Sastry、Sarah Shoker、Matt Knight、Bianca Martin、Bob Rotsted、Lama Ahmad、Toki Sherbakov 等人对本文和相关工作提供了反馈。