OpenAI红队网络
公开征集OpenAI红队网络,并邀请有兴趣提高OpenAI模型安全性的领域专家加入我们的努力。我们正在寻找来自各个领域的专家与我们合作,严格评估和红队我们的人工智能模型。
什么是OpenAI红队网络?
红队一个[一]
术语红队已被用于涵盖人工智能系统的广泛风险评估方法,包括定性能力发现、缓解措施的压力测试、使用语言模型的自动红队、提供有关特定漏洞风险规模的反馈等。为了减少与术语“红队”相关的混淆,帮助那些阅读我们方法的人更好地理解和理解它们,特别是避免虚假保证,我们正在努力采用更清晰的术语,如赫拉夫,2023但是,为了简单起见,并且为了使用与合作者一致的语言,我们使用术语“红队”。
我们使用“专家”一词来指代由一系列领域知识和生活经验提供的专业知识
我们还以其他形式收集了有关我们系统风险状况的反馈,例如漏洞赏金计划和聊天GPT反馈竞赛.
今天,我们正在启动一项更正式的努力,以建立这些早期的基础,并深化和扩大我们与外部专家的合作,以使我们的模型更安全。与个别专家、研究机构和民间社会组织合作是我们流程的重要组成部分。我们将这项工作视为对外部指定治理实践(如第三方审计)的补充。
OpenAI 红队网络是一个由值得信赖和经验丰富的专家组成的社区,可以帮助我们更广泛地为风险评估和缓解工作提供信息,而不是在主要模型部署之前一次性参与和选择过程。网络成员将根据他们的专业知识被要求在模型和产品开发生命周期的各个阶段帮助红队。并非每个成员都会参与每个新模型或产品,并且每个成员的时间贡献将由每个成员决定,一年中可能只有 5-10 小时。
在OpenAI委托的红队活动之外,成员将有机会就一般的红队实践和发现相互交流。目标是实现更多样化和连续的输入,并使红队成为一个更具迭代性的过程。该网络补充了其他协作AI安全机会,包括我们的研究人员访问计划和开源评估.
为什么要加入OpenAI红队网络?
该网络提供了一个独特的机会来塑造更安全的人工智能技术和政策的发展,以及人工智能对我们生活、工作和互动方式的影响。通过成为该网络的一部分,您将成为我们主题专家团队的一员,他们可以被要求在部署的多个阶段评估我们的模型和系统。
寻求多样化的专业知识
评估人工智能系统需要了解广泛的领域、不同的观点和生活经验。我们邀请来自世界各地的专家申请,并在选择过程中优先考虑地理和领域的多样性。
我们感兴趣的一些领域包括但不限于:
认知科学 | 化学 |
生物学 | 物理 |
计算机科学 | 隐写术 |
政治学 | 心理学 |
说服 | 经济学 |
人类学 | 社会学 |
人机交互 | 公平与偏见 |
对准 | 教育 |
医疗 | 法律 |
儿童安全 | 网络安全 |
金融 | 错误/虚假信息 |
政治用途 | 隐私 |
生物测定学 | 语言和语言学 |
不需要具有AI系统或语言模型的先前经验,但可能会有所帮助。我们最看重的是你愿意参与,并将你的观点带到我们如何评估人工智能系统的影响中。
补偿和保密
OpenAI 红队网络的所有成员在参与红队项目时都将因其贡献而获得补偿。虽然该网络的成员资格不会限制您发表您的研究或寻求其他机会,但您应该考虑到任何参与红队和其他项目的行为通常都受保密协议 (NDA) 的约束或无限期保密。
常见问题
问:加入网络需要什么?
一个:成为网络的一部分意味着可能会联系您,询问测试新模型的机会,或在已部署的模型上测试感兴趣的区域。作为网络的一部分进行的工作是根据保密协议 (NDA) 进行的,尽管我们历来在系统卡和博客文章中发布了许多红队调查结果。您将获得在红队项目上花费的时间的补偿。
问:成为网络一部分的预期时间承诺是多少?
一个:您决定提交的时间可以根据您的日程安排进行调整。请注意,并非每个机会都会联系网络中的每个人,OpenAI 将根据特定红队项目的合适人选进行选择,并在随后的红队活动中强调新的观点。即使一年中只有 5 小时对我们仍然很有价值,所以如果您有兴趣但时间有限,请不要犹豫申请。
问:申请人何时会收到录取通知?
一个:OpenAI 将滚动选择网络成员,您可以在 1 年 2023 月 <> 日之前申请。在此申请期之后,我们将重新评估未来再次申请的机会。
问:成为网络的一员是否意味着我将被要求对每个新模型进行红队?
一个:不,OpenAI 将根据特定红队项目的正确匹配进行选择,您不应该期望测试每个新模型。
问:您在网络成员中寻找哪些标准?
一个:我们正在寻找的一些标准是:
- 在与红队相关的特定领域表现出的专业知识或经验
- 热衷于提高 AI 安全性
- 无利益冲突
- 多元化背景和传统上代表性不足的群体
- 多元化的地域代表性
- 流利使用多种语言
- 技术能力(非必需)
问:还有哪些其他协作安全机会?
一个:除了加入网络之外,还有其他合作机会可以为人工智能安全做出贡献。例如,一种选择是在人工智能系统上创建或进行安全评估并分析结果。
OpenAI的开源埃瓦尔斯存储库(作为GPT-4 发射) 提供了用户友好的模板和示例方法来快速启动此过程。
评估的范围可以从简单的问答测试到更复杂的模拟。作为具体示例,以下是OpenAI开发的用于从多个角度评估AI行为的示例评估:
说服
- MakeMeSay:一个人工智能系统能欺骗另一个人工智能系统说出一个秘密词的能力有多大?
- 让我支付:一个人工智能系统在多大程度上能说服另一个人工智能系统捐款?
- 选票提案:一个人工智能系统对另一个人工智能系统对政治主张的支持有多大影响?
隐写术(隐藏消息)
- 隐写术:一个人工智能系统在不被另一个人工智能系统捕获的情况下传递秘密信息的能力如何?
- 文本压缩:人工智能系统如何压缩和解压缩消息,以隐藏秘密消息?
- 谢林角:一个人工智能系统在没有直接通信的情况下与另一个人工智能系统的协调程度如何?