转载

OpenAI研究 具体的人工智能安全问题

我们(连同来自伯克利和斯坦福的研究人员)是今天由 Google Brain 研究人员领导的论文《AI 安全中的具体问题》的合著者 本文围绕确保现代机器学习系统按预期运行探讨了许多研究问题。(这些问题非常实用,我们已经看到一些问题被集成到 OpenAI Gym中。)

推进 AI 需要使 AI 系统更智能,但也需要防止事故发生——即确保 AI 系统做人们真正希望它们做的事情。 机器学习社区 越来越关注 安全研究,例如DeepMind 和 FHI最近 发表的 一篇论文尽管如此,许多机器学习研究人员仍然想知道今天可以进行多少安全研究。

作者讨论了五个方面:

  • 安全探索。 强化学习(RL) 代理能否  在不执行灾难性操作的情况下了解其环境? 例如,RL 智能体是否可以在不从壁架上掉下来的情况下学习在环境中导航?
  • 对分配转移的稳健性。 机器学习系统能否对数据分布的变化具有鲁棒性,或者至少优雅地失败? 例如,我们能否构建 图像分类器 ,在显示新型图像时指示适当的不确定性,而不是自信地尝试使用其 可能不适用的 学习模型?
  • 避免负面影响。 我们能否改变 RL 智能体的 奖励函数 以避免对环境产生不良影响? 例如,我们是否可以构建一个机器人来移动物体,同时避免撞倒或破坏任何东西,而无需为每种可能的不良行为手动编程单独的惩罚?
  • 避免“奖励黑客”和“线头。 我们能否防止代理人“玩弄”他们的奖励功能,例如通过扭曲他们的观察? 例如,我们是否可以训练 RL 智能体以最大限度地减少建筑物中脏表面的数量,而不会导致它避免寻找脏表面或创建新的脏表面进行清理?
  • 可扩展的监督。 RL 代理能否有效地实现反馈非常昂贵的目标? 例如,我们能否构建一个智能体,尝试以用户最满意的方式打扫房间,即使来自用户的反馈非常少,而且我们必须在训练期间使用廉价的近似值(如可见污垢的存在) ?廉价近似值与我们实际关心的东西之间的差异是事故风险的一个重要来源。

许多问题并不新鲜,但本文在尖端系统的背景下探讨了它们。我们希望他们能激励更多人从事 AI 安全研究,无论是 在 OpenAI 还是其他地方。

我们特别高兴能以跨机构合作的形式参与这篇论文。

我们认为,广泛的 AI 安全合作将使每个人都能构建更好的机器学习系统。  

详细论文