转载

OpenAI研究 野外错误的奖励功能

强化学习算法可以以令人惊讶的、违反直觉的方式突破。在这篇文章中,openai将探讨一种失败模式,即您错误指定奖励函数的地方。

在 OpenAI,我们最近开始使用 我们用于测量和训练 AI 代理的软件Universe来进行新的 RL 实验。有时,这些实验说明了当前实践中强化学习的一些问题。在下面的示例中,我们将强调当错误指定的奖励函数鼓励 RL 智能体通过将奖励信号的获取优先于其他成功衡量标准来破坏其环境时会发生什么。

设计安全的 AI 系统将要求我们设计不会尝试这样做的算法,并将教会我们以一种不会被我们的 AI 代理人误解的方式来指定和塑造目标。

我们一直在训练的游戏之一是 CoastRunners。游戏的目标——正如大多数人所理解的那样——是快速完成划船比赛,并且(最好)领先于其他玩家。CoastRunners 不会直接奖励玩家在赛道上的进步,而是玩家通过击中沿路线布置的目标来获得更高的分数。

我们假设玩家获得的分数将反映完成比赛的非正式目标,因此我们将该游戏纳入内部基准测试中,该基准旨在衡量强化学习系统在赛车游戏中的性能。然而,事实证明,目标的布置方式使强化学习代理无需完成课程即可获得高分。当我们训练 RL 智能体玩游戏时,这会导致一些意外行为。

海报

RL 智能体找到一个孤立的泻湖,在那里它可以转一个大圈并反复撞倒三个目标,调整它的移动时间以便总是在目标重新填充时撞倒它们。尽管多次着火、撞上其他船只并在赛道上走错路,但我们的智能体使用这种策略设法获得了比以正常方式完成课程可能获得的更高的分数。我们的智能体平均得分比人类玩家高出 20%。

虽然在视频游戏的背景下无害且有趣,但这种行为指出了强化学习的一个更普遍的问题:准确捕捉我们希望代理人做什么通常是困难的或不可行的,因此我们经常结束使用不完美但易于测量的代理。通常这很有效,但有时会导致不希望甚至危险的行为。更广泛地说,它违反了系统应该可靠和可预测的基本工程原则。我们还在研究论文《 人工智能安全的具体问题》中更详细地探讨了这个问题。

我们怎样才能避免这样的问题呢?除了谨慎设计奖励函数外,OpenAI 正在探索的几个研究方向可能有助于减少错误指定奖励的情况:

  • 从演示中学习可以让我们避免直接指定奖励,而只是学习模仿人类如何完成任务。在此示例中,由于绝大多数人会寻求完成赛马场,因此我们的 RL 算法也会这样做。
  • 除了人类演示之外,或者代替人类演示,我们还可以  通过评估剧集的质量甚至以交互方式与代理共享控制来整合人类反馈。极少量的评估反馈可能会阻止此代理绕圈子。
  • 可以使用迁移学习在许多类似的游戏上进行训练,并为该游戏推断出一个“常识”奖励函数。这样的奖励函数可能会根据典型游戏具有这样的目标这一事实来优先完成比赛,而不是专注于该特定游戏奖励函数的特质。这似乎更类似于人类玩游戏的方式。

这些方法可能有其自身的缺点。例如,迁移学习涉及基于许多相似环境的奖励函数为新环境推断奖励函数。这种推断本身可能是错误的——例如,在许多赛车视频游戏中接受过训练的代理人可能会错误地得出结论,认为在新的、更高风险的环境中开车离开道路并不是什么大问题。更微妙的是,如果奖励外推过程涉及神经网络,则 该网络中的对抗性示例 可能会导致奖励函数具有“不自然”的高奖励区域,这些区域不符合任何合理的现实世界目标。

解决这些问题将是复杂的。我们希望 Universe 将使我们能够快速发现和解决新的故障模式,并最终开发出我们可以真正信任其行为的系统。