OpenAI研究 第三人称模仿学习
强化学习 (RL) 使训练能够在复杂和不确定的环境中实现复杂目标的代理成为可能。强化学习的一个关键困难是为代理指定奖励函数以进行优化。传统上,RL 中的模仿学习已被用来克服这个问题。不幸的是,迄今为止的模仿学习方法往往要求以第一人称提供演示:向代理提供一系列状态和它应该采取的动作的规范。这种模仿学习虽然功能强大,但受到收集第一人称演示这一相对困难的问题的限制。人类通过从第三人称演示中学习来解决这个问题:他们观察其他人执行任务、推断任务并自己完成相同的任务。
在本文中,我们提出了一种无监督的第三人称模仿学习方法。这里的第三人称指的是训练一个代理人在一个简单的环境中正确地实现一个简单的目标,当它被提供一个老师从不同的角度实现相同目标的示范时;而无监督是指agent只接收到这些第三人称的示范,并没有提供教师状态和学生状态之间的对应关系。我们的方法的主要见解是,可以利用领域混淆的最新进展来产生领域不可知的特征,这些特征在训练过程中至关重要。为了验证我们的方法,我们报告了在质点域、reacher 域和倒立摆中从第三人称演示中学习的成功实验。