转载

OpenAI研究 生成对抗网络、逆向强化学习和基于能量的模型之间的联系

生成对抗网络 (GAN) 是最近提出的一类生成模型,其中训练生成器以优化鉴别器同时学习的成本函数。虽然学习成本函数的概念对于生成建模领域来说相对较新,但长期以来一直在控制和强化学习 (RL) 领域研究学习成本,通常用于从演示中进行模仿学习。在这些领域中,观察到的行为背后的学习成本函数被称为逆向强化学习 (IRL) 或逆向最优控制。虽然起初 RL 中的成本学习与生成建模中的成本学习之间的联系可能看起来很肤浅,但我们在本文中表明,某些 IRL 方法实际上在数学上等同于 GAN。尤其,我们证明了基于样本的最大熵 IRL 算法与 GAN 之间的等价性,在 GAN 中可以评估生成器的密度并将其作为鉴别器的附加输入提供。有趣的是,最大熵 IRL 是基于能量的模型的一个特例。我们讨论了将 GAN 解释为训练基于能量的模型的算法,并将这种解释与最近寻求连接 GAN 和 EBM 的其他工作联系起来。通过正式强调 GAN、IRL 和 EBM 之间的联系,我们希望所有三个社区的研究人员能够更好地识别和应用从一个领域到另一个领域的可转移想法,特别是对于开发更稳定和可扩展的算法:这三个领域的主要挑战.

详细论文