OpenAI研究 RL²:通过慢速强化学习进行快速强化学习
深度强化学习(deep RL)已经成功地自动学习了复杂的行为;然而,学习过程需要大量的试验。相比之下,动物可以在几次试验中学习新任务,受益于它们对世界的先验知识。本文旨在弥合这一差距。我们建议将其表示为递归神经网络 (RNN) 并从数据中学习,而不是设计一个“快速”的强化学习算法。在我们提出的方法 RL² 中,该算法被编码在 RNN 的权重中,这些权重是通过通用(“慢速”)RL 算法缓慢学习的。RNN 接收典型 RL 算法将接收的所有信息,包括观察、动作、奖励和终止标志;并且它在给定的马尔可夫决策过程 (MDP) 中跨情节保留其状态。RNN 的激活将“快速”RL 算法的状态存储在当前(以前看不见的)MDP 上。我们在小规模和大规模问题上通过实验评估 RL²。在小规模方面,我们训练它来解决随机生成的多臂老虎机问题和有限的 MDP。RL² 经过训练后,其在新 MDP 上的性能接近于具有最优性保证的人工设计算法。在大规模方面,我们在基于视觉的导航任务上测试了 RL²,并表明它可以扩展到高维问题。在小规模方面,我们训练它来解决随机生成的多臂老虎机问题和有限的 MDP。RL² 经过训练后,其在新 MDP 上的性能接近于具有最优性保证的人工设计算法。在大规模方面,我们在基于视觉的导航任务上测试了 RL²,并表明它可以扩展到高维问题。在小规模方面,我们训练它来解决随机生成的多臂老虎机问题和有限的 MDP。RL² 经过训练后,其在新 MDP 上的性能接近于具有最优性保证的人工设计算法。在大规模方面,我们在基于视觉的导航任务上测试了 RL²,并表明它可以扩展到高维问题。