OpenAI研究 策略梯度和软 Q 学习之间的等价性
无模型强化学习的两种主要方法是策略梯度方法和 Q 学习方法。Q 学习方法在工作时可能是有效且样本效率高的,但是,人们并不清楚它们为何起作用,因为根据经验,他们估计的 Q 值非常不准确。部分解释可能是 Q-learning 方法正在秘密实施策略梯度更新:我们表明在熵正则化强化学习的设置中 Q-learning 和策略梯度方法之间存在精确的等价性,即“软”(熵- regularized) Q-learning 完全等同于策略梯度法。我们还指出了 Q 学习方法和自然策略梯度方法之间的联系。实验上,我们探索了 Q 学习和策略梯度的熵正则化版本,我们发现它们在 Atari 基准测试中的表现与标准变体一样好(或略好于)。我们还通过构建一种与 A3C 的学习动态密切匹配的 Q 学习方法,在不使用目标网络或 ε-贪婪探索计划的情况下,证明了等价性在实际环境中成立。