转载

OpenAI研究 基于计数的深度强化学习探索研究

众所周知,基于计数的探索算法在与表格强化学习 (RL) 方法结合使用以解决小型离散马尔可夫决策过程 (MDP) 时,其性能接近最佳。通常认为基于计数的方法不能应用于高维状态空间,因为大多数状态只会出现一次。最近的深度 RL 探索策略能够通过复杂的启发式方法处理高维连续状态空间,通常依靠乐观面对不确定性或内在动机。在这项工作中,我们描述了一个令人惊讶的发现:经典的基于计数的方法的简单概括可以在各种高维和/或连续深度 RL 基准测试中达到接近最先进的性能。状态被映射到哈希码,这允许使用哈希表计算它们的出现次数。然后根据经典的基于计数的探索理论,使用这些计数来计算奖励奖金。我们发现简单的哈希函数可以在许多具有挑战性的任务上取得令人惊讶的好结果。此外,我们表明,依赖于域的学习哈希码可以进一步改善这些结果。详细分析揭示了一个好的哈希函数的重要方面:1) 具有适当的粒度和 2) 与解决 MDP 相关的编码信息。这种探索策略在连续控制任务和 Atari 2600 游戏上都实现了接近最先进的性能,因此为解决需要大量探索的 MDP 提供了一个简单而强大的基线。然后根据经典的基于计数的探索理论,使用这些计数来计算奖励奖金。我们发现简单的哈希函数可以在许多具有挑战性的任务上取得令人惊讶的好结果。此外,我们表明,依赖于域的学习哈希码可以进一步改善这些结果。详细分析揭示了一个好的哈希函数的重要方面:1) 具有适当的粒度和 2) 与解决 MDP 相关的编码信息。这种探索策略在连续控制任务和 Atari 2600 游戏上都实现了接近最先进的性能,因此为解决需要大量探索的 MDP 提供了一个简单而强大的基线。然后根据经典的基于计数的探索理论,使用这些计数来计算奖励奖金。我们发现简单的哈希函数可以在许多具有挑战性的任务上取得令人惊讶的好结果。此外,我们表明,依赖于域的学习哈希码可以进一步改善这些结果。详细分析揭示了一个好的哈希函数的重要方面:1) 具有适当的粒度和 2) 与解决 MDP 相关的编码信息。这种探索策略在连续控制任务和 Atari 2600 游戏上都实现了接近最先进的性能,因此为解决需要大量探索的 MDP 提供了一个简单而强大的基线。我们表明,依赖于域的学习哈希码可以进一步改善这些结果。详细分析揭示了一个好的哈希函数的重要方面:1) 具有适当的粒度和 2) 与解决 MDP 相关的编码信息。这种探索策略在连续控制任务和 Atari 2600 游戏上都实现了接近最先进的性能,因此为解决需要大量探索的 MDP 提供了一个简单而强大的基线。我们表明,依赖于域的学习哈希码可以进一步改善这些结果。详细分析揭示了一个好的哈希函数的重要方面:1) 具有适当的粒度和 2) 与解决 MDP 相关的编码信息。这种探索策略在连续控制任务和 Atari 2600 游戏上都实现了接近最先进的性能,因此为解决需要大量探索的 MDP 提供了一个简单而强大的基线。

详细论文