OpenAI研究 对神经网络策略的对抗性攻击
众所周知,机器学习分类器容易受到对手恶意构造的输入的攻击,从而导致错误分类。这种对抗性的例子已经在计算机视觉应用的背景下得到了广泛的研究。在这项工作中,我们展示了对抗性攻击在针对强化学习中的神经网络策略时也很有效。具体来说,我们展示了现有的对抗性示例制作技术可用于显着降低经过训练的策略的测试时间性能。我们的威胁模型考虑了能够对策略的原始输入引入小扰动的对手。我们描述了任务和训练算法的脆弱程度,用于白盒和黑盒设置中的对抗性示例攻击的子类。无论是学习任务还是训练算法,我们观察到性能显着下降,即使有不干扰人类感知的小的对抗性扰动。视频可在 这个 http 网址。