转载

OpenAI研究 强大的对抗性输入

已经创建了从不同比例和角度观看时可靠地欺骗神经网络分类器的图像。这挑战了上周的说法,即自动驾驶汽车很难被恶意欺骗,因为它们从多个尺度、角度、视角等捕捉图像。


这张在标准彩色打印机上打印的无伤大雅的小猫照片让分类器误以为它是monitordesktop computer不管它是如何缩放或旋转的。我们希望进一步的参数调整也能消除任何人类可见的伪影。

开箱即用的 对抗样本 在图像转换下确实失败了。下面,我们展示了同一张猫图片,在ImageNet 上训练的 Inception v3被对抗性干扰而被错误地分类为台式电脑 。小至 1.002 的缩放会导致正确标签虎斑猫的分类概率覆盖对抗性标签 。desktop computer

然而,我们怀疑积极的努力可能会产生一个强大的对抗样本,因为对抗样本已被证明可以 转移 到物理世界。

尺度不变的对抗样本

可以使用称为投影梯度下降的优化方法来创建对抗性示例,以发现任意欺骗分类器的图像小扰动。

我们不是优化从单一角度寻找对抗性输入,而是优化大量 随机 分类器,这些分类器在对输入进行分类之前随机重新缩放输入。针对这样的集合进行优化会产生具有尺度不变性的强大的对抗性示例。

一个尺度不变的对抗性例子。

即使当我们限制自己只修改与猫对应的像素时,我们也可以创建一个单一的扰动图像,该图像在所有所需的尺度上同时具有对抗性。

变换不变的对抗样本

通过在我们的训练扰动中添加随机旋转、平移、缩放、噪声和均值偏移,相同的技术会产生在任何这些转换下仍然具有对抗性的单一输入。

一个变换不变的对抗性例子。请注意,它明显比其尺度不变的表亲更受干扰。这可能是最基本的:从直觉上讲,小的对抗性扰动更难找到,示例必须保持不变的转换越多,这在直觉上是合理的。

我们的转换在测试时随机采样,证明我们的示例对于整个转换分布是不变的。

详细论文