OpenAI研究 神经 GPU 的扩展和限制
Neural GPU 是一种最新的模型,可以以一种泛化到任意长度输入的方式学习多位二进制加法和二进制乘法等算法。我们表明有两种简单的方法可以提高神经 GPU 的性能:通过精心设计课程和增加模型大小。后者需要内存高效的实现,因为神经 GPU 的简单实现是内存密集型的。我们发现这些技术增加了神经 GPU 可以解决的算法问题集:当参数以十进制表示形式给出时,我们已经能够学习执行所有算术运算(并概括为任意长的数字)令人惊讶的是,这在以前是不可能的)。我们还能够训练 Neural GPU 来评估具有多个操作数的长算术表达式,这些操作数需要尊重操作数的优先顺序,尽管这些仅在二进制表示方面取得了成功,并没有达到完美的准确性。此外,我们通过调查其故障模式来深入了解神经 GPU。我们发现,神经 GPU 正确泛化为任意长的数字仍然无法计算高度对称的非典型输入的正确答案:例如,神经 GPU 在多达 100 位长数字的十进制乘法上实现近乎完美的泛化可以在 000000…002×000000…002 失败,而在 2×2 成功。这些失败模式让人想起对抗性的例子。尽管这些仅在二进制表示方面取得了成功,但并没有达到完美的准确性。此外,我们通过调查其故障模式来深入了解神经 GPU。我们发现,神经 GPU 正确泛化为任意长的数字仍然无法计算高度对称的非典型输入的正确答案:例如,神经 GPU 在多达 100 位长数字的十进制乘法上实现近乎完美的泛化可以在 000000…002×000000…002 失败,而在 2×2 成功。这些失败模式让人想起对抗性的例子。尽管这些仅在二进制表示方面取得了成功,但并没有达到完美的准确性。此外,我们通过调查其故障模式来深入了解神经 GPU。我们发现,神经 GPU 正确泛化为任意长的数字仍然无法计算高度对称的非典型输入的正确答案:例如,神经 GPU 在多达 100 位长数字的十进制乘法上实现近乎完美的泛化可以在 000000…002×000000…002 失败,而在 2×2 成功。这些失败模式让人想起对抗性的例子。我们发现,神经 GPU 正确泛化为任意长的数字仍然无法计算高度对称的非典型输入的正确答案:例如,神经 GPU 在多达 100 位长数字的十进制乘法上实现近乎完美的泛化可以在 000000…002×000000…002 失败,而在 2×2 成功。这些失败模式让人想起对抗性的例子。我们发现,神经 GPU 正确泛化为任意长的数字仍然无法计算高度对称的非典型输入的正确答案:例如,神经 GPU 在多达 100 位长数字的十进制乘法上实现近乎完美的泛化可以在 000000…002×000000…002 失败,而在 2×2 成功。这些失败模式让人想起对抗性的例子。