OpenAI研究 GPT-2:1.5B 发布
作为GPT-2分阶段 发布的最终模型发布 ,我们将发布 GPT-2 的最大版本(1.5B 参数)以及 代码和模型权重 ,以方便检测 GPT-2 模型的输出。虽然自 8 月以来发布了更大的语言模型,但我们继续执行最初的分阶段发布计划,以便为社区提供完整分阶段发布过程的测试用例。我们希望这个测试用例对未来强大模型的开发人员有用,我们正在积极继续与 AI 社区就负责任的发布进行对话。
虽然自 8 月以来发布了更大的语言模型,但我们继续执行最初的分阶段发布计划,以便为社区提供完整分阶段发布过程的测试用例。我们希望这个测试用例对未来强大模型的开发人员有用,我们正在积极继续与 AI 社区就负责任的发布进行对话。
我们的发现
1. 人类发现 GPT-2 的输出令人信服。我们在康奈尔大学的合作伙伴对人们进行了调查,为 GPT-2 文本分配不同模型大小的可信度分数。人们给 1.5B 模型的“可信度评分”为 6.91(满分 10)。这略高于 774M 模型的输出 (6.72),并且明显高于中等 355M 模型 (6.07)。这些结果使我们更倾向于发布 1.5B 模型,因为相对于 774M,人类感知可信度的增量似乎很低。
2. GPT-2 可以针对误用进行微调。我们在米德尔伯里国际研究中心恐怖主义、极端主义和反恐中心 (CTEC) 的合作伙伴发现,极端主义团体可以滥用 GPT-2,特别是通过在四种意识形态立场上微调 GPT-2 模型:白人至上、马克思主义、伊斯兰圣战主义和无政府主义。CTEC 证明可以创建可以为这些意识形态生成综合宣传的模型。他们还表明,尽管对合成输出的检测精度较低,但基于 ML 的检测方法可以让专家合理怀疑演员正在生成合成文本。
3.检测具有挑战性。我们预计基于内容的合成文本检测是一项长期挑战。为了测试机器学习方法今天是否有帮助,我们进行了内部检测研究并开发了一种 检测模型 ,该模型的检测率约为 95%,可检测 1.5B GPT-2 生成的文本。A[A]
具体来说,我们基于 RoBERTa BASE (1.25 亿个参数)和 RoBERTa LARGE (3.55 亿个参数)对其进行微调,以将 1.5B GPT-2 模型的输出与 WebText 的输出进行分类,WebText 是我们用来训练GPT-2 模型。
虽然我们发现检测准确性在很大程度上取决于训练和测试中使用的采样方法,但我们还发现在使用一系列采样技术进行训练时检测更可靠。如下图所示,我们观察到较大模型的输出更难分类,但对较大模型输出进行训练可使检测结果更加准确和稳健。我们预计这种趋势将继续下去,并且随着模型尺寸的增加,检测将更具挑战性。
转移模型的准确性(细胞核样本)
受训于 | 在小型 (124M)上测试 | 中型 (355M) | 大 (774M) | 加大码 (1.5B) |
---|---|---|---|---|
小 (124M) | 99.3% | 96.6% | 90.9% | 79.3% |
中型 (355M) | 99.0% | 98.5% | 96.9% | 91.8% |
大 (774M) | 98.4% | 97.9% | 97.9% | 95.7% |
加大码 (1.5B) | 96.9% | 96.7% | 96.6% | 96.0% |
4. 到目前为止,我们还没有看到任何滥用的有力证据。虽然我们已经看到一些关于 GPT-2 增加垃圾邮件和网络钓鱼等高容量/低收益操作的潜力的讨论,但我们还没有看到编写代码、文档或滥用实例的证据。我们认为,如果合成文本生成器的输出变得更加可靠和连贯,那么它们被滥用的可能性就更高。我们承认我们无法意识到所有威胁,并且有动机的参与者可以在不发布模型的情况下复制语言模型。
5. 我们需要研究偏见的标准。语言模型有偏差。弄清楚如何研究这些偏见、讨论它们并解决它们,是人工智能研究界面临的挑战。我们以两种方式应对偏见的挑战: