转载

OpenAI研究 WebGPT:通过网页浏览提高语言模型的事实准确性

我们对 GPT-3 进行了微调,以使用基于文本的网络浏览器更准确地回答开放式问题。

我们对 GPT-3 进行了微调,以使用基于文本的网络浏览器更准确地回答开放式问题。我们的原型复制了人类研究在线问题答案的方式——它提交搜索查询、跟踪链接以及上下滚动网页。它经过培训可以引用其来源,这使得提供反馈以提高事实准确性变得更加容易。我们很高兴能开发出更真实的人工智能,1个 但挑战依然存在,例如应对不熟悉的问题类型。

像 GPT-3 这样的语言模型可用于许多不同的任务,但在执行需要晦涩的现实世界知识的任务时,往往会产生“幻觉”信息。23个 为了解决这个问题,我们教 GPT-3 使用基于文本的网络浏览器。该模型提供了一个开放式问题和浏览器状态摘要,并且必须发出诸如“搜索...”、“在页面中查找:...”或“引用:...”之类的命令。通过这种方式,该模型从网页中收集段落,然后使用这些段落来撰写答案。

该模型是使用我们之前使用的相同通用 方法GPT-3 进行微调的  。我们首先训练模型复制人类演示,这使它能够使用基于文本的浏览器来回答问题。然后,我们通过训练奖励模型来预测人类偏好,并使用强化学习或拒绝抽样对其进行优化,从而提高模型答案的有用性和准确性。  

ELI5成绩

我们的系统经过训练可以回答 ELI5 中的问题,4 是从“像我五岁一样解释”subreddit 中收集的开放式问题数据集。我们训练了三种不同的模型,对应三种不同的推理时间计算预算。我们表现最好的模型产生的答案在 56% 的时间里比我们的人类演示者所写的答案更受欢迎,并且具有相似的事实准确性。尽管这些是用于训练模型的相同类型的演示,但我们能够通过使用人工反馈来改进模型的答案来超越它们。

ELI5 测试集的人类评估结果,将我们的模型与人类演示者进行比较。选择拒绝采样的数量(best-of-n 中的 n)以提高计算效率。误差棒显示 ±1 个标准误差。

真实的质量检查结果

对于从训练分布中提取的问题,我们最好的模型的答案平均与我们的人类演示者所写的答案一样准确。然而,分布外的鲁棒性是一个挑战。为了探究这一点,我们在 TruthfulQA 上评估了我们的模型,4个 一个对抗性构建的简短问题数据集,旨在测试模型是否会成为常见误解之类的东西的牺牲品。答案根据真实性和信息性进行评分,两者相互权衡(例如,“我无可奉告”被认为是真实的,但不具有信息性)。

我们的模型在 TruthfulQA 上的表现优于 GPT-3,并表现出更有利的缩放特性。然而,我们的模型落后于人类的表现,部分原因是它们有时会引用不可靠的来源(如上面关于幽灵的问题所示 )。我们希望使用对抗训练等技术来减少这些失败的频率。

真实的 QA 结果。对于 GPT-3,我们使用了 TruthfulQA 论文中的提示和自动度量。对于网络浏览模型,我们截断了长格式的答案并使用了人工评估,因为答案对于自动度量而言是分布外的。误差棒显示 ±1 个标准误差。

评估事实准确性

为了提供反馈以提高事实准确性,人类必须能够评估模型产生的声明的事实准确性。这可能极具挑战性,因为声明可能是技术性的、主观的或模糊的。出于这个原因,我们要求模型引用其来源。5个这允许人们通过检查声明是否得到可靠来源的支持 来评估事实的准确性 。除了使任务更易于管理外,它还减少了歧义,这对于减少标签噪音很重要。

然而,这种方法提出了一些问题。是什么让消息来源可靠?哪些声明足够明显而不需要支持?在评估事实准确性和其他标准(例如连贯性)之间应该做出什么权衡?所有这些都是艰难的判断。我们认为我们的模型没有捕捉到很多这种细微差别,因为它仍然会犯基本错误。但我们预计,随着 AI 系统的改进,这类决策将变得更加重要,并且需要跨学科研究来制定既实用又在认知上合理的标准。我们还期望进一步的考虑因素(例如透明度)很重要。1个

最终,让模型引用其来源不足以评估事实的准确性。一个足够强大的模型会挑选它希望人类认为有说服力的来源,即使它们没有反映对证据的公平评估。已经有这种情况发生的迹象(参见上面关于船的问题 )。我们希望使用 辩论等方法来缓解这种情况。

部署和培训的风险

虽然我们的模型通常比 GPT-3 更真实(因为它生成虚假陈述的频率更低),但它仍然存在风险。带有引用的答案通常被认为具有权威性,这会掩盖我们的模型仍然会犯基本错误的事实。该模型还倾向于强化用户的现有信念。我们正在研究如何最好地解决这些问题和其他问题。

除了这些部署风险之外,我们的方法  通过让模型访问网络在训练时引入了新的风险。我们的浏览环境不允许完全访问网络,但允许模型向 Microsoft Bing Web 搜索 API发送查询 并跟踪网络上已经存在的链接,这可能会产生副作用。根据我们使用 GPT-3 的经验,该模型似乎没有足够的能力来危险地利用这些副作用。但是,这些风险会随着模型能力的提高而增加,我们正在努力建立针对这些风险的内部保护措施。

结论

人类反馈和 Web 浏览器等工具提供了通往稳健真实的通用 AI 系统的有前途的途径。我们目前的系统在充满挑战或不熟悉的环境中挣扎,但仍然代表着朝着这个方向取得了重大进展。

如果你想帮助我们构建更有用和真实的 AI 系统, 我们正在招聘

参考

  1. O. Evans、O. Cotton-Barratt、L. Finnveden、A. Bales、A. Balwit、P. Wills、L. Righetti 和 W. Saunders。真实的人工智能:开发和管理不说谎的人工智能。arXiv 预印本 arXiv:2110.06674 , 2021. ↩︎ ↩︎

  2. J. Maynez、S. Narayan、B. Bohnet 和 R. McDonald。论抽象概括中的忠实性和真实性。arXiv 预印本 arXiv:2005.00661 , 2020. ↩︎

  3. K. Shuster、S. Poff、M. Chen、D. Kiela 和 J. Weston。检索增强减少了谈话中的幻觉。arXiv 预印本 arXiv:2104.07567 , 2021. ↩︎

  4. S. Lin、J. Hilton 和 O. Evans。TruthfulQA:衡量模型如何模仿人类的谎言。arXiv 预印本 arXiv:2109.07958,2021。↩︎

  5. D. Metzler、Y. Tay、D. Bahri 和 M. Najork。重新思考搜索:让外行成为专家。arXiv 预印本 arXiv:2105.02274 , 2021. ↩︎

作者

致谢

感谢我们论文的共同作者:Jeff Wu、Long Ouyang、Christina Kim、Christopher Hesse、Shantanu Jain、Vineet Kosaraju、William Saunders、Roger Jiang、Karl Cobbe、Tyna Eloundou、Gretchen Krueger、Kevin Button、Matthew Knight 和 Benjamin Chess。

感谢在此版本中提供帮助和反馈的人员:Steven Adler、Sam Altman、Beth Barnes、Miles Brundage、Kevin Button、Steve Dowling、Alper Ercetin、Matthew Knight、Gretchen Krueger、Ryan Lowe、Andrew Mayne、Bob McGrew、Mira Murati、Richard Ngo、Jared Salzano、Natalie Summers 和 Hannah Wong。

感谢 Surge AI 的团队帮助我们收集数据,感谢我们所有的承包商提供的演示和比较,没有他们,这个项目就不可能完成。

详细论文