OpenAI研究 总结带有人类反馈的书籍
针对难以评估的任务,扩大人类对 AI 系统的监督。
为了在未来安全地部署强大的通用人工智能,我们需要确保机器学习模型按照人类的意图行事。这个挑战被称为 对齐问题。
对齐问题的可扩展解决方案需要处理模型输出难以或人工评估耗时的任务。为了测试可扩展对齐技术,我们训练了一个模型来总结整本书,如以下示例所示。A[A]
这些样本选自 公共领域的作品,是 GPT-3 预训练数据的一部分。为了控制这种影响,并且纯粹出于研究目的,我们的 论文 评估了模型从未见过的书籍的摘要。
我们最好的模型是根据 GPT-3 进行微调的,可以生成整本书的合理摘要,有时甚至可以与人类编写的摘要的平均质量相媲美:它获得了 6/7 的评分(类似于人类编写的平均摘要)他们有 5% 的时间阅读了这本书,15% 的时间获得了 5/7 的评分。我们的模型还在BookSum 数据集上实现了最先进的结果, 用于书本长度摘要。零样本问答模型可以使用我们模型的摘要在 NarrativeQA 数据集上获得有竞争力的结果 ,以进行书本长度的问答。乙[乙]
在得知之前的工作比我们的结果更好后,我们修改了我们最初关于 NarrativeQA 结果的声明。
我们的方法:结合人类反馈和递归任务分解的强化学习
考虑总结一段文本的任务。大型 预训练模型不擅长总结。过去,我们发现通过 从人类反馈中强化学习来训练模型 有助于使模型摘要与人类对短文和文章的偏好保持一致。但是直接判断整本书的摘要需要付出很多努力,因为人类需要阅读整本书,这需要花费很多时间。
为了解决这个问题,我们还使用了 递归任务分解:我们在程序上将困难的任务分解为更简单的任务。在这种情况下,我们将总结一段长文本分解为总结几段较短的文本。与端到端的训练过程相比,递归任务分解具有以下优点:
- 分解允许人们通过使用书中较小部分的摘要而不是阅读源文本来更快地评估模型摘要。
- 更容易追踪总结的写作过程。例如,您可以跟踪以查找摘要中某些事件在原始文本中发生的位置。在我们的摘要浏览器上亲自查看 !
- 我们的方法可用于总结无限长度的书籍,不受我们使用的转换器模型的上下文长度的限制。
我们为什么要研究这个
这项工作是我们正在进行的调整高级人工智能系统 研究的一部分 ,这是 我们使命的关键。 随着我们训练我们的模型来完成越来越复杂的任务,对模型的输出进行明智的评估对人类来说将变得越来越困难。这使得在部署这些模型时更难检测模型输出中可能导致负面后果的细微问题。因此,我们希望我们评估模型的能力随着模型功能的增加而增加。
我们目前解决这个问题的方法是让 人类能够使用其他模型的帮助来评估机器学习模型的输出。在这种情况下,为了评估书籍摘要,我们为人类提供了由我们的模型编写的单独章节摘要,这样可以节省他们在评估这些摘要时相对于阅读源文本的时间。我们在书籍摘要方面的进展是第一个关于缩放对齐技术的大规模实证工作。
展望未来,我们正在研究更好的方法来帮助人类评估模型行为,目标是找到可扩展以调整通用人工智能的技术。