OpenAI研究 TruthfulQA:衡量模型如何模仿人类的谎言
我们提出了一个基准来衡量语言模型在生成问题答案时是否真实。该基准包括 817 个问题,涵盖 38 个类别,包括健康、法律、金融和政治。我们精心设计了一些人会由于错误的信念或误解而错误回答的问题。为了表现良好,模型必须避免生成从模仿人类文本中学到的错误答案。我们测试了 GPT-3、GPT-Neo/J、GPT-2 和基于 T5 的模型。最好的模型在 58% 的问题上是真实的,而人类的表现是 94%。模型生成了许多错误答案,模仿流行的误解并有可能欺骗人类。最大的模型通常是最不真实的。这与其他 NLP 任务形成对比,在其他 NLP 任务中,性能随模型大小而提高。然而,如果从训练分布中学习到错误答案,则此结果是预期的。我们建议单独扩大模型在提高真实性方面不如使用训练目标进行微调而不是模仿网络文本。