OpenAI研究 教学模型用文字表达他们的不确定性
我们表明,GPT-3 模型可以学习用自然语言表达对其自身答案的不确定性——无需使用模型逻辑。当给出问题时,模型会生成答案和置信度(例如“90% 置信度”或“高置信度”)。这些级别映射到经过良好校准的概率。该模型还在分布变化下保持适度校准,并且对自身答案的不确定性敏感,而不是模仿人类的例子。据我们所知,这是模型首次被证明可以用自然语言表达关于其自身答案的校准不确定性。对于测试校准,我们引入了 CalibratedMath 任务套件。我们将用文字表达的不确定性(“语言化概率”)的校准与从模型 logits 中提取的不确定性进行比较。两种不确定性都能够在分布偏移下推广校准。我们还提供证据表明 GPT-3 泛化校准的能力取决于预训练的潜在表示,这些表示与其答案的认知不确定性相关。