OpenAI研究 高效训练语言模型,填补中间空缺
我们表明,在我们对数据集应用直接转换后,自回归语言模型可以学习填充文本,这只是将一段文本从文档的中间移动到末尾。虽然这种数据增强近年来引起了人们的极大兴趣,但我们提供了大量证据表明,以这种方式转换大量数据的训练模型不会损害原始的从左到右的生成能力,这是通过困惑度和抽样评估来衡量的范围广泛。鉴于中间填充 (FIM) 训练模型的实用性、简单性和效率,我们建议未来的自回归语言模型默认使用 FIM 进行训练。为此,我们对关键超参数进行了一系列消融,例如数据转换频率,改造的结构,以及选择填充跨度的方法。我们使用这些消融来规定强大的默认设置和最佳实践来训练 FIM 模型。我们已经发布了我们的 API 中经过最佳实践训练的最佳填充模型,并发布了我们的填充基准以帮助未来的研究。