OpenAI研究 神经语言模型的缩放定律
我们研究了语言模型在交叉熵损失上的性能的经验比例定律。损失与模型大小、数据集大小和用于训练的计算量呈幂律关系,一些趋势跨越七个数量级以上。网络宽度或深度等其他架构细节在大范围内的影响很小。简单的方程式控制过度拟合对模型/数据集大小的依赖性以及训练速度对模型大小的依赖性。这些关系使我们能够确定固定计算预算的最佳分配。较大的模型具有更高的样本效率,因此最佳的计算效率训练涉及在相对适度的数据量上训练非常大的模型,并在收敛之前显着停止。
我们研究了语言模型在交叉熵损失上的性能的经验比例定律。损失与模型大小、数据集大小和用于训练的计算量呈幂律关系,一些趋势跨越七个数量级以上。网络宽度或深度等其他架构细节在大范围内的影响很小。简单的方程式控制过度拟合对模型/数据集大小的依赖性以及训练速度对模型大小的依赖性。这些关系使我们能够确定固定计算预算的最佳分配。较大的模型具有更高的样本效率,因此最佳的计算效率训练涉及在相对适度的数据量上训练非常大的模型,并在收敛之前显着停止。