用过程监督改进数学推理
介绍
近年来,大型语言模型在执行复杂多步骤推理的能力方面有了很大的提高。然而,即使是最先进的模型仍然会产生逻辑错误,通常称为幻觉。减轻幻觉是建立一致的AGI的关键一步。
我们可以训练奖励模型来检测幻觉,使用结果监督(根据最终结果提供反馈)或过程监督(为思维链中的每个步骤提供反馈)。在以往工作的基础上1,我们使用 MATH 数据集对这两种方法进行了详细比较2作为我们的试验台。我们发现,即使以结果来判断,过程监督也能显著提高绩效。为了鼓励相关研究,我们发布了完整的过程监督数据集。
对齐影响
与结果监督相比,过程监督有几个一致性优势。它直接奖励模型遵循一致的思维链,因为流程中的每个步骤都受到精确的监督。过程监督也更有可能产生可解释的推理,因为它鼓励模型遵循人类批准的过程。相比之下,结果监督可能会奖励一个不一致的过程,而且通常更难审查。
在某些情况下,更安全的人工智能系统方法可能会导致性能下降3,这种成本称为对齐税。一般来说,由于部署最有能力的模型的压力,任何对齐税都可能阻碍对齐方法的采用。我们下面的结果表明,过程监督实际上会产生负对齐税,至少在数学领域是这样。这可以增加过程监督的采用,我们认为这将产生积极的对齐副作用。
解决数学问题
我们使用 MATH 测试集中的问题评估我们的过程监督和结果监督奖励模型。我们为每个问题生成许多解决方案,然后选择每个奖励模型排名最高的解决方案。该图显示了达到正确最终答案的所选解决方案的百分比,作为所考虑解决方案数量的函数。流程监督的奖励模型不仅在各个方面表现更好,而且随着我们为每个问题考虑更多解决方案,绩效差距也会扩大。这向我们表明,过程监督的奖励模型更加可靠。
我们在下面展示了10个问题和解决方案,以及有关奖励模型的优势和劣势的评论。
探索 3 个类别的示例:
真阳性
真阴性
误报
目前尚不清楚这些结果将在多大程度上推广到数学领域之外,我们认为探索过程监督在其他领域的影响对于未来的工作很重要。如果这些结果得到概括,我们可能会发现过程监督为我们提供了两全其美的方法——一种比结果监督更高性能、更一致的方法。