转载

OpenAI研究 解决数学应用题

我们已经训练了一个系统来解决小学数学问题,其准确度几乎是微调 GPT-3 模型的两倍。它解决的问题大约是真实儿童的 90%:一小部分 9-12 岁的孩子在我们数据集的测试中得分为 60%,而我们的系统在同样的问题上得分为 55%。

为什么重要

这很重要,因为今天的人工智能在常识性多步推理方面仍然很薄弱,即使对于小学生来说也很容易。我们通过训练我们的模型来识别它的错误来取得这些结果,这样它就可以反复尝试直到找到有效的解决方案。

介绍

像 GPT-3 这样的大型语言模型有许多令人印象深刻的技能,包括它们模仿多种写作风格的能力,以及它们广泛的事实知识。然而,他们很难执行需要准确的多步推理的任务,例如解决小学数学应用题。尽管该模型可以模仿正确解决方案的节奏,但它经常会在逻辑上产生严重错误。

为了在复杂的逻辑领域匹配人类的表现,我们的模型必须学会识别它们的错误并谨慎选择它们的步骤。为此,我们训练验证者评估提议的解决方案是否正确。为了解决一个新问题,我们使用验证者从许多提议的解决方案中选择最好的。我们收集了新的 GSM8K 数据集来评估我们的方法,我们正在发布此数据集以促进研究。

在下面的十个例子中,我们展示了由我们的新方法、验证和我们的基线方法、微调生成的解决方案。

问题

阿里是一所私立学校的院长,他在那里教一个班。约翰还是一所公立学校的院长。约翰在他的学校有两个班级。每个班级的容量是阿里班级的 1/8,可容纳 120 名学生。两所学校的综合容量是多少?

蒂姆种了 5 棵树。每年他从每棵树上摘下 6 个柠檬。他在十年内得到了多少个柠檬?

安东尼有 50 支铅笔。他把 1/2 的铅笔给了布兰登,他把剩下的 3/5 的铅笔给了查理。他保留了剩下的铅笔。安东尼有多少支铅笔?

John drives to his friend's house 200 miles away. He drives at a speed of 70 mph. He had to take a detour that added 10 miles to his trip. After he gets there he takes a route home that is 240 miles but he goes 80 mph. How long did the trip take?

Richard, Jerry, and Robert are going to share 60 cherries. If Robert has 30 cherries, and has 10 more than Richard, how many more cherries does Robert have than Jerry?

Katherine has 5 hanging baskets to fill. In each basket she wants to add 3 petunias and 2 sweet potato vines. The petunias cost $3.00 apiece and the sweet potato vines cost $2.50 apiece. How much will she spend filling all 5 hanging baskets?

Debra is monitoring a beehive to see how many bees come and go in a day. She sees 30 bees leave the hive in the first 6 hours, and then she sees 1/2 that many bees return in the next 6 hours. She sees two times as many bees as she saw first leave the hive fly from the hive and leave in the next 6 hours. Then every bee that left before that hadn't already returned returns to the hive in the next 6 hours. How many bees did Debra see return to the hive in the last 6 hours of the day?

Timothy's locker is 24 cubic inches. Zack's locker is half as big as Timothy's locker. Peter's locker is 1/4 as big as Zack's locker. How big is Peter's locker in cubic inches?

阿玛莉亚、梅根和迪奥分担了家务活,这样每个人都有事可做,而其他人则在工作。Amalia 的工作是修剪草坪,这花了她 4 个小时。Megan 不得不遛狗,这比 Amalia 多花了 2 个小时来完成家务。Dior 的工作是洗衣服,她比 Amalia 修剪草坪的时间多了 4 个多小时。计算他们一起完成家务所花费的总时间。

约翰每半小时喝一瓶水。一个普通的数独谜题需要他 45 分钟。极限数独需要 4 倍的时间。那段时间他喝了多少瓶水?

1 / 10
回答方法:  175B验证

阿里的班级有 120 名学生。

John 的每个班级可容纳 120/8 = 15 名学生。

John 的两个班级的总容量为 15 名学生 * 2 个班级 = 30 名学生。

两所学校的总容量为 120 名学生 + 30 名学生 = 150 名学生。

150
正确的
回答方法:  175B微调

John 的每个班级可容纳 120 名学生/8 = 15 名学生。

因此,John 教授的两个班级总共有 15 名学生 * 2 = 30 名学生。

阿里的班级容量是120个学生*1=120个学生。

因此,阿里学校的总容量为120名学生+30名学生=150名学生。

因此,两所学校的总容量为 150 名学生 + 30 名学生 = 180 名学生。

180
不正确
回答方法:  6B验证

如果每个班的容量是阿里班的1/8,那么约翰班的总容量就是1/8*120=15.0

加起来,两所学校的容量为 15.0+120= 135.0

135
不正确
回答方法:  6B微调

阿里一个班有 120 名学生,他每个班有 8 名学生,所以他有 120/8 = 15 个班级

他所有班级的总容量是 15*120 = 1800 名学生

约翰有两个班级,每个班级的容量是阿里班级的 1/8,所以他每个班级有 2*15 = 30 名学生

John 的两个班级的总容量为 30*2 = 60 名学生

合并后,两所学校的总容量为 1800+60 = 1860 名学生

1860年
不正确

GSM8K数据集

GSM8K 包含 8.5K 道高质量的小学数学应用题。每个问题需要 2 到 8 个步骤来解决,解决方案主要涉及使用基本算术运算 (+ − × ÷) 执行一系列基本计算以获得最终答案。经过微调的最先进的语言模型在此数据集上表现不佳,这主要是由于问题的高度多样性。同时,GSM8K 解决方案仅依赖于基本概念,因此实现高测试性能是一个易于处理的目标。

GSM8K 中的解决方案是用自然语言而不是纯数学表达式编写的。通过坚持使用自然语言,模型生成的解决方案更容易被人类解释,并且我们的方法相对领域不可知。

培训验证者:从错误中学习的模型

数学推理中的一个重大挑战是对个别错误的高度敏感性。自回归模型逐个标记地生成每个解决方案标记,没有纠正自身错误的机制。偏离路线的解决方案很快变得无法恢复,如所提供的示例所示。

我们通过训练验证者来评估模型生成的解决方案的正确性来解决这个问题。验证者被赋予许多可能的解决方案,所有这些都是由模型本身编写的,并且他们被训练来决定哪些(如果有的话)是正确的。

为了在测试时解决一个新问题,我们生成 100 个候选解决方案,然后选择验证者排名最高的解决方案。验证者受益于这种固有的可选性,以及验证通常比生成更简单的任务这一事实。

我们发现,只要数据集足够大,我们就能从验证中获得性能的大幅提升。对于太小的数据集,我们认为验证者通过记住训练集中的最终答案而过度拟合,而不是学习任何更有用的数学推理属性。

在完整的训练集上,6B 参数验证略优于微调的 175B 参数模型,性能提升大约相当于模型大小增加 30 倍。此外,如果我们根据当前结果进行推断,验证似乎可以更有效地扩展到额外的数据。

结论

产生正确的论点并识别不正确的论点是开发更通用的 AI 的关键挑战。小学数学是这些能力的理想测试平台。GSM8K 中的问题在概念上很简单,但一个细微的错误就足以破坏整个解决方案。识别和避免此类错误是我们模型开发的一项关键技能。通过培训验证者,我们教会我们的模型将好的解决方案与不太成功的解决方案区分开来。我们希望这些技能在我们尝试将我们的模型应用于逻辑上更复杂的领域时变得越来越重要。

作者

致谢

感谢 Surge AI 团队执行 GSM8K 数据收集。

感谢我们论文的共同作者:Mohammad Bavarian、Mark Chen、Heewoo Jun、Lukasz Kaiser、Matthias Plappert、Jerry Tworek、Jacob Hilton、Reiichiro Nakano 和 Christopher Hesse。

感谢那些为此版本提供反馈的人:Dan Hendrycks、Leo Gao、Alec Radford、Giambattista Parascandolo、Harri Edwards、Yura Burda、Nick Ryder、Ilya Sutskever、Mira Murati、Sam Altman、Aris Konstantinidis、Andrew Mayne、Hannah Wong 和史蒂夫道林。

感谢自愿参加我们考试的同学们!

详细论文