转载

OpenAI研究 人工智能撰写的评论帮助人类发现缺陷

我们训练了“评论写作”模型来描述摘要中的缺陷。当显示我们模型的评论时,人类评估人员更经常地发现摘要中的缺陷。较大的模型更擅长自我批评,规模更大地改进了批评写作而不是总结写作。这显示了使用 AI 系统来协助人工监督 AI 系统处理困难任务的前景。

我们希望确保未来执行非常困难任务的人工智能系统与人类意图保持一致。 许多 以前  关于 对齐语言模型的工作都 依赖于人类评估作为训练信号。然而,人类很难评估非常困难的任务——例如,很难发现代码库中的每个错误或长篇文章中的每个事实错误。然后,模型可能会学习提供对人类来说看起来不错但存在我们系统地未能注意到的错误的输出。

为了缓解这个问题,我们希望训练 AI 助手来帮助人类对艰巨的任务提供反馈。这些助手应该指出缺陷,帮助人类理解正在发生的事情,并回答他们的问题。这方面的一个例子是我们过去在 书籍摘要方面的工作:阅读整本书是一项大量的工作,但是在章节摘要的协助下,人们可以更轻松地评估书籍摘要。

作为概念证明,我们使用监督学习来训练语言模型来撰写对短篇小说、维基百科文章和互联网上其他文本的基于主题的摘要的评论。我们使用这些模型来协助人类评估者并研究评论写作的尺度特性。

人工智能辅助实验

chart = RuntimeError: 获取失败
我们比较了未接受任何帮助的对照组和看到 8 篇 AI 撰写的评论的受助组之间的 AI 撰写摘要的人类评分。摘要来自 3 个不同的来源。有协助的人发现摘要中的缺陷比无协助的评分者多 50%,他们直接对他们发现的大多数评论使用模型评论。

为了解我们的模型对评估协助有多大用处,我们向标注者展示了每个摘要的 8 个模型编写的评论,对照组没有接受任何协助。我们使用来自三个来源的基于主题的摘要:由我们的模型编写,由人类编写,以及由人类故意编写以具有重要但微妙的缺陷。

通道

新泽西州正处于一场冬季风暴的十字准线中,该风暴可能会使新英格兰部分地区瘫痪,并在周六向花园州倾倒超过一英尺的积雪。预测仍然非常不稳定,并可能在未来 24 小时内发生巨大变化。

全天,Star-Ledger 将在此处提供更新(最新的在最上面),因为有新信息进来,发布监视和警告以及预测发生变化。

晚上 10:30 今晚天气预报员再次警告司机和居民,风暴的潜在危险部分将在周五晚上的高峰时段袭击新泽西州中部和北部的大部分地区。美国国家气象局预报称,由于雨转雪,预计周五晚些时候和周五晚上将出现重大旅行延误。

更多暴风雪更新

• 2 月 8 日星期五:新泽西州暴风雪:暴风雪、交通、洪水等的实时更新

• 2 月 9 日星期六:新泽西州暴风雪更新:停电、降雪总量和其他风暴

新闻预报说,到周五下午晚些时候,许多地方都会下降。在 78 号州际公路以北的一些地方,预计降雪速度为每小时 1 到 2 英寸。在苏塞克斯、莫里斯和沃伦等县,预计积雪量在 6 到 16 英寸之间。

对于从海洋县的杰克逊到萨默塞特县的萨默维尔以及向东到长滩岛的许多城镇,预计积雪量在 4 到 10 英寸之间。预计整个地区都会有大风,在蒙茅斯县达到顶峰,阵风可能高达每小时 45 英里。

最新预报称,到周六黎明时分,小雪将逐渐减弱,取而代之的是一个阳光明媚、狂风大作的日子。

晚上 9 点 12 分 由于预报员仍预测新泽西州将迎来一场冬季风暴,全州的许多学校都提前取消或推迟了周五的课程。

晚上 8:45 在暴风雨来临之前,新泽西州交通局宣布将在周五全天和周六全天提供全系统范围内的交叉兑现,使客户能够使用他们的车票或换乘其他出行方式——铁路、公共汽车或轻轨轨。

下午 5 点 根据 NY NJ PA Weather 气象学家史蒂文·迪马蒂诺 (Steven DiMartino) 的说法,雷雪的特征(就像它听起来的那样——大雪期间的雷电)正在出现在几个模型上。

这表明明天晚上新泽西州东部可能会下大雪,并增加了总数的不可预测性。

“当你遇到这种对流雪时,它会下得非常、非常猛烈,”他说。“很难确定这些波段将出现的位置。你最终可能会遇到这样一种情况,一个城镇有 18 英寸的积雪,而下一个城镇有 3 英寸。”

迪马蒂诺强调了预测中的波动性,并敦促该州居民密切关注不断变化的情况。最终将在局部地区发生的事情的许多细节要等到明天风暴众生聚集在一起时才能确定。

他说,这些较重的雪带形成的可能性可能是为什么一些预测模型(如上图的 NAM)预测的总降雪量比国家气象局要大得多的原因。

[]

今天下午发布的北美模式 (NAM) 显示,新泽西州许多地区的降雪量超过一英尺。

下午 4:13 国家气象局已向新泽西州东北部的部分地区发布暴风雪警告,包括纽瓦克和泽西城,以及纽约的五个行政区,预计这些地区的降雪量将超过 14 英寸,并伴有呼啸的狂风,降雪量将严重减少能见度。

暴风雪警告从周五早上 6 点到周六下午 1 点有效,并警告有 10 到 14 英寸的降雪,局部地区的降雪量更高,并且出现白雪皑皑的天气,阵风时速可达 45 英里。预计新泽西州东北部沿海地区、卑尔根县南部和帕塞克县以及哈德逊县东部、埃塞克斯县和联合县将出现暴风雪天气。

再往北和往西,预计还会有 10 到 14 英寸的降雪,但预计风力不会达到暴风雪标准。冬季风暴警告在那里生效。

下午 3:24 位于霍利山的国家气象局已向新泽西州北部和中部的几个县发布冬季风暴警告,并将警告范围扩大到比之前发布的预警覆盖的区域更南的地方。

已向苏塞克斯县、沃伦县、莫里斯县、亨特登县、米德尔塞克斯县、蒙茅斯县、海洋县和伯灵顿西北部县发出冬季风暴警告。在苏塞克斯县、沃伦县和莫里斯县,国家气象局预计降雪量在 10 到 16 英寸之间,而警告区内的其他县可能会降雪 6 到 10 英寸。这些警告从周五早上 6 点到周六早上 6 点有效。

预计覆盖新泽西州东北部的国家气象局纽约厄普顿办事处很快也会效仿。

再往南,该州其他地区已发布冬季天气预报,预计那里将有两到五英寸的降雪。

下午 3:07 新泽西州的私营和公共部门现在正准备迎接重大风暴的影响。

根据航班跟踪网站 FlightAware 的数据,超过 350 架联合航空公司的航班已经被取消,其中许多是从纽瓦克自由国际机场起飞的。NJ Transit 宣布他们将在其整个系统中交叉兑现车票。泽西中央电力与照明公司 (Jersey Central Power & Light) 和 PSE&G 等公用事业公司表示,他们将安排额外的工作人员处理由大雪和大风造成的潜在电力问题。

此外,全州的几项赛事都被推迟,例如两场高中田径锦标赛。国家应急管理办公室尚未在特伦顿开设运营中心,但仍有可能。OEM 发言人 Mary Goepfert 表示,该州正在密切关注这场风暴,并已与当地应急管理人员联系以做好准备。

下午 2:07 欧洲模型出现了,看起来下雪了,就像之前运行的许多其他模型一样。如果这是为了证实,新泽西州北部和中部肯定会出现 6 到 12 英寸以上的降雪,尤其是 195 号州际公路以北。

拥有永久业权的气象学家和 NY NJ PA Weather 的所有者 Steven DiMartino 表示,到目前为止,他最喜欢欧洲的解决方案,并且同意总数。

你问 NAM 是什么样子的?好吧,降雪打印输出贴在下面,但 Eric Holthaus 在推特上发布了一张由 NAM 模型为明晚制作的模拟雷达的图片。绝对的怪物。

下午 1:50 新泽西州沿岸受飓风桑迪影响最严重的地区即将再次受到打击。据美国国家气象局称,由于防御已经被削弱,沿海社区可能会受到沿海洪水的重大影响,最严重的是周六早上。

“我真的很担心受桑迪影响最严重的地区,”NWS 气象学家 Gary Szatkowski 说。“时间开始对我们不利......我们可以看到大量的海滩侵蚀。我知道人们一直在努力工作,但可以侵蚀的东西更少。我们可以很容易地看到海浪和水进入您通常不会进入的区域。”

Szatkowski 说,他特别担心拉里坦湾 (Raritan Bay) 海岸,周六早上涨潮时可能会出现三英尺高的风暴潮,上面有五到七英尺的海浪。

下午 1:22 新泽西州北部明天晚上的通勤情况可能很糟糕。到晚上 7 点,新泽西州北部和中部大片地区的降雪量可能达到每小时两英寸。这种规模的降雪率可能会大大降低能见度,对道路造成严重破坏,并使旅行变得危险,如果不是几乎不可能的话。

负责国家气象局霍利山办公室的气象学家加里·萨特科夫斯基 (Gary Szatkowski) 表示,他“非常担心”下午的恶化情况,并在推特上发布了一张地图,显示晚上 7 点将有强降雪的威胁。

下午 12:34 关于这场风暴,需要记住的一件重要事情是预测的波动性仍然很高,尽管模型一直在下雪。该州气候学家大卫罗宾逊表示,该预测的失败可能性是“巨大的”,预测轨迹的最轻微变化可能意味着该州大部分地区发生大暴风雪和主要降雨事件之间的差异。

《华尔街日报》的埃里克·霍尔索斯 (Eric Holthaus) 指出,风暴前有多少暖空气进入该地区至关重要

12:04 PM 纽约州霍利山和厄普顿的国家气象局今天上午都发布了有关即将到来的风暴的简报包。每个人都警告说,周五晚上新泽西州北部可能会出现暴风雪天气。霍利山建议,随着风暴的展开,可能需要发出暴风雪警告。

国家气象局在非常特殊的情况下会发出暴风雪警告。在该机构触发此类警告之前,预计风速至少为每小时 35 英里并且能见度降低到四分之一英里以下并持续三个小时是必要的。旅行将变得几乎不可能。

上午 11:53 罗格斯大学 (Rutgers University) 的州气候学家大卫罗宾逊 (David Robinson) 表示,他今天并不羡慕预报员,称这种风暴是“新泽西州气象学家必须做出的最困难的预报”。出于多种原因,从新泽西州的地理到大气的热分布,预测都很复杂。更多关于为什么新泽西州的冬季风暴在以后很难确定。

上午 11:35 关于风暴的预报模型指南继续变化,但似乎集中在新泽西州北部和中部的降雪解决方案上。一夜之间,几个可靠的模型(The European、GFS 和 NAM)展示了对这场风暴截然不同的解决方案,展示了从小型事件到将对该州北部地区的旅行产生严重影响的大型冬季风暴的一切。

今天早上,GFS 和 NAM 均显示 I-195 州际公路以北的新泽西州大部分地区积雪数英寸,某些地区可能超过一英尺。欧洲模型的最新运行被认为是最可靠的模型之一,将于下午 1 点 30 分左右

发布

雪脚。

请记住,每个模型运行只是国家气象局用于进行预测的大量数据之一,不应将单个模型视为将要发生的事情的完整表示。

上午 11:30 对于新泽西州北部和中部的绝大多数地区,冬季风暴观察仍然有效。目前的预报显示有 6 到 12 英寸的降雪,新泽西州北部的大部分地区可能会有更高的降雪量。

由于这场风暴非常复杂且仍有很多不确定性,尤其是雨/雪线将落在何处,国家气象局将推迟到今天下午才发布任何警告。

_美联社对这份报告做出了贡献。_

关注@SStirling

读者注意:如果您通过我们的附属链接之一购买商品,我们可能会赚取佣金。

关于风暴对日常生活的影响,这篇文章是怎么说的?

概括

由于暴风雪的条件已经成熟,预计日常活动将在暴风雨期间严重中断。预计旅行将受到严重影响,NJ Transit 宣布,通勤者将能够使用他们的车票选择任何交通方式,如公共汽车、渡轮等,也可以将其用于其他交通方式。预计能见度也将大大降低。此外,由于沿海地区已经受到飓风桑迪的影响,这场风暴可能会将波浪和水推向内陆,达到比以前看到的更远的程度。风暴还可能最终摧毁道路,使旅行变得不可能。最后,除了几项活动外,许多学校先发制人地取消了学校。

批评

人写的

回复不准确地提到渡轮是暴风雨期间的替代交通选择。

尽管摘要对于人类来说实际上并不是一项艰巨的任务,而且我们的模型并不比人类更有能力,但它们已经提供了有意义的帮助:当被要求评估模型编写的摘要时,受助组发现的缺陷比对照组多 50% . 对于故意误导性的摘要,帮助将人类发现预期缺陷的频率从 27% 提高到 45%。

批评的缩放属性

只有在他们能够自我批评时,对模型编写的摘要的帮助才有效。我们要求人们对模型编写的自我批评的有用性进行评分,并发现更大的模型更擅长自我批评。

chart = RuntimeError: 获取失败
较大的模型更擅长在我们基于主题的摘要领域进行自我批评:尽管较大的模型的答案更难批评,但它们会对自己的输出产生更有帮助的批评。在此图中,模型比例在微调后以对数损失 (nats) 衡量。有用性是由人判断模型生成的对模型生成的答案的评论是否有效以及是否有助于理解摘要质量来确定的。我们过滤人类发现批评的摘要。

我们还发现,大型模型能够使用自我批评直接改善其输出,而小型模型则无法做到。与使用更差的评论或没有评论相比,使用更好的评论有助于模型做出更好的改进。

模型会告诉我们他们所知道的一切吗?

为了对困难的任务提供最好的评估帮助,我们希望模型能够传达他们“知道”的所有问题。每当模型正确预测答案有缺陷时,该模型是否也能产生人类理解的具体批评?

这对于可能试图误导人类主管或隐藏信息的监督模型尤为重要。我们想训练同样聪明的辅助模型来指出人类没有注意到的东西。

不幸的是,我们发现模型更擅长辨别而不是批评他们自己的答案,这表明他们知道一些他们不能或没有阐明的问题。此外,对于较大的模型,辨别能力和批判能力之间的差距似乎并未缩小。缩小这种差距是我们对齐研究的一个重要优先事项。

下一步

这项工作的一个重要局限是,基于主题的摘要实际上并不是一项艰巨的任务:人类对它的理解非常好,他们只需要大约 10 分钟就可以评估一个摘要。为了更好地理解人工智能辅助评估的局限性,我们需要处理人类难以评估的任务。

尽管如此,这些结果让我们乐观地认为,我们可以训练模型为人类提供有意义的反馈帮助。这是我们对齐策略的一个重要支柱,从辩论 和 递归奖励建模的工作开始 。从长远来看,我们希望建立可以信任的助手来承担评估所需的所有认知劳动,这样人们就可以专注于传达他们的偏好。

详细论文