转载

OpenAI研究 学习沟通

我们的假设是,真正的语言理解将来自学习单词并结合单词如何影响世界的智能体,而不是在庞大的文本语料库中发现模式。作为第一步,我们想看看合作代理是否可以在他们之间开发一种简单的语言。

训练代理人发明一种语言

我们刚刚发布了 初步结果 ,其中我们教 AI 代理创建语言,方法是将它们放入一组简单的世界中,赋予它们交流的能力,然后为它们提供可以通过与其他代理交流来最好地实现的目标。如果他们实现了目标,那么他们就会得到奖励。我们使用强化学习来训练他们,并且由于精心设计的实验,他们开发了一种共享语言来帮助他们实现目标。

我们的方法产生了发明一种(简单!)语言的代理,这种语言是 有根据的 和 组合的。扎根意味着语言中的单词与说话者在其环境中直接体验到的事物相关联,例如,说话者在“树”一词与树木的图像或体验之间形成关联。Compositional 是指说话者可以将多个单词组合成一个句子来表示一个特定的想法,例如让另一个代理人去一个特定的位置。

多代理通信

为了训练代理,我们将实验表示为合作而非竞争的多代理强化学习问题。智能体存在于具有简单地标的二维世界中,每个智能体都有一个目标。目标可能会有所不同,从查看或移动到特定位置,到鼓励单独的代理移动到某个位置。每个代理都可以向组广播消息。每个代理人的奖励是支付给所有代理人的奖励总和,鼓励协作。

在每个时间步,我们的 RL 智能体可以采取两种动作——(i) 环境动作,比如四处走动或看东西,以及 (ii) 交流动作,比如向所有其他智能体广播一个词。(请注意,尽管代理提出了我们发现与对象和其他代理相对应的词,以及“查看”或“转到”等动作,但对于代理而言,这些词是由单热向量表示的抽象 符号——为了便于解释,我们用捕捉其含义的英文单词标记这些单热向量。)在代理采取行动之前,它会观察其他代理从前一个时间步的通信以及所有实体的位置和世界上的物体。它将这种交流存储在一个私有的递归神经网络中,让它记住它听到的单词。

环境流

我们使用通过可区分的通信通道发送的离散通信动作(由单独的类似单词的符号形成的消息)。如果一个通信通道允许智能体直接相互通知他们在每个时间步应该发送什么消息,通过稍微改变他们的消息以使两个智能体期望收到的奖励发生积极变化,则通信通道是可区分的。代理通过计算梯度来完成此操作  与发送消息的变化有关的未来奖励(即,不同的消息会改变多少奖励)。例如,如果一个代理意识到如果第二个代理发送不同的信息它可以更好地执行任务,第一个代理可以准确地告诉第二个代理如何修改其消息以使其尽可能有用。换句话说,代理人会问这样一个问题:“我应该如何修改我的通信输出以在未来获得最多的公共奖励?”。

以前的努力通过让代理相互发送一个 实数向量 或 二进制值的连续近似值 ,或者使用 不可微分的通信 和训练来实现这种可微分的通信。我们使用 Gumbel-Softmax 技巧,在训练期间用连续表示来近似离散通信决策。这让我们两全其美:在训练过程中,可区分的通道意味着代理可以通过使用连续表示快速学习如何相互交流,在训练结束时最终会融合到离散输出上,这些输出更具可解释性并显示出诸如组合性。

在接下来的视频中,我们展示了我们的智能体如何进化语言以适应其复杂的情况,单独的智能体不需要交流,两个智能体发明单词短语以在简单任务中相互协调,三个智能体组成多个句子中的单词来完成更具挑战性的任务。

描绘代理人达到红色目标的目标的图表

实验设置如何影响语言的演变

所有的 研究项目都有并发症;在这种情况下,我们的代理人经常发明不显示我们想要的组合特征的语言。即使他们成功了,他们的解决方案也有自己的特质。

我们遇到的第一个问题是代理人倾向于创建一个单一的话语并在其中穿插空格以创造意义。这种摩尔斯电码语言难以破译且无法组合。为了纠正这个问题,我们对每一句话都施加了轻微的成本,并增加了快速完成任务的偏好。这鼓励代理人简洁地使用他们的沟通渠道,从而导致更大词汇量的发展。

我们面临的另一个问题是智能体试图使用单个词来编码整个句子的含义。当我们赋予他们使用大量词汇的能力时,就会发生这种情况;他们最终会创建一个单一的话语来编码整个句子的含义,例如“红色特工,去蓝色地标”。虽然对代理有用,但这种方法需要词汇量随句子长度呈指数增长,并且不符合我们创建可被人类解释的 AI 的更广泛目标。)为了阻止代理创建这种语言,我们加入了一个偏好通过偏好使用已经流行的词来获得紧凑的词汇量,灵感来自 句法交流的演变中概述的想法. 我们通过对说出特定单词的奖励与之前使用该单词的频率成正比来整合这一点。

最后,我们遇到了代理人发明地标参考不是基于颜色,而是其他线索,如空间关系。例如,代理会发明像“最顶层”或“最左边”地标这样的词来指代基于全球二维坐标系的位置。虽然这种行为非常有创意,但它对我们特定的环境实现来说是相当具体的,如果我们大幅改变代理人所居住的世界的地理环境,它可能会导致问题。为了解决这个问题,我们将代理人置于一个以自我为中心的坐标系中(这样就没有单一的共享坐标系)。这处理了奇怪的方向,并导致他们通过颜色属性来引用地标。

不能说话?让我指明方向。听不见?让我来指导你。

当智能体无法通过文本相互交流而不得不在模拟环境中执行物理动作时,这种训练方法也适用。在接下来的动画中,我们展示了智能体通过将其他智能体指向或引导至目标,或者在极端情况下将盲人智能体推向他们的目标,以这种方式即兴创作。

指向
引导
推动
从左到右:一个 AI 代理通过指向向另一个代理发送目标位置信号;较小的代理人引导较大的代理人朝着目标前进;代理人将一个看不见的代理人推向一个目标。

推断语言和基础语言

如今,许多人已将机器学习应用于与语言相关的任务并取得了巨大成功。大规模 ML 技术已经在翻译、语言推理、语言理解、句子生成和其他领域取得了重大进展。所有这些方法都通过向它们提供大量文本数据来工作,系统从中提取特征并发现模式。虽然这项工作产生了许多发明和创新,但它在所学语言的表征质量方面存在缺陷。没有太多迹象表明,如果你以这种方式训练一台计算机使用语言,它就会深入了解该语言是如何与现实世界联系在一起的。通过我们的研究,

其语言模型在没有基础的情况下进行训练的计算机很像被困在 John Searle 的 中文房间的角色,在那里它们将输入的文本与一种通过分析大量文本创建的语义词典进行比较。目前尚不清楚这些计算机对文本所代表的内容有多少想法,因为它们从未离开过这个房间并且能够与文本描述的世界进行交互。

下一步

我们希望这项关于发展语言的研究能让我们开发出将自己的语言与自己的生活经验联系起来的机器。我们认为,如果我们慢慢增加他们所处环境的复杂性,以及允许代理人自己采取的行动范围,他们就有可能创造出一种表达性语言,其中包含的概念超出了此处演变的基本动词和名词。

随着这种发明语言的复杂性增加,让这些语言可以被人类解释对我们来说将变得具有挑战性。这就是为什么在我们的下一个项目中,Ryan Lowe 和 Igor Mordatch 将研究通过让代理与说英语的代理交流来将发明的语言与英语联系起来的方法。这将自动将他们的语言翻译成我们的语言。这是一项跨学科的事业,跨越人工智能、语言学和认知科学领域,作为其中的一部分,我们将与加州大学伯克利分校的研究人员合作。