OpenAI研究 通过视频预训练学习玩 Minecraft
我们训练了一个神经网络,通过视频预训练 (VPT) 在大量未标记的人类 Minecraft 游戏视频数据集上玩 Minecraft,同时仅使用少量标记的承包商数据。通过微调,我们的模型可以学习制作金刚石工具,这项任务通常需要熟练的人类超过 20 分钟(24,000 次动作)。我们的模型使用按键和鼠标移动的本地人机界面,使其非常通用,并且代表了向通用计算机使用代理迈出的一步。
互联网包含大量可供我们学习的公开视频。你可以看到一个人进行华丽的演示,一个数字艺术家画出美丽的日落,一个 Minecraft 玩家建造一座复杂的房子。然而,这些视频仅提供了发生的事情的记录 ,并没有准确地记录 它是如何 实现的,即,您不会知道鼠标移动和按键的确切顺序。如果我们想在这些领域中构建大规模 基础模型, 就像我们在语言中使用 GPT所做的那样,这种缺乏动作标签会带来新的挑战,而在语言领域中并不存在,其中“动作标签”只是下一个词在一个句子中。
为了利用互联网上可用的大量未标记视频数据,我们介绍了一种新颖但简单的半监督模仿学习方法:视频预训练 (VPT)。我们首先从承包商那里收集一个小数据集,我们不仅记录他们的视频,还记录他们采取的行动,在我们的例子中是按键和鼠标移动。利用这些数据,我们训练了一个逆向动力学模型 (IDM),它可以预测视频中每一步所采取的动作。重要的是,IDM 可以使用过去 和未来的 信息来猜测每一步的动作。与仅给定过去的视频帧预测动作的行为克隆任务相比,此任务要容易得多,因此需要的数据要少得多 ,这需要推断这个人想做什么以及如何完成它。然后,我们可以使用训练有素的 IDM 来标记更大的在线视频数据集,并通过行为克隆学习行动。
VPT 零样本结果
我们选择在 Minecraft 中验证我们的方法,因为它 (1) 是世界上玩得最活跃的视频游戏之一,因此拥有大量免费提供的视频数据,并且 (2) 是开放式的,有各种各样的东西可以玩做,类似于现实世界的应用程序,例如计算机使用。与 Minecraft 中使用旨在简化探索的简化动作空间的先前 作品不同 ,我们的 AI 使用更普遍适用但也更困难的本地人机界面:20Hz 帧速率的鼠标和键盘。
我们的行为克隆模型(“VPT 基础模型”)接受了 70,000 小时带有 IDM 标签的在线视频的训练,可以完成 Minecraft 中的任务,而这些任务是从头开始强化学习几乎不可能完成的。它学会砍伐树木以收集原木,将这些原木制作成木板,然后将这些木板制作成工作台;这个序列需要一个精通 Minecraft 的人大约 50 秒或 1,000 个连续的游戏动作。
此外,该模型还会执行人类在游戏中经常执行的其他复杂技能,例如游泳、狩猎动物获取食物以及食用该食物。它还学会了“跳柱子”的技能,这是 Minecraft 中的一种常见行为,通过反复跳跃并在自己下方放置一个方块来提升自己。
通过行为克隆进行微调
基础模型旨在具有广泛的行为特征,并且通常能够完成各种任务。为了整合新知识或让他们专注于更窄的任务分布,通常的做法是将这些模型微调到更小、更具体的数据集。作为 VPT 基础模型如何针对下游数据集进行微调的案例研究,我们要求我们的承包商在全新的 Minecraft 世界中玩 10 分钟,并使用基本的 Minecraft 材料建造房屋。我们希望这将增强基础模型可靠地执行“早期游戏”技能(例如建造工作台)的能力。在对该数据集进行微调时,我们不仅看到了在可靠地执行基础模型中已经存在的早期游戏技能方面的巨大改进,但是经过微调的模型还学会了通过制作木制和石制工具来更深入地了解技术树。有时我们甚至会看到一些基本的避难所建筑和特工在村庄中搜索,包括突袭箱子。
通过 BC 微调改善早期游戏行为
数据缩放
也许我们工作中最重要的假设是,使用带标签的承包商数据来训练 IDM(作为 VPT 管道的一部分)比直接从同一小型承包商数据集训练 BC 基础模型要有效得多。为了验证这个假设,我们训练基础模型的数据量从 1 小时增加到 70,000 小时。那些接受过 2,000 小时以下数据训练的人接受了承包商数据的训练,这些数据带有最初收集的用于训练 IDM 的真实标签,而接受过 2,000 小时以上训练的人接受了带有我们的 IDM 标签的互联网数据训练。然后我们采用每个基础模型并将其微调到上一节中描述的房屋建筑数据集。
基础模型训练数据对微调的影响
随着基础模型数据的增加,我们通常会看到制作能力的提高,只有在最大的数据规模上,我们才会看到石器制作的出现。
通过强化学习进行微调
当可以指定一个奖励函数时,强化学习 (RL) 可能是一种强大的方法,可以引发高水平的、甚至可能超过人类的表现。然而,许多任务需要克服艰巨的探索挑战,并且大多数 RL 方法通过 随机 探索先验来解决这些问题,例如,模型通常被激励通过熵奖励随机行动。VPT 模型对于 RL 来说应该是一个更好的先验,因为模拟人类行为可能比采取随机行动更有帮助。我们为我们的模型设置了收集钻石镐的具有挑战性的任务,这是 Minecraft 中前所未有的功能,在使用本地人机界面时变得更加困难。
制作钻石镐需要一系列漫长而复杂的子任务。为了使这个任务易于处理,我们奖励序列中每个项目的代理。
我们发现从随机初始化(标准 RL 方法)训练的 RL 策略几乎没有获得任何奖励,从不学习收集日志并且很少收集木棍。与之形成鲜明对比的是,从 VPT 模型进行微调不仅可以学习制作钻石镐(它在 10 分钟的 Minecraft 剧集中有 2.5% 会这样做),而且在收集所有物品方面甚至具有人类水平的成功率钻石镐。这是第一次有人展示了能够在 Minecraft 中制作钻石工具的计算机代理,这平均需要人类超过 20 分钟(24,000 次动作)。
剧集奖励
结论
VPT 为代理人通过观看互联网上的大量视频来学习行动铺平了道路 。与只会产生 代表性 先验的生成视频建模或对比方法相比,VPT 提供了在更多领域直接学习大规模 行为先验的令人兴奋的可能性 ,而不仅仅是语言。虽然我们只在 Minecraft 中进行实验,但该游戏非常开放,本地人机界面(鼠标和键盘)非常通用,因此我们相信我们的结果对其他类似领域(例如计算机使用)来说是个好兆头。
有关更多信息,请参阅 我们的论文。我们还开源了我们的承包商数据、Minecraft 环境、模型代码和模型权重,我们希望这将有助于未来对 VPT 的研究。此外,我们今年还与 MineRL NeurIPS 竞赛合作。参赛者可以使用和微调我们的模型来尝试解决 Minecraft 中的许多困难任务。有兴趣的可以查看 比赛网页 ,除了20,000美元的常规奖池外,还可以争夺100,000美元的蓝天奖。自我认定的代表性不足的群体和个人可以获得补助金。