我们正在发布一种称为进化策略梯度的实验性元学习方法,该方法可以进化学习代理的损失函数,从而可以对新任务进行快速训练。使用 EPG 训练的代理可以在测试时成功完成训练制度之外的基本任务,例如学习导航到房间另一侧的物体,而不是在训练期间放置的物体。
详细论文