转载

OpenAI研究进化的策略梯度

我们正在发布一种称为进化策略梯度的实验性元学习方法，该方法可以进化学习代理的损失函数，从而可以对新任务进行快速训练。使用 EPG 训练的代理可以在测试时成功完成训练制度之外的基本任务，例如学习导航到房间另一侧的物体，而不是在训练期间放置的物体。

OpenAI研究 进化的策略梯度