转载

OpenAI研究 时间段模型的预测和控制

我们介绍了一种基于状态和动作的时间段上的深度生成模型来学习复杂非线性系统动力学的方法。与在单个离散时间步长上运行的动力学模型不同,我们了解以过去状态、过去行动和计划的未来行动轨迹为条件的未来状态轨迹的分布,以及潜在的先验行动轨迹。我们的方法基于卷积自回归模型和变分自动编码器。它对复杂的随机系统进行长期稳定和准确的预测,有效地表达不确定性并对碰撞、感官噪声和动作延迟的影响进行建模。学习到的动力学模型和动作先验可用于端到端。

详细论文