OpenAI研究 通过学习深度逆动力学模型从模拟转移到现实世界
在模拟中制定控制策略通常比在现实世界中直接运行实验更实用、更安全。这适用于从规划和优化中获得的策略,更适用于从强化学习中获得的策略,这通常对数据要求很高。然而,在模拟中成功的策略在部署到真实机器人上时通常不起作用。然而,通常策略在模拟中所做的总体要点在现实世界中仍然有效。在本文中,我们研究了这样的设置,其中在模拟中遍历的状态序列对于现实世界仍然是合理的,即使控制的细节不是这样,当关键差异在于详细的摩擦、接触、质量时可能会出现这种情况和几何属性。在执行过程中,在每个时间步,我们的方法计算基于模拟的控制策略会做什么,但是,我们的方法不是在真实的机器人上执行这些控制,而是计算模拟期望的下一个状态将是什么,然后依赖在一个学习到的深度逆动力学模型上来决定哪个现实世界的行动最适合实现这些下一个状态。深度模型与其训练数据一样好,我们还提出了一种数据收集方法(增量地)学习深度逆动力学模型。我们的实验表明,我们的方法与为处理模拟与现实世界模型差异而开发的各种基线相比具有优势,包括输出误差控制和高斯动力学自适应。我们的方法不是在真实的机器人上执行这些控制,而是计算模拟期望的下一个状态,然后依靠学习的深度逆动力学模型来决定哪个真实世界的动作最适合实现这些下一个州。深度模型与其训练数据一样好,我们还提出了一种数据收集方法(增量地)学习深度逆动力学模型。我们的实验表明,我们的方法与为处理模拟与现实世界模型差异而开发的各种基线相比具有优势,包括输出误差控制和高斯动力学自适应。我们的方法不是在真实的机器人上执行这些控制,而是计算模拟期望的下一个状态,然后依靠学习的深度逆动力学模型来决定哪个真实世界的动作最适合实现这些下一个州。深度模型与其训练数据一样好,我们还提出了一种数据收集方法(增量地)学习深度逆动力学模型。我们的实验表明,我们的方法与为处理模拟与现实世界模型差异而开发的各种基线相比具有优势,包括输出误差控制和高斯动力学自适应。然后依靠学习到的深度逆动力学模型来决定哪种现实世界的行动最适合实现这些下一个状态。深度模型与其训练数据一样好,我们还提出了一种数据收集方法(增量地)学习深度逆动力学模型。我们的实验表明,我们的方法与为处理模拟与现实世界模型差异而开发的各种基线相比具有优势,包括输出误差控制和高斯动力学自适应。然后依靠学习到的深度逆动力学模型来决定哪种现实世界的行动最适合实现这些下一个状态。深度模型与其训练数据一样好,我们还提出了一种数据收集方法(增量地)学习深度逆动力学模型。我们的实验表明,我们的方法与为处理模拟与现实世界模型差异而开发的各种基线相比具有优势,包括输出误差控制和高斯动力学自适应。