WO2023159978A1

WO2023159978A1 - 一种基于强化学习和位置增量的四足机器人运动控制方法

Info

Publication number: WO2023159978A1
Application number: PCT/CN2022/125983
Authority: WO
Inventors: 张伟; 盛嘉鹏; 陈燕云; 方兴; 谭文浩
Original assignee: 山东大学
Priority date: 2022-02-28
Filing date: 2022-10-18
Publication date: 2023-08-31
Also published as: CN114563954A

Abstract

一种基于强化学习和位置增量的四足机器人运动控制方法，涉及四足机器人控制领域，获取运动环境信息、四足机器人姿态信息和足底位置信息；基于获取的信息，生成四足机器人运动时各个预设时间步长内的足底位置，计算各个时间步长内足底位置的变化量；以单个时间步长内的最大移动距离为约束，同时累积时间步长得到足底位置轨迹；基于足底位置轨迹结合预设奖励函数来控制四足机器人执行相应动作，以使四足机器人保持运动平衡；针对目前四足机器人运动控制方法中生成的电机位置发生较大突变引起电机损伤的问题，通过对四足机器人每个时间步内的足底位置变化量进行约束，避免控制命令的突变，增强了四足机器人通过复杂地形的能力。

Description

一种基于强化学习和位置增量的四足机器人运动控制方法

本发明要求于2022年2月28日提交中国专利局、申请号为202210191785.X、发明名称为“一种基于强化学习和位置增量的四足机器人运动控制方法”的中国专利申请的优先权，其全部内容通过引用结合在本发明中。

技术领域

本发明涉及四足机器人控制领域，具体涉及一种基于强化学习和位置增量的四足机器人运动控制方法。

背景技术

四足机器人被广泛应用于监测巡逻、环境侦察和运输供应等场景。另一方面，四足机器人的灵活性和适应性也使其动力学特性更加复杂，这让实现四足机器人类似动物的运动成为一项极大的挑战，而灵活高效的运动控制是各类移动机器人特定功能得以实现的基础与前提。

四足机器人的运动控制主要有基于模型的方法和基于强化学习的方法两大类。

(1)传统建模控制方法

传统建模控制方法根据机器人状态信息进行特征提取并获取有价值的信息，然后由控制器计算电机控制命令。该方法主要有两个技术难点：首先，需要建立精确的被控对象模型，而四足机器人作为高阶非线性复杂系统，很难建立起精确的数学模型。其次，非线性控制器设计难度大，约束条件多，求解困难，还需要进行明确的状态估计并依靠经验设定阈值来触发有限状态机来协调运动控制器。

(2)基于深度强化学习的控制方法

基于深度强化学习的控制方法无需精确模型，能够通过环境交互在各种复杂环境下自动地为机器人设计控制策略，极大地减少了人类劳动负担，并且取得出了良好的控制效果。该方法目前主要有纯强化学习方法和与传统控制结合的强化学习方法两个方向。由于四足机器人属于动态稳定平衡系统，自由度较多，因而纯强化学习的四足机器人运动控制奖励设计和训练困难，且与自然界四足动物相比，很容易出现不协调不自然的步态。一种有效的解决方案是直接结合传统控制方法，构建分层控制框架，强化学习作为上层策略控制下层的传统控制器，由传统控制器输出电机控制指令，实现四足机器人稳定行走。该方法在一定程度上降低了强化学习难度，但强化学习控制性能受到低层级传统控制器的限制，环境适应能力不足。这可以通过引入周期振荡器来替代复杂的下层的控制器，改由强化学习直接输出周期振荡器参数和足底位置残差，最终合成电机的控制指令。然而，由于神经网络的非线性，使得神经网络直接生成的电机位置会发生较大突变，电机需要输出极大的扭矩才能追踪目标位置，很容易造成电机的物理损伤。虽然可以通过引入电机输出扭矩或速度的约束奖励函数来缓解这个问题，但这也很大程度上加大了奖励函数设计和参数的调整难度，使得基于强化学习的方法无法得到性能良好的运动控制策略。

发明内容

本发明的目的是针对现有技术存在的缺陷，提供一种基于强化学习和位置增量的四足机器人运动控制方法及系统，通过对四足机器人每个时间步内的足底位置变化量进行约束，避免控制命令的突变，无需平滑度和电机速度奖励即可获得平滑、流畅的足底轨迹，增强了四足机器人以灵活、平稳、流畅的步态通过复杂地形能力。

本发明的第一目的是提供一种基于强化学习和位置增量的四足机器人运动控制方法，包括以下步骤：

获取运动环境信息、四足机器人姿态信息和足底位置信息；

基于获取的信息，生成四足机器人运动时各个预设时间步长内的足底位置，计算各个时间步长内足底位置的变化量；

以单个时间步长内的最大移动距离为约束，同时累积时间步长得到足底位置轨迹；

基于足底位置轨迹结合预设奖励函数来控制四足机器人执行相应动作，以使四足机器人保持运动平衡。

进一步地，所述四足机器人上设有惯性测量单元和关节电机编码器，以获取四足机器人的基准线速度、方向、角速度和关节位置。

进一步地，获取四足机器人关节状态历史信息和腿部相位信息，并进行处理后作为四足机器人控制输入，得到下一动作命令来控制机器人运动。

进一步地，通过关节状态历史信息包括关节位置误差和关节速度，其中关节位置误差为当前关节位置与上一关节位置指令的偏差，以实现地面接触检测。

进一步地，基于强化学习策略选择足底位置区域，以此区域作为足底位置的变化区间，从而约束足底在单个时间步长内的最大移动距离。

进一步地，四足机器人的每条腿使用独立的轨迹生成器来输出Z轴方向的足底位置；基于强化学习策略输出足底位置增量和每条腿的调节频率，累加沿X轴、Y轴方向的足底位置增量得到的X轴、Y轴方向的足底位置，叠加Z轴方向足底位置增量和先验值得到Z轴方向的足底位置。

进一步地，四足机器人基础框架中预先定义目标足底位置，结合相应目标位置计算目标关节电机位置，并计算关节力矩，追踪目标关节电机位置。

进一步地，设计四足机器人基座线速度奖励函数和旋转方向奖励函数，以鼓励机器人跟踪上层控制指令给出给定的速度指令和旋转方向指令。

进一步地，分别设计角速度奖励函数、侧向协调奖励函数、纵向协调奖励函数、步幅奖励函数、脚底侧滑奖励函数和脚底抬高奖励函数，奖励函数共同作用引导四足机器人完成动作执行。

本发明的第二目的是提供一种基于强化学习和位置增量的四足机器人运动控制系统，采用以下技术方案：

包括：

信息获取模块，被配置为：获取运动环境信息、四足机器人姿态信息和足底位置信息；

增量计算模块：被配置为：基于获取的信息，生成四足机器人运动时各个预设时间步长内的足底位置，计算各个时间步长内足底位置的变化量；

轨迹规划模块，被配置为：以单个时间步长内的最大移动距离为约束，同时累积时间步长得到足底位置轨迹；

动作控制模块，被配置为：基于足底位置轨迹结合预设奖励函数来控制四足机器人执行相应动作，以使四足机器人保持运动平衡。

与现有技术相比，本发明具有的优点和积极效果是：

(1)针对目前四足机器人运动控制方法中生成的电机位置发生较大突变引起电机损伤的问题，通过对四足机器人每个时间步内的足底位置变化量进行约束，避免控制命令的突变，无需平滑度和电机速度奖励即可获得平滑、流畅的足底轨迹，增强了四足机器人以灵活、平稳、流畅的步态通过复杂地形能力。

(2)四足机器人学习每个时间步的足底位置的变化量，避免控制命令的突变，该方法无需平滑度和电机速度奖励即可获得平滑、流畅的足底轨迹，且赋予了强化学习策略极大的调节能力，在降低学习难度的情况下，增强了四足机器人以灵活、平稳、流畅的步态通过复杂地形能力。

(3)保留基于学习的方法来减少控制策略的手工设计难度和人类劳动负担的同时，通过学习单个时间步的足底位置变化量，来避免由于神经网络输出电机控制命令的突变造成电机永久物理损伤。

(4)与现有的基于强化学习端到端的机器人控制方法对比，避免了额外的电机扭矩和速度约束奖励设计，降低了控制策略的学习难度，提高了控制策略的性能。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为本发明实施例1或2中运动控制方法与现有方法的比对示意图；

图2为本发明实施例1或2中四足机器人运动控制训练框架的示意图；

图3为本发明实施例1或2中增量式步态发育学习模式示意图；

图4为本发明实施例1或2中奖励设计的示意图。

具体实施方式

实施例1

本发明的一个典型实施例中，如图1-图4所示，给出一种基于强化学习和位置增量的四足机器人运动控制方法。

如图1所示，区别于现有的四足机器人的步态控制方法，本实施例中提出了基于强化学习和位置增量的四足机器人运动控制方法，让四足机器人学习每个时间步的足底位置的变化量，避免控制命令的突变，使四足机器人在RL框架内学习平滑和协调的运动，并在训练阶段减少超参数调节的难度。强化学习需与环境进行交互才能进行学习，在训练初期策略的试错性和随机性很可能使机器人产生不可逆转的毁坏和破损而无法在真实环境中进行训练。因此，本方案通过在仿真环境中训练，然后迁移至现实环境的方式实现四足机器人的自主运动。

对于基于强化学习和位置增量的四足机器人运动控制方法，如图2所示，主要包括以下步骤：

获取运动环境信息、四足机器人姿态信息和足底位置信息；

具体的，将四足机器人的运动问题我们将四足机器人的运动问题视为一个部分可观察的马尔可夫决策过程(POMDP)＜S,A,R,P,γ＞，其中S和A分别表示状态和行动空间。R(s _t,s _t+1)→R是奖励函数，P(s _t+1∣s _t,a _t)是过渡概率，γ∈(0,1)是奖励折扣系数。四足机器人在当前状态下采取一个行动a，获得一个标量奖励r，然后转移到下一个状态s，由状态转移概率分布决定P(s _t+1∣s _t,a _t)。四足机器人训练的总体目标是找到一个最优策略

使得未来的折扣奖励最大，即：

结合图2所示的四足机器人步态训练框架，主要包括观察空间的设计、动作空间的设计以及奖励函数的设计三个部分。强化学习利用设计好的奖励函数引导机器人在物理仿真环境中不断探索来适应复杂的环境，最终学习得到鲁棒的运动控制器。采用近端策略优化(PPO)算法和设定的奖励函数来优化RL策略,其输入是经过简单预处理的传感器数据，输出为本方案提出的增量式足底位置，最后转换为电机位置控制指令。此外，四足机器人还可跟踪上层用户指令，包括基座的前进速度

和偏航角

速度指令向量v _c和旋转方向指令向量θ _c分别定义为

和

在训练阶段，鼓励四足机器人服从上层用户命令，保持平衡并完成协调运动。

观察空间设计

在本实施例中，四足机器人只含有最基本的本体感觉传感器，包括一个惯性测量单元(Inertial Measurement Unit，IMU)和12个电机编码器，可以测量得机体的基准线速度v _b∈R ³，方向θ _b∈R ³或其四元数形式q _b＝[x,y,z,w]∈R ⁴，角速度w _b∈R ³和关节位置θ _j∈R ¹²。关节速度

可以通过扩展的卡尔曼滤波器估计获得。由于缺乏足底压力传感器，本方案引入了关节状态历史Θ作为网络输入，实现地面接触检测，Θ包含关节位置误差和关节速度等。其中，关节位置误差定义为当前关节位置与上一时刻关节位置指令的偏差。此外，腿部相位φ也作为网络输入，由＜sin(φ),cos(φ)＞唯一表示。因此，t时刻的状态空间的整体定义为

这些状态经过预处理和归一化后作为网络的输入，进而产生下一时刻的动作命令，控制四足机器人运动，并不断循环。

动作空间设计

目前，常用的四足机器人步态学习方式主要以直接输出电机位置或足底位置命令为主，这可能使得在两个较短的连续时间步之间位置命令发生突变，使关节产生过大的扭矩以追踪目标位置，造成电机损伤。针对该问题，本方案提出了基于增量式足底位置的步态学习方法，让四足机器人学习每个时间步的足底位置的变化量，避免控制命令发生突变，以获得平滑、流畅的步态轨迹。增量式步态学习发育模式示意图如图3，区域II为强化学习策略可选择的足底位置区域，区域III为增量式步态下允许的足底变化位置区间。

这种新的增量式动作空间明确约束了足部在单个时间步内的最大移动距离，同时经过时间步的累计来获得最佳的足底位置轨迹。随着足底轨迹的移动，足底位置空间会动态变化，直到达到机械极限，如图3中的区域I。该方法使强化学习策略可以直接通过与主要任务相关的奖励进行优化(例如学习像四足动物一样自然的步态)，而无需考虑在奖励函数中惩罚电机状态突变造成的负面影响，如可能导致的电机抖动或静止状态等。

为使四足机器人学习到自然、规律的步态，引入了调制轨迹发生器(Policies Modulating Trajectory Generators，PMTG)，辅助四足机器人进行训练。每条腿使用独立的轨迹生成器(TG)来输出z轴方向的足底位置。TG定义为三次埃尔米特插值(Cubic Hermite Spline)来模拟基本的原地踏步步态模式，公式如下：

式中k＝2(φ-π)/π，h为最大允许的抬脚高度，φ∈[0，2π)为TG相位。其中，支撑相φ∈[0，π)，摆动相φ∈[0，2π)。

强化学习策略输出脚底的位置增量Δ[x，y，z]和每条腿的调节频率f。第i条腿的相位可由公式φ _i＝(φ _i，0+(f ₀+f _i)*T)(mod 2π)计算。其中，φ _i，0为第i条腿的初始相位，f ₀为基频，T为两个连续两个控制步之间的时间。t时刻的目标足底位置(x，y，z) _t可由下式获得：

(x，y，ｚ) _t＝Δ(x，y，ｚ) _t+(x _t-1，y _t-1，F(φ _t)) (3)

由上式可知，沿x，y轴向的足底位置可由网络输出的足底位置增量(Δx，Δy)累加得到，沿z轴的脚部位置则由网络输出的足底位置增量Δz与TG提供的先验值叠加获得。前者使足底目标位置变化更平滑，后者则容易获得规律的周期性运动。在机器人基础框架中预先定义目标足底的位置，然后利用逆运动学(Inverse Kinematics，IK)计算相应的目标电机位置，最后通过比例微分(PD)控制器计算关节力矩，以追踪目标电机位置。

奖励函数设计

奖励函数的设计是整个强化学习框架的关键所在，它同时扮演着两个角色。一是能力评估，人类设计者使用指定奖励函数来评价四足机器人的行为；二是行为引导，RL算法的实现使用奖励函数来决定机器人的行为。以下将详细阐述本课题设计的奖励函数的数学形式及设计目标。首先引入以下两个核函数来对奖赏函数进行约束，保证奖励数值在合理范围内：

设计机器人基座线速度奖励

和旋转方向奖励

来鼓励机器人跟踪给定的速度指令v _c和旋转方向命令θ _c，具体形式如下：

式中v _b和θ _c分别是基座线速度和旋转方向，速度范数||v _c||可以将奖励缩放到适当的范围。

设计角速度奖励

鼓励机器人保持基座稳定而不摇晃：

设计侧向协调奖励

以最小化每条腿的侧向偏移(lateral offset)，如图4所示。

式中

是第i条腿的足底位置在y轴上的分量。

设计纵向协调奖励

鼓励四条腿的步幅相同并尽量减少纵向偏移(sagittal offset)，如图4所示。

其中，

和

分别为过去时间步所有沿第i条腿足底位置x轴向分量的均值和标准差。侧向协调奖励

和纵向协调奖励

协同作用，促使机器人学习发育出协调、自然的步态。

设计步幅奖励

鼓励机器人在增/减速度时优先提高/降低步幅长度，而非运动频率，定义为：

设计脚底侧滑奖励

惩罚足底在支撑阶段的滑动，定义为：

设计脚底抬高奖励

允许脚在摆动阶段以更高的高度移动，定义为：

以上所有奖励函数共同作用，一起引导四足机器人完成步态自主学习发育的学习过程，最终每个时间步t的奖励r _t为：

其中，k _c，t为课程因子。课程因子是课程学习引入的一个调节参数，用来描述训练的困难程度。

课程学习作为一种有效的深度强化学习训练算法，经常被引入智能体的训练。其核心思想为：从简单任务或任务的一部分开始学习，然后逐步提高任务的难度，使智能体最终学会整个复杂任务。

基于此，本实施例中引入了课程学习的方法，使机器人在训练阶段开始时优先学习主要任务(服从运动命令和保持身体平衡)，然后逐渐增加约束项系数。课程因子k _c，t描述了训练过程中的难度水平，定义为

其中k _d表示k _c，t达到最大课程难度水平的增长速度。PPO超参数设置如表1所示。

表1 PPO超参数设置

实施例2

本发明的另一典型实施方式中，如图1-图4所示，给出一种基于强化学习和位置增量的四足机器人运动控制系统。

包括：

可以理解的是，本实施例中的基于强化学习和位置增量的四足机器人运动控制系统是基于实施例1中的运动控制方法实现的，因此，对于基于强化学习和位置增量的四足机器人运动控制系统工作过程的描述可以参见实施例1，在此不再赘述。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

一种基于强化学习和位置增量的四足机器人运动控制方法，其特征在于，包括以下步骤：

获取运动环境信息、四足机器人姿态信息和足底位置信息；

基于获取的信息，生成四足机器人运动时各个预设时间步长内的足底位置，计算各个时间步长内足底位置的变化量；

以单个时间步长内的最大移动距离为约束，同时累积时间步长得到足底位置轨迹；

基于足底位置轨迹结合预设奖励函数来控制四足机器人执行相应动作，以使四足机器人保持运动平衡。
如权利要求1所述的基于强化学习和位置增量的四足机器人运动控制方法，其特征在于，所述四足机器人上设有惯性测量单元和关节电机编码器，以获取四足机器人的基准线速度、方向、角速度和关节位置。
如权利要求1所述的基于强化学习和位置增量的四足机器人运动控制方法，其特征在于，获取四足机器人关节状态历史信息和腿部相位信息，并进行处理后作为四足机器人控制输入，得到下一动作命令来控制机器人运动。
如权利要求3所述的基于强化学习和位置增量的四足机器人运动控制方法，其特征在于，通过关节状态历史信息包括关节位置误差和关节速度，其中关节位置误差为当前关节位置与上一关节位置指令的偏差，以实现地面接触检测。
如权利要求1所述的基于强化学习和位置增量的四足机器人运动控制方法，其特征在于，基于强化学习策略选择足底位置区域，以此区域作为足底位置的变化区间，从而约束足底在单个时间步长内的最大移动距离。
如权利要求1所述的基于强化学习和位置增量的四足机器人运动控制方法，其特征在于，四足机器人的每条腿使用独立的轨迹生成器来输出Z轴方向的足底位置；基于强化学习策略输出足底位置增量和每条腿的调节频率，累加沿X轴、Y轴方向的足底位置增量得到的X轴、Y轴方向的足底位置，叠加Z轴方向足底位置增量和先验值得到Z轴方向的足底位置。
如权利要求1所述的基于强化学习和位置增量的四足机器人运动控制方法，其特征在于，四足机器人基础框架中预先定义目标足底位置，结合相应目标位置计算目标关节电机位置，并计算关节力矩，追踪目标关节电机位置。
如权利要求1所述的基于强化学习和位置增量的四足机器人运动控制方法，其特征在于，设计四足机器人基座线速度奖励函数和旋转方向奖励函数，以鼓励机器人跟踪上层控制指令给出给定的速度指令和旋转方向指令。
如权利要求1所述的基于强化学习和位置增量的四足机器人运动控制方法，其特征在于，分别设计角速度奖励函数、侧向协调奖励函数、纵向协调奖励函数、步幅奖励函数、脚底侧滑奖励函数和脚底抬高奖励函数，奖励函数共同作用引导四足机器人完成动作执行。
一种基于强化学习和位置增量的四足机器人运动控制系统，其特征在于，包括：

信息获取模块，被配置为：获取运动环境信息、四足机器人姿态信息和足底位置信息；

增量计算模块：被配置为：基于获取的信息，生成四足机器人运动时各个预设时间步长内的足底位置，计算各个时间步长内足底位置的变化量；

轨迹规划模块，被配置为：以单个时间步长内的最大移动距离为约束，同时累积时间步长得到足底位置轨迹；

动作控制模块，被配置为：基于足底位置轨迹结合预设奖励函数来控制四足机器人执行相应动作，以使四足机器人保持运动平衡。