WO2023184933A1

WO2023184933A1 - 基于神经振荡器的机器人节律运动控制方法及系统

Info

Publication number: WO2023184933A1
Application number: PCT/CN2022/125984
Authority: WO
Inventors: 张伟; 陈燕云; 盛嘉鹏; 方兴; 谭文浩; 宋然; 李晓磊; 程吉禹
Original assignee: 山东大学
Priority date: 2022-03-31
Filing date: 2022-10-18
Publication date: 2023-10-05
Also published as: CN114740875A

Abstract

一种基于神经振荡器的机器人节律运动控制方法及系统，包括：获取机器人的当前状态，以及由神经振荡器产生的相位和频率；依据获取的当前状态、相位和频率，以及预设的强化学习网络，得到控制指令，对机器人进行控制；其中，预设的强化学习网络中包括动作空间、模式形成网络和神经振荡器；由神经振荡器和模式形成网络组成的控制结构，能确保期望的节律运动行为的形成；同时，设计的关节位置增量的动作空间能有效加速节律运动强化学习训练进程，解决了现有无模型强化学习学习时，奖励函数设计耗时、困难的问题。

Description

基于神经振荡器的机器人节律运动控制方法及系统

本发明要求于2022年3月31日提交中国专利局、申请号为202210334049.5、发明名称为“基于神经振荡器的机器人节律运动控制方法及系统”的中国专利申请的优先权，其全部内容通过引用结合在本发明中。

技术领域

本发明属于机器人控制技术领域，尤其涉及一种基于神经振荡器的机器人节律运动控制方法及系统。

背景技术

为实现四足机器人的运动控制，一些传统控制方法，如模型预测控制(Model Predictive Control，MPC)和全身控制(Whole BodyCryotherapy，WBC)通过引入感官反馈和复杂的控制理论来获得更好的运动性能。虽然这些方法在步态控制上取得了一定的成效，但它们的实现通常需要丰富的专业知识和漫长的设计过程。

发明人发现，近年来兴起的无模型强化学习(Reinforcement Learning，RL)成功实现了腿足式机器人运动策略的自主学习。然而，奖励函数通常无法直接表述期望的节律运动行为；再者，即使是合理的奖励也必须经过精心的设计和调节才能满足需要，因为对奖励函数的极小调节，也可能导致强化学习行为的巨大差异；因此，能实现机器人实现无偏差的学习的奖励函数的设计通常很耗时且困难。

发明内容

本发明为了解决上述问题，提出了一种基于神经振荡器的机器人节律运动控制方法及系统，本发明设计的由神经振荡器和模式形成网络组成的控制结构，能确保期望的节律运动行为的形成；同时，设计的关节位置增量的动作空间能有效加速节律运动强化学习训练进程。

第一方面，本发明提供了一种基于神经振荡器的机器人节律运动控制方法，包括：

获取机器人的当前状态，以及由神经振荡器产生的相位和频率；

依据获取的当前状态、相位和频率，以及预设的强化学习网络，得到控制指令，对机器人进行控制；

其中，预设的强化学习网络中包括动作空间、模式形成网络和神经振荡器；所述动作空间，用于依据获取的当前状态，得到关节位置增量；所述模式形成网络，用于根据关节位置增量，得到目标关节位置的控制指令；所述神经振荡器，用于根据获取的相位和频率，调整机器人足底轨迹在摆动阶段和站立阶段之间相变的时间；依据目标关节位置的控制指令和机器人足底轨迹在摆动阶段和站立阶段之间相变的时间对机器人进行控制。

进一步的，相位由正弦和余弦函数表示。

进一步的，根据关节位置增量，得到目标关节位置的控制指令时：所述关节位置增量与前一时刻的目标关节位置相加，获得当前时刻的目标关节位置；依据当前时刻的目标关节位置，计算关节扭矩。

进一步的，最大关节位置增量由最大电机速度和时间步长决定。

进一步的，神经振荡器输出频率来调制每条腿的相位φ，相位φ∈[0,π)时当前腿处于支撑相阶段，相位φ∈[π,2π)时当前腿处于摇摆相阶段。

进一步的，当前时刻的相位为：

φ _t＝(φ _t-1+2π*f*T)％2π

其中，φ _t表示当前时刻的相位；φ _t-1表示前一时刻的频率；f表示频率；T表示时间步长。

进一步的，将机器人的运动问题视为马尔可夫决策过程，在奖励项中添加频率项和相位项。

第二方面，本发明还提供了一种基于神经振荡器的机器人节律运动控制系统，包括：

数据采集模块，被配置为：获取机器人的当前状态，以及由神经振荡器产生的相位和频率；

控制模块，被配置为：依据获取的当前状态、相位和频率，以及预设的强化学习网络，得到控制指令，对机器人进行控制；

第三方面，本发明还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现了第一方面中所述的基于神经振荡器的机器人节律运动控制方法的步骤。

第四方面，本发明还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现了第一方面中所述的基于神经振荡器的机器人节律运动控制方法的步骤。

与现有技术相比，本发明的有益效果为：

本发明设计的由神经振荡器和模式形成网络组成的控制结构，能确保期望的节律运动行为的形成；同时，设计的关节位置增量的动作空间能有效加速节律运动强化学习训练进程，解决了现有无模型强化学习学习时，奖励函数设计耗时、困难的问题。

附图说明

构成本实施例的一部分的说明书附图用来提供对本实施例的进一步理解，本实施例的示意性实施例及其说明用于解释本实施例，并不构成对本实施例的不当限定。

图1为本发明实施例1的RL学习框架；

图2为本发明实施例1的脊柱动物节律运动机制图解。

具体实施方式：

下面结合附图与实施例对本发明作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

节律运动广泛存在于人类和动物的运动行为中，例如行走，奔跑和转向等。灵活地改变运动模式对动物在恶劣环境中的顺利通行至关重要。因此，研究生物驱动不同节律运动的机制是生物学和机器人学的重要课题。生理学研究发现，中央模式发生器，即生物在脊髓中的神经回路，在节律运动的产生中起关键作用，它能产生合适的节律信息来调制运动神经元的输出。来自中脑运动区的命令信息和从本体感受器和外感受器的感觉传入信息可以改变节律模式以适应不同的运动场景。受此启发，一些研究人员通过设计简单的相位振荡器来提供节律信息以获得有节律的运动行为指令。

目前，四足机器人运动控制方法主要有基于模型和基于学习的控制方法两类。基于模型的方法起源较早，理论依据丰富，在特定场景下获得了良好的控制效果。福冈等人设计了基本的相位振荡器来生成足底轨迹。布洛施等人对机器人的驱动系统进行了精确建模，使算法在硬件平台获得了良好的运动性能。为获得更加鲁棒的控制性能，卡罗等人提出了一种新的用简化的动力学模型重新实现了(Model Predicted Control，MPC)方法。在卡罗方法的基础上，贝烈德等人使用状态机来生成机器人足底参考轨迹，并通过MPC来规划地面反作用力，进一步提升了机器人运动性能。然而，这些方法需要大量关于机器人结构和动力学的准确的先验知识。

近年来，数据驱动的学习方法已成为一种用于机器人自主学习运动行为的有效替代方案。哈诺哈等人应用端到端的RL框架来训练机器人学会了行走。达等人提出了一种分层控制器架构，其中，高级控制器由RL进行训练，而低级控制器则提供预先定义的固定运动步态。这种架构利用传统的控制方法来加速了RL学习进程，但同时也限制了机器人的运动能力。黄博等人通过精心设计奖励函数，实现了机器人的稳定行走和摔倒恢复。西克曼等人定义了一系列奖励函数来指定并实现了双足步态，但这也需要丰富的先验知识作为基础支撑。

实施例1：

为了解决四足机器人节律运动控制的问题，受脊椎动物节律运动调节机制启发，本实施例在现有的强化学习框架下，添加生物神经振荡器，即节律发生器(Rhythm Generator，RG)，实现了自然地激发出腿足机器人的节律运动模式。具体的，本实施例使用一个RG网络来调整机器人足底轨迹在摆动阶段和站立阶段之间相变的时间，和一个模式形成(Pattern Formation，PF)网络输出机器人的12个电机控制命令。在哺乳动物神经系统内也存在类似的控制结构。其中，RG网络确定屈肌和伸肌阶段的持续时间，而PF网络则负责产生周期性激活屈肌和伸肌运动神经元的信息。从工程实现的角度，本实施例通过鼓励机器人在摇摆相时脚抬在支撑相时足底与地面保持接触实例化了所提出的仿生节律运动控制结构。腿部周期性节律信号的存在确保了腿足式机器人类似动物般的节律运动行为的形成。在本实施例提出的控制结构下，训练过程可以专注于训练腿足式机器人完成主要运动任务，如向前运动、左右运动和转向运动等。

此外，值得注意的是，RG网络提供的腿的相位估计还可以提高策略部署在真实机器人上时机器人平台对本体速度状态的准确估计。目前，四足机器人的状态估计技术需要机器人腿与地面接触的接触相位信息来融合惯性传感器(Inertial Measurement Unit，IMU)测量信息和关节状态信息以完成全身状态的估计，或使用力传感器来实现退步接触信息的检测。然而，传感器的加持会增加机器人的总体成本和功耗，并降低系统鲁棒性。

与先前的研究工作直接输出机器人关节位置不同，本实施例中的RL策略输出关节位置增量，与前一时刻的目标关节位置命令相加以获得当前时刻的电机控制命令；这个全新的动作空间的设计可以加快节律运动训练速度，因为RL策略可探索的动作范围被限定在了当前时刻关节位置附近；在最大电机速度的限制下，一切能导致机器人关节超过最大电机速度的目标关节位置命令对于训练过程不利于训练过程；该动作空间的设计避免了一些无效的电机命令的探索和选择，因而极大了加速了训练过程。

本实施例提供了一种基于神经振荡器的机器人节律运动控制方法，旨在自然地激发四足机器人的节律运动行为，其灵感来自生物的运动机制，并加速RL学习进程。如图1所示，本实施例中，所提出的学习框架可分为两部分：由RG和PF网络组成的仿生控制结构，以及一个新的动作空间的设计—关节位置增量，如图2为脊柱动物节律运动机制图解。

本实施例中，将四足机器人的运动问题视为一个部分可观察的马尔可夫决策过程(POMDP)<S,A,R,P,γ>；其中，S和A分别表示状态和行动空间；

表示奖励函数；P(s _t+1∣s _t,a _t)表示过渡概率；γ∈(0,1)表示奖励折扣系数。四足机器人在当前状态s下采取一个行动a，获得一个标量奖励r，然后转移到下一个状态s _t+1，由状态转移概率分布决定P(s _t+1∣s _t,a _t)。四足机器人训练的总体目标是找到一个最优策略

使得未来的折扣奖励最大，Φ ^*为：

如图1所示，本实施例中，输入状态

包含3维的控制命令

(包括前向速度

横向速度

和转向角速率

)、基座的三维线性速度v、基座的三维角速率ω、三维旋转方向θ ^g(表示为IMU坐标系下重力矢量的方向)、12维关节位置q、12维关节速度

12维关节位置误差q _e(关节位置q减去关目标关节位置

)、由RG网络产生的8维RG相位φ和4维RG频率f(其中，RG相位φ由正弦和余弦函数表示)；

输出动作

包含4维RG频率f和12维关节位置增量Δq。然后根据公式(2)计算目标关节位置命令

最后，利用一组PD控制器计算关节扭矩，即

其中，K _p和K _d在仿真和部署中设定为固定值，目标关节速度

则设置为0。

本实施例中的RL策略输出关节位置增量Δq _t，当前时刻目标关节位置q _t定义为：

其中，

为前一时刻目标关节位置。

由于机器人运行性能限制，给定的目标关节位置指令必然无法超越电机的运行性能。因此，在实践中，最大关节位置增量Δq _max由最大电机速度

和时间步长T决定，定义为

本实施例中，RG网络输出频率f来调制每条腿的相位φ，定义为：

φ _t＝(φ _t-1+2π*f*T)％2π (4)

其中，φ∈[0,2π)表示φ∈[0,π)时当前腿处于支撑相阶段，φ∈[π,2π)则表示当前腿处于摇摆相阶段；φ _t-1表示前一时刻的频率；f表示频率；T表示时间步长；％表示求余运算。

处于摇摆相阶段时，鼓励机器人将相应脚抬高，而处于支撑相阶段时则奖励机器人将相应脚保持与地面接触。由于RG频率是f是非负的，因此四足机器人的步进周期必须在摇摆相和支撑相之间循环交替，这为节律运动行为的出现提高了信息保障。在实际部署中，使用RG相位来进行足底接触估计，这对于状态估计器获得准确的基座线速度至关重要。

PF网络的设计类似于先前工作中的功能，即将机器人状态作为输入状态以输出电机命令。然而，在实施例中，动作空间定义为关节位置增量，且它产生的运动行为在很大程度上受到RG网络的调节作用。

本实施例中，奖励函数鼓励机器人遵循上层控制命令并保持平衡和维持节律性运动。将基座的目标线速度表示为

基座目标角速度为

基座旋转方向(表示基座的横滚-俯仰-偏航角)为θ，站立姿态的关节位置为q _ref，足底速度为v _f，足底与地面的距离为h _f，RG网络提供的二进制足底接触指标为I _f，物理模拟器提供的真实的二进制足底接触指标为

RL策略的原始输出为o，摇摆相的腿定义为· _swing，支撑相腿定义为· _stance，l ₁范数定义为|·|，l ₂范数定义为||·||。为简单起见，本文将奖励项之间共享的命令系数表示为

和

每个时间步的奖励r _t定义为以下奖励项的和：

1、前向速度：

2、横向速度：

3、角速率：

4、平衡：

5、身体扭转：

6、足底侧滑：

7、足底支撑：

8、足底清空：

9、足底z轴速度：

10、关节限制：

11、关节力矩：

-0.0012*c _x*|τ ^t| (15)

12、关节速度：

13、策略输出平滑：

-0.016*c _x*||o ^t-o ^t-1|| (17)

14、RG频率：

15、RG相位：

除第14项和15项为本实施例新提出的在RG和PF网络结构下有效的奖励函数外，其余所有奖励函数均已在先前的工作中得到印证。第1项到第5项使机器人能够遵循命令指令并保持基座平衡。第6项到8项是刺激机器人形成节律性运动模式的关键，根据腿的不同腿阶段相应地奖励机器人周期性抬脚或与地面保持接触，实现节律性运动的形成。值得注意的是，在前人的研究工作中，足底接触相位由物理仿真器的足底接触检测函数提供，而在实施例中，足底接触相位由RG网络的输出计算得到。换言之，在本实施例提出的RG和PF网络结构下，足底接触相位可以直接受到RL策略的调制以促使机器人形成节律性运动行为。第9项到第13项鼓励机器人获得平滑且高效率的运动行为。第14项估计机器人更多地处于支撑相阶段以缩减能耗。第15项用于缩小RG网络提供的足底接触估计与物理仿真器提供的真实足底接触之间的差异，这在部署阶段中状态估计器对机器人状态的准确估计发挥重要作用。

本实施例中，引入课程学习让机器人优先学习主要任务(遵循命令并保持平衡)并防止机器人陷入因约束项奖励系数过大而静止不动等局部最优策略。训练过程从附加到奖励函数第项4和第15项(即公式(8)和公式(19))中的乘法课程k _c＝0.3(k _c∈[0.3,1])开始，然后逐渐增大k _c以使运动行为逐渐满足其他约束条件；其中，

定义为

k _d∈[0,1]表示

达到最大值1的速度。

本实施例中用域随机化来克服仿真到现实部署的差距，通过改变机器人物理参数和添加传感器噪声来促使机器人获得更加鲁棒的控制策略。随机化物理参数的上下限和传感器噪声的范围如表1所示。所有参数和噪声均为平均采样。强化学习PPO超参数设置如表2所示。

表1 随机化物理参数上下限和传感器噪声

表2 PPO超参数设置

实施例2：

本实施例提供了一种基于神经振荡器的机器人节律运动控制系统，包括：

所述系统的工作方法与实施例1的基于神经振荡器的机器人节律运动控制方法相同，这里不再赘述。

实施例3：

本实施例提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现了实施例1所述的基于神经振荡器的机器人节律运动控制方法中的步骤。

实施例4：

本实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现了实施例1所述的基于神经振荡器的机器人节律运动控制方法中的步骤。

以上所述仅为本实施例的优选实施例而已，并不用于限制本实施例，对于本领域的技术人员来说，本实施例可以有各种更改和变化。凡在本实施例的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本实施例的保护范围之内。

Claims

基于神经振荡器的机器人节律运动控制方法，其特征在于，包括：

获取机器人的当前状态，以及由神经振荡器产生的相位和频率；

依据获取的当前状态、相位和频率，以及预设的强化学习网络，得到控制指令，对机器人进行控制；

其中，预设的强化学习网络中包括动作空间、模式形成网络和神经振荡器；所述动作空间，用于依据获取的当前状态，得到关节位置增量；所述模式形成网络，用于根据关节位置增量，得到目标关节位置的控制指令；所述神经振荡器，用于根据获取的相位和频率，调整机器人足底轨迹在摆动阶段和站立阶段之间相变的时间；依据目标关节位置的控制指令和机器人足底轨迹在摆动阶段和站立阶段之间相变的时间对机器人进行控制。
如权利要求1所述的基于神经振荡器的机器人节律运动控制方法，其特征在于，相位由正弦和余弦函数表示。
如权利要求1所述的基于神经振荡器的机器人节律运动控制方法，其特征在于，根据关节位置增量，得到目标关节位置的控制指令时：所述关节位置增量与前一时刻的目标关节位置相加，获得当前时刻的目标关节位置；依据当前时刻的目标关节位置，计算关节扭矩。
如权利要求3所述的基于神经振荡器的机器人节律运动控制方法，其特征在于，最大关节位置增量由最大电机速度和时间步长决定。
如权利要求1所述的基于神经振荡器的机器人节律运动控制方法，其特征在于，神经振荡器输出频率来调制每条腿的相位φ，相位φ∈[0,π)时当前腿处于支撑相阶段，相位φ∈[π,2π)时当前腿处于摇摆相阶段。
如权利要求5所述的基于神经振荡器的机器人节律运动控制方法，其特征在于，当前时刻的相位为：

φ _t＝(φ _t-1+2π*f*T)％2π

其中，φ _t表示当前时刻的相位；φ _t-1表示前一时刻的频率；f表示频率；T表示时间步长。
如权利要求1所述的基于神经振荡器的机器人节律运动控制方法，其特征在于，将机器人的运动问题视为马尔可夫决策过程，在奖励项中添加频率项和相位项。
基于神经振荡器的机器人节律运动控制系统，其特征在于，包括：

数据采集模块，被配置为：获取机器人的当前状态，以及由神经振荡器产生的相位和频率；

控制模块，被配置为：依据获取的当前状态、相位和频率，以及预设的强化学习网络，得到控制指令，对机器人进行控制；

其中，预设的强化学习网络中包括动作空间、模式形成网络和神经振荡器；所述动作空间，用于依据获取的当前状态，得到关节位置增量；所述模式形成网络，用于根据关节位置增量，得到目标关节位置的控制指令；所述神经振荡器，用于根据获取的相位和频率，调整机器人足底轨迹在摆动阶段和站立阶段之间相变的时间；依据目标关节位置的控制指令和机器人足底轨迹在摆动阶段和站立阶段之间相变的时间对机器人进行控制。
一种电子设备，其特征在于，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现了如权利要求1-7任一项所述的基于神经振荡器的机器人节律运动控制方法中的步骤。
一种计算机可读存储介质，其特征在于，其上存储有计算机程序，该程序被处理器执行时实现了如权利要求1-7任一项所述的基于神经振荡器的机器人节律运动控制方法中的步骤。