WO2021103392A1

WO2021103392A1 - 基于对抗结构化控制的仿生机器鱼运动控制方法、系统

Info

Publication number: WO2021103392A1
Application number: PCT/CN2020/085045
Authority: WO
Inventors: 吴正兴; 喻俊志; 闫帅铮; 王健; 谭民
Original assignee: 中国科学院自动化研究所
Priority date: 2019-11-29
Filing date: 2020-04-16
Publication date: 2021-06-03
Also published as: CN110909859B; CN110909859A

Abstract

一种基于对抗结构化控制的仿生机器鱼运动控制方法、系统，属于仿生机器人控制领域，旨在解决现有仿生鱼控制方法训练难度高、运动效率低、鲁棒性差的问题。该方法包括：以运动至目标点的精度与速度为奖励项，以舵机功率和为损失项，构建优化目标函数；优化产生舵机全局控制量的中枢模式发生器模型的参数，固化其参数后优化舵机补偿控制模型的参数；迭代进行模型的参数优化；通过训练好的模型获取仿生机器鱼全局控制和补偿控制信号，并将两组输出信号的线性组合作为机器鱼舵机的控制信号，实现机器鱼的运动控制。本方法和系统结合全局控制信号与局部补偿控制信号，进行模型对抗训练，训练难度低，仿生机器鱼运动精确、能耗低。

Description

基于对抗结构化控制的仿生机器鱼运动控制方法、系统

技术领域

本发明属于仿生机器人控制领域，具体涉及了一种基于对抗结构化控制的仿生机器鱼运动控制方法、系统。

背景技术

仿生机器鱼作为一种典型的水下机器人，在科普教育、水文监测、生物运动分析等诸多领域发挥着愈发重要的作用。其中，良好的运动控制能够帮助机器鱼实现水下快速、稳定与节能的游动，更好地完成复杂任务。因此，近年来针对仿生机器鱼的运动优化方法的研究成果层出不穷。

在研究初期，通常针对机器鱼仿生对象的差异建立不同动力学模型来提高机器鱼游动性能，如基于Kane方法的机器鱼波状游动动力学建模[1]等，为机器鱼运动控制研究提供重要理论支撑；利用广义循环神经网络辨识机器鱼游动控制的强非线性关系，并依据此关系对机器鱼稳速直游进行运动优化[2]；利用粒子群算法优化中枢模式发生器(CPG，Central Pattern Generator)参数的方法来提高仿生机器鱼正游、倒游游速与稳定性[3]。

除此之外，日趋火热的深度强化学习(DRL，Deep Reinforcement Learning)方法为高维连续控制下的多目标优化问题提供了较好的算法方案，但其应用于真实世界机器人的可行性和准确性备受质疑，仍有待进一步的研究。在DRL算法的实际应用中，Levine等人建立了一个手眼机器人训练的大规模数据采集的案例[4]；Ebert等人采用基于自监督模型的方法来教机械臂学习新技能[5]；Pong等人将基于模型和非模型的训练方法相结合，提出了学习效率高、性能稳定的时域差分模型[6]；Srouji等人研究了利用结构化控制网络提高归纳偏差来提高真实机器人训练中的采样效率[7]。但是对于专注于高机动性运动机制研究的仿生机器鱼来说，数据量缺乏、视觉反馈实时性低以及计算资源的限制使得这些大规模数据采集方法无法充分发挥其优势。同时，利用神经网络训练非线性控制系统的难度较大，实际应用中鲁棒性较差。因此，仿生机器鱼的实际运动控制大多采用传统控制或简单智能控制，如比例-积分-微分控制器(PID)、反步滑膜控制、模糊控制等。

总的来说，现有技术直接采用深度强化学习方法学习仿生机器鱼的非线性控制律，由于数据量缺乏、视觉反馈实时性低以及计算资源的限制，训练难度高，而传统方法中仿生鱼采用的运动控制或简单智能控制，运动效率低、鲁棒性差。

以下文献是与本发明相关的技术背景资料：

[1]夏丹、陈维山、刘军考、韩路辉，基于Kane方法的仿鱼机器人波状游动的动力学建模，机械工程学报，20090615.

[2]郭顺利、朱其新、谢广明，基于GRNN的机器鱼直游稳态速度建模，兵工自动化期刊，20101115.

[3]汪明、喻俊志、谭民，胸鳍推进型机器鱼的CPG控制及实现，机器人期刊，20100315.

[4]Levine S,Pastor P,Krizhevsky A,Ibarz J,Quillen D.Learning hand-eye coordination for robotic grasping with deep learning and large-scale data collection[J].The International Journal of Robotics Research,2018,37(4-5):421-436.

[5]Ebert F,Finn C,Lee A X,Levine S.Self-supervised visual planning with temporal skip connections[J].arXiv preprint arXiv:1710.05268,2017.

[6]Pong V,Gu S,Dalal M,Levine S.Temporal difference models:Model-free deep rl for model-based control[J].arXiv preprint arXiv:1802.09081,2018.

[7]Srouji M,Zhang J,Salakhutdinov R.Structured control nets for deep reinforcement learning[J].arXiv preprint arXiv:1802.08311,2018.

发明内容

为了解决现有技术中的上述问题，即现有仿生鱼控制方法训练难度高、运动效率低、鲁棒性差的问题，本发明提供了一种基于对抗结构化控制的仿生机器鱼运动控制方法，该仿生机器鱼运动控制方法包括：

步骤S10，获取仿生机器鱼游动路径，并将所述游动路径划分为顺次连接的基本子路径集合；

步骤S20，顺次基于所述子路径集合中每一个子路径的起点与终点，通过训练好的舵机全局控制模型，获取t时刻仿生机器鱼各舵机全局控制量；

步骤S30，基于获取的t时刻仿生机器鱼位姿信息、t时刻仿生机器鱼各舵机全局控制量，通过训练好的舵机补偿控制模型，获取t时刻仿生机器鱼各舵机补偿控制量；

步骤S40，对所述t时刻仿生机器鱼各舵机全局控制量与t时刻仿生机器鱼各舵机补偿控制量求和，获取t+1时刻仿生机器鱼各舵机控制量，并通过所述t+1时刻仿生机器鱼各舵机控制量进行t+1时刻仿生机器鱼运动控制；

步骤S50，令t＝t+1，跳转步骤S20，直至所述仿生机器鱼到达所述游动路径终点。

在一些优选的实施例中，所述舵机全局控制模型、舵机补偿控制模型分别包括一一对应的针对不同类型子路径构建的舵机全局控制子模型与舵机补偿控制子模型对的集合。

在一些优选的实施例中，所述舵机全局控制子模型与舵机补偿控制子模型对分别基于CPG模型、DDPG网络构建，并通过迭代对抗方法进行训练，其训练方法为：

步骤B10，构建所述舵机全局控制子模型与舵机补偿控制子模型对的优化目标函数；

步骤B20，通过ES算法按照预设第一梯度函数梯度下降方向进行舵机全局控制子模型的参数优化，直至所述优化目标函数的值不再增加或增加值低于设定第一阈值，获得第一舵机全局控制子模型；

步骤B30，基于所述第一舵机全局控制子模型的参数，按照预设第二梯度函数梯度下降方向进行舵机补偿控制子模型中动作策略网络与动作价值网络的参数优化，直至所述优化目标函数的值不再增加或增加值低于设定第一阈值，获得第一舵机补偿控制子模型；

步骤B40，基于所述第一舵机补偿控制子模型的参数，跳转步骤B20，迭代进行舵机全局控制子模型、舵机补偿控制子模型的参数优化，直至所述优化目标函数的值不再增加或增加值低于设定第一阈值，获得训练好的舵机全局控制子模型与舵机补偿控制子模型。

在一些优选的实施例中，所述目标函数为：

其中，ψ表示通过目标函数优化的对象，即CPG模型参数、DDPG网络参数；θ _e表示仿生机器鱼与目标点偏航角度，θ _e∈(-π,π]为其设定范围；

表示仿生机器鱼在世界参考系下的速度矢量；

表示该速度矢量的模，v ₀是为保证能耗优化效果预先设定的速度上限；

分别表示仿生机器鱼舵机的力矩矢量、角速度矢量；β为正值，表示奖励与损耗之间的相关系数。

在一些优选的实施例中，所述第一梯度函数为：

其中，F(·)代表优化目标函数，θ代表CPG模型参数，σ表示参数扰动的步长，ε表示参数扰动的梯度方向，

代表仿生机器鱼在向n个从标准正态分布采样得到梯度方向更新后的θ控制下运动得到的优化目标函数的数学期望。

在一些优选的实施例中，所述第二梯度函数为：

其中，Q(s,a|θ ^Q)表示动作状态价值函数，μ(s|θ ^μ)表示动作策略函数，N代表批处理更新方法中样本的个数，i代表从经验池中采样得到的第i个样本，a代表控制量，s _i代表第i个样本的状态，J代表动作策略网络的目标函数，

代表动作策略网络对网络内参数的梯度。

在一些优选的实施例中，步骤S40中“对所述t时刻仿生机器鱼各舵机全局控制量与t时刻仿生机器鱼各舵机控制量的调整量求和”，其方法为：

其中，a _t表示仿生机器鱼舵机控制信号，s _t、

分别表示t时刻仿生机器鱼的状态与期望状态，

分别表示与仿生机器鱼状态相关的舵机全局控制量和舵机补偿控制量。

本发明的另一方面，提出了一种基于对抗结构化控制的仿生机器鱼运动控制系统，该仿生机器鱼运动控制系统包括路径获取模块、舵机全局控制模块、舵机补偿控制模块、舵机控制量获取模块、运动控制模块；

所述路径获取模块，配置为获取仿生机器鱼游动路径，并将所述游动路径划分为顺次连接的基本子路径集合；

所述舵机全局控制模块，配置为顺次基于所述子路径集合中每一个子路径的起点与终点，通过训练好的舵机全局控制模型，获取t时刻仿生机器鱼各舵机全局控制量；

所述舵机补偿控制模块，配置为基于获取的t时刻仿生机器鱼位姿信息、t时刻仿生机器鱼各舵机全局控制量，通过训练好的舵机补偿控制模型，获取t时刻仿生机器鱼各舵机补偿控制量；

所述舵机控制量获取模块，配置为对所述t时刻仿生机器鱼各舵机全局控制量与t时刻仿生机器鱼各舵机补偿控制量求和，获取t+1时刻仿生机器鱼各舵机控制量；

所述运动控制模块，配置为通过所述t+1时刻仿生机器鱼各舵机控制量进行t+1时刻仿生机器鱼运动控制。

本发明的第三方面，提出了一种存储装置，其中存储有多条程序，所述程序适于由处理器加载并执行以实现上述的基于对抗结构化控制的仿生机器鱼运动控制方法。

本发明的第四方面，提出了一种处理装置，包括处理器、存储装置；所述处理器，适于执行各条程序；所述存储装置，适于存储多条程序；所述程序适于由处理器加载并执行以实现上述的基于对抗结构化控制的仿生机器鱼运动控制方法。

本发明的有益效果：

(1)本发明基于对抗结构化控制的仿生机器鱼运动控制方法，结合鱼类周期性运动的先验知识，通过进化策略(ES，Evolutionary Strategy)优化CPG模型产生的节律信号作为机器鱼的基准控制信号，结合利用深度强化学习算法学习在基准控制信号附近的补偿控制信号来进行仿生机器鱼的共同控制，生成的控制律符合鱼体波的类正弦信号，从而保证了机器鱼游动的高效率，并且相较于直接用深度强化学习复杂的非线性控制律，训练优化CPG模型涉及的参数较少，降低了优化训练的难度。

(2)本发明基于对抗结构化控制的仿生机器鱼运动控制方法，针对节能式运动优化任务提出了相应的目标函数来实现机器鱼完成运动目标的同时降低运动损耗的复杂要求；又通过对抗式训练方法来改善传统启发式优化算法易陷入局部最优值的缺陷，进一步提高机器鱼的运动效率与鲁棒性。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1是本发明基于对抗结构化控制的仿生机器鱼运动控制方法的流程示意图；

图2是本发明基于对抗结构化控制的仿生机器鱼运动控制方法一种实施例的算法结构示意图；

图3是本发明基于对抗结构化控制的仿生机器鱼运动控制方法一种实施例的Mujoco机器鱼仿真训练示意图；

图4是本发明基于对抗结构化控制的仿生机器鱼运动控制方法一种实施例的真实机器鱼数值仿真训练示意图；

图5是本发明基于对抗结构化控制的仿生机器鱼运动控制方法一种实施例的对一组较差初始状态优化后的真实四连杆仿生机器鱼的直游示例图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

本发明的一种基于对抗结构化控制的仿生机器鱼运动控制方法，该仿生机器鱼运动控制方法包括：

为了更清晰地对本发明基于对抗结构化控制的仿生机器鱼运动控制方法进行说明，下面结合图1对本发明方法实施例中各步骤展开详述。

本发明一种实施例的基于对抗结构化控制的仿生机器鱼运动控制方法，包括步骤S10-步骤S50，各步骤详细描述如下：

步骤S10，获取仿生机器鱼游动路径，并将所述游动路径划分为顺次连接的基本子路径集合。

如图1所示，为本发明基于对抗结构化控制的仿生机器鱼运动控制方法一种实施例的算法结构示意图，仿生机器鱼最终的控制信号分别由全局基准控制和局部补偿控制产生。全局基准控制就是一个经过参数优化的CPG模型，负责生成节律性信号作为全局基准控制信号；局部补偿控制是通过DDPG训练得到的一个实时性系统，输入为仿生机器鱼的实时位姿信息，输出为与基于位置控制的舵机个数相同的补偿控制量。在全局基准信号的控制下，仿生机器鱼产生一个全局性的运动趋势，而补偿信号在基准信号的基础上帮助机器鱼根据当前状态进行微调，从而校准路径，提高运动精度并降低运动损耗。

仿生机器鱼的整个游动任务可以划分为一个个相对简单的子任务，每个子任务对应一种简单的游动路径，比如左拐、右拐、直行等等。相邻子任务间，上一个路径的终止点与下一个路径的起始点为同一点。通过简单的游动路径的各种组合，最终实现仿生机器鱼的复杂游动任务的运动控制。

步骤S20，顺次基于所述子路径集合中每一个子路径的起点与终点，通过训练好的舵机全局控制模型，获取t时刻仿生机器鱼各舵机全局控制量。

步骤S30，基于获取的t时刻仿生机器鱼位姿信息、t时刻仿生机器鱼各舵机全局控制量，通过训练好的舵机补偿控制模型，获取t时刻仿生机器鱼各舵机补偿控制量。

舵机全局控制模型、舵机补偿控制模型分别包括一一对应的针对不同类型子路径构建的舵机全局控制子模型与舵机补偿控制子模型对的集合。

舵机全局控制子模型与舵机补偿控制子模型对分别基于CPG模型、DDPG网络构建，并通过迭代对抗方法进行训练，其训练方法为：

步骤B10，构建所述舵机全局控制子模型与舵机补偿控制子模型对的优化目标函数，如式(1)所示：

表示仿生机器鱼在世界参考系下的速度矢量；

本发明提出的运动优化方法分别针对了两个不同的模型，为了保证优化效果的一致性，提出的优化目标函数具有泛化性。

步骤B20，通过ES算法按照预设第一梯度函数梯度下降方向进行舵机全局控制子模型的参数优化，直至所述优化目标函数的值不再增加或增加值低于设定第一阈值，获得第一舵机全局控制子模型。

通常来说，生物CPG是位于脊髓的专用神经网络，它有能力产生协调的节律活动模式，如呼吸、咀嚼或行走时的腿部运动。特别地， CPG模型可以在没有任何来自反馈或更高控制中心的输入的情况下产生节律信号。基于CPG模型的控制被广泛用于生成各种机器鱼的游动策略。与传统的鱼体波拟合方法相比，CPG模型作为在线步态发生器，简单地改变输出信号的特征，即使参数突然改变，也能保持平稳连续。因此，本发明的全局基准控制也采用基于CPG模型构建的舵机全局控制模型产生机器鱼全局控制信号。

训练阶段，本发明以全局基准控制作为初始优化对象，利用ES算法对CPG模型的参数进行优化。采用强化学习中ES算法通过生成镜像随机梯度的方法扰动CPG模型中的参数，控制机器鱼在环境中运动并得到大小不同的奖励反馈，最后根据奖励排序按不同权重更新CPG模型参数，其第一梯度函数如式(2)所示：

对于每段子路径L _i，根据机器鱼初始位姿

与目标点P _i关系，经验性给定一组训练初值，训练至目标函数得分收敛，记录训练最优结果对应的CPG模型参数与机器鱼终止位姿

如图3所示，为本发明基于对抗结构化控制的仿生机器鱼运动控制方法一种实施例的Mujoco机器鱼仿真训练示意图，图3左图、图3右图分别是ES算法对一个较差和较好的初始CPG模型参数优化数值仿真图，短线段曲线Train score代表优化目标函数值在不同训练回合下的变化，点曲线Joint power(W)代表每个episode内单位时间的功率总和在不同训练回合下的变化，连续曲线Speed(×1000)代表直游任务中机器鱼的头部线速度在不同训练回合下的变化，横坐标round代表训练回合数，纵坐标value代表优化目标函数值，无论CPG初始参数的优劣，ES算法都能有效地进行优化，其中，机器鱼游动过程中的能量损耗由于游动路径与姿态的优化呈现明显的下降。

步骤B30，基于所述第一舵机全局控制子模型的参数，按照预设第二梯度函数梯度下降方向进行舵机补偿控制子模型中动作策略网络与动作价值网络的参数优化，直至所述优化目标函数的值不再增加或增加值低于设定第一阈值，获得第一舵机补偿控制子模型。

在全局基准控制经过第一轮优化后，本发明方法锁定模块输出的全局基准控制信号，即固定CPG模型参数，然后转换训练对象，更新DDPG中动作策略网络与动作价值网络的参数，其第二梯度函数如式(3)所示：

代表动作策略网络对网络内参数的梯度。

本发明提出运用DDPG算法产生实时控制的局部补偿控制信号，主要源于残差神经网络的核心思想：在已取得较优结果的控制信号上训练其残差的补偿控制信号，其最差的结果只是残差控制网络输出为零，等价于仅通过全局基准控制信号控制机器鱼的运动。因此，本发明设定DDPG动作策略网络的权重与偏置均为0，同时根据机器鱼搭载舵机的单位时间最大转角θ _max的限制，本发明方法设置动作策略网络输出如式(4)所示：

其中，a _t代表每个时刻局部补偿控制的输出动作信号，

表示动作策略网络输出层的输出，非线性激活函数tanh将输出范围限制在[-1,1]，K代表根据θ _max设置的补偿信号微调量的上限值。

本发明方法设计的动作策略网络包括两个隐藏层，每层包含64个节点。输入状态维度与多连杆机器鱼的实际舵机数量有关，其物理含义主要有：当前位置与目标点P _i的距离、当前位置与目标点P _i的偏差角、当前航向角、各舵机旋转角度、各舵机旋转角速度。动作价值网络同样设置了两层隐藏层，每层包含节点64个。其中状态和动作采用向量拼接的方式共同组成价值网络的输入，价值网络的输出即为动作状态价值函数Q _π(s,a)。

训练阶段，DDPG与ES采用同样的优化目标函数，但是ES采用蒙特·卡洛方法，将一段Episode的总奖励作为反馈得分；DDPG采用时间差分方法，每一步运动都对网络参数进行更新。当最终目标函数得分收敛时停止DDPG的训练。

本发明方法在对抗结构化控制的训练中，除了训练得到初始的全局基准控制外，后续通过ES算法更新CPG模型参数同样要求固定DDPG网络参数再进行优化。本发明方法提出的这种对抗式的训练方法能够有效的避免CPG模型参数和DDPG网络参数在优化过程中陷入局部最优值的情况。如图4所示，为本发明基于对抗结构化控制的仿生机器鱼运动控制方法一种实施例的真实机器鱼数值仿真训练示意图，灰色曲线Cost Curve代表优化目标函数中损耗项在不同对抗训练回合下的变化，黑色曲线Reward Curve代表优化目标函数中奖励项在不同对抗训练回合下的变化，1st ES、2nd ES、3rd ES分别代表第一次、第二次、第三次通过进化策略算法更新CPG模型参数，1st RL、2nd RL、3rd RL分别代表第一次、第二次、第三次更新DDPG模型参数，横坐标round代表对抗训练回合数，纵坐标value代表优化目标函数值，每一轮经过ES算法优化收敛的基准控制叠加上补偿控制后，目标函数得分再次提升。在本发明一个实施例中，经过三轮对抗训练后目标函数得分已趋于稳定，不再提升。同时，如图4中阴影部分展示，给定不同的初始条件，本发明方法都能为仿生机器鱼带来明显的运动优化效果，并获得较高的任务完成度。

步骤S40，对所述t时刻仿生机器鱼各舵机全局控制量与t时刻仿生机器鱼各舵机补偿控制量求和，获取t+1时刻仿生机器鱼各舵机控制量，并通过所述t+1时刻仿生机器鱼各舵机控制量进行t+1时刻仿生机器鱼运动控制。

基于传统控制理论提出的控制算法如PID、自抗扰控制技术(ADRC，Active Disturbance Rejection Control)等在解决仿生机器鱼路径跟踪问题时，通常只能注重降低跟踪误差的单一目的。通过理论推导的方法求解高性能、低功耗相结合的控制律是非常困难的。因此，本发明方法将求解控制律的问题转化为目标优化问题，从而实现兼顾高跟踪精度与低功耗的任务要求。直观地，根据仿生机器鱼节律性运动的先验知识，我们将基准控制信号设定为经过优化的节律信号。因此，全局基准控制被设计为利用ES优化CPG模型参数，而补偿控制被设计为通过DDPG算法进一步优化与稳定基准控制的局部运动，两个信号线性组合为最终的控制律，如式(5)所示：

其中，a _t表示仿生机器鱼舵机控制信号，s _t、

分别表示t时刻仿生机器鱼的状态与期望状态，

如图5所示，为本发明基于对抗结构化控制的仿生机器鱼运动控制方法一种实施例的对一组较差初始状态优化后的真实四连杆仿生机器鱼的直游示例图，从图5(a)可以看出，实验开始时，机器鱼静止于水中，然后以一个较差的游动姿态实现直游任务。图5(b)展示出虽然机器鱼仅在基于CPG模型的控制下完成了直游目标，但机器鱼摆动幅度非常大，全局视觉系统记录的路径呈现锯齿状波动。因此，该运动姿态带来的水阻力非常大，运动效率很低，同时仿生机器鱼的游动速度较低，而能量损耗非常高。图5(c)、(d)展示的是采用本发明方法优化后的机器鱼直游运动路径，直观上可以看出全局视觉系统记录的路径近乎一条直线，波动极小。我们也可以看出在保证速度不降低甚至提升的要求下，能量也得到了很好的保存。

本发明第二实施例的基于对抗结构化控制的仿生机器鱼运动控制系统，该仿生机器鱼运动控制系统包括路径获取模块、舵机全局控制模块、舵机补偿控制模块、舵机控制量获取模块、运动控制模块；

所属技术领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统的具体工作过程及有关说明，可以参考前述方法实施例中的对应过程，在此不再赘述。

需要说明的是，上述实施例提供的基于对抗结构化控制的仿生机器鱼运动控制系统，仅以上述各功能模块的划分进行举例说明，在实际应用中，可以根据需要而将上述功能分配由不同的功能模块来完成，即将本发明实施例中的模块或者步骤再分解或者组合，例如，上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块，以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的模块、步骤的名称，仅仅是为了区分各个模块或者步骤，不视为对本发明的不当限定。

本发明第三实施例的一种存储装置，其中存储有多条程序，所述程序适于由处理器加载并执行以实现上述的基于对抗结构化控制的仿生机器鱼运动控制方法。

本发明第四实施例的一种处理装置，包括处理器、存储装置；处理器，适于执行各条程序；存储装置，适于存储多条程序；所述程序适于由处理器加载并执行以实现上述的基于对抗结构化控制的仿生机器鱼运动控制方法。

所属技术领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的存储装置、处理装置的具体工作过程及有关说明，可以参考前述方法实施例中的对应过程，在此不再赘述。

本领域技术人员应该能够意识到，结合本文中所公开的实施例描述的各示例的模块、方法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，软件模块、方法步骤对应的程序可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。为了清楚地说明电子硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

术语“第一”、“第二”等是用于区别类似的对象，而不是用于描述或表示特定的顺序或先后次序。

术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素，而且还包括没有明确列出的其它要素，或者还包括这些过程、方法、物品或者设备/装置所固有的要素。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征作出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims

一种基于对抗结构化控制的仿生机器鱼运动控制方法，其特征在于，该仿生机器鱼运动控制方法包括：

步骤S10，获取仿生机器鱼游动路径，并将所述游动路径划分为顺次连接的基本子路径集合；

步骤S20，顺次基于所述子路径集合中每一个子路径的起点与终点，通过训练好的舵机全局控制模型，获取t时刻仿生机器鱼各舵机全局控制量；

步骤S30，基于获取的t时刻仿生机器鱼位姿信息、t时刻仿生机器鱼各舵机全局控制量，通过训练好的舵机补偿控制模型，获取t时刻仿生机器鱼各舵机补偿控制量；

步骤S40，对所述t时刻仿生机器鱼各舵机全局控制量与t时刻仿生机器鱼各舵机补偿控制量求和，获取t+1时刻仿生机器鱼各舵机控制量，并通过所述t+1时刻仿生机器鱼各舵机控制量进行t+1时刻仿生机器鱼运动控制；

步骤S50，令t＝t+1，跳转步骤S20，直至所述仿生机器鱼到达所述游动路径终点。
根据权利要求1所述的基于对抗结构化控制的仿生机器鱼运动控制方法，其特征在于，所述舵机全局控制模型、舵机补偿控制模型分别包括一一对应的针对不同类型子路径构建的舵机全局控制子模型与舵机补偿控制子模型对的集合。
根据权利要求2所述的基于对抗结构化控制的仿生机器鱼运动控制方法，其特征在于，所述舵机全局控制子模型与舵机补偿控制子模型对分别基于CPG模型、DDPG网络构建，并通过迭代对抗方法进行训练，其训练方法为：

步骤B10，构建所述舵机全局控制子模型与舵机补偿控制子模型对的优化目标函数；

步骤B20，通过ES算法按照预设第一梯度函数梯度下降方向进行舵机全局控制子模型的参数优化，直至所述优化目标函数的值不再增加或增加值低于设定第一阈值，获得第一舵机全局控制子模型；

步骤B30，基于所述第一舵机全局控制子模型的参数，按照预设第二梯度函数梯度下降方向进行舵机补偿控制子模型中动作策略网络与动作价值网络的参数优化，直至所述优化目标函数的值不再增加或增加值低于设定第一阈值，获得第一舵机补偿控制子模型；

步骤B40，基于所述第一舵机补偿控制子模型的参数，跳转步骤B20，迭代进行舵机全局控制子模型、舵机补偿控制子模型的参数优化，直至所述优化目标函数的值不再增加或增加值低于设定第一阈值，获得训练好的舵机全局控制子模型与舵机补偿控制子模型。
根据权利要求3所述的基于对抗结构化控制的仿生机器鱼运动控制方法，其特征在于，所述目标函数为：

其中，ψ表示通过目标函数优化的对象，即CPG模型参数、DDPG网络参数；θ _e表示仿生机器鱼与目标点偏航角度，θ _e∈(-π,π]为其设定范围；
表示仿生机器鱼在世界参考系下的速度矢量；
表示该速度矢量的模，v ₀是为保证能耗优化效果预先设定的速度上限；
分别表示仿生机器鱼舵机的力矩矢量、角速度矢量；β为正值，表示奖励与损耗之间的相关系数。
根据权利要求3所述的基于对抗结构化控制的仿生机器鱼运动控制方法，其特征在于，所述第一梯度函数为：

其中，F(·)代表优化目标函数，θ代表CPG模型参数，σ表示参数扰动的步长，ε表示参数扰动的梯度方向，
代表仿生机器鱼在向n个从标准正态分布采样得到梯度方向更新后的θ控制下运动得到的优化目标函数的数学期望。
根据权利要求3所述的基于对抗结构化控制的仿生机器鱼运动控制方法，其特征在于，所述第二梯度函数为：

其中，Q(s,a|θ ^Q)表示动作状态价值函数，μ(s|θ ^μ)表示动作策略函数，N代表批处理更新方法中样本的个数，i代表从经验池中采样得到的第i个样本，a代表控制量，s _i代表第i个样本的状态，J代表动作策略网络的目标函数，
代表动作策略网络对网络内参数的梯度。
根据权利要求3所述的基于对抗结构化控制的仿生机器鱼运动控制方法，其特征在于，步骤S40中“对所述t时刻仿生机器鱼各舵机全局控制量与t时刻仿生机器鱼各舵机控制量的调整量求和”，其方法为：

其中，a _t表示仿生机器鱼舵机控制信号，s _t、
分别表示t时刻仿生机器鱼的状态与期望状态，
分别表示与仿生机器鱼状态相关的舵机全局控制量和舵机补偿控制量。
一种基于对抗结构化控制的仿生机器鱼运动控制系统，其特征在于，该仿生机器鱼运动控制系统包括路径获取模块、舵机全局控制模块、舵机补偿控制模块、舵机控制量获取模块、运动控制模块；

所述路径获取模块，配置为获取仿生机器鱼游动路径，并将所述游动路径划分为顺次连接的基本子路径集合；

所述舵机全局控制模块，配置为顺次基于所述子路径集合中每一个子路径的起点与终点，通过训练好的舵机全局控制模型，获取t时刻仿生机器鱼各舵机全局控制量；

所述舵机补偿控制模块，配置为基于获取的t时刻仿生机器鱼位姿信息、t时刻仿生机器鱼各舵机全局控制量，通过训练好的舵机补偿控制模型，获取t时刻仿生机器鱼各舵机补偿控制量；

所述舵机控制量获取模块，配置为对所述t时刻仿生机器鱼各舵机全局控制量与t时刻仿生机器鱼各舵机补偿控制量求和，获取t+1时刻仿生机器鱼各舵机控制量；

所述运动控制模块，配置为通过所述t+1时刻仿生机器鱼各舵机控制量进行t+1时刻仿生机器鱼运动控制。
一种存储装置，其中存储有多条程序，其特征在于，所述程序适于由处理器加载并执行以实现权利要求1-7任一项所述的基于对抗结构化控制的仿生机器鱼运动控制方法。
一种处理装置，包括

处理器，适于执行各条程序；以及

存储装置，适于存储多条程序；

其特征在于，所述程序适于由处理器加载并执行以实现：

权利要求1-7任一项所述的基于对抗结构化控制的仿生机器鱼运动控制方法。