WO2023216581A1

WO2023216581A1 - 控制器训练方法、轨迹跟踪方法、终端设备以及存储介质

Info

Publication number: WO2023216581A1
Application number: PCT/CN2022/137678
Authority: WO
Inventors: 徐升; 徐天添; 李冬; 刘佳; 吴新宇
Original assignee: 深圳先进技术研究院
Priority date: 2022-05-09
Filing date: 2022-12-08
Publication date: 2023-11-16
Also published as: CN115494751A

Abstract

本申请公开了一种控制器训练方法、轨迹跟踪方法、终端设备以及存储介质，该控制器训练方法包括：获取难以建模的微型机器人运动的若干示教数据，其中，所述示教数据包括运动期望值和运动实际值；基于所述若干示教数据，获取所述运动期望值和所述运动实际值的若干误差值；基于权重参数、误差参数，以及误差值与高层控制率的计算关系，建立关于所述高层控制率的优化问题；将所述若干示教数据的误差值作为输入，求解所述优化问题，得到最终权重参数和最终误差参数；利用所述最终权重参数和所述最终误差参数，获取训练后的控制器。通过上述方式，本申请提供的控制器训练方法通过学习示教数据中的特性，从而提升控制器的泛化能力，提高控制器的训练效率。

Description

控制器训练方法、轨迹跟踪方法、终端设备以及存储介质

技术领域

本申请涉及智能控制技术领域，特别涉及一种控制器训练方法、轨迹跟踪方法、终端设备以及存储介质。

背景技术

微型机器人是尺度在毫米级以下的一类能自主动作机器人，是机器人学中一个重要研究领域。特别是磁性微型机器人具有尺寸小的特点，在生物医学领域有广泛的应用前景，比如在狭小受限的空间进行微装配、细胞操作和定向诊断等任务。通过电磁线圈产生的低强度的磁场能够穿透生物体组织且对生物体无害。操控磁性微型机器人的有效手段一直是通过视觉反馈，形成闭环的伺服控制。目前，有两类轨迹跟踪的控制方法，一种是经典的现代控制理论方法，一种是示教学习的控制方法。由于微型机器人的期望状态值不停的变化，导致基于模型的控制方法，控制效果不佳。

现有的轨迹追踪控制方法大致可分为两类。其中一类通过经典的控制技术实现，如PID、模糊、滑模控制等。这类方法往往需要复杂的过程来确定控制器参数，因此需要使用者或多或少拥有相关的专业知识。然而，在微型机器人控制领域，机器人的期望状态值会频繁的改变，因此控制器参数也需要频繁的随之调整，这对于没有控制系统相关专业知识的使用者来说很难实现。

发明内容

本申请主要提供一种控制器训练方法、轨迹跟踪方法、终端设备以及存储介质，以解决现有微型机器人控制技术中的控制器参数需要频繁调整，训练门槛较高的问题。

为解决上述技术问题，本申请采用的一个技术方案是：提供一种控制器训练方法，所述控制器训练方法包括：

获取微型机器人运动的若干示教数据，其中，所述示教数据包括运动期望值和运动实际值；

基于所述若干示教数据，获取所述运动期望值和所述运动实际值的若干误差值；

基于权重参数、误差参数，以及误差值与高层控制率的计算关系，建立关于所述高层控制率的优化问题；

将所述若干示教数据的误差值作为输入，求解所述优化问题，得到最终权重参数和最终误差参数；

利用所述最终权重参数和所述最终误差参数，获取训练后的控制器。

根据本申请提供的一实施方式，所述运动期望值包括速度期望值和位置期望值，所述运动实际值包括速度实际值和速度期望值。

根据本申请提供的一实施方式，所述基于权重参数、误差参数，以及误差值与高层控制率的计算关系，建立关于所述高层控制率的优化问题，包括：

按照所述误差值与高层控制率的计算关系，利用所述误差值与第一权重参数、第一误差参数，建立特征节点；

利用所述特征节点与第二权重参数、第二误差参数，建立加强节点；

基于所述特征节点和所述加强节点，建立关于所述高层控制率的优化问题。

根据本申请提供的一实施方式，所述基于所述特征节点和所述加强节点，建立关于所述高层控制率的优化问题，包括：

基于所述特征节点和所述加强节点，建立所述高层控制率的计算方程；

利用所述高层控制率的计算方程，建立关于所述高层控制率的优化问题。

根据本申请提供的一实施方式，所述利用所述高层控制率的计算方程，建立关于所述高层控制率的优化问题，包括：

利用所述高层控制率的计算方程，获取所述控制器的稳定性限制；

基于所述稳定性限制，获取所述计算方程的限制条件；

利用所述高层控制率的计算方程，和所述计算方程的限制条件，建立所述高层控制率的优化问题。

根据本申请提供的一实施方式，所述利用所述高层控制率的计算方程，获取所述控制器的稳定性限制，包括：

利用李雅普诺夫候选函数，以及所述控制器的输入和输出，建立所述控制器的第一稳定性方程；

对所述第一稳定性方程求导，得到第二稳定性方程，其中，所述第二稳定性方程包括求导方程；

将所述高层控制率的计算方程代入所述求导方程；

利用所述第二稳定性方程，推导所述控制器的稳定性限制。

为解决上述技术问题，本申请采用的另一个技术方案是：提供一种轨迹跟踪方法，所述轨迹跟踪方法包括：

获取微型机器人的参考运动信息，以及实际运动信息；

获取所述参考运动信息和所述实际运动信息的误差值；

将所述误差值输入预先训练的控制器，获取所述控制器输出的高层控制率；

利用所述高层控制率以及所述参考运动信息，获取所述机器人的最终运动信息。

根据本申请提供的一实施方式，所述参考运动信息包括参考速度值和参考位置值，所述实际运动信息包括实际速度值和实际位置值。

为解决上述技术问题，本申请采用的另一个技术方案是：提供一种终端设备，所述终端设备包括存储器以及与所述存储器耦接的处理器；

其中，所述存储器用于存储程序数据，所述处理器用于执行所述程序数据以实现如上述的控制器训练方法和/或轨迹跟踪方法。

为解决上述技术问题，本申请采用的另一个技术方案是：提供一种计算机存储介质，所述计算机存储介质用于存储程序数据，所述程序数据在被计算机执行时，用以实现如上述的控制器训练方法和/或轨迹跟踪方法。

本申请提供了一种控制器训练方法、轨迹跟踪方法、终端设备以及存储介质，该控制器训练方法包括：获取微型机器人运动的若干示教数据，其中，所述示教数据包括运动期望值和运动实际值；基于所述若干示教数据，获取所述运动期望值和所述运动实际值的若干误差值；基于权重参数、误差参数，以及误差值与高层控制率的计算关系，建立关于所述高层控制率的优化问题；将所述若干示教数据的误差值作为输入，求解所述优化问题，得到最终权重参数和最终误差参数；利用所述最终权重参数和所述最终误差参数，获取训练后的控制器。通过上述方式，本申请提供的控制器训练方法通过学习示教数据中的特性，从而训练控制器的泛化能力，提高控制器的训练效率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图，其中：

图1是本申请提供的控制器训练方法一实施例的流程示意图；

图2是本申请提供的基于宽度学习的伺服控制的流程示意图；

图3是本申请提供的控制器训练方法另一实施例的流程示意图；

图4是本申请提供的轨迹跟踪方法一实施例的流程示意图；

图5是本申请提供的终端设备一实施例的结构示意图；

图6是本申请提供的计算机存储介质一实施例的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明，若本申请实施例中有涉及方向性指示(诸如上、下、左、右、前、后……)，则该方向性指示仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等，如果该特定姿态发生改变时，则该方向性指示也相应地随之改变。

另外，若本申请实施例中有涉及“第一”、“第二”等的描述，则该“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本申请要求的保护范围之内。

微型机器人是尺度在毫米级以下的一类能自主动作机器人，是机器人学中一个重要研究领域。特别是磁性微型机器人具有尺寸小的特点，在生物医学领域有广泛的应用前景，比如在狭小受限的空间进行微装配、细胞操作和定向诊断等任务，通过电磁线圈产生的低强度的磁场能够穿透生物体组织且对生物体无害。

而操控磁性微型机器人的有效手段一直是通过视觉反馈，形成闭环的伺服控制，目前，有两类轨迹跟踪的控制方法，一种是经典的现代控制理论方法，一种是示教学习的控制方法。由于微型机器人的期望状态值不停的变化，导致基于模型的控制方法，控制效果不佳。

本申请采用宽度学习方法，这种学习方法拥有相对灵活的结构，在保证一定精度的同时，具有快速、简洁、支持增量式在线模型更新的优点。因此，将宽度学习方法应用于微型机器人复杂轨迹追踪问题时，可以实时快捷添加新的训练数据，从而避免对于控制器频繁的重训练。

具体请参阅图1和图2，图1是本申请提供的控制器训练方法一实施例的流程示意图，图2是本申请提供的基于宽度学习的伺服控制的流程示意图。

如图2所示，本申请所要保护的基于宽度学习的伺服控制具体包括两部分，第一部分为训练控制器，第二部分为基于训练得到的控制器针对参考轨迹追踪。

具体地，本申请提出的基于宽度学习的微型机器人轨迹追踪控制方法的技术方案，主要包括以下几个步骤：步骤一，示教数据准备，即对微型机器人的运动过程进行示教和采样。步骤二，控制器训练，即使用宽度学习(broad learning system,BLS)对控制器进行建模。步骤三，分析并推导系统稳定性约束。步骤四，将示教数据及稳定性约束导入控制器模型，并进行学习算法训练获得控制器最终各个参数，即为图2所示第一部分的训练控制器的完整过程，在图2所示第二部分的轨迹追踪将获得的控制器应用于微型机器人轨迹追踪系统。

下面先结合图1介绍伺服控制的第一部分：

本申请采用基于宽度学习(broad learning system,BLS)的方法对伺服控制系统设计控制算法，且本申请仅关注于解决高层伺服控制问题。控制变量的输入输出分别为位置误差和修正后的速度。

本申请使用的方法包含三个步骤：首先，实验人员提供多个精准追踪期望路径的示教数据，其中包含实时的位置和速度数据。随后，依据被提供的示教数据，通过训练过程计算出宽度学习算法控制器参数。最后，训练完成的包含着示教数据性能的控制器将被用于控制新的伺服系统(例如微型机器人实验系统)。

如图1所示，本申请实施例的控制器训练方法具体可以包括以下步骤：

步骤S11：获取人为遥控时微型机器人运动的若干示教数据，其中，示教数据包括运动期望值和运动实际值。

在本申请实施例中，实验人员提供多个精准追踪期望路径的示教数据，其中包含实时的位置数据和速度数据，以及期望的位置数据和速度数据。

步骤S12：基于若干示教数据，获取运动期望值和运动实际值的若干误差值。

在本申请实施例中，对于位置伺服问题，不同时间点(t)下的期望位置坐标为已知量。定义期望位置为ξ _r(t)，期望速度为

同时设实际物理系统(例如微型机器人运动的状态)的实际位置为ξ(t)，实际速度为

期望状态与物理系统实际状态量直接的差异被定义为误差：

e(t)＝ξ _r(t)-ξ(t) (1)

在伺服控制问题中，速度和位置误差都应收敛为零。因此，本申请的目标为设计合适的控制率来降低系统误差。

本申请基于一阶动力系统，当初始位置和速度数据存在误差，可通过计算修正速度

的方法消除误差，计算公式如下：

其中τ(t)为源于控制率的修正值。

为在时间点t的最终输出(即修正完毕的速度)，其包含两个部分：(1)已知的参考轨迹速度

(2)计算得到的控制率τ(t)。

从e(t)到τ(t)的转换关系未知，定义其为τ(t)＝F(e(t))，而

为已知量。因此，相应的位置修正量可表达为：

其中，Δt为时间索引t到t+1之间的时间差。

在本申请实施例中，需要设计合适的策略在仅使用位置误差作为输入的前提下计算速度修正值，即τ(t)。

基于学习方法和经典的动力模型，速度修正值可以设计为：

其中，

的物理意义是期望速度与实际速度之间的误差，可以使用实时测量的位置误差e(t)和F(·)计算。其中，F(·)为本申请最终需要设计的控制率计算方程。

需要说明的是，为了简化表达式，时间索引t在后续的公式中将被忽略。

步骤S13：基于权重参数、误差参数，以及误差值与高层控制率的计算关系，建立关于高层控制率的优化问题。

在本申请实施例中，终端设备按照所述误差值与高层控制率的计算关系，利用所述误差值与第一权重参数、第一误差参数，建立特征节点；利用所述特征节点与第二权重参数、第二误差参数，建立加强节点；基于所述特征节点和所述加强节点，建立关于所述高层控制率的优化问题。

其中，基于所述特征节点和所述加强节点，建立关于所述高层控制率的优化问题进一步包括：基于所述特征节点和所述加强节点，建立所述高层控制率的计算方程；利用所述高层控制率的计算方程，建立关于所述高层控制率的优化问题。

具体地，基于简化的考量，这里定义从状态误差到修正状态的过程函数为Τ(·)，且为已知。系统状态值ξ _cor和

可以表示为：

由此，本步骤中的高层控制率则可以定义为：

接下来将基于宽度学习算法计算高层控制率τ：

h _j＝∈(a _hjz _j+b _hj) (8b)

其中，Z＝[z ₁,z ₂,…,z _N]为特征节点。H＝[h ₁,h ₂,…,h _N]为加强节点。

为输出权重，w _1i和w _2j分别为特征节点和加强节点的权重。a _ei和b _ei为特征节点随机生成的输入权重和输入误差，a _hi和b _hi为加强节点随机生成的输入权重和输入误差。φ(·)和∈(·)为连续和连续可导激活函数，两者可相同也可不同。定义

c _j＝a _hjz _j+b _hj，同时定义激活函数有以下特征：

其中，设置激活函数φ(·)＝∈(·)，即两者拥有相同的形式如下：

其中，a _ei，b _ei，b _hi和a _hi均是通过固定随机常数生成。输入为包含期望e和

在不同时间下的示教数据，输出为训练过程。

假设，示教数据中共有M个数据点，因此，在训练过程中会确定权重w _1i和w _2j。训练的目标转化成了一个通过以下表达式定义的优化问题：

其中，o下标表示示教数据的编号。

步骤S14：将若干示教数据的误差值作为输入，求解优化问题，得到最终权重参数和最终误差参数。

在本申请实施例中，终端设备将步骤S11中实验人员提供的若干示教数据输入步骤S13建立的优化问题中，即将若干示教数据计算得到的误差值以及控制率，分别赋予优化问题中的e _o和τ _o，从而迭代求取优化问题中的随机生成的输入权重和输入误差中的最优值，即最终权重参数和最终误差参数。

步骤S15：利用最终权重参数和最终误差参数，获取训练后的控制器。

在本申请实施例中，终端设备将步骤S14通过优化问题求解得到的最终权重参数和最终误差参数代入式子(7)，得到控制器的关于高层控制率的最终计算方程，至此，完成控制器的训练过程。

在本申请实施例中，终端设备获取人为遥控时微型机器人运动的若干示教数据，其中，所述示教数据包括运动期望值和运动实际值；基于所述若干示教数据，获取所述运动期望值和所述运动实际值的若干误差值；基于权重参数、误差参数，以及误差值与高层控制率的计算关系，建立关于所述高层控制率的优化问题；将所述若干示教数据的误差值作为输入，求解所述优化问题，得到最终权重参数和最终误差参数；利用所述最终权重参数和所述最终误差参数，获取训练后的控制器。通过上述方式，本申请提供的控制器训练方法通过学习示教数据中的特性，从而训练控制器的泛化能力，提高控制器的训练效率。

请继续参阅图3，图3是本申请提供的控制器训练方法另一实施例的流程示意图。

如图3所示，本申请实施例的控制器训练方法具体可以包括以下步骤：

步骤S21：利用高层控制率的计算方程，获取控制器的稳定性限制。

在本申请实施例中，为了使用上述实施例中式子(5)至式子(7)的控制方程，系统本身的稳定性需要被保证。

本申请采用的一种常用的方法，即李雅普诺夫稳定性方法。基于这种方法，系统状态量e和

会全局渐进稳定于

当连续和连续可导的李雅普诺夫候选函数(LCF，lyapunov function)，

满足：

根据李雅普诺夫理论，可以设计满足式子(12)的LCF并据此推导系统的稳定限制。这里设计LCF，即控制器的第一稳定性方程如下(为了简化方便表达，这里省略了括号)：

上式已满足式子(12a)，式子(12c)和式子(12d)的条件。接下来，对LCF求导，可以得到控制器的第二稳定性方程：

在上述式子(14)中，包含e，

和

其中e和

为设计好的控制率方程中的输入和输出，但

即求导方程之前从未出现过。因此，需要首先计算出

的表达式。基于式(7)，

可以表示为：

其中，上述式子(15)的推导顺利通过维度检查，

的维度为3×1。基于式子(9)，激活方程的导数应该大于0，激活方程导数的表达式为：

接下来把式子(7)和式子(15)代入式子(14)：

需要说明的是，上述式子(17)等号右侧的第一项，即

命名为①，其余项命名为②。

接下来可以简化式子(17)中的①和②。使用中值定理和式子(8)，①可以被简化为：

其中，

或者

为

或者

的准确平均斜率。∈′(p _j)有相同的特性。基于式子(11)，φ(0)＝0，∈(0)＝0，因此式子(18)变为：

最终，可以得到：

步骤S22：基于稳定性限制，获取计算方程的限制条件。

在本申请实施例中，接下来，为了使步骤S21中的式子(12b)成立，(i)到(vii)的和应该总是为负值。观察从(i)到(vii)的七个式子，很难在不同的输入误差下均能消除不同的项，因此，合理的方案是令这七个式子均为负值或其中一部分为零。式子中的a _ei，a _hj，b _ei和b _hj均为随机生成的参数，因此，可以推导以下的参数限制：

b _ei＝0 (22b)

b _ej＝0 (22d)

b _hj＝0 (22e)

当上述七个限制条件均满足时，①+②为负值。这里＜表示矩阵为负定矩阵。

式子(22)为宽松限制条件，但很难满足。因为具体的斜率在不同的状态下为正变量，且其数值在不同的时间下为不同值。而且，到系统逼近平衡点，即

时，两个激活方程的斜率均约等于1。综上，限制条件可以被简化为b _ei＝0，b _hj＝0，

但是，为了保证系统的全局渐进稳定性，也就是说系统可以拥有任意初始值，式子(22)应该严格成立。最终，可以获得简化后的限制条件如下：

b _ei＝0 (23a)

b _hj＝0 (23b)

步骤S23：利用高层控制率的计算方程，和计算方程的限制条件，建立高层控制率的优化问题。

在本申请实施例中，综合上述步骤S21和步骤S22，包括控制器和训练的整个过程可以转化为如下的优化问题：

对应，i,j＝1,2,…,N

b _ei＝0 (25a)

b _hj＝0 (25b)

上述优化问题可以通过使用MATLAB中的fmincon函数在训练过程中求解。

在本申请实施例中，开发了基于宽度学习的伺服控制并将其首次应用在微型机器人系统中。该控制率具备宽度学习的众多优点，诸如结构简单，不需要针对新的示教数据重训练等。随后，李亚普诺夫理论被巧妙地结合在宽度学习算法中用以求解控制器参数的限制条件，并最终获得不仅具备示教数据的特性，而且具备很强的普遍化及误差收敛性能的轨迹追踪控制器；将稳定性问题考虑其中，在充分应用示教数据的过程中同时考虑系统稳定性；通过学习示教轨迹追踪中的特性，而获得泛化能力，即无论给定轨迹如何变化，所设计控制器均可实现具有示教特性的追踪控制。

请继续参阅图4，图4是本申请提供的轨迹跟踪方法一实施例的流程示意图。

如图4所示，本申请实施例的轨迹跟踪方法具体可以包括以下步骤：

步骤S31：获取人为遥控时微型机器人的参考运动信息，以及实际运动信息。

在本申请实施例中，终端设备获取微型机器人的参考路径和实际路径。其中，所述参考运动信息包括参考速度值和参考位置值，所述实际运动信息包括实际速度值和实际位置值。

步骤S32：获取参考运动信息和实际运动信息的误差值。

在本申请实施例中，终端设备利用参考路径和实际路径计算微型机器人实时的位置误差和实时的速度误差等。

步骤S33：将误差值输入预先训练的控制器，获取控制器输出的高层控制率。

在本申请实施例中，终端设备将步骤S32计算得到的误差值输入图1和图3所述控制器训练方法训练得到的控制器中，获取控制器基于误差值计算得到的高层控制率，即修正值。如图2所示第二部分的轨迹追踪，终端设备通过训练率F(e)计算上述式子(7)中的高层控制率τ。

步骤S34：利用高层控制率以及参考运动信息，获取机器人的最终运动信息。

在本申请实施例中，终端设备利用控制器输出的修正值修正参考运动信息，从而得到机器人准确的运行信息。

本申请使用的宽度学习算法具有支持在线模型更新的特点，因此，对于新添加的示教数据，本发明并不需要重新训练控制器，而是通过添加节点的方式直接获得同时具备原有控制器特点和新添加示教数据特点的控制器。这种方法非常适合解决微型机器人复杂轨迹追踪中目标轨迹的多变性，可以避免控制器的频繁调整。

本领域技术人员可以理解，在具体实施方式的上述方法中，各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定，各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。

请继续参见图5，图5是本申请提供的终端设备一实施例的结构示意图。本申请实施例的终端设备500包括处理器51、存储器52、输入输出设备53以及总线54。

该处理器51、存储器52、输入输出设备53分别与总线54相连，该存储器52中存储有程序数据，处理器51用于执行程序数据以实现上述实施例所述的控制器训练方法和/或轨迹追踪方法。

在本申请实施例中，处理器51还可以称为CPU(Central Processing Unit，中央处理单元)。处理器51可能是一种集成电路芯片，具有信号的处理能力。处理器51还可以是通用处理器、数字信号处理器(DSP，Digital Signal Process)、专用集成电路(ASIC，Application Specific Integrated Circuit)、现场可编程门阵列(FPGA，Field Programmable Gate Array)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器51也可以是任何常规的处理器等。

本申请还提供一种计算机存储介质，请继续参阅图6，图6是本申请提供的计算机存储介质一实施例的结构示意图，该计算机存储介质600中存储有程序数据61，该程序数据61在被处理器执行时，用以实现上述实施例的控制器训练方法和/或轨迹追踪方法。

本申请的实施例以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施方式所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本申请的实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

一种控制器训练方法，其特征在于，所述控制器训练方法包括：

获取微型机器人运动的若干示教数据，其中，所述示教数据包括运动期望值和运动实际值；

基于所述若干示教数据，获取所述运动期望值和所述运动实际值的若干误差值；

基于权重参数、误差参数，以及误差值与高层控制率的计算关系，建立关于所述高层控制率的优化问题；

将所述若干示教数据的误差值作为输入，求解所述优化问题，得到最终权重参数和最终误差参数；

利用所述最终权重参数和所述最终误差参数，获取训练后的控制器。
根据权利要求1所述的控制器训练方法，其特征在于，

所述运动期望值包括速度期望值和位置期望值，所述运动实际值包括速度实际值和速度期望值。
根据权利要求1所述的控制器训练方法，其特征在于，

所述基于权重参数、误差参数，以及误差值与高层控制率的计算关系，建立关于所述高层控制率的优化问题，包括：

按照所述误差值与高层控制率的计算关系，利用所述误差值与第一权重参数、第一误差参数，建立特征节点；

利用所述特征节点与第二权重参数、第二误差参数，建立加强节点；

基于所述特征节点和所述加强节点，建立关于所述高层控制率的优化问题。
根据权利要求3所述的控制器训练方法，其特征在于，

所述基于所述特征节点和所述加强节点，建立关于所述高层控制率的优化问题，包括：

基于所述特征节点和所述加强节点，建立所述高层控制率的计算方程；

利用所述高层控制率的计算方程，建立关于所述高层控制率的优化问题。
根据权利要求4所述的控制器训练方法，其特征在于，

所述利用所述高层控制率的计算方程，建立关于所述高层控制率的优化问题，包括：

利用所述高层控制率的计算方程，获取所述控制器的稳定性限制；

基于所述稳定性限制，获取所述计算方程的限制条件；

利用所述高层控制率的计算方程，和所述计算方程的限制条件，建立所述高层控制率的优化问题。
根据权利要求5所述的控制器训练方法，其特征在于，

所述利用所述高层控制率的计算方程，获取所述控制器的稳定性限制，包括：

利用李雅普诺夫候选函数，以及所述控制器的输入和输出，建立所述控制器的第一稳定性方程；

对所述第一稳定性方程求导，得到第二稳定性方程，其中，所述第二稳定性方程包括求导方程；

将所述高层控制率的计算方程代入所述求导方程；

利用所述第二稳定性方程，推导所述控制器的稳定性限制。
一种轨迹跟踪方法，其特征在于，所述轨迹跟踪方法包括：

获取微型机器人的参考运动信息，以及实际运动信息；

获取所述参考运动信息和所述实际运动信息的误差值；

将所述误差值输入预先训练的控制器，获取所述控制器输出的高层控制率；

利用所述高层控制率以及所述参考运动信息，获取所述机器人的最终运动信息。
根据权利要求7所述的轨迹跟踪方法，其特征在于，

所述参考运动信息包括参考速度值和参考位置值，所述实际运动信息包括实际速度值和实际位置值。
一种终端设备，其特征在于，所述终端设备包括存储器以及与所述存储器耦接的处理器；

其中，所述存储器用于存储程序数据，所述处理器用于执行所述程序数据以实现如权利要求1～6任一项所述的控制器训练方法和/或权利要求7或8所述的轨迹跟踪方法。
一种计算机存储介质，其特征在于，所述计算机存储介质用于存储程序数据，所述程序数据在被计算机执行时，用以实现如权利要求1～6任一项所述的控制器训练方法和/或权利要求7或8所述的轨迹跟踪方法。