WO2023216581A1 - 控制器训练方法、轨迹跟踪方法、终端设备以及存储介质 - Google Patents
控制器训练方法、轨迹跟踪方法、终端设备以及存储介质 Download PDFInfo
- Publication number
- WO2023216581A1 WO2023216581A1 PCT/CN2022/137678 CN2022137678W WO2023216581A1 WO 2023216581 A1 WO2023216581 A1 WO 2023216581A1 CN 2022137678 W CN2022137678 W CN 2022137678W WO 2023216581 A1 WO2023216581 A1 WO 2023216581A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- controller
- level control
- control rate
- value
- error
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 94
- 238000012549 training Methods 0.000 title claims abstract description 51
- 238000003860 storage Methods 0.000 title claims abstract description 16
- 238000004364 calculation method Methods 0.000 claims abstract description 39
- 238000005457 optimization Methods 0.000 claims abstract description 35
- 230000006870 function Effects 0.000 claims description 10
- 238000009795 derivation Methods 0.000 claims description 3
- 238000005728 strengthening Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 description 14
- 230000004913 activation Effects 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 6
- 238000012937 correction Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000013461 design Methods 0.000 description 2
- 238000003745 diagnosis Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B19/00—Programme-control systems
- G05B19/02—Programme-control systems electric
- G05B19/04—Programme control other than numerical control, i.e. in sequence controllers or logic controllers
- G05B19/042—Programme control other than numerical control, i.e. in sequence controllers or logic controllers using digital processors
- G05B19/0423—Input/output
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B2219/00—Program-control systems
- G05B2219/20—Pc systems
- G05B2219/25—Pc structure of the system
- G05B2219/25257—Microcontroller
Definitions
- establishing an optimization problem regarding the high-level control rate based on the characteristic node and the enhancement node includes:
- the trajectory tracking method includes:
- the final motion information of the robot is obtained using the high-level control rate and the reference motion information.
- the reference motion information includes a reference speed value and a reference position value
- the actual motion information includes an actual speed value and an actual position value
- Figure 1 is a schematic flowchart of an embodiment of a controller training method provided by this application.
- Figure 2 is a schematic flowchart of servo control based on width learning provided by this application.
- the technical solution of the micro-robot trajectory tracking control method based on width learning proposed in this application mainly includes the following steps: Step 1, teaching data preparation, that is, teaching and sampling the movement process of the micro-robot.
- Step two controller training, uses broad learning system (BLS) to model the controller.
- Step 3 Analyze and derive system stability constraints.
- Step 4 Import the teaching data and stability constraints into the controller model, and conduct learning algorithm training to obtain the final parameters of the controller. This is the complete process of training the controller in the first part shown in Figure 2. In the second part shown in Figure 2 The two-part trajectory tracking applies the obtained controller to the microrobot trajectory tracking system.
- BLS broad learning system
- This application uses a method based on broad learning system (BLS) to design a control algorithm for the servo control system, and this application only focuses on solving high-level servo control problems.
- the input and output of the control variables are position error and corrected speed respectively.
- the method used in this application consists of three steps: First, the experimenter provides multiple teaching data that accurately tracks the desired path, including real-time position and speed data. Subsequently, based on the provided teaching data, the width learning algorithm controller parameters are calculated through the training process. Finally, the trained controller containing the performance of the teaching data will be used to control the new servo system (such as a micro-robot experimental system).
- the new servo system such as a micro-robot experimental system.
- the experimenter provides multiple teaching data that accurately tracks the desired path, including real-time position data and speed data, as well as desired position data and speed data.
- the expected position coordinates at different time points (t) are known quantities.
- the desired position as ⁇ r (t) and the desired speed as At the same time, let the actual position of the actual physical system (such as the state of micro-robot movement) be ⁇ (t), and the actual speed be The direct difference between the desired state and the actual state of the physical system is defined as the error:
- Lyapunov stability method Based on this method, the system state quantity e and will be globally gradually stabilized at When the continuous and continuously differentiable Lyapunov candidate function (LCF, lyapunov function), satisfy:
- Step S23 Use the calculation equation of the high-level control rate and the constraints of the calculation equation to establish the optimization problem of the high-level control rate.
- the terminal device inputs the error value calculated in step S32 into the controller trained by the controller training method described in Figures 1 and 3, and obtains the high-level control rate calculated by the controller based on the error value, that is, Correction value.
- the terminal device calculates the high-level control rate ⁇ in the above equation (7) through the training rate F(e).
- the terminal device uses the correction value output by the controller to correct the reference motion information, thereby obtaining accurate operating information of the robot.
- the width learning algorithm used in this application has the characteristics of supporting online model update. Therefore, for the newly added teaching data, the present invention does not need to retrain the controller, but directly obtains the original controller by adding nodes. Features and newly added teaching data features of the controller. This method is very suitable for solving the variability of target trajectories in complex trajectory tracking of micro-robots, and can avoid frequent adjustments of the controller.
- the processor 51, the memory 52, and the input and output device 53 are respectively connected to the bus 54.
- the memory 52 stores program data.
- the processor 51 is used to execute the program data to implement the controller training method and/or the above embodiment. Trajectory tracking method.
- the processor 51 may also be called a CPU (Central Processing Unit).
- the processor 51 may be an integrated circuit chip with signal processing capabilities.
- the processor 51 can also be a general-purpose processor, a digital signal processor (DSP, Digital Signal Process), an application specific integrated circuit (ASIC, Application Specific Integrated Circuit), a field programmable gate array (FPGA, Field Programmable Gate Array) or other available Programmed logic devices, discrete gate or transistor logic devices, discrete hardware components.
- DSP digital signal processor
- ASIC Application Specific Integrated Circuit
- FPGA Field Programmable Gate Array
- the general processor may be a microprocessor or the processor 51 may be any conventional processor or the like.
- FIG. 6 is a schematic structural diagram of an embodiment of the computer storage medium provided by this application.
- the computer storage medium 600 stores program data 61.
- the program data 61 is in When executed by the processor, it is used to implement the controller training method and/or trajectory tracking method of the above embodiments.
- the embodiments of the present application When the embodiments of the present application are implemented in the form of software functional units and sold or used as independent products, they can be stored in a computer-readable storage medium.
- the technical solution of the present application is essentially or contributes to the existing technology, or all or part of the technical solution can be embodied in the form of a software product, and the computer software product is stored in a storage medium , including several instructions to cause a computer device (which can be a personal computer, a server, or a network device, etc.) or a processor to execute all or part of the steps of the method described in each embodiment of the application.
- the aforementioned storage media include: U disk, mobile hard disk, read-only memory (ROM, Read-Only Memory), random access memory (RAM, Random Access Memory), magnetic disk or optical disk and other media that can store program code. .
Abstract
本申请公开了一种控制器训练方法、轨迹跟踪方法、终端设备以及存储介质,该控制器训练方法包括:获取难以建模的微型机器人运动的若干示教数据,其中,所述示教数据包括运动期望值和运动实际值;基于所述若干示教数据,获取所述运动期望值和所述运动实际值的若干误差值;基于权重参数、误差参数,以及误差值与高层控制率的计算关系,建立关于所述高层控制率的优化问题;将所述若干示教数据的误差值作为输入,求解所述优化问题,得到最终权重参数和最终误差参数;利用所述最终权重参数和所述最终误差参数,获取训练后的控制器。通过上述方式,本申请提供的控制器训练方法通过学习示教数据中的特性,从而提升控制器的泛化能力,提高控制器的训练效率。
Description
本申请涉及智能控制技术领域,特别涉及一种控制器训练方法、轨迹跟踪方法、终端设备以及存储介质。
微型机器人是尺度在毫米级以下的一类能自主动作机器人,是机器人学中一个重要研究领域。特别是磁性微型机器人具有尺寸小的特点,在生物医学领域有广泛的应用前景,比如在狭小受限的空间进行微装配、细胞操作和定向诊断等任务。通过电磁线圈产生的低强度的磁场能够穿透生物体组织且对生物体无害。操控磁性微型机器人的有效手段一直是通过视觉反馈,形成闭环的伺服控制。目前,有两类轨迹跟踪的控制方法,一种是经典的现代控制理论方法,一种是示教学习的控制方法。由于微型机器人的期望状态值不停的变化,导致基于模型的控制方法,控制效果不佳。
现有的轨迹追踪控制方法大致可分为两类。其中一类通过经典的控制技术实现,如PID、模糊、滑模控制等。这类方法往往需要复杂的过程来确定控制器参数,因此需要使用者或多或少拥有相关的专业知识。然而,在微型机器人控制领域,机器人的期望状态值会频繁的改变,因此控制器参数也需要频繁的随之调整,这对于没有控制系统相关专业知识的使用者来说很难实现。
发明内容
本申请主要提供一种控制器训练方法、轨迹跟踪方法、终端设备以及存储介质,以解决现有微型机器人控制技术中的控制器参数需要频繁调整,训练门槛较高的问题。
为解决上述技术问题,本申请采用的一个技术方案是:提供一种控制器训练方法,所述控制器训练方法包括:
获取微型机器人运动的若干示教数据,其中,所述示教数据包括运动期望值和运动实际值;
基于所述若干示教数据,获取所述运动期望值和所述运动实际值的若干误差值;
基于权重参数、误差参数,以及误差值与高层控制率的计算关系,建立关 于所述高层控制率的优化问题;
将所述若干示教数据的误差值作为输入,求解所述优化问题,得到最终权重参数和最终误差参数;
利用所述最终权重参数和所述最终误差参数,获取训练后的控制器。
根据本申请提供的一实施方式,所述运动期望值包括速度期望值和位置期望值,所述运动实际值包括速度实际值和速度期望值。
根据本申请提供的一实施方式,所述基于权重参数、误差参数,以及误差值与高层控制率的计算关系,建立关于所述高层控制率的优化问题,包括:
按照所述误差值与高层控制率的计算关系,利用所述误差值与第一权重参数、第一误差参数,建立特征节点;
利用所述特征节点与第二权重参数、第二误差参数,建立加强节点;
基于所述特征节点和所述加强节点,建立关于所述高层控制率的优化问题。
根据本申请提供的一实施方式,所述基于所述特征节点和所述加强节点,建立关于所述高层控制率的优化问题,包括:
基于所述特征节点和所述加强节点,建立所述高层控制率的计算方程;
利用所述高层控制率的计算方程,建立关于所述高层控制率的优化问题。
根据本申请提供的一实施方式,所述利用所述高层控制率的计算方程,建立关于所述高层控制率的优化问题,包括:
利用所述高层控制率的计算方程,获取所述控制器的稳定性限制;
基于所述稳定性限制,获取所述计算方程的限制条件;
利用所述高层控制率的计算方程,和所述计算方程的限制条件,建立所述高层控制率的优化问题。
根据本申请提供的一实施方式,所述利用所述高层控制率的计算方程,获取所述控制器的稳定性限制,包括:
利用李雅普诺夫候选函数,以及所述控制器的输入和输出,建立所述控制器的第一稳定性方程;
对所述第一稳定性方程求导,得到第二稳定性方程,其中,所述第二稳定性方程包括求导方程;
将所述高层控制率的计算方程代入所述求导方程;
利用所述第二稳定性方程,推导所述控制器的稳定性限制。
为解决上述技术问题,本申请采用的另一个技术方案是:提供一种轨迹跟踪方法,所述轨迹跟踪方法包括:
获取微型机器人的参考运动信息,以及实际运动信息;
获取所述参考运动信息和所述实际运动信息的误差值;
将所述误差值输入预先训练的控制器,获取所述控制器输出的高层控制率;
利用所述高层控制率以及所述参考运动信息,获取所述机器人的最终运动信息。
根据本申请提供的一实施方式,所述参考运动信息包括参考速度值和参考位置值,所述实际运动信息包括实际速度值和实际位置值。
为解决上述技术问题,本申请采用的另一个技术方案是:提供一种终端设备,所述终端设备包括存储器以及与所述存储器耦接的处理器;
其中,所述存储器用于存储程序数据,所述处理器用于执行所述程序数据以实现如上述的控制器训练方法和/或轨迹跟踪方法。
为解决上述技术问题,本申请采用的另一个技术方案是:提供一种计算机存储介质,所述计算机存储介质用于存储程序数据,所述程序数据在被计算机执行时,用以实现如上述的控制器训练方法和/或轨迹跟踪方法。
本申请提供了一种控制器训练方法、轨迹跟踪方法、终端设备以及存储介质,该控制器训练方法包括:获取微型机器人运动的若干示教数据,其中,所述示教数据包括运动期望值和运动实际值;基于所述若干示教数据,获取所述运动期望值和所述运动实际值的若干误差值;基于权重参数、误差参数,以及误差值与高层控制率的计算关系,建立关于所述高层控制率的优化问题;将所述若干示教数据的误差值作为输入,求解所述优化问题,得到最终权重参数和最终误差参数;利用所述最终权重参数和所述最终误差参数,获取训练后的控制器。通过上述方式,本申请提供的控制器训练方法通过学习示教数据中的特性,从而训练控制器的泛化能力,提高控制器的训练效率。
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图,其中:
图1是本申请提供的控制器训练方法一实施例的流程示意图;
图2是本申请提供的基于宽度学习的伺服控制的流程示意图;
图3是本申请提供的控制器训练方法另一实施例的流程示意图;
图4是本申请提供的轨迹跟踪方法一实施例的流程示意图;
图5是本申请提供的终端设备一实施例的结构示意图;
图6是本申请提供的计算机存储介质一实施例的结构示意图。
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明,若本申请实施例中有涉及方向性指示(诸如上、下、左、右、前、后……),则该方向性指示仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变。
另外,若本申请实施例中有涉及“第一”、“第二”等的描述,则该“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本申请要求的保护范围之内。
微型机器人是尺度在毫米级以下的一类能自主动作机器人,是机器人学中一个重要研究领域。特别是磁性微型机器人具有尺寸小的特点,在生物医学领域有广泛的应用前景,比如在狭小受限的空间进行微装配、细胞操作和定向诊断等任务,通过电磁线圈产生的低强度的磁场能够穿透生物体组织且对生物体无害。
而操控磁性微型机器人的有效手段一直是通过视觉反馈,形成闭环的伺服控制,目前,有两类轨迹跟踪的控制方法,一种是经典的现代控制理论方法,一种是示教学习的控制方法。由于微型机器人的期望状态值不停的变化,导致基于模型的控制方法,控制效果不佳。
本申请采用宽度学习方法,这种学习方法拥有相对灵活的结构,在保证一定精度的同时,具有快速、简洁、支持增量式在线模型更新的优点。因此,将宽度学习方法应用于微型机器人复杂轨迹追踪问题时,可以实时快捷添加新的训练数据,从而避免对于控制器频繁的重训练。
具体请参阅图1和图2,图1是本申请提供的控制器训练方法一实施例的流程示意图,图2是本申请提供的基于宽度学习的伺服控制的流程示意图。
如图2所示,本申请所要保护的基于宽度学习的伺服控制具体包括两部分,第一部分为训练控制器,第二部分为基于训练得到的控制器针对参考轨迹追踪。
具体地,本申请提出的基于宽度学习的微型机器人轨迹追踪控制方法的技术方案,主要包括以下几个步骤:步骤一,示教数据准备,即对微型机器人的运动过程进行示教和采样。步骤二,控制器训练,即使用宽度学习(broad learning system,BLS)对控制器进行建模。步骤三,分析并推导系统稳定性约束。步骤四,将示教数据及稳定性约束导入控制器模型,并进行学习算法训练获得控制器最终各个参数,即为图2所示第一部分的训练控制器的完整过程,在图2所示第二部分的轨迹追踪将获得的控制器应用于微型机器人轨迹追踪系统。
下面先结合图1介绍伺服控制的第一部分:
本申请采用基于宽度学习(broad learning system,BLS)的方法对伺服控制系统设计控制算法,且本申请仅关注于解决高层伺服控制问题。控制变量的输入输出分别为位置误差和修正后的速度。
本申请使用的方法包含三个步骤:首先,实验人员提供多个精准追踪期望路径的示教数据,其中包含实时的位置和速度数据。随后,依据被提供的示教数据,通过训练过程计算出宽度学习算法控制器参数。最后,训练完成的包含 着示教数据性能的控制器将被用于控制新的伺服系统(例如微型机器人实验系统)。
如图1所示,本申请实施例的控制器训练方法具体可以包括以下步骤:
步骤S11:获取人为遥控时微型机器人运动的若干示教数据,其中,示教数据包括运动期望值和运动实际值。
在本申请实施例中,实验人员提供多个精准追踪期望路径的示教数据,其中包含实时的位置数据和速度数据,以及期望的位置数据和速度数据。
步骤S12:基于若干示教数据,获取运动期望值和运动实际值的若干误差值。
在本申请实施例中,对于位置伺服问题,不同时间点(t)下的期望位置坐标为已知量。定义期望位置为ξ
r(t),期望速度为
同时设实际物理系统(例如微型机器人运动的状态)的实际位置为ξ(t),实际速度为
期望状态与物理系统实际状态量直接的差异被定义为误差:
e(t)=ξ
r(t)-ξ(t) (1)
在伺服控制问题中,速度和位置误差都应收敛为零。因此,本申请的目标为设计合适的控制率来降低系统误差。
其中,Δt为时间索引t到t+1之间的时间差。
在本申请实施例中,需要设计合适的策略在仅使用位置误差作为输入的前提下计算速度修正值,即τ(t)。
基于学习方法和经典的动力模型,速度修正值可以设计为:
需要说明的是,为了简化表达式,时间索引t在后续的公式中将被忽略。
步骤S13:基于权重参数、误差参数,以及误差值与高层控制率的计算关系,建立关于高层控制率的优化问题。
在本申请实施例中,终端设备按照所述误差值与高层控制率的计算关系,利用所述误差值与第一权重参数、第一误差参数,建立特征节点;利用所述特征节点与第二权重参数、第二误差参数,建立加强节点;基于所述特征节点和所述加强节点,建立关于所述高层控制率的优化问题。
其中,基于所述特征节点和所述加强节点,建立关于所述高层控制率的优化问题进一步包括:基于所述特征节点和所述加强节点,建立所述高层控制率的计算方程;利用所述高层控制率的计算方程,建立关于所述高层控制率的优化问题。
由此,本步骤中的高层控制率则可以定义为:
接下来将基于宽度学习算法计算高层控制率τ:
h
j=∈(a
hjz
j+b
hj) (8b)
其中,Z=[z
1,z
2,…,z
N]为特征节点。H=[h
1,h
2,…,h
N]为加强节点。
为输出权重,w
1i和w
2j分别为特征节点和加强节点的权重。a
ei和b
ei为特征节点随机生成的输入权重和输入误差,a
hi和b
hi为加强节点随机生成的输入权重和输入误差。φ(·)和∈(·)为连续和连续可导激活函数,两者可相同也可不同。定义
c
j=a
hjz
j+b
hj,同时定义激活函数有以下特征:
其中,设置激活函数φ(·)=∈(·),即两者拥有相同的形式如下:
假设,示教数据中共有M个数据点,因此,在训练过程中会确定权重w
1i和w
2j。训练的目标转化成了一个通过以下表达式定义的优化问题:
其中,o下标表示示教数据的编号。
步骤S14:将若干示教数据的误差值作为输入,求解优化问题,得到最终权重参数和最终误差参数。
在本申请实施例中,终端设备将步骤S11中实验人员提供的若干示教数据输入步骤S13建立的优化问题中,即将若干示教数据计算得到的误差值以及控制率,分别赋予优化问题中的e
o和τ
o,从而迭代求取优化问题中的随机生成的输入权重和输入误差中的最优值,即最终权重参数和最终误差参数。
步骤S15:利用最终权重参数和最终误差参数,获取训练后的控制器。
在本申请实施例中,终端设备将步骤S14通过优化问题求解得到的最终权重参数和最终误差参数代入式子(7),得到控制器的关于高层控制率的最终计算方程,至此,完成控制器的训练过程。
在本申请实施例中,终端设备获取人为遥控时微型机器人运动的若干示教数据,其中,所述示教数据包括运动期望值和运动实际值;基于所述若干示教数据,获取所述运动期望值和所述运动实际值的若干误差值;基于权重参数、误差参数,以及误差值与高层控制率的计算关系,建立关于所述高层控制率的优化问题;将所述若干示教数据的误差值作为输入,求解所述优化问题,得到最终权重参数和最终误差参数;利用所述最终权重参数和所述最终误差参数,获取训练后的控制器。通过上述方式,本申请提供的控制器训练方法通过学习示教数据中的特性,从而训练控制器的泛化能力,提高控制器的训练效率。
请继续参阅图3,图3是本申请提供的控制器训练方法另一实施例的流程示意图。
如图3所示,本申请实施例的控制器训练方法具体可以包括以下步骤:
步骤S21:利用高层控制率的计算方程,获取控制器的稳定性限制。
在本申请实施例中,为了使用上述实施例中式子(5)至式子(7)的控制方程,系统本身的稳定性需要被保证。
根据李雅普诺夫理论,可以设计满足式子(12)的LCF并据此推导系统的稳定限制。这里设计LCF,即控制器的第一稳定性方程如下(为了简化方便表达,这里省略了括号):
上式已满足式子(12a),式子(12c)和式子(12d)的条件。接下来,对LCF求导,可以得到控制器的第二稳定性方程:
接下来把式子(7)和式子(15)代入式子(14):
接下来可以简化式子(17)中的①和②。使用中值定理和式子(8),①可以被简化为:
最终,可以得到:
步骤S22:基于稳定性限制,获取计算方程的限制条件。
在本申请实施例中,接下来,为了使步骤S21中的式子(12b)成立,(i)到(vii)的和应该总是为负值。观察从(i)到(vii)的七个式子,很难在不同的输入误差下均能消除不同的项,因此,合理的方案是令这七个式子均为负值或其中一部分为零。式子中的a
ei,a
hj,b
ei和b
hj均为随机生成的参数,因此,可以推导以下的参数限制:
b
ei=0 (22b)
b
ej=0 (22d)
b
hj=0 (22e)
当上述七个限制条件均满足时,①+②为负值。这里<表示矩阵为负定矩阵。
式子(22)为宽松限制条件,但很难满足。因为具体的斜率在不同的状态下为正变量,且其数值在不同的时间下为不同值。而且,到系统逼近平衡点,即
时,两个激活方程的斜率均约等于1。综上,限制条件可以被简化为b
ei=0,b
hj=0,
但是,为了保证系统的全局渐进稳定性,也就是说系统可以拥有任意初始值,式子(22)应该严格成立。最终,可以获得简化后的限制条件如下:
b
ei=0 (23a)
b
hj=0 (23b)
步骤S23:利用高层控制率的计算方程,和计算方程的限制条件,建立高层控制率的优化问题。
在本申请实施例中,综合上述步骤S21和步骤S22,包括控制器和训练的整个过程可以转化为如下的优化问题:
对应,i,j=1,2,…,N
b
ei=0 (25a)
b
hj=0 (25b)
上述优化问题可以通过使用MATLAB中的fmincon函数在训练过程中求解。
在本申请实施例中,开发了基于宽度学习的伺服控制并将其首次应用在微型机器人系统中。该控制率具备宽度学习的众多优点,诸如结构简单,不需要针对新的示教数据重训练等。随后,李亚普诺夫理论被巧妙地结合在宽度学习算法中用以求解控制器参数的限制条件,并最终获得不仅具备示教数据的特性,而且具备很强的普遍化及误差收敛性能的轨迹追踪控制器;将稳定性问题考虑其中,在充分应用示教数据的过程中同时考虑系统稳定性;通过学习示教轨迹追踪中的特性,而获得泛化能力,即无论给定轨迹如何变化,所设计控制器均可实现具有示教特性的追踪控制。
请继续参阅图4,图4是本申请提供的轨迹跟踪方法一实施例的流程示意图。
如图4所示,本申请实施例的轨迹跟踪方法具体可以包括以下步骤:
步骤S31:获取人为遥控时微型机器人的参考运动信息,以及实际运动信息。
在本申请实施例中,终端设备获取微型机器人的参考路径和实际路径。其中,所述参考运动信息包括参考速度值和参考位置值,所述实际运动信息包括实际速度值和实际位置值。
步骤S32:获取参考运动信息和实际运动信息的误差值。
在本申请实施例中,终端设备利用参考路径和实际路径计算微型机器人实时的位置误差和实时的速度误差等。
步骤S33:将误差值输入预先训练的控制器,获取控制器输出的高层控制率。
在本申请实施例中,终端设备将步骤S32计算得到的误差值输入图1和图3所述控制器训练方法训练得到的控制器中,获取控制器基于误差值计算得到的高层控制率,即修正值。如图2所示第二部分的轨迹追踪,终端设备通过训 练率F(e)计算上述式子(7)中的高层控制率τ。
步骤S34:利用高层控制率以及参考运动信息,获取机器人的最终运动信息。
在本申请实施例中,终端设备利用控制器输出的修正值修正参考运动信息,从而得到机器人准确的运行信息。
本申请使用的宽度学习算法具有支持在线模型更新的特点,因此,对于新添加的示教数据,本发明并不需要重新训练控制器,而是通过添加节点的方式直接获得同时具备原有控制器特点和新添加示教数据特点的控制器。这种方法非常适合解决微型机器人复杂轨迹追踪中目标轨迹的多变性,可以避免控制器的频繁调整。
本领域技术人员可以理解,在具体实施方式的上述方法中,各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定,各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。
请继续参见图5,图5是本申请提供的终端设备一实施例的结构示意图。本申请实施例的终端设备500包括处理器51、存储器52、输入输出设备53以及总线54。
该处理器51、存储器52、输入输出设备53分别与总线54相连,该存储器52中存储有程序数据,处理器51用于执行程序数据以实现上述实施例所述的控制器训练方法和/或轨迹追踪方法。
在本申请实施例中,处理器51还可以称为CPU(Central Processing Unit,中央处理单元)。处理器51可能是一种集成电路芯片,具有信号的处理能力。处理器51还可以是通用处理器、数字信号处理器(DSP,Digital Signal Process)、专用集成电路(ASIC,Application Specific Integrated Circuit)、现场可编程门阵列(FPGA,Field Programmable Gate Array)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器51也可以是任何常规的处理器等。
本申请还提供一种计算机存储介质,请继续参阅图6,图6是本申请提供的计算机存储介质一实施例的结构示意图,该计算机存储介质600中存储有程序数据61,该程序数据61在被处理器执行时,用以实现上述实施例的控制器训练方法和/或轨迹追踪方法。
本申请的实施例以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施方式所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本申请的实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。
Claims (10)
- 一种控制器训练方法,其特征在于,所述控制器训练方法包括:获取微型机器人运动的若干示教数据,其中,所述示教数据包括运动期望值和运动实际值;基于所述若干示教数据,获取所述运动期望值和所述运动实际值的若干误差值;基于权重参数、误差参数,以及误差值与高层控制率的计算关系,建立关于所述高层控制率的优化问题;将所述若干示教数据的误差值作为输入,求解所述优化问题,得到最终权重参数和最终误差参数;利用所述最终权重参数和所述最终误差参数,获取训练后的控制器。
- 根据权利要求1所述的控制器训练方法,其特征在于,所述运动期望值包括速度期望值和位置期望值,所述运动实际值包括速度实际值和速度期望值。
- 根据权利要求1所述的控制器训练方法,其特征在于,所述基于权重参数、误差参数,以及误差值与高层控制率的计算关系,建立关于所述高层控制率的优化问题,包括:按照所述误差值与高层控制率的计算关系,利用所述误差值与第一权重参数、第一误差参数,建立特征节点;利用所述特征节点与第二权重参数、第二误差参数,建立加强节点;基于所述特征节点和所述加强节点,建立关于所述高层控制率的优化问题。
- 根据权利要求3所述的控制器训练方法,其特征在于,所述基于所述特征节点和所述加强节点,建立关于所述高层控制率的优化问题,包括:基于所述特征节点和所述加强节点,建立所述高层控制率的计算方程;利用所述高层控制率的计算方程,建立关于所述高层控制率的优化问题。
- 根据权利要求4所述的控制器训练方法,其特征在于,所述利用所述高层控制率的计算方程,建立关于所述高层控制率的优化问题,包括:利用所述高层控制率的计算方程,获取所述控制器的稳定性限制;基于所述稳定性限制,获取所述计算方程的限制条件;利用所述高层控制率的计算方程,和所述计算方程的限制条件,建立所述高层控制率的优化问题。
- 根据权利要求5所述的控制器训练方法,其特征在于,所述利用所述高层控制率的计算方程,获取所述控制器的稳定性限制,包括:利用李雅普诺夫候选函数,以及所述控制器的输入和输出,建立所述控制器的第一稳定性方程;对所述第一稳定性方程求导,得到第二稳定性方程,其中,所述第二稳定性方程包括求导方程;将所述高层控制率的计算方程代入所述求导方程;利用所述第二稳定性方程,推导所述控制器的稳定性限制。
- 一种轨迹跟踪方法,其特征在于,所述轨迹跟踪方法包括:获取微型机器人的参考运动信息,以及实际运动信息;获取所述参考运动信息和所述实际运动信息的误差值;将所述误差值输入预先训练的控制器,获取所述控制器输出的高层控制率;利用所述高层控制率以及所述参考运动信息,获取所述机器人的最终运动信息。
- 根据权利要求7所述的轨迹跟踪方法,其特征在于,所述参考运动信息包括参考速度值和参考位置值,所述实际运动信息包括实际速度值和实际位置值。
- 一种终端设备,其特征在于,所述终端设备包括存储器以及与所述存储器耦接的处理器;其中,所述存储器用于存储程序数据,所述处理器用于执行所述程序数据以实现如权利要求1~6任一项所述的控制器训练方法和/或权利要求7或8所述的轨迹跟踪方法。
- 一种计算机存储介质,其特征在于,所述计算机存储介质用于存储程序数据,所述程序数据在被计算机执行时,用以实现如权利要求1~6任一项所述的控制器训练方法和/或权利要求7或8所述的轨迹跟踪方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210502879.4A CN115494751A (zh) | 2022-05-09 | 2022-05-09 | 控制器训练方法、轨迹跟踪方法、终端设备以及存储介质 |
CN202210502879.4 | 2022-05-09 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2023216581A1 true WO2023216581A1 (zh) | 2023-11-16 |
Family
ID=84463967
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/CN2022/137678 WO2023216581A1 (zh) | 2022-05-09 | 2022-12-08 | 控制器训练方法、轨迹跟踪方法、终端设备以及存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN115494751A (zh) |
WO (1) | WO2023216581A1 (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111890351A (zh) * | 2020-06-12 | 2020-11-06 | 深圳先进技术研究院 | 机器人及其控制方法、计算机可读存储介质 |
CN111890350A (zh) * | 2020-06-12 | 2020-11-06 | 深圳先进技术研究院 | 机器人及其控制方法、计算机可读存储介质 |
CN113219825A (zh) * | 2021-03-26 | 2021-08-06 | 齐鲁工业大学 | 一种四足机器人单腿轨迹跟踪控制方法及系统 |
CN114019798A (zh) * | 2021-11-03 | 2022-02-08 | 中国科学院深圳先进技术研究院 | 机器人轨迹跟踪控制方法、磁性医疗机器人及存储介质 |
-
2022
- 2022-05-09 CN CN202210502879.4A patent/CN115494751A/zh active Pending
- 2022-12-08 WO PCT/CN2022/137678 patent/WO2023216581A1/zh unknown
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111890351A (zh) * | 2020-06-12 | 2020-11-06 | 深圳先进技术研究院 | 机器人及其控制方法、计算机可读存储介质 |
CN111890350A (zh) * | 2020-06-12 | 2020-11-06 | 深圳先进技术研究院 | 机器人及其控制方法、计算机可读存储介质 |
CN113219825A (zh) * | 2021-03-26 | 2021-08-06 | 齐鲁工业大学 | 一种四足机器人单腿轨迹跟踪控制方法及系统 |
CN114019798A (zh) * | 2021-11-03 | 2022-02-08 | 中国科学院深圳先进技术研究院 | 机器人轨迹跟踪控制方法、磁性医疗机器人及存储介质 |
Non-Patent Citations (1)
Title |
---|
XU SHENG; LIU JIA; YANG CHENGUANG; WU XINYU; XU TIANTIAN: "A Learning-Based Stable Servo Control Strategy Using Broad Learning System Applied for Microrobotic Control", IEEE TRANSACTIONS ON CYBERNETICS, IEEE, PISCATAWAY, NJ, USA, vol. 52, no. 12, 1 December 2022 (2022-12-01), Piscataway, NJ, USA , pages 13727 - 13737, XP011927774, ISSN: 2168-2267, DOI: 10.1109/TCYB.2021.3121080 * |
Also Published As
Publication number | Publication date |
---|---|
CN115494751A (zh) | 2022-12-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108284442B (zh) | 一种基于模糊神经网络的机械臂柔性关节控制方法 | |
Guo et al. | Li-function activated ZNN with finite-time convergence applied to redundant-manipulator kinematic control via time-varying Jacobian matrix pseudoinversion | |
CN111890350A (zh) | 机器人及其控制方法、计算机可读存储介质 | |
US10962976B1 (en) | Motion control method and system for biomimetic robotic fish based on adversarial structured control | |
CN112947084B (zh) | 一种基于强化学习的模型未知多智能体一致性控制方法 | |
WO2020118730A1 (zh) | 机器人柔顺性控制方法、装置、设备及存储介质 | |
WO2018227820A1 (zh) | 控制机械臂运动的方法及装置、存储介质和终端设备 | |
Chu et al. | Final quality prediction method for new batch processes based on improved JYKPLS process transfer model | |
CN110110380B (zh) | 一种压电执行器迟滞非线性建模方法及应用 | |
CN111890351A (zh) | 机器人及其控制方法、计算机可读存储介质 | |
CN109062040B (zh) | 基于系统嵌套优化的预测pid方法 | |
Zhang et al. | Adaptive backstepping control design for uncertain non-smooth strictfeedback nonlinear systems with time-varying delays | |
Nguyen–Tuong et al. | Incremental sparsification for real-time online model learning | |
Lu et al. | Human-robot collaboration using variable admittance control and human intention prediction | |
Liang et al. | Data-driven bipartite formation for a class of nonlinear MIMO multiagent systems | |
Dai et al. | State constrained stochastic optimal control using LSTMs | |
WO2023216581A1 (zh) | 控制器训练方法、轨迹跟踪方法、终端设备以及存储介质 | |
Chadi et al. | Understanding Reinforcement Learning Algorithms: The Progress from Basic Q-learning to Proximal Policy Optimization | |
CN111505942A (zh) | 一种分数阶互联系统的分散式自适应控制器的设计方法 | |
CN114147710B (zh) | 机器人的控制方法、装置、机器人及存储介质 | |
CN114434449B (zh) | 一种新型粒子群自适应阻抗控制方法及装置 | |
CN114063438B (zh) | 一种数据驱动的多智能体系统pid控制协议自学习方法 | |
Fan et al. | Critic PI2: Master continuous planning via policy improvement with path integrals and deep actor-critic reinforcement learning | |
Zhao et al. | Robotic peg-in-hole assembly based on reversible dynamic movement primitives and trajectory optimization | |
Xie et al. | A Fuzzy Neural Controller for Model-Free Control of Redundant Manipulators With Unknown Kinematic Parameters |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 22941516 Country of ref document: EP Kind code of ref document: A1 |