WO2023216581A1 - 控制器训练方法、轨迹跟踪方法、终端设备以及存储介质 - Google Patents

控制器训练方法、轨迹跟踪方法、终端设备以及存储介质 Download PDF

Info

Publication number
WO2023216581A1
WO2023216581A1 PCT/CN2022/137678 CN2022137678W WO2023216581A1 WO 2023216581 A1 WO2023216581 A1 WO 2023216581A1 CN 2022137678 W CN2022137678 W CN 2022137678W WO 2023216581 A1 WO2023216581 A1 WO 2023216581A1
Authority
WO
WIPO (PCT)
Prior art keywords
controller
level control
control rate
value
error
Prior art date
Application number
PCT/CN2022/137678
Other languages
English (en)
French (fr)
Inventor
徐升
徐天添
李冬
刘佳
吴新宇
Original Assignee
深圳先进技术研究院
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 深圳先进技术研究院 filed Critical 深圳先进技术研究院
Publication of WO2023216581A1 publication Critical patent/WO2023216581A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B19/00Programme-control systems
    • G05B19/02Programme-control systems electric
    • G05B19/04Programme control other than numerical control, i.e. in sequence controllers or logic controllers
    • G05B19/042Programme control other than numerical control, i.e. in sequence controllers or logic controllers using digital processors
    • G05B19/0423Input/output
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/20Pc systems
    • G05B2219/25Pc structure of the system
    • G05B2219/25257Microcontroller

Definitions

  • establishing an optimization problem regarding the high-level control rate based on the characteristic node and the enhancement node includes:
  • the trajectory tracking method includes:
  • the final motion information of the robot is obtained using the high-level control rate and the reference motion information.
  • the reference motion information includes a reference speed value and a reference position value
  • the actual motion information includes an actual speed value and an actual position value
  • Figure 1 is a schematic flowchart of an embodiment of a controller training method provided by this application.
  • Figure 2 is a schematic flowchart of servo control based on width learning provided by this application.
  • the technical solution of the micro-robot trajectory tracking control method based on width learning proposed in this application mainly includes the following steps: Step 1, teaching data preparation, that is, teaching and sampling the movement process of the micro-robot.
  • Step two controller training, uses broad learning system (BLS) to model the controller.
  • Step 3 Analyze and derive system stability constraints.
  • Step 4 Import the teaching data and stability constraints into the controller model, and conduct learning algorithm training to obtain the final parameters of the controller. This is the complete process of training the controller in the first part shown in Figure 2. In the second part shown in Figure 2 The two-part trajectory tracking applies the obtained controller to the microrobot trajectory tracking system.
  • BLS broad learning system
  • This application uses a method based on broad learning system (BLS) to design a control algorithm for the servo control system, and this application only focuses on solving high-level servo control problems.
  • the input and output of the control variables are position error and corrected speed respectively.
  • the method used in this application consists of three steps: First, the experimenter provides multiple teaching data that accurately tracks the desired path, including real-time position and speed data. Subsequently, based on the provided teaching data, the width learning algorithm controller parameters are calculated through the training process. Finally, the trained controller containing the performance of the teaching data will be used to control the new servo system (such as a micro-robot experimental system).
  • the new servo system such as a micro-robot experimental system.
  • the experimenter provides multiple teaching data that accurately tracks the desired path, including real-time position data and speed data, as well as desired position data and speed data.
  • the expected position coordinates at different time points (t) are known quantities.
  • the desired position as ⁇ r (t) and the desired speed as At the same time, let the actual position of the actual physical system (such as the state of micro-robot movement) be ⁇ (t), and the actual speed be The direct difference between the desired state and the actual state of the physical system is defined as the error:
  • Lyapunov stability method Based on this method, the system state quantity e and will be globally gradually stabilized at When the continuous and continuously differentiable Lyapunov candidate function (LCF, lyapunov function), satisfy:
  • Step S23 Use the calculation equation of the high-level control rate and the constraints of the calculation equation to establish the optimization problem of the high-level control rate.
  • the terminal device inputs the error value calculated in step S32 into the controller trained by the controller training method described in Figures 1 and 3, and obtains the high-level control rate calculated by the controller based on the error value, that is, Correction value.
  • the terminal device calculates the high-level control rate ⁇ in the above equation (7) through the training rate F(e).
  • the terminal device uses the correction value output by the controller to correct the reference motion information, thereby obtaining accurate operating information of the robot.
  • the width learning algorithm used in this application has the characteristics of supporting online model update. Therefore, for the newly added teaching data, the present invention does not need to retrain the controller, but directly obtains the original controller by adding nodes. Features and newly added teaching data features of the controller. This method is very suitable for solving the variability of target trajectories in complex trajectory tracking of micro-robots, and can avoid frequent adjustments of the controller.
  • the processor 51, the memory 52, and the input and output device 53 are respectively connected to the bus 54.
  • the memory 52 stores program data.
  • the processor 51 is used to execute the program data to implement the controller training method and/or the above embodiment. Trajectory tracking method.
  • the processor 51 may also be called a CPU (Central Processing Unit).
  • the processor 51 may be an integrated circuit chip with signal processing capabilities.
  • the processor 51 can also be a general-purpose processor, a digital signal processor (DSP, Digital Signal Process), an application specific integrated circuit (ASIC, Application Specific Integrated Circuit), a field programmable gate array (FPGA, Field Programmable Gate Array) or other available Programmed logic devices, discrete gate or transistor logic devices, discrete hardware components.
  • DSP digital signal processor
  • ASIC Application Specific Integrated Circuit
  • FPGA Field Programmable Gate Array
  • the general processor may be a microprocessor or the processor 51 may be any conventional processor or the like.
  • FIG. 6 is a schematic structural diagram of an embodiment of the computer storage medium provided by this application.
  • the computer storage medium 600 stores program data 61.
  • the program data 61 is in When executed by the processor, it is used to implement the controller training method and/or trajectory tracking method of the above embodiments.
  • the embodiments of the present application When the embodiments of the present application are implemented in the form of software functional units and sold or used as independent products, they can be stored in a computer-readable storage medium.
  • the technical solution of the present application is essentially or contributes to the existing technology, or all or part of the technical solution can be embodied in the form of a software product, and the computer software product is stored in a storage medium , including several instructions to cause a computer device (which can be a personal computer, a server, or a network device, etc.) or a processor to execute all or part of the steps of the method described in each embodiment of the application.
  • the aforementioned storage media include: U disk, mobile hard disk, read-only memory (ROM, Read-Only Memory), random access memory (RAM, Random Access Memory), magnetic disk or optical disk and other media that can store program code. .

Abstract

本申请公开了一种控制器训练方法、轨迹跟踪方法、终端设备以及存储介质,该控制器训练方法包括:获取难以建模的微型机器人运动的若干示教数据,其中,所述示教数据包括运动期望值和运动实际值;基于所述若干示教数据,获取所述运动期望值和所述运动实际值的若干误差值;基于权重参数、误差参数,以及误差值与高层控制率的计算关系,建立关于所述高层控制率的优化问题;将所述若干示教数据的误差值作为输入,求解所述优化问题,得到最终权重参数和最终误差参数;利用所述最终权重参数和所述最终误差参数,获取训练后的控制器。通过上述方式,本申请提供的控制器训练方法通过学习示教数据中的特性,从而提升控制器的泛化能力,提高控制器的训练效率。

Description

控制器训练方法、轨迹跟踪方法、终端设备以及存储介质 技术领域
本申请涉及智能控制技术领域,特别涉及一种控制器训练方法、轨迹跟踪方法、终端设备以及存储介质。
背景技术
微型机器人是尺度在毫米级以下的一类能自主动作机器人,是机器人学中一个重要研究领域。特别是磁性微型机器人具有尺寸小的特点,在生物医学领域有广泛的应用前景,比如在狭小受限的空间进行微装配、细胞操作和定向诊断等任务。通过电磁线圈产生的低强度的磁场能够穿透生物体组织且对生物体无害。操控磁性微型机器人的有效手段一直是通过视觉反馈,形成闭环的伺服控制。目前,有两类轨迹跟踪的控制方法,一种是经典的现代控制理论方法,一种是示教学习的控制方法。由于微型机器人的期望状态值不停的变化,导致基于模型的控制方法,控制效果不佳。
现有的轨迹追踪控制方法大致可分为两类。其中一类通过经典的控制技术实现,如PID、模糊、滑模控制等。这类方法往往需要复杂的过程来确定控制器参数,因此需要使用者或多或少拥有相关的专业知识。然而,在微型机器人控制领域,机器人的期望状态值会频繁的改变,因此控制器参数也需要频繁的随之调整,这对于没有控制系统相关专业知识的使用者来说很难实现。
发明内容
本申请主要提供一种控制器训练方法、轨迹跟踪方法、终端设备以及存储介质,以解决现有微型机器人控制技术中的控制器参数需要频繁调整,训练门槛较高的问题。
为解决上述技术问题,本申请采用的一个技术方案是:提供一种控制器训练方法,所述控制器训练方法包括:
获取微型机器人运动的若干示教数据,其中,所述示教数据包括运动期望值和运动实际值;
基于所述若干示教数据,获取所述运动期望值和所述运动实际值的若干误差值;
基于权重参数、误差参数,以及误差值与高层控制率的计算关系,建立关 于所述高层控制率的优化问题;
将所述若干示教数据的误差值作为输入,求解所述优化问题,得到最终权重参数和最终误差参数;
利用所述最终权重参数和所述最终误差参数,获取训练后的控制器。
根据本申请提供的一实施方式,所述运动期望值包括速度期望值和位置期望值,所述运动实际值包括速度实际值和速度期望值。
根据本申请提供的一实施方式,所述基于权重参数、误差参数,以及误差值与高层控制率的计算关系,建立关于所述高层控制率的优化问题,包括:
按照所述误差值与高层控制率的计算关系,利用所述误差值与第一权重参数、第一误差参数,建立特征节点;
利用所述特征节点与第二权重参数、第二误差参数,建立加强节点;
基于所述特征节点和所述加强节点,建立关于所述高层控制率的优化问题。
根据本申请提供的一实施方式,所述基于所述特征节点和所述加强节点,建立关于所述高层控制率的优化问题,包括:
基于所述特征节点和所述加强节点,建立所述高层控制率的计算方程;
利用所述高层控制率的计算方程,建立关于所述高层控制率的优化问题。
根据本申请提供的一实施方式,所述利用所述高层控制率的计算方程,建立关于所述高层控制率的优化问题,包括:
利用所述高层控制率的计算方程,获取所述控制器的稳定性限制;
基于所述稳定性限制,获取所述计算方程的限制条件;
利用所述高层控制率的计算方程,和所述计算方程的限制条件,建立所述高层控制率的优化问题。
根据本申请提供的一实施方式,所述利用所述高层控制率的计算方程,获取所述控制器的稳定性限制,包括:
利用李雅普诺夫候选函数,以及所述控制器的输入和输出,建立所述控制器的第一稳定性方程;
对所述第一稳定性方程求导,得到第二稳定性方程,其中,所述第二稳定性方程包括求导方程;
将所述高层控制率的计算方程代入所述求导方程;
利用所述第二稳定性方程,推导所述控制器的稳定性限制。
为解决上述技术问题,本申请采用的另一个技术方案是:提供一种轨迹跟踪方法,所述轨迹跟踪方法包括:
获取微型机器人的参考运动信息,以及实际运动信息;
获取所述参考运动信息和所述实际运动信息的误差值;
将所述误差值输入预先训练的控制器,获取所述控制器输出的高层控制率;
利用所述高层控制率以及所述参考运动信息,获取所述机器人的最终运动信息。
根据本申请提供的一实施方式,所述参考运动信息包括参考速度值和参考位置值,所述实际运动信息包括实际速度值和实际位置值。
为解决上述技术问题,本申请采用的另一个技术方案是:提供一种终端设备,所述终端设备包括存储器以及与所述存储器耦接的处理器;
其中,所述存储器用于存储程序数据,所述处理器用于执行所述程序数据以实现如上述的控制器训练方法和/或轨迹跟踪方法。
为解决上述技术问题,本申请采用的另一个技术方案是:提供一种计算机存储介质,所述计算机存储介质用于存储程序数据,所述程序数据在被计算机执行时,用以实现如上述的控制器训练方法和/或轨迹跟踪方法。
本申请提供了一种控制器训练方法、轨迹跟踪方法、终端设备以及存储介质,该控制器训练方法包括:获取微型机器人运动的若干示教数据,其中,所述示教数据包括运动期望值和运动实际值;基于所述若干示教数据,获取所述运动期望值和所述运动实际值的若干误差值;基于权重参数、误差参数,以及误差值与高层控制率的计算关系,建立关于所述高层控制率的优化问题;将所述若干示教数据的误差值作为输入,求解所述优化问题,得到最终权重参数和最终误差参数;利用所述最终权重参数和所述最终误差参数,获取训练后的控制器。通过上述方式,本申请提供的控制器训练方法通过学习示教数据中的特性,从而训练控制器的泛化能力,提高控制器的训练效率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图,其中:
图1是本申请提供的控制器训练方法一实施例的流程示意图;
图2是本申请提供的基于宽度学习的伺服控制的流程示意图;
图3是本申请提供的控制器训练方法另一实施例的流程示意图;
图4是本申请提供的轨迹跟踪方法一实施例的流程示意图;
图5是本申请提供的终端设备一实施例的结构示意图;
图6是本申请提供的计算机存储介质一实施例的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明,若本申请实施例中有涉及方向性指示(诸如上、下、左、右、前、后……),则该方向性指示仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变。
另外,若本申请实施例中有涉及“第一”、“第二”等的描述,则该“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本申请要求的保护范围之内。
微型机器人是尺度在毫米级以下的一类能自主动作机器人,是机器人学中一个重要研究领域。特别是磁性微型机器人具有尺寸小的特点,在生物医学领域有广泛的应用前景,比如在狭小受限的空间进行微装配、细胞操作和定向诊断等任务,通过电磁线圈产生的低强度的磁场能够穿透生物体组织且对生物体无害。
而操控磁性微型机器人的有效手段一直是通过视觉反馈,形成闭环的伺服控制,目前,有两类轨迹跟踪的控制方法,一种是经典的现代控制理论方法,一种是示教学习的控制方法。由于微型机器人的期望状态值不停的变化,导致基于模型的控制方法,控制效果不佳。
本申请采用宽度学习方法,这种学习方法拥有相对灵活的结构,在保证一定精度的同时,具有快速、简洁、支持增量式在线模型更新的优点。因此,将宽度学习方法应用于微型机器人复杂轨迹追踪问题时,可以实时快捷添加新的训练数据,从而避免对于控制器频繁的重训练。
具体请参阅图1和图2,图1是本申请提供的控制器训练方法一实施例的流程示意图,图2是本申请提供的基于宽度学习的伺服控制的流程示意图。
如图2所示,本申请所要保护的基于宽度学习的伺服控制具体包括两部分,第一部分为训练控制器,第二部分为基于训练得到的控制器针对参考轨迹追踪。
具体地,本申请提出的基于宽度学习的微型机器人轨迹追踪控制方法的技术方案,主要包括以下几个步骤:步骤一,示教数据准备,即对微型机器人的运动过程进行示教和采样。步骤二,控制器训练,即使用宽度学习(broad learning system,BLS)对控制器进行建模。步骤三,分析并推导系统稳定性约束。步骤四,将示教数据及稳定性约束导入控制器模型,并进行学习算法训练获得控制器最终各个参数,即为图2所示第一部分的训练控制器的完整过程,在图2所示第二部分的轨迹追踪将获得的控制器应用于微型机器人轨迹追踪系统。
下面先结合图1介绍伺服控制的第一部分:
本申请采用基于宽度学习(broad learning system,BLS)的方法对伺服控制系统设计控制算法,且本申请仅关注于解决高层伺服控制问题。控制变量的输入输出分别为位置误差和修正后的速度。
本申请使用的方法包含三个步骤:首先,实验人员提供多个精准追踪期望路径的示教数据,其中包含实时的位置和速度数据。随后,依据被提供的示教数据,通过训练过程计算出宽度学习算法控制器参数。最后,训练完成的包含 着示教数据性能的控制器将被用于控制新的伺服系统(例如微型机器人实验系统)。
如图1所示,本申请实施例的控制器训练方法具体可以包括以下步骤:
步骤S11:获取人为遥控时微型机器人运动的若干示教数据,其中,示教数据包括运动期望值和运动实际值。
在本申请实施例中,实验人员提供多个精准追踪期望路径的示教数据,其中包含实时的位置数据和速度数据,以及期望的位置数据和速度数据。
步骤S12:基于若干示教数据,获取运动期望值和运动实际值的若干误差值。
在本申请实施例中,对于位置伺服问题,不同时间点(t)下的期望位置坐标为已知量。定义期望位置为ξ r(t),期望速度为
Figure PCTCN2022137678-appb-000001
同时设实际物理系统(例如微型机器人运动的状态)的实际位置为ξ(t),实际速度为
Figure PCTCN2022137678-appb-000002
期望状态与物理系统实际状态量直接的差异被定义为误差:
e(t)=ξ r(t)-ξ(t)           (1)
在伺服控制问题中,速度和位置误差都应收敛为零。因此,本申请的目标为设计合适的控制率来降低系统误差。
本申请基于一阶动力系统,当初始位置和速度数据存在误差,可通过计算修正速度
Figure PCTCN2022137678-appb-000003
的方法消除误差,计算公式如下:
Figure PCTCN2022137678-appb-000004
其中τ(t)为源于控制率的修正值。
Figure PCTCN2022137678-appb-000005
为在时间点t的最终输出(即修正完毕的速度),其包含两个部分:(1)已知的参考轨迹速度
Figure PCTCN2022137678-appb-000006
(2)计算得到的控制率τ(t)。
从e(t)到τ(t)的转换关系未知,定义其为τ(t)=F(e(t)),而
Figure PCTCN2022137678-appb-000007
为已知量。因此,相应的位置修正量可表达为:
Figure PCTCN2022137678-appb-000008
其中,Δt为时间索引t到t+1之间的时间差。
在本申请实施例中,需要设计合适的策略在仅使用位置误差作为输入的前提下计算速度修正值,即τ(t)。
基于学习方法和经典的动力模型,速度修正值可以设计为:
Figure PCTCN2022137678-appb-000009
其中,
Figure PCTCN2022137678-appb-000010
的物理意义是期望速度与实际速度之间的误差,可以使用实时测量的位置误差e(t)和F(·)计算。其中,F(·)为本申请最终需要设计的控制率计算方程。
需要说明的是,为了简化表达式,时间索引t在后续的公式中将被忽略。
步骤S13:基于权重参数、误差参数,以及误差值与高层控制率的计算关系,建立关于高层控制率的优化问题。
在本申请实施例中,终端设备按照所述误差值与高层控制率的计算关系,利用所述误差值与第一权重参数、第一误差参数,建立特征节点;利用所述特征节点与第二权重参数、第二误差参数,建立加强节点;基于所述特征节点和所述加强节点,建立关于所述高层控制率的优化问题。
其中,基于所述特征节点和所述加强节点,建立关于所述高层控制率的优化问题进一步包括:基于所述特征节点和所述加强节点,建立所述高层控制率的计算方程;利用所述高层控制率的计算方程,建立关于所述高层控制率的优化问题。
具体地,基于简化的考量,这里定义从状态误差到修正状态的过程函数为Τ(·),且为已知。系统状态值ξ cor
Figure PCTCN2022137678-appb-000011
可以表示为:
Figure PCTCN2022137678-appb-000012
由此,本步骤中的高层控制率则可以定义为:
Figure PCTCN2022137678-appb-000013
接下来将基于宽度学习算法计算高层控制率τ:
Figure PCTCN2022137678-appb-000014
Figure PCTCN2022137678-appb-000015
h j=∈(a hjz j+b hj)        (8b)
其中,Z=[z 1,z 2,…,z N]为特征节点。H=[h 1,h 2,…,h N]为加强节点。
Figure PCTCN2022137678-appb-000016
为输出权重,w 1i和w 2j分别为特征节点和加强节点的权重。a ei和b ei为特征节点随机生成的输入权重和输入误差,a hi和b hi为加强节点随机生成的输入权重和输入误差。φ(·)和∈(·)为连续和连续可导激活函数,两者可相同也可不同。定义
Figure PCTCN2022137678-appb-000017
c j=a hjz j+b hj,同时定义激活函数有以下特征:
Figure PCTCN2022137678-appb-000018
Figure PCTCN2022137678-appb-000019
其中,设置激活函数φ(·)=∈(·),即两者拥有相同的形式如下:
Figure PCTCN2022137678-appb-000020
Figure PCTCN2022137678-appb-000021
其中,a ei,b ei,b hi和a hi均是通过固定随机常数生成。输入为包含期望e和
Figure PCTCN2022137678-appb-000022
在不同时间下的示教数据,输出为训练过程。
假设,示教数据中共有M个数据点,因此,在训练过程中会确定权重w 1i和w 2j。训练的目标转化成了一个通过以下表达式定义的优化问题:
Figure PCTCN2022137678-appb-000023
其中,o下标表示示教数据的编号。
步骤S14:将若干示教数据的误差值作为输入,求解优化问题,得到最终权重参数和最终误差参数。
在本申请实施例中,终端设备将步骤S11中实验人员提供的若干示教数据输入步骤S13建立的优化问题中,即将若干示教数据计算得到的误差值以及控制率,分别赋予优化问题中的e o和τ o,从而迭代求取优化问题中的随机生成的输入权重和输入误差中的最优值,即最终权重参数和最终误差参数。
步骤S15:利用最终权重参数和最终误差参数,获取训练后的控制器。
在本申请实施例中,终端设备将步骤S14通过优化问题求解得到的最终权重参数和最终误差参数代入式子(7),得到控制器的关于高层控制率的最终计算方程,至此,完成控制器的训练过程。
在本申请实施例中,终端设备获取人为遥控时微型机器人运动的若干示教数据,其中,所述示教数据包括运动期望值和运动实际值;基于所述若干示教数据,获取所述运动期望值和所述运动实际值的若干误差值;基于权重参数、误差参数,以及误差值与高层控制率的计算关系,建立关于所述高层控制率的优化问题;将所述若干示教数据的误差值作为输入,求解所述优化问题,得到最终权重参数和最终误差参数;利用所述最终权重参数和所述最终误差参数,获取训练后的控制器。通过上述方式,本申请提供的控制器训练方法通过学习示教数据中的特性,从而训练控制器的泛化能力,提高控制器的训练效率。
请继续参阅图3,图3是本申请提供的控制器训练方法另一实施例的流程示意图。
如图3所示,本申请实施例的控制器训练方法具体可以包括以下步骤:
步骤S21:利用高层控制率的计算方程,获取控制器的稳定性限制。
在本申请实施例中,为了使用上述实施例中式子(5)至式子(7)的控制方程,系统本身的稳定性需要被保证。
本申请采用的一种常用的方法,即李雅普诺夫稳定性方法。基于这种方法,系统状态量e和
Figure PCTCN2022137678-appb-000024
会全局渐进稳定于
Figure PCTCN2022137678-appb-000025
当连续和连续可导的李雅普诺夫候选函数(LCF,lyapunov function),
Figure PCTCN2022137678-appb-000026
满足:
Figure PCTCN2022137678-appb-000027
Figure PCTCN2022137678-appb-000028
Figure PCTCN2022137678-appb-000029
Figure PCTCN2022137678-appb-000030
根据李雅普诺夫理论,可以设计满足式子(12)的LCF并据此推导系统的稳定限制。这里设计LCF,即控制器的第一稳定性方程如下(为了简化方便表达,这里省略了括号):
Figure PCTCN2022137678-appb-000031
上式已满足式子(12a),式子(12c)和式子(12d)的条件。接下来,对LCF求导,可以得到控制器的第二稳定性方程:
Figure PCTCN2022137678-appb-000032
在上述式子(14)中,包含e,
Figure PCTCN2022137678-appb-000033
Figure PCTCN2022137678-appb-000034
其中e和
Figure PCTCN2022137678-appb-000035
为设计好的控制率方程中的输入和输出,但
Figure PCTCN2022137678-appb-000036
即求导方程之前从未出现过。因此,需要首先计算出
Figure PCTCN2022137678-appb-000037
的表达式。基于式(7),
Figure PCTCN2022137678-appb-000038
可以表示为:
Figure PCTCN2022137678-appb-000039
其中,上述式子(15)的推导顺利通过维度检查,
Figure PCTCN2022137678-appb-000040
的维度为3×1。基于式子(9),激活方程的导数应该大于0,激活方程导数的表达式为:
Figure PCTCN2022137678-appb-000041
Figure PCTCN2022137678-appb-000042
接下来把式子(7)和式子(15)代入式子(14):
Figure PCTCN2022137678-appb-000043
需要说明的是,上述式子(17)等号右侧的第一项,即
Figure PCTCN2022137678-appb-000044
Figure PCTCN2022137678-appb-000045
命名为①,其余项命名为②。
接下来可以简化式子(17)中的①和②。使用中值定理和式子(8),①可以被简化为:
Figure PCTCN2022137678-appb-000046
其中,
Figure PCTCN2022137678-appb-000047
或者
Figure PCTCN2022137678-appb-000048
Figure PCTCN2022137678-appb-000049
Figure PCTCN2022137678-appb-000050
或者
Figure PCTCN2022137678-appb-000051
的准确平均斜率。∈′(p j)有相同的特性。基于式子(11),φ(0)=0,∈(0)=0,因此式子(18)变为:
Figure PCTCN2022137678-appb-000052
最终,可以得到:
Figure PCTCN2022137678-appb-000053
Figure PCTCN2022137678-appb-000054
步骤S22:基于稳定性限制,获取计算方程的限制条件。
在本申请实施例中,接下来,为了使步骤S21中的式子(12b)成立,(i)到(vii)的和应该总是为负值。观察从(i)到(vii)的七个式子,很难在不同的输入误差下均能消除不同的项,因此,合理的方案是令这七个式子均为负值或其中一部分为零。式子中的a ei,a hj,b ei和b hj均为随机生成的参数,因此,可以推导以下的参数限制:
Figure PCTCN2022137678-appb-000055
b ei=0            (22b)
Figure PCTCN2022137678-appb-000056
b ej=0          (22d)
b hj=0          (22e)
Figure PCTCN2022137678-appb-000057
Figure PCTCN2022137678-appb-000058
当上述七个限制条件均满足时,①+②为负值。这里<表示矩阵为负定矩阵。
式子(22)为宽松限制条件,但很难满足。因为具体的斜率在不同的状态下为正变量,且其数值在不同的时间下为不同值。而且,到系统逼近平衡点,即
Figure PCTCN2022137678-appb-000059
时,两个激活方程的斜率均约等于1。综上,限制条件可以被简化为b ei=0,b hj=0,
Figure PCTCN2022137678-appb-000060
但是,为了保证系统的全局渐进稳定性,也就是说系统可以拥有任意初始值,式子(22)应该严格成立。最终,可以获得简化后的限制条件如下:
b ei=0      (23a)
b hj=0      (23b)
Figure PCTCN2022137678-appb-000061
Figure PCTCN2022137678-appb-000062
步骤S23:利用高层控制率的计算方程,和计算方程的限制条件,建立高层控制率的优化问题。
在本申请实施例中,综合上述步骤S21和步骤S22,包括控制器和训练的整个过程可以转化为如下的优化问题:
Figure PCTCN2022137678-appb-000063
对应,i,j=1,2,…,N
b ei=0          (25a)
b hj=0          (25b)
Figure PCTCN2022137678-appb-000064
Figure PCTCN2022137678-appb-000065
上述优化问题可以通过使用MATLAB中的fmincon函数在训练过程中求解。
在本申请实施例中,开发了基于宽度学习的伺服控制并将其首次应用在微型机器人系统中。该控制率具备宽度学习的众多优点,诸如结构简单,不需要针对新的示教数据重训练等。随后,李亚普诺夫理论被巧妙地结合在宽度学习算法中用以求解控制器参数的限制条件,并最终获得不仅具备示教数据的特性,而且具备很强的普遍化及误差收敛性能的轨迹追踪控制器;将稳定性问题考虑其中,在充分应用示教数据的过程中同时考虑系统稳定性;通过学习示教轨迹追踪中的特性,而获得泛化能力,即无论给定轨迹如何变化,所设计控制器均可实现具有示教特性的追踪控制。
请继续参阅图4,图4是本申请提供的轨迹跟踪方法一实施例的流程示意图。
如图4所示,本申请实施例的轨迹跟踪方法具体可以包括以下步骤:
步骤S31:获取人为遥控时微型机器人的参考运动信息,以及实际运动信息。
在本申请实施例中,终端设备获取微型机器人的参考路径和实际路径。其中,所述参考运动信息包括参考速度值和参考位置值,所述实际运动信息包括实际速度值和实际位置值。
步骤S32:获取参考运动信息和实际运动信息的误差值。
在本申请实施例中,终端设备利用参考路径和实际路径计算微型机器人实时的位置误差和实时的速度误差等。
步骤S33:将误差值输入预先训练的控制器,获取控制器输出的高层控制率。
在本申请实施例中,终端设备将步骤S32计算得到的误差值输入图1和图3所述控制器训练方法训练得到的控制器中,获取控制器基于误差值计算得到的高层控制率,即修正值。如图2所示第二部分的轨迹追踪,终端设备通过训 练率F(e)计算上述式子(7)中的高层控制率τ。
步骤S34:利用高层控制率以及参考运动信息,获取机器人的最终运动信息。
在本申请实施例中,终端设备利用控制器输出的修正值修正参考运动信息,从而得到机器人准确的运行信息。
本申请使用的宽度学习算法具有支持在线模型更新的特点,因此,对于新添加的示教数据,本发明并不需要重新训练控制器,而是通过添加节点的方式直接获得同时具备原有控制器特点和新添加示教数据特点的控制器。这种方法非常适合解决微型机器人复杂轨迹追踪中目标轨迹的多变性,可以避免控制器的频繁调整。
本领域技术人员可以理解,在具体实施方式的上述方法中,各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定,各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。
请继续参见图5,图5是本申请提供的终端设备一实施例的结构示意图。本申请实施例的终端设备500包括处理器51、存储器52、输入输出设备53以及总线54。
该处理器51、存储器52、输入输出设备53分别与总线54相连,该存储器52中存储有程序数据,处理器51用于执行程序数据以实现上述实施例所述的控制器训练方法和/或轨迹追踪方法。
在本申请实施例中,处理器51还可以称为CPU(Central Processing Unit,中央处理单元)。处理器51可能是一种集成电路芯片,具有信号的处理能力。处理器51还可以是通用处理器、数字信号处理器(DSP,Digital Signal Process)、专用集成电路(ASIC,Application Specific Integrated Circuit)、现场可编程门阵列(FPGA,Field Programmable Gate Array)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器51也可以是任何常规的处理器等。
本申请还提供一种计算机存储介质,请继续参阅图6,图6是本申请提供的计算机存储介质一实施例的结构示意图,该计算机存储介质600中存储有程序数据61,该程序数据61在被处理器执行时,用以实现上述实施例的控制器训练方法和/或轨迹追踪方法。
本申请的实施例以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施方式所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本申请的实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (10)

  1. 一种控制器训练方法,其特征在于,所述控制器训练方法包括:
    获取微型机器人运动的若干示教数据,其中,所述示教数据包括运动期望值和运动实际值;
    基于所述若干示教数据,获取所述运动期望值和所述运动实际值的若干误差值;
    基于权重参数、误差参数,以及误差值与高层控制率的计算关系,建立关于所述高层控制率的优化问题;
    将所述若干示教数据的误差值作为输入,求解所述优化问题,得到最终权重参数和最终误差参数;
    利用所述最终权重参数和所述最终误差参数,获取训练后的控制器。
  2. 根据权利要求1所述的控制器训练方法,其特征在于,
    所述运动期望值包括速度期望值和位置期望值,所述运动实际值包括速度实际值和速度期望值。
  3. 根据权利要求1所述的控制器训练方法,其特征在于,
    所述基于权重参数、误差参数,以及误差值与高层控制率的计算关系,建立关于所述高层控制率的优化问题,包括:
    按照所述误差值与高层控制率的计算关系,利用所述误差值与第一权重参数、第一误差参数,建立特征节点;
    利用所述特征节点与第二权重参数、第二误差参数,建立加强节点;
    基于所述特征节点和所述加强节点,建立关于所述高层控制率的优化问题。
  4. 根据权利要求3所述的控制器训练方法,其特征在于,
    所述基于所述特征节点和所述加强节点,建立关于所述高层控制率的优化问题,包括:
    基于所述特征节点和所述加强节点,建立所述高层控制率的计算方程;
    利用所述高层控制率的计算方程,建立关于所述高层控制率的优化问题。
  5. 根据权利要求4所述的控制器训练方法,其特征在于,
    所述利用所述高层控制率的计算方程,建立关于所述高层控制率的优化问题,包括:
    利用所述高层控制率的计算方程,获取所述控制器的稳定性限制;
    基于所述稳定性限制,获取所述计算方程的限制条件;
    利用所述高层控制率的计算方程,和所述计算方程的限制条件,建立所述高层控制率的优化问题。
  6. 根据权利要求5所述的控制器训练方法,其特征在于,
    所述利用所述高层控制率的计算方程,获取所述控制器的稳定性限制,包括:
    利用李雅普诺夫候选函数,以及所述控制器的输入和输出,建立所述控制器的第一稳定性方程;
    对所述第一稳定性方程求导,得到第二稳定性方程,其中,所述第二稳定性方程包括求导方程;
    将所述高层控制率的计算方程代入所述求导方程;
    利用所述第二稳定性方程,推导所述控制器的稳定性限制。
  7. 一种轨迹跟踪方法,其特征在于,所述轨迹跟踪方法包括:
    获取微型机器人的参考运动信息,以及实际运动信息;
    获取所述参考运动信息和所述实际运动信息的误差值;
    将所述误差值输入预先训练的控制器,获取所述控制器输出的高层控制率;
    利用所述高层控制率以及所述参考运动信息,获取所述机器人的最终运动信息。
  8. 根据权利要求7所述的轨迹跟踪方法,其特征在于,
    所述参考运动信息包括参考速度值和参考位置值,所述实际运动信息包括实际速度值和实际位置值。
  9. 一种终端设备,其特征在于,所述终端设备包括存储器以及与所述存储器耦接的处理器;
    其中,所述存储器用于存储程序数据,所述处理器用于执行所述程序数据以实现如权利要求1~6任一项所述的控制器训练方法和/或权利要求7或8所述的轨迹跟踪方法。
  10. 一种计算机存储介质,其特征在于,所述计算机存储介质用于存储程序数据,所述程序数据在被计算机执行时,用以实现如权利要求1~6任一项所述的控制器训练方法和/或权利要求7或8所述的轨迹跟踪方法。
PCT/CN2022/137678 2022-05-09 2022-12-08 控制器训练方法、轨迹跟踪方法、终端设备以及存储介质 WO2023216581A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202210502879.4A CN115494751A (zh) 2022-05-09 2022-05-09 控制器训练方法、轨迹跟踪方法、终端设备以及存储介质
CN202210502879.4 2022-05-09

Publications (1)

Publication Number Publication Date
WO2023216581A1 true WO2023216581A1 (zh) 2023-11-16

Family

ID=84463967

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2022/137678 WO2023216581A1 (zh) 2022-05-09 2022-12-08 控制器训练方法、轨迹跟踪方法、终端设备以及存储介质

Country Status (2)

Country Link
CN (1) CN115494751A (zh)
WO (1) WO2023216581A1 (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111890351A (zh) * 2020-06-12 2020-11-06 深圳先进技术研究院 机器人及其控制方法、计算机可读存储介质
CN111890350A (zh) * 2020-06-12 2020-11-06 深圳先进技术研究院 机器人及其控制方法、计算机可读存储介质
CN113219825A (zh) * 2021-03-26 2021-08-06 齐鲁工业大学 一种四足机器人单腿轨迹跟踪控制方法及系统
CN114019798A (zh) * 2021-11-03 2022-02-08 中国科学院深圳先进技术研究院 机器人轨迹跟踪控制方法、磁性医疗机器人及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111890351A (zh) * 2020-06-12 2020-11-06 深圳先进技术研究院 机器人及其控制方法、计算机可读存储介质
CN111890350A (zh) * 2020-06-12 2020-11-06 深圳先进技术研究院 机器人及其控制方法、计算机可读存储介质
CN113219825A (zh) * 2021-03-26 2021-08-06 齐鲁工业大学 一种四足机器人单腿轨迹跟踪控制方法及系统
CN114019798A (zh) * 2021-11-03 2022-02-08 中国科学院深圳先进技术研究院 机器人轨迹跟踪控制方法、磁性医疗机器人及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
XU SHENG; LIU JIA; YANG CHENGUANG; WU XINYU; XU TIANTIAN: "A Learning-Based Stable Servo Control Strategy Using Broad Learning System Applied for Microrobotic Control", IEEE TRANSACTIONS ON CYBERNETICS, IEEE, PISCATAWAY, NJ, USA, vol. 52, no. 12, 1 December 2022 (2022-12-01), Piscataway, NJ, USA , pages 13727 - 13737, XP011927774, ISSN: 2168-2267, DOI: 10.1109/TCYB.2021.3121080 *

Also Published As

Publication number Publication date
CN115494751A (zh) 2022-12-20

Similar Documents

Publication Publication Date Title
CN108284442B (zh) 一种基于模糊神经网络的机械臂柔性关节控制方法
Guo et al. Li-function activated ZNN with finite-time convergence applied to redundant-manipulator kinematic control via time-varying Jacobian matrix pseudoinversion
CN111890350A (zh) 机器人及其控制方法、计算机可读存储介质
US10962976B1 (en) Motion control method and system for biomimetic robotic fish based on adversarial structured control
CN112947084B (zh) 一种基于强化学习的模型未知多智能体一致性控制方法
WO2020118730A1 (zh) 机器人柔顺性控制方法、装置、设备及存储介质
WO2018227820A1 (zh) 控制机械臂运动的方法及装置、存储介质和终端设备
Chu et al. Final quality prediction method for new batch processes based on improved JYKPLS process transfer model
CN110110380B (zh) 一种压电执行器迟滞非线性建模方法及应用
CN111890351A (zh) 机器人及其控制方法、计算机可读存储介质
CN109062040B (zh) 基于系统嵌套优化的预测pid方法
Zhang et al. Adaptive backstepping control design for uncertain non-smooth strictfeedback nonlinear systems with time-varying delays
Nguyen–Tuong et al. Incremental sparsification for real-time online model learning
Lu et al. Human-robot collaboration using variable admittance control and human intention prediction
Liang et al. Data-driven bipartite formation for a class of nonlinear MIMO multiagent systems
Dai et al. State constrained stochastic optimal control using LSTMs
WO2023216581A1 (zh) 控制器训练方法、轨迹跟踪方法、终端设备以及存储介质
Chadi et al. Understanding Reinforcement Learning Algorithms: The Progress from Basic Q-learning to Proximal Policy Optimization
CN111505942A (zh) 一种分数阶互联系统的分散式自适应控制器的设计方法
CN114147710B (zh) 机器人的控制方法、装置、机器人及存储介质
CN114434449B (zh) 一种新型粒子群自适应阻抗控制方法及装置
CN114063438B (zh) 一种数据驱动的多智能体系统pid控制协议自学习方法
Fan et al. Critic PI2: Master continuous planning via policy improvement with path integrals and deep actor-critic reinforcement learning
Zhao et al. Robotic peg-in-hole assembly based on reversible dynamic movement primitives and trajectory optimization
Xie et al. A Fuzzy Neural Controller for Model-Free Control of Redundant Manipulators With Unknown Kinematic Parameters

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22941516

Country of ref document: EP

Kind code of ref document: A1