WO2022088471A1 - 一种移动机器人变批次长度迭代学习优化控制方法 - Google Patents

一种移动机器人变批次长度迭代学习优化控制方法 Download PDF

Info

Publication number
WO2022088471A1
WO2022088471A1 PCT/CN2020/140591 CN2020140591W WO2022088471A1 WO 2022088471 A1 WO2022088471 A1 WO 2022088471A1 CN 2020140591 W CN2020140591 W CN 2020140591W WO 2022088471 A1 WO2022088471 A1 WO 2022088471A1
Authority
WO
WIPO (PCT)
Prior art keywords
input
batch
mobile robot
length
equation
Prior art date
Application number
PCT/CN2020/140591
Other languages
English (en)
French (fr)
Inventor
陶洪峰
庄志和
黄彦德
官上雷
胡计昶
陶新悦
Original Assignee
江南大学
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 江南大学 filed Critical 江南大学
Publication of WO2022088471A1 publication Critical patent/WO2022088471A1/zh

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1628Programme controls characterised by the control loop
    • B25J9/163Programme controls characterised by the control loop learning, adaptive, model based, rule based expert control
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1602Programme controls characterised by the control system, structure, architecture
    • B25J9/1607Calculation of inertia, jacobian matrixes and inverses

Definitions

  • the invention relates to the field of mobile robot optimization control, in particular to a mobile robot variable batch length iterative learning optimization control method.
  • Mobile robots can complete some heavy, dangerous and repetitive tasks by moving, such as mine detection, seabed detection, unmanned driving, etc., and have practical value in many fields such as industry, medical care, and national defense. There are many types of mobile robots, the most common being robots that move on the ground on wheels.
  • the duration of different batches may vary due to certain output constraints or obstacles on the trajectory. For example, when the pose angle of the mobile robot is constrained to run within a certain output range, when the rotation angle of the mobile robot exceeds the limit range, the mobile robot will stop running; Forced to stop, these will lead to changes in batch length.
  • a common solution to the problem of batch length variation is to set an expected batch length.
  • the expected batch length is generally set as the maximum possible length. If the actual batch length is less than the maximum length, the missing error information of the batch is filled with zeros, then the batch length variation problem can be solved by the conventional iterative learning control (ILC) method.
  • ILC iterative learning control
  • the first-order iterative learning control law also has strong robustness to the batch length change problem; the second is to adopt the adaptive iterative learning control method.
  • the unknown parameters of the system are learned, and then the input signal of the system is updated according to the estimated values of these parameters.
  • the conventional ILC method deals with batch length variation, its convergence speed and monotonicity cannot be well guaranteed due to the randomness of batch length.
  • the optimized ILC method is a high-performance control method that combines the optimization idea with the ILC.
  • the optimized ILC method emerges as the times require.
  • variable batch length iterative learning optimization control method for mobile robots, using the idea of optimization to solve the problem of variable batch length, and designing an optimization algorithm by introducing the idea of a successive projection algorithm , and the feedforward structure is used to construct the control law, and the monotonic convergence characteristics and faster convergence speed are obtained, which improves the tracking performance of the system in the case of variable batch length.
  • variable batch length iterative learning optimization control method for a single manipulator includes the following steps:
  • the first step is to establish a dynamic model of the control system of the rigid mobile robot with dual rear wheels independently driven:
  • the rigid mobile robot is independently driven by the double rear wheels to control the speed and heading of the mobile robot through the different speeds of the two rear wheels, and the absolute coordinates XOY are set in a fixed plane.
  • the actual physical model of the robot is as follows:
  • v represents the linear velocity of the mobile robot
  • represents the pose angle of the mobile robot
  • ur and u l represent the driving control input of the right wheel and left wheel, respectively
  • c represents the viscous friction coefficient
  • k represents the driving gain
  • M 1 represents the The mass of the mobile robot
  • I w represents the moment of inertia of the wheel
  • I v represents the moment of inertia around the center of gravity of the robot
  • r represents the radius of the wheel
  • l represents the distance from the left and right wheels to the center of gravity of the robot;
  • the second step is to construct the discrete state space equation of the control system of the rigid mobile robot with dual rear wheels independently driven:
  • t and k represent the sampling time and batch, respectively.
  • the running cycle of the batch process is T, and in each repeated process cycle t ⁇ [0, T], N d sampling points are taken;
  • u k (t) ⁇ R l , y k (t) ⁇ R m and x k (t) ⁇ R n are the l-dimensional input, m-dimensional output and n state vectors of the mobile robot control system at the kth batch t, respectively;
  • the third step is to use random variables to establish a random variation model of batch length:
  • u k [u k (0),u k (1),...,u k (N d -1)] T
  • y k [y k (1),y k (2),...,y k (N d )] T
  • G is the input-output transfer matrix on the time series
  • d k is the influence of the initial state of the system on the output
  • the traditional iterative learning control requires the batch length to be fixed to the expected length N d , but the actual running batch length may vary randomly between different batches; denote the actual batch length of the kth iteration as N k , and define the actual batch length
  • There are random changes in m +1,...,N d ⁇ , that is, there are at most ⁇ m N d -N m +1 running batch lengths; in order to describe the randomness of batch lengths, let the batch lengths be N m ,N
  • the probabilities of m +1,...,N d are respectively where p i >0,1 ⁇ i ⁇ m , and
  • the output y k of the kth batch is missing at time t ⁇ [N k +1,N d ] and cannot be used to update the input; the missing time
  • the tracking error of is simply set to zero, thereby transforming into the normal situation; then the corrected tracking error is:
  • the corrected tracking error sequence is:
  • the other outputs should also terminate at the same time. Even if the other outputs do not terminate, the output generated by them loses the value of learning; for example, the mobile robot is on a preset trajectory. When moving, it encounters an obstacle and stops early, and the linear velocity becomes zero, but the pose angle is still changing. However, the output value after the pose angle loses the value of iterative learning. Therefore, when describing the mathematical expectation of the random matrix of the multi-output system , it can be seen that each output has the same mathematical expectation;
  • ⁇ k (t) a Bernoulli binary random variable ⁇ k (t) is introduced to indicate whether the output of the kth batch at time t exists; the probability of the existence of the output at the time of the kth batch of t is denoted as p(t ), then there are:
  • the fourth step is to design an iterative learning trajectory tracking optimization algorithm with variable batch length:
  • the discrete state space model (3) with random changes in batch length is regarded as a system with random changes in batch length, given any initial input and the corresponding tracking error, through the input signal defined as follows:
  • the obtained input sequence ⁇ u k ⁇ k ⁇ 0 can iteratively solve the tracking problem under the random change of batch length, where M is a random matrix of a certain batch, and its definition is the same as formula (10), the input signal control law
  • the feedforward form of is obtained by solving the first performance index function defined as follows:
  • the fifth step is to analyze the convergence of the iterative learning trajectory tracking optimization algorithm with variable batch length:
  • the set S 1 represents the system dynamics, and the set S 2 represents the tracking requirements; it is assumed that the sets S 1 and S 2 have an intersection in the Hilbert space, that is The Hilbert space H is defined as follows:
  • the Hilbert space H includes the tracking error and the input signal, and its inner product and the related induced norm are given by Eq. (5)
  • the projection operator is defined as follows:
  • x is a point on the Hilbert space H
  • P S (x) represents the projection of x on the set S
  • the sixth step is to design an iterative learning trajectory tracking optimization algorithm with variable batch length under the input constraints:
  • the input constraint set ⁇ is usually a convex set; the input constraint set ⁇ generally has the following forms:
  • the quadratic programming QP problem under input constraints is difficult, so an algorithm that is easier to implement in practical applications is designed based on the idea of successive projections;
  • the input signal is first obtained through the feedforward form of the unconstrained control law (19). Then project it to the input constraint set ⁇ :
  • the input sequence ⁇ u k ⁇ k ⁇ 0 that satisfies the input constraints can iteratively solve the tracking problem under the random change of the batch length; since the input constraints are usually point-by-point constraints in practice, it is necessary to calculate the optimization problem ( 41); when the input constraints are in the saturated constraint form (37), for t ⁇ [0,N d ], the solution to the optimization problem (41) is directly given by:
  • the seventh step is to analyze the convergence of the iterative learning trajectory tracking optimization algorithm with variable batch length under the input constraints:
  • Equation (50) into Equation (49)
  • Equation (54) is equivalent to:
  • the eighth step is to realize the trajectory tracking of the mobile robot control system with variable batch length under the condition of input constraints:
  • the input vector of each iteration batch of the mobile robot system is determined according to the optimal iterative learning control law, and the obtained input vector is input into the mobile robot system whose batch length changes for trajectory tracking control.
  • the mobile robot system receives input when the batch length changes.
  • Vector control tracks the desired output.
  • the present application discloses a linear system with repetitive motion characteristics such as a rigid mobile robot control system with independent driving of double rear wheels, and the mobile robot control system is regarded as the controlled object, and optimized for the variable batch length of the controlled object.
  • the convergence analysis of the iterative learning optimization algorithm designed with and without input constraints is carried out, which ensures the convergence of the tracking error in the sense of mathematical expectation.
  • Figure 1 is a model block diagram of a mobile robot control system.
  • Figure 2 is a physical model diagram of a rigid mobile robot system with dual rear wheels independently driven.
  • Figure 3 is the actual output and tracking curves of the linear velocity and the pose angle of the mobile robot control system.
  • Figure 4 is a 2-norm convergence diagram of the system linear velocity and pose angle tracking error without input constraints.
  • FIG. 5 is a position trajectory tracking graph of the mobile robot system.
  • Fig. 6 is the input voltage curve diagram of the left and right two-wheel motors when the best tracking is feasible under the input constraint.
  • Figure 7 is a graph of the input voltages of the left and right two-wheel motors when optimal tracking is not feasible under input constraints.
  • Figure 8 is a 2-norm curve of the system linear velocity and the tracking error of the pose angle when the best tracking is feasible under the input constraints.
  • Figure 9 is a 2-norm curve of the system linear velocity and the tracking error of the pose angle when the optimal tracking is not feasible under the input constraints.
  • FIG. 1 shows a model block diagram of a rigid mobile robot control system with dual rear wheels independently driven by the present application.
  • the controller input of the kth batch is uk , acting on the two independent rear-wheel drive motors of the mobile robot, the actual output yk of the kth batch of the system can be obtained, which is compared with the set expected value stored in the expected trajectory memory , and the result is passed to the tracking error corrector to obtain the corrected tracking error ek .
  • the corrected tracking error precision is compared with the set precision value. If the error precision does not reach the set precision, the corrected error e k and the current controller input u k are passed to the optimal iterative learning controller to generate the next batch.
  • the second controller input u k+1 and this cycle runs until the error between the actual output and the expected value of the system reaches the accuracy requirement, then stops the operation, and the controller input at this time is the optimal control input.
  • the system may be required to track a specific trajectory. Therefore, in this embodiment, the desired linear velocity and the desired trajectory of the pose angle of the mobile robot are respectively set as:
  • the operation of the mobile robot may be terminated prematurely, which will lead to changes in the actual batch length.
  • the initial input u 0 0, 0 ⁇ t ⁇ N d .
  • L in the feedforward form (19) of the optimal iterative learning control law is also determined accordingly.
  • the above-mentioned optimized iterative learning controller of the present application is implemented based on the STM32F103RCT6 chip, and the input of the chip is the motor control voltage u, which is collected by the voltage sensor.
  • the input signal enters the STM32F103RCT6 chip through the conditioning circuit for storage and calculation, and an iterative learning update law is constructed.
  • the signal obtained by the CPU after calculation is the optimal control input signal u k+1 , and the input signal is then applied to the mobile robot control system through the RS232 communication module. , and continuously correct the tracking trajectory of the mobile robot until the desired trajectory is tracked.
  • the dynamic model (1) of the mobile robot control system is running, please refer to Fig. 3, which respectively shows the linear velocity and pose angle trajectory tracking effect diagrams of the mobile robot system applying the optimized iterative learning control law feedforward form (19), After a certain batch k, the output value of the system can accurately track the expected trajectory, and the actual running length of several batches in the iterative process is less than 2s, which also shows the problem assumption that the batch length of the system changes randomly.
  • Figure 4 shows that the tracking errors of the linear velocity and pose angle of the mobile robot can converge after a certain iteration batch. Note that the convergence of the 2-norm of the error here does not exhibit a monotonic form because the expected form of the tracking error norm cannot be obtained, which is not monotonic when the lengths of the previous and subsequent batches are unequal.
  • Figure 5 shows the position trajectory tracking trajectory diagram of the mobile robot system, indicating that the system can track the preset trajectory after a certain number of iterations.
  • the input of the mobile robot system may be constrained in the actual control process.
  • the optimal control input may or may not be obtained.
  • the range of the motor control voltage can be taken as [-10V, 20V]; when the optimal control input cannot be obtained under the input constraint , that is, when the best tracking is not feasible, the range of the motor control voltage can be taken as [-8V, 8V].
  • an iterative learning algorithm and an optimization algorithm are combined to construct an optimized iterative learning controller, and the optimization idea is adopted to solve the trajectory tracking problem of the batch length change of the mobile robot system in the repeated process.
  • the controller input signals may be constrained.
  • the proposed variable batch length iterative learning optimization method can ensure that the mobile robot system can still achieve high-precision tracking of the desired trajectory when the batch length changes.

Landscapes

  • Engineering & Computer Science (AREA)
  • Robotics (AREA)
  • Mechanical Engineering (AREA)
  • Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Automation & Control Theory (AREA)
  • Feedback Control In General (AREA)

Abstract

一种移动机器人变批次长度迭代学习优化控制方法,涉及移动机器人优化控制领域;控制方法基于提升技术将重复运行的移动机器人系统转换为时间序列的输入输出矩阵模型,并通过随机变量将变批次长度问题建立为批次长度随机变化模型;针对系统出现的批次长度变化情况,采用优化的思想设计迭代学习优化控制算法,并基于性能指标函数得到批次长度变化下迭代学习优化控制算法的前馈形式;基于逐次投影框架,证明了存在及不存在输入约束时设计的迭代学习优化控制算法在数学期望意义下的收敛性,解决了变批次长度下移动机器人系统的跟踪控制问题,同时考虑输入受约束的情况,从而实现对期望轨迹的高精度跟踪。

Description

一种移动机器人变批次长度迭代学习优化控制方法 技术领域
本发明涉及移动机器人优化控制领域,尤其是一种移动机器人变批次长度迭代学习优化控制方法。
背景技术
移动机器人可通过移动来完成一些繁重、危险、重复的任务,如地雷探测、海底探测、无人驾驶等,在工业、医疗、国防等很多领域都有实用价值。移动机器人有很多种,最常见的是在地面上依靠轮子移动的机器人。
移动机器人在执行重复过程任务时,受限于某些输出约束或在运行轨迹上出现障碍,不同批次的持续时长可能是变化的。比如移动机器人的位姿角被约束在一定输出范围内运行时,当移动机器人转动角度超出该限制范围,移动机器人将中断运行;又或者在某一批次中运行轨迹中出现障碍,使得移动机器人受迫停下,这些都会导致出现批次长度变化的情况。
批次长度变化问题的常用解决思路是设定一个期望的批次长度,在实际应用中,该期望批次长度一般设为可能出现的最大长度。若实际批次长度小于最大长度,则将该批次缺失的误差信息用零来补齐,那么批次长度变化问题就可以用常规的迭代学习控制(Iterative learning control,ILC)方法来解决。常规的ILC解决批次长度变化问题一般有两种:其一为采用高阶迭代学习控制方法,使用以往批次的误差及输入信息来更新输入信号,从而增强对于批次长度随机变化的鲁棒性。值得一提的是,一阶迭代学习控制律对于批次长度变化问题也具有较强的鲁棒性;其二为采用自适应迭代学习控制方法,在某次迭代过程中,先根据输出误差对系统的未知参数进行学习,再根据这些参数估计值更新系统的输入信号。然而,常规的ILC方法在处理批次长度变化问题时,由于批次长度的随机性,其收敛速度及单调性并不能得到良好保证。
优化ILC方法是一种将优化思想与ILC相结合的高性能控制方法,针对上述批次长度可变问题,优化ILC方法应运而生。
发明内容
本发明人针对上述问题及技术需求,提出了一种移动机器人变批次长度迭代学习优化控制方法,利用优化的思想来解决批次长度可变问题,通过引入逐次投影算法的思想来设计优化算法,并采用前馈结构来构造控制律,得到了单调收敛特性及更快的收敛速度,提升了系统对于批次长度可变情况的跟踪性能表现。
本发明的技术方案如下:
单机械臂变批次长度迭代学习优化控制方法,包括如下步骤:
第一步、建立双后轮独立驱动刚性移动机器人控制系统的动态模型:
双后轮独立驱动刚性移动机器人通过两个后轮的不同速度来控制移动机器人的速度和航向,在固定平面内设置绝对坐标XOY,假设双后轮独立驱动刚性移动机器人在固定平面内移动,移动机器人的实际物理模型如下:
Figure PCTCN2020140591-appb-000001
其中,v表示移动机器人的线速度,θ表示移动机器人的位姿角,u r和u l分别表示右轮和左轮的驱动控制输入,c表示黏性摩擦系数,k表示驱动增益,M 1表示移动机器人的质量,I w表示车轮的转动惯量,I v表示绕机器人重心的转动惯量,r表示车轮半径,l表示左右轮到机器人重心的距离;
第二步、构建双后轮独立驱动刚性移动机器人控制系统的离散状态空间方程:
将移动机器人的线速度、位姿角和位姿角导数定义为状态变量:
Figure PCTCN2020140591-appb-000002
定义输入变量为驱动控制输入:u=[u r u l] T,输出变量为移动机器人的线速度和位姿角:y=[v θ] T,则式(1)所示的移动机器人控制系统描述为:
Figure PCTCN2020140591-appb-000003
其中,
Figure PCTCN2020140591-appb-000004
对连续系统模型式(2)进行离散化,选取满足香农采样定理的采样周期T s,进一步得到移动机器人控制系统的离散状态空间模型:
Figure PCTCN2020140591-appb-000005
式中t和k分别代表采样时间和批次,批次过程的运行周期为T,且在每个重复过程周期t∈[0,T]内,取N d个采样点;u k(t)∈R l,y k(t)∈R m和x k(t)∈R n分别是移动机器人控制系统第k批次t时刻的l维输入、m维输出和n个状态向量;A,B,C为式(2)对应的离散系统参数矩阵,且满足CB≠0;并且假设系统运行的初始状态在围绕期望初始状态x d(0)的小范围内随机变化,其数学期望满足E{x k(0)}=x d(0);
第三步、利用随机变量建立批次长度随机变化模型:
针对式(3)形式的线性离散系统,将其状态空间表达式转换为时间序列的输入输出矩阵模型:y k=Gu k+d k          (4)
其中:
Figure PCTCN2020140591-appb-000006
Figure PCTCN2020140591-appb-000007
u k=[u k(0),u k(1),…,u k(N d-1)] T y k=[y k(1),y k(2),…,y k(N d)] T,G是时间序列上的输入输出传递矩阵,d k是系统初始状态对输出的影响;输入Hilbert空间
Figure PCTCN2020140591-appb-000008
和输出Hilbert空间
Figure PCTCN2020140591-appb-000009
分别由如下内积及相关的诱导范数定义:
Figure PCTCN2020140591-appb-000010
Figure PCTCN2020140591-appb-000011
其中,
Figure PCTCN2020140591-appb-000012
分别为输入输出Hilbert空间上的向量,权矩阵R和Q为适当维数的实正定矩阵;并且,定义期望输出y d∈l 2[0,N d]为:y d=[y d(1) y d(2) … y d(N d)] T       (7)
传统的迭代学习控制要求批次长度固定为预期长度N d,然而实际的运行批次长度在不同批次之间可能随机变化;记第k次迭代实际批次长度为N k,定义实际批次长度的最小值与最大值分别为N m和N h;实际情况下一般将预期长度N d设定为最大长度,即N d=N h;那么实际批次长度N k在{N m,N m+1,…,N d}内随机变动,即至多存在τ m=N d-N m+1个运行批次长度;为了描述批次长度的随机性,令批次长度为N m,N m+1,…,N d的概率分别为
Figure PCTCN2020140591-appb-000013
其中p i>0,1≤i≤τ m,且
Figure PCTCN2020140591-appb-000014
当实际批次长度N k小于预期长度N d时,第k批次的输出y k在时刻 t∈[N k+1,N d]是缺失的,不能被用于输入的更新;将缺失时刻的跟踪误差简单地设置为零,从而转化成常规情况;那么得到修正后的跟踪误差为:
Figure PCTCN2020140591-appb-000015
修正后的跟踪误差序列为:
Figure PCTCN2020140591-appb-000016
当N k<N d时,e k≠y d-y k,于是引入如下随机矩阵M k来消除该不等关系:
Figure PCTCN2020140591-appb-000017
其中
Figure PCTCN2020140591-appb-000018
表示N k×N k维的单位矩阵、I m表示m×m维的单位矩阵、
Figure PCTCN2020140591-appb-000019
表示(N d-N k)×(N d-N k)维的零矩阵,
Figure PCTCN2020140591-appb-000020
表示克罗内克积,于是修正后的跟踪误差序列表示为:
Figure PCTCN2020140591-appb-000021
对于多输出系统,当其中一个输出出现提前终止的情况,其它的输出也应同时终止,即使其它输出并未终止,其产生的输出也失去了学习的价值;例如,移动机器人在预设轨迹上移动时,遇到障碍提前停止,线速度变为零,但位姿角仍在变化,然而位姿角之后的输出值失去了迭代学习的价值,因此在刻画多输出系统随机矩阵的数学期望时,可以看做各输出具有相同的数学期望;
为了计算随机矩阵M k的数学期望,引入伯努利二元随机变量γ k(t)来表示第k批次时刻t输出是否存在;记第k批次时刻t输出存在的概率为p(t),则有:
Figure PCTCN2020140591-appb-000022
由于E{γ k(t)}=P{γ k(t)=1}×1+P{γ k(t)=0}×0=p(t),则随机矩阵M k的数学期望计算如下:
Figure PCTCN2020140591-appb-000023
其中,用
Figure PCTCN2020140591-appb-000024
来简单表示随机矩阵的期望;
第四步、设计批次长度可变的迭代学习轨迹跟踪优化算法:
将批次长度随机变化的离散状态空间模型(3)作为批次长度随机变化系统,给定任意初始输入及对应的跟踪误差,通过如下定义的输入信号:
Figure PCTCN2020140591-appb-000025
得到的输入序列{u k} k≥0能够迭代地解决批次长度随机变化下的跟踪问题,其中,M为某一批次的随机矩阵,其定义与式(10)相同,输入信号控制律的前馈形式通过求解如下定义的第一性能指标函数得到:
Figure PCTCN2020140591-appb-000026
将式(11)和式(4)先后代入第一性能指标函数(15),求其二次型最优解得:
Figure PCTCN2020140591-appb-000027
其中
Figure PCTCN2020140591-appb-000028
根据系统初始状态的假设E{x k(0)}=x d(0)可知:
E{d k-d k+1}=0        (17)
将式(17)代入式(16)得:
Figure PCTCN2020140591-appb-000029
由于对于第k+1批次的输入,第k批次的输入信号和跟踪误差已知,其期望等于其本身,又由于
Figure PCTCN2020140591-appb-000030
可逆,将式(18)整理后得到控制律为:u k+1=u k+Le k(19)
其中
Figure PCTCN2020140591-appb-000031
是误差项的学习增益;
第五步、分析批次长度可变的迭代学习轨迹跟踪优化算法的收敛性:
鉴于批次长度随机变化系统迭代学习优化算法的特殊性,引入逐次投影思想对算法进行收敛性分析;批次长度随机变化下轨迹跟踪问题的设计目标是迭代地找到一个最优控制输入
Figure PCTCN2020140591-appb-000032
使得跟踪误差的期望收敛到零,这等价于迭代地在Hilbert空间中两个凸集S 1和S 2的交集中寻找点
Figure PCTCN2020140591-appb-000033
集合S 1和集合S 2定义如下:S 1={(e,u)∈H:e=E{M(y d-y)},y=Gu+d}        (20)
S 2={(e,u)∈H:e=0}              (21)
其中,集合S 1表示系统动态,集合S 2表示跟踪需求;假设集合S 1和S 2在Hilbert空间中存在交集,即
Figure PCTCN2020140591-appb-000034
Hilbert空间H定义如下:
Figure PCTCN2020140591-appb-000035
Hilbert空间H包括跟踪误差及输入信号,其内积和相关的诱导范数由式(5)
<(e,u),(z,v)> {Q,R}=e TQz+u TRv
和式(6)导出:
Figure PCTCN2020140591-appb-000036
其中,
Figure PCTCN2020140591-appb-000037
分别为输入输出Hilbert空间上的向量;
定义投影算子如下:
Figure PCTCN2020140591-appb-000038
其中,x为Hilbert空间H上的一个点,P S(x)表示x在集合S上的投影;
对于x=(0,u)∈S 2,其在S 1上的投影为:
Figure PCTCN2020140591-appb-000039
优化问题(26)的解为
Figure PCTCN2020140591-appb-000040
其中
Figure PCTCN2020140591-appb-000041
那么:
Figure PCTCN2020140591-appb-000042
对投影算子
Figure PCTCN2020140591-appb-000043
采取相似的运算,对于
Figure PCTCN2020140591-appb-000044
有:
Figure PCTCN2020140591-appb-000045
优化问题(28)的解取
Figure PCTCN2020140591-appb-000046
于是:
Figure PCTCN2020140591-appb-000047
根据逐次投影思想,使用
Figure PCTCN2020140591-appb-000048
及x k=(0,u k)分别表示对集合S 1和S 2第k次投影后的点,给定一个初始点x 0=(0,u 0)∈S 2,通过控制律(19)进行连续投影能够得到沿迭代轴更新的输入序列{u k} k≥0
设集合S 1和S 2交于一点
Figure PCTCN2020140591-appb-000049
Figure PCTCN2020140591-appb-000050
由于集合S 1和S 2均为Hilbert空间中的有限维闭凸集,根据逐次投影引理知,序列
Figure PCTCN2020140591-appb-000051
和{x k} k≥0均收敛于
Figure PCTCN2020140591-appb-000052
即:
Figure PCTCN2020140591-appb-000053
由式(30)得:
Figure PCTCN2020140591-appb-000054
第k+1次输入如式(14)所示,
根据第一性能指标函数式(15),对于其非最优解u k有:
Figure PCTCN2020140591-appb-000055
由式(33)得:E{||e k+1||}≤E{||e k||}(33),即期望意义下的误差范数E{||e k||}单调收敛至零;
另外,为了得到权矩阵Q和R的选取范围,将控制律的前馈形式(19)代入式(33),并全部替换为与e k相关的形式,得:
Figure PCTCN2020140591-appb-000056
其中,
Figure PCTCN2020140591-appb-000057
为单位矩阵,由于每个批次的误差e k均不相同,为了选取一组对任意批次误差均满足式(34)的权矩阵Q和R,需要得到一个约束条件;对式(34)两边取范数后,得其一个必要条件:
Figure PCTCN2020140591-appb-000058
将式(35)整理得到权矩阵Q和R应满足的约束条件为:
Figure PCTCN2020140591-appb-000059
第六步、在输入约束下设计批次长度可变的迭代学习轨迹跟踪优化算法:
在许多工业过程控制应用中,为了确保工业过程安全、顺利地运行,需要对输入变量施加一定的约束,输入约束集Ω通常为凸集;输入约束集Ω一般有如下几种形式:
控制器输入的饱和约束:Ω={u∈l 2[0,N d]:|u(t)|≤Z(t),0≤t≤N d}(37)其中Z(t)≥0,0≤t≤N d是随时间变化的输入幅值约束;
控制器输入的能量约束:
Figure PCTCN2020140591-appb-000060
其中Z>0是输入总能量约束;
控制器输入的震荡约束:Ω={u∈l 2[0,N d]:|Δu(t)|≤Z(t),1≤t≤N d}(39)其中Δu(t)=u(t)-u(t-1),Z(t)≥0,0≤t≤N d是随时间变化的执行器输入震荡约束;当出于实际需要对输入信号进行约束时,直接求取输入约束下的二次规划QP问题是困难的,于是根据逐次投影的思想设计在实际应用中更易实现的算法;
对于批次长度随机变化系统,给定任意满足约束的初始输入及对应的跟踪误差,先通过无约束控制律的前馈形式(19)得到输入信号
Figure PCTCN2020140591-appb-000061
再将其投影到输入约束集Ω:
Figure PCTCN2020140591-appb-000062
从而得到满足输入约束的输入序列{u k∈Ω} k≥0能够迭代地解决批次长度随机变化下的跟踪问题;由于在实践中输入约束通常是逐点约束,因而需计算出优化问题(41)的解;当输入约束为饱和约束形式(37)时,对于t∈[0,N d],优化问题(41)的解直接由如下形式给出:
Figure PCTCN2020140591-appb-000063
第七步、分析输入约束下的批次长度可变的迭代学习轨迹跟踪优化算法的收敛性:
仍然采用逐次投影思想对输入约束下的批次长度随机变化优化算法进行收敛性分析;重新定义集合S 1和S 2如下:
S 1={(e,u)∈H:e=E{M(y d-y)},y=Gu+d}     (43)
S 2={(e,u)∈H:e=0,u∈Ω}         (44)
与第五步证明类似,对于x=(0,u)∈S 2,其在S 1上的投影为:
Figure PCTCN2020140591-appb-000064
其中
Figure PCTCN2020140591-appb-000065
是根据无约束控制律的前馈形式(19)得到的;
对于
Figure PCTCN2020140591-appb-000066
其在S 2上的投影
Figure PCTCN2020140591-appb-000067
有:
Figure PCTCN2020140591-appb-000068
S 2中的
Figure PCTCN2020140591-appb-000069
Figure PCTCN2020140591-appb-000070
是相互独立的,也就是说可以分开进行求解,于是:
Figure PCTCN2020140591-appb-000071
Figure PCTCN2020140591-appb-000072
其中
Figure PCTCN2020140591-appb-000073
根据逐次投影思想,使用
Figure PCTCN2020140591-appb-000074
及x k=(0,u k)分别表示对集合S 1和S 2第k次投影后的点,给定一个初始点x 0=(0,u 0)∈S 2,通过式(40)和式(41)进行连续投影能够得到沿迭代轴更新的输入序列{u k} k≥0
当存在输入约束时,集合S 1和S 2可能不存在交集,所以对输入约束下的批次长度随机变化优化算法进行收敛性分析时,需要考虑
Figure PCTCN2020140591-appb-000075
Figure PCTCN2020140591-appb-000076
两种情况;
针对输入约束情况,先定义第二性能指标函数:
Figure PCTCN2020140591-appb-000077
Figure PCTCN2020140591-appb-000078
时,仍然得到式(30)和式(31);x k与集合S 1的最小距离为:
Figure PCTCN2020140591-appb-000079
根据优化迭代学习控制律的前馈形式(19),得式(49)的优化解为:u *=u k+Le k(50),将式(50)代入到式(49)中,得:
Figure PCTCN2020140591-appb-000080
同理有:
Figure PCTCN2020140591-appb-000081
根据逐次投影引理的内容,每次投影后的抽象距离均单调减小,得到:
Figure PCTCN2020140591-appb-000082
Figure PCTCN2020140591-appb-000083
即第二性能指标函数
Figure PCTCN2020140591-appb-000084
是单调收敛的;
Figure PCTCN2020140591-appb-000085
时,首先定义
Figure PCTCN2020140591-appb-000086
是两集合S 1和S 2取最小 距离时线段的两个端点,同时这也是如下优化问题的解:
Figure PCTCN2020140591-appb-000087
Figure PCTCN2020140591-appb-000088
式(54)等价于:
Figure PCTCN2020140591-appb-000089
那么输入约束下的最优解为:
Figure PCTCN2020140591-appb-000090
根据优化迭代学习控制律的前馈形式(19)可知,式(56)内部的最小化问题的最优解为:
Figure PCTCN2020140591-appb-000091
将式(57)代入到式(56)中,得:
Figure PCTCN2020140591-appb-000092
式(58)中e k前的权重I-M kGL和L均是可逆的,那么需要最小化的性能指标是严格凸的,且输入约束集Ω也是凸的,因此该最小化问题具有唯一解,
由此可得:
Figure PCTCN2020140591-appb-000093
其中,a是一个正常数,d d由期望初始状态导出:
Figure PCTCN2020140591-appb-000094
由式(59)得知,误差范数的期望有界收敛;
根据
Figure PCTCN2020140591-appb-000095
情况下第二性能指标函数
Figure PCTCN2020140591-appb-000096
单调收敛的证明,同理可证明
Figure PCTCN2020140591-appb-000097
情况下第二性能指标函数
Figure PCTCN2020140591-appb-000098
单调收敛;
第八步、实现批次长度可变的移动机器人控制系统在有输入约束情形下的轨迹跟踪:
根据优化迭代学习控制律确定移动机器人系统每一迭代批次的输入矢量,将得到的输入矢量输入批次长度变化的移动机器人系统进行轨迹跟踪控制,移动机器人系统在批次长度变化情况下受到输入矢量的控制作用追踪期望输出。
本发明的有益技术效果是:
本申请公开了针对双后轮独立驱动刚性移动机器人控制系统此类具有重复运动特征的线性系统,将该移动机器人控制系统作为被控对象,针对被控对象出现的变批次长度情况,采用优化的思想设计迭代学习优化控制算法,并基于第一性能指标函数得到批次长度可变情况下的迭代学习优化控制算法的前馈形式,进而保证跟踪误差的单调收敛特性以及获得更快的收敛速度,提升了系统对于批次长度可变情况的跟踪性能表现。同时基于逐次投影框架,对存在及不存在输入约束时设计的迭代学习优化算法进行收敛性分析,保证了跟踪误差在数学期望意义下的收敛性。
附图说明
图1是移动机器人控制系统的模型框图。
图2是双后轮独立驱动刚性移动机器人系统的物理模型图。
图3是移动机器人控制系统的线速度和位姿角实际输出与跟踪曲线图。
图4是无输入约束下系统线速度和位姿角跟踪误差2-范数收敛图。
图5是移动机器人系统的位置轨迹跟踪曲线图。
图6是输入约束下最佳跟踪可行时左右两轮电机的输入电压曲线图。
图7是输入约束下最佳跟踪不可行时左右两轮电机的输入电压曲线图。
图8是输入约束下最佳跟踪可行时系统线速度和位姿角跟踪误差2-范数曲线图。
图9是输入约束下最佳跟踪不可行时系统线速度和位姿角跟踪误差2-范数曲线图。
具体实施方式
下面结合附图对本发明的具体实施方式做进一步说明。
结合图1-图9所示,请参考图1,其示出了本申请公开的双后轮独立驱动刚性移动机器人控制系统模型框图。第k批次的控制器输入为u k,作用于移动机器人两个独立的后轮驱动电机可以得到系统第k批次的实际输出y k,其与储存在期望轨迹存储器的设定期望值进行比较,结果传递给跟踪误差修正器,得到修正后的跟踪误差e k。修正后的跟踪误差精度与设定的精度值做比较,若误差精度没有达到所设定的精度则将修正后误差e k与当前控制器输入u k传递到优化迭代学习控制器生成下一批次的控制器输入u k+1,如此循环运行直至系统实际输出与期望值之间的误差达到精度要求,则停止运行,此时的控制器输入即为最优控制输入。
针对图2和式(1)所示的双后轮独立驱动刚性移动机器人实际物理模型,变量参数分别设定为:c=0.05kg·m 2/s,I w=0.005kg·m 2,k=5,I v=10kg·m 2,M=200kg l=0.3m,r=0.1m。
系统仿真时间设定为t=2s,采样时间设定为T s=0.1s,则系统的离散状态空间表达式的参数矩阵分别为:
Figure PCTCN2020140591-appb-000099
在移动机器人系统实际运行过程中,可能需要该系统跟踪某一个特定的轨迹。因此,本实施方式分别设定移动机器人的期望线速度和位姿角期望轨迹为:
v d=1m/s,θ d=sin(4t) 位姿角单位为rad。
令初始状态满足:E{x k(0)}=x d(0)=[0 0 0] T
当移动机器人在运行轨迹上遇到障碍时,移动机器人的运行可能会提前终止,这就会导致实际批次长度的变化。作为一个简单的示例,令实际批次长度N k满足离散均匀分布,且在16~20之间随机变化的随机变量,即p i=0.2。不失一般性,令初始输入u 0=0,0≤t≤N d
选取权矩阵Q=1I,R=0.001I,满足式(37)。当权矩阵Q和R与采样点确定时,优化迭代学习控制律的前馈形式(19)中的L也随之确定。本申请的上述优化迭代学习控制器基于STM32F103RCT6芯片实现,芯片的输入为电机控制电压u,并通过电压传感器采集得到。输入信号通过调理电路进入STM32F103RCT6芯片进行存储和计算,并构建迭代学习更新律,CPU计算后得到的信号为最优控制输入信号u k+1,输入信号再经RS232通信模块作用于移动机器人控制系统,不断修正移动机器人跟踪轨迹,直到跟踪上期望轨迹。移动机器人控制系统的动态模型(1)运行时,请参考图3,其分别示出了移动机器人系统应用优化迭代学习控制律前馈形式(19)的线速度和位姿角轨迹跟踪效果图,经过一定批次k后,系统的输出值能准确跟踪到期望轨迹,并且迭代过程中间几个批次的实际运行长度均不到2s,这也显示了系统批次长度随机变化的问题假设。图4表明移动机器人线速度和位姿角的跟踪误差经过一定的迭代批次后能够收敛。请注意,此处误差的2-范数的收敛并未呈现单调形式是由于跟踪误差范数的期望形式无法获得,当前后批次长度不等时,则呈现不单调的情形。图5示出了移动机器人系统的位置轨迹跟踪轨迹图,表明系统在经过一定次数的迭代之后,能够跟踪上预设轨迹。
移动机器人系统在实际控制过程中输入可能会受到约束,这里考虑对左轮电机输入电压施加输入幅值约束。当控制输入受到约束时,根据约束强度的不同,可能会出现最优控制输入能够得到以及得不到的情况。当在输入约束下最优控制输入能够取到时,即最佳跟踪可行时,此时电机控制电压的范围可取为[-10V,20V];当在输入约束下最优控制输入取不到时,即最佳跟踪不可行时,此时电机控制电压的范围可取为[-8V,8V]。结合图6至图9所示,上述各图表明系统的输入信号在加以一定的约束条件后,无论最佳跟踪是否可行,系统依然 能够完成跟踪任务,只是当最佳跟踪不可行时,系统会收敛到一个界而不是收敛到零,这也进一步验证了算法的合理性以及有效性。
本申请将迭代学习算法和优化算法相结合构造优化迭代学习控制器,采用优化的思想来解决移动机器人系统重复过程的批次长度变化的轨迹跟踪问题。此外移动机器人系统执行重复过程任务时,控制器输入信号可能会受到约束。然而不管输入是否受到约束,所提出的变批次长度迭代学习优化方法能保证移动机器人系统在出现批次长度变化情况时,依然能实现对期望轨迹的高精度跟踪。
以上所述的仅是本申请的优选实施方式,本发明不限于以上实施例。可以理解,本领域技术人员在不脱离本发明的精神和构思的前提下直接导出或联想到的其他改进和变化,均应认为包含在本发明的保护范围之内。

Claims (1)

  1. 一种移动机器人变批次长度迭代学习优化控制方法,其特征在于,所述方法包括:建立双后轮独立驱动刚性移动机器人控制系统的动态模型;构建所述双后轮独立驱动刚性移动机器人控制系统的离散状态空间方程;利用随机变量建立批次长度随机变化模型;设计批次长度可变的迭代学习轨迹跟踪优化算法;分析所述批次长度可变的迭代学习轨迹跟踪优化算法的收敛性;在输入约束下设计批次长度可变的迭代学习轨迹跟踪优化算法;分析所述输入约束下的批次长度可变的迭代学习轨迹跟踪优化算法的收敛性;实现批次长度可变的移动机器人控制系统在有输入约束情形下的轨迹跟踪;
    第一步、建立双后轮独立驱动刚性移动机器人控制系统的动态模型:
    所述双后轮独立驱动刚性移动机器人通过两个后轮的不同速度来控制移动机器人的速度和航向,在固定平面内设置绝对坐标XOY,假设所述双后轮独立驱动刚性移动机器人在所述固定平面内移动,所述移动机器人的实际物理模型如下:
    Figure PCTCN2020140591-appb-100001
    其中,v表示移动机器人的线速度,θ表示移动机器人的位姿角,u r和u l分别表示右轮和左轮的驱动控制输入,c表示黏性摩擦系数,k表示驱动增益,M 1表示移动机器人的质量,I w表示车轮的转动惯量,I v表示绕机器人重心的转动惯量,r表示车轮半径,l表示左右轮到机器人重心的距离;
    第二步、构建所述双后轮独立驱动刚性移动机器人控制系统的离散状态空间方程:
    将所述移动机器人的线速度、位姿角和位姿角导数定义为状态变量:
    Figure PCTCN2020140591-appb-100002
    定义输入变量为驱动控制输入:u=[u r u l] T,输出变量为所述移动机器人的线速度和位姿角:y=[v θ] T,则式(1)所示的移动机器人控制系统描述为:
    Figure PCTCN2020140591-appb-100003
    其中,
    Figure PCTCN2020140591-appb-100004
    对连续系统模型式(2)进行离散化,选取满足香农采样定理的采样周期T s,进一步得到所述移动机器人控制系统的离散状态空间模型:
    Figure PCTCN2020140591-appb-100005
    式中t和k分别代表采样时间和批次,批次过程的运行周期为T,且在每个重复过程周期t∈[0,T]内,取N d个采样点;u k(t)∈R l,y k(t)∈R m和x k(t)∈R n分别是所述移动机器人控制系统第k批次t时刻的l维输入、m维输出和n个状态向量;A,B,C为式(2)对应的离散系统参数矩阵,且满足CB≠0;并且假设系统运行的初始状态在围绕期望初始状态x d(0)的小范围内随机变化,其数学期望满足E{x k(0)}=x d(0);
    第三步、利用随机变量建立批次长度随机变化模型:
    针对式(3)形式的线性离散系统,将其状态空间表达式转换为时间序列的输入输出矩阵模型:y k=Gu k+d k    (4)
    其中:
    Figure PCTCN2020140591-appb-100006
    Figure PCTCN2020140591-appb-100007
    u k=[u k(0),u k(1),...,u k(N d-1)] Ty k=[y k(1),y k(2),...,y k(N d)] T,G是时间序列上的输入输出传递矩阵,d k是系统初始状态对输出的影响;输入Hilbert空间
    Figure PCTCN2020140591-appb-100008
    和输出Hilbert空间
    Figure PCTCN2020140591-appb-100009
    分别由如下内积及相关的诱导范数定义:
    Figure PCTCN2020140591-appb-100010
    Figure PCTCN2020140591-appb-100011
    其中,
    Figure PCTCN2020140591-appb-100012
    分别为输入输出Hilbert空间上的向量,权矩阵R和Q为适当维数的实正定矩阵;并且,定义期望输出y d∈l 2[0,N d]为:y d=[y d(1) y d(2) … y d(N d)] T    (7)
    传统的迭代学习控制要求批次长度固定为预期长度N d,然而实际的运行批次长度在不同批次之间可能随机变化;记第k次迭代实际批次长度为N k,定义实际批次长度的最小值与最大值分别为N m和N h;实际情况下一般将预期长度N d设定为最大长度,即N d=N h;那么实际批次长度N k在{N m,N m+1,…,N d}内随机变动,即至多存在τ m=N d-N m+1个运行批次长度;为了描述批次长度的随机性, 令批次长度为N m,N m+1,…,N d的概率分别为
    Figure PCTCN2020140591-appb-100013
    其中p i>0,1≤i≤τ m,且
    Figure PCTCN2020140591-appb-100014
    当实际批次长度N k小于预期长度N d时,第k批次的输出y k在时刻t∈[N k+1,N d]是缺失的,不能被用于输入的更新;将缺失时刻的跟踪误差简单地设置为零,从而转化成常规情况;那么得到修正后的跟踪误差为:
    Figure PCTCN2020140591-appb-100015
    修正后的跟踪误差序列为:
    Figure PCTCN2020140591-appb-100016
    当N k<N d时,e k≠y d-y k,于是引入如下随机矩阵M k来消除该不等关系:
    Figure PCTCN2020140591-appb-100017
    其中
    Figure PCTCN2020140591-appb-100018
    表示N k×N k维的单位矩阵、I m表示m×m维的单位矩阵、
    Figure PCTCN2020140591-appb-100019
    表示(N d-N k)×(N d-N k)维的零矩阵,
    Figure PCTCN2020140591-appb-100020
    表示克罗内克积,于是修正后的跟踪误差序列表示为:
    Figure PCTCN2020140591-appb-100021
    对于多输出系统,当其中一个输出出现提前终止的情况,其它的输出也应同时终止,即使其它输出并未终止,其产生的输出也失去了学习的价值;例如,所述移动机器人在预设轨迹上移动时,遇到障碍提前停止,所述线速度变为零,但所述位姿角仍在变化,然而位姿角之后的输出值失去了迭代学习的价值,因此在刻画多输出系统随机矩阵的数学期望时,可以看作各输出具有相同的数学期望;
    为了计算所述随机矩阵M k的数学期望,引入伯努利二元随机变量γ k(t)来表示第k批次时刻t输出是否存在;记第k批次时刻t输出存在的概率为p(t),则有:
    Figure PCTCN2020140591-appb-100022
    由于E{γ k(t)}=P{γ k(t)=1}×1+P{γ k(t)=0}×0=p(t),则所述随机矩阵M k的数学期望计算如下:
    Figure PCTCN2020140591-appb-100023
    其中,用
    Figure PCTCN2020140591-appb-100024
    来简单表示随机矩阵的期望;
    第四步、设计批次长度可变的迭代学习轨迹跟踪优化算法:
    将批次长度随机变化的离散状态空间模型(3)作为批次长度随机变化系统,给定任意初始输入及对应的跟踪误差,通过如下定义的输入信号:
    Figure PCTCN2020140591-appb-100025
    得到的输入序列{u k} k≥0能够迭代地解决批次长度随机变化下的跟踪问题,其中,M为某一批次的随机矩阵,其定义与式(10)相同,输入信号控制律的前馈形式通过求解如下定义的第一性能指标函数得到:
    Figure PCTCN2020140591-appb-100026
    将式(11)和式(4)先后代入所述第一性能指标函数(15),求其二次型最优解,得:
    Figure PCTCN2020140591-appb-100027
    其中
    Figure PCTCN2020140591-appb-100028
    根据系统初始状态的假设E{x k(0)}=x d(0)可知:
    E{d k-d k+1}=0    (17)
    将式(17)代入式(16)得:
    Figure PCTCN2020140591-appb-100029
    由于对于第k+1批次的输入,第k批次的输入信号和跟踪误差已知,其期望等于其本身,又由于
    Figure PCTCN2020140591-appb-100030
    可逆,将式(18)整理后得到控制律为:u k+1=u k+Le k  (19)
    其中
    Figure PCTCN2020140591-appb-100031
    是误差项的学习增益;
    第五步、分析所述批次长度可变的迭代学习轨迹跟踪优化算法的收敛性:
    鉴于批次长度随机变化系统迭代学习优化算法的特殊性,引入逐次投影思想对算法进行收敛性分析;批次长度随机变化下轨迹跟踪问题的设计目标是迭代地找到一个最优控制输入
    Figure PCTCN2020140591-appb-100032
    使得跟踪误差的期望收敛到零,这等价于迭代地在Hilbert空间中两个凸集S 1和S 2的交集中寻找点
    Figure PCTCN2020140591-appb-100033
    集合S 1和集合S 2定义如下:S 1={(e,u)∈H:e=E{M(y d-y)},y=Gu+d}    (20)
    S 2={(e,u)∈H:e=0}    (21)
    其中,所述集合S 1表示系统动态,所述集合S 2表示跟踪需求;假设所述集合S 1和S 2在Hilbert空间中存在交集,即
    Figure PCTCN2020140591-appb-100034
    Hilbert空间H定义如下:
    Figure PCTCN2020140591-appb-100035
    Hilbert空间H包括跟踪误差及输入信号,其内积和相关的诱导范数由式(5)和式(6)导出:
    Figure PCTCN2020140591-appb-100036
    其中,
    Figure PCTCN2020140591-appb-100037
    分别为输入输出Hilbert空间上的向量;
    定义投影算子如下:
    Figure PCTCN2020140591-appb-100038
    其中,x为Hilbert空间H上的一个点,P S(x)表示x在集合S上的投影;
    对于x=(0,u)∈S 2,其在S 1上的投影为:
    Figure PCTCN2020140591-appb-100039
    优化问题(26)的解为
    Figure PCTCN2020140591-appb-100040
    其中
    Figure PCTCN2020140591-appb-100041
    那么:
    Figure PCTCN2020140591-appb-100042
    对投影算子
    Figure PCTCN2020140591-appb-100043
    采取相似的运算,对于
    Figure PCTCN2020140591-appb-100044
    有:
    Figure PCTCN2020140591-appb-100045
    优化问题(28)的解取
    Figure PCTCN2020140591-appb-100046
    于是:
    Figure PCTCN2020140591-appb-100047
    根据逐次投影思想,使用
    Figure PCTCN2020140591-appb-100048
    及x k=(0,u k)分别表示对集合S 1和S 2第k次投影后的点,给定一个初始点x 0=(0,u 0)∈S 2,通过所述控制律(19)进行连续投影能够得到沿迭代轴更新的输入序列{u k} k≥0
    设所述集合S 1和S 2交于一点
    Figure PCTCN2020140591-appb-100049
    Figure PCTCN2020140591-appb-100050
    由于所述集合S 1和S 2均为Hilbert空间中的有限维闭凸集,根据逐次投影引理知,序列
    Figure PCTCN2020140591-appb-100051
    和{x k} k≥0均收敛于
    Figure PCTCN2020140591-appb-100052
    即:
    Figure PCTCN2020140591-appb-100053
    由式(30)得:
    Figure PCTCN2020140591-appb-100054
    第k+1次输入如式(14)所示,
    根据所述第一性能指标函数式(15),对于其非最优解u k有:
    Figure PCTCN2020140591-appb-100055
    由式(33)得:E{||e k+1||}≤E{||e k||}(33),即期望意义下的误差范数E{||e k||}单调收敛至零;
    另外,为了得到所述权矩阵Q和R的选取范围,将控制律的前馈形式(19)代入式(33),并全部替换为与e k相关的形式,得:
    Figure PCTCN2020140591-appb-100056
    其中,
    Figure PCTCN2020140591-appb-100057
    为单位矩阵,由于每个批次的误差e k均不相同,为了选取一组对任意批次误差均满足式(34)的所述权矩阵Q和R,需要得到一个约束条件;对式(34)两边取范数后,得其一个必要条件:
    Figure PCTCN2020140591-appb-100058
    将式(35)整理得到所述权矩阵Q和R应满足的约束条件为:
    Figure PCTCN2020140591-appb-100059
    第六步、在输入约束下设计批次长度可变的迭代学习轨迹跟踪优化算法:
    在许多工业过程控制应用中,为了确保工业过程安全、顺利地运行,需要对输入变量施加一定的约束,输入约束集Ω通常为凸集;所述输入约束集Ω一般有如下几种形式:
    控制器输入的饱和约束:Ω={u∈l 2[0,N d]:|u(t)|≤Z(t),0≤t≤N d}  (37)
    其中Z(t)≥0,0≤t≤N d是随时间变化的输入幅值约束;
    控制器输入的能量约束:
    Figure PCTCN2020140591-appb-100060
    其中Z>0是输入总能量约束;
    控制器输入的震荡约束:Ω={u∈l 2[0,N d]:|Δu(t)|≤Z(t),1≤t≤N d}  (39)
    其中Δu(t)=u(t)-u(t-1),Z(t)≥0,0≤t≤N d是随时间变化的执行器输入震荡约束;当出于实际需要对输入信号进行约束时,直接求取输入约束下的二次规划QP问题是困难的,于是根据逐次投影的思想设计在实际应用中更易实现的算法;
    对于所述批次长度随机变化系统,给定任意满足约束的初始输入及对应的跟踪误差,先通过无约束控制律的前馈形式(19)得到输入信号
    Figure PCTCN2020140591-appb-100061
    再将其投影到所述输入约束集Ω:
    Figure PCTCN2020140591-appb-100062
    从而得到满足输入约束的输入序列{u k∈Ω} k≥0能够迭代地解决批次长度随机变化下的跟踪问题;由于在实践中输入约束通常是逐点约束,因而需计算出优化问题(41)的解;当所述输入约束为饱和约束形式(37)时,对于t∈[0,N d],优 化问题(41)的解直接由如下形式给出:
    Figure PCTCN2020140591-appb-100063
    第七步、分析所述输入约束下的批次长度可变的迭代学习轨迹跟踪优化算法的收敛性:
    仍然采用所述逐次投影思想对所述输入约束下的批次长度随机变化优化算法进行收敛性分析;重新定义集合S 1和S 2如下:
    S 1={(e,u)∈H:e=E{M(y d-y)},y=Gu+d}    (43)
    S 2={(e,u)∈H:e=0,u∈Ω}    (44)
    与第五步证明类似,对于x=(0,u)∈S 2,其在S 1上的投影为:
    Figure PCTCN2020140591-appb-100064
    其中
    Figure PCTCN2020140591-appb-100065
    是根据所述无约束控制律的前馈形式(19)得到的;
    对于
    Figure PCTCN2020140591-appb-100066
    其在S 2上的投影
    Figure PCTCN2020140591-appb-100067
    有:
    Figure PCTCN2020140591-appb-100068
    S 2中的
    Figure PCTCN2020140591-appb-100069
    Figure PCTCN2020140591-appb-100070
    是相互独立的,也就是说可以分开进行求解,于是:
    Figure PCTCN2020140591-appb-100071
    Figure PCTCN2020140591-appb-100072
    其中
    Figure PCTCN2020140591-appb-100073
    根据所述逐次投影思想,使用
    Figure PCTCN2020140591-appb-100074
    及x k=(0,u k)分别表示对集合S 1和S 2第k次投影后的点,给定一个初始点x 0=(0,u 0)∈S 2,通过式(40)和式(41)进行连续投影能够得到沿迭代轴更新的输入序列{u k} k≥0
    当存在所述输入约束时,集合S 1和S 2可能不存在交集,所以对所述输入约束下的批次长度随机变化优化算法进行收敛性分析时,需要考虑
    Figure PCTCN2020140591-appb-100075
    Figure PCTCN2020140591-appb-100076
    两种情况;
    针对输入约束情况,先定义第二性能指标函数:
    Figure PCTCN2020140591-appb-100077
    Figure PCTCN2020140591-appb-100078
    时,仍然得到式(30)和式(31);x k与集合S 1的最小距离为:
    Figure PCTCN2020140591-appb-100079
    根据优化迭代学习控制律的前馈形式(19),得式(49)的优化解为:u *=u k+Le k  (50),将式(50)代入到式(49)中,得:
    Figure PCTCN2020140591-appb-100080
    同理有:
    Figure PCTCN2020140591-appb-100081
    根据逐次投影引理的内容,每次投影后的抽象距离均单调减小,得到:
    Figure PCTCN2020140591-appb-100082
    Figure PCTCN2020140591-appb-100083
    即所述第二性能指标函数
    Figure PCTCN2020140591-appb-100084
    是单调收敛的;
    Figure PCTCN2020140591-appb-100085
    时,首先定义r 1=(e,u)∈S 1
    Figure PCTCN2020140591-appb-100086
    是两集合S 1和S 2取最小距离时线段的两个端点,同时这也是如下优化问题的解:
    Figure PCTCN2020140591-appb-100087
    Figure PCTCN2020140591-appb-100088
    式(54)等价于:
    Figure PCTCN2020140591-appb-100089
    那么输入约束下的最优解为:
    Figure PCTCN2020140591-appb-100090
    根据所述优化迭代学习控制律的前馈形式(19)可知,式(56)内部的最小化问题的最优解为:
    Figure PCTCN2020140591-appb-100091
    将式(57)代入到式(56)中,得:
    Figure PCTCN2020140591-appb-100092
    式(58)中e k前的权重I-M kGL和L均是可逆的,那么需要最小化的性能指标是严格凸的,且所述输入约束集Ω也是凸的,因此该最小化问题具有唯一解,
    由此可得:
    Figure PCTCN2020140591-appb-100093
    其中,a是一个正常数,d d由期望初始状态导出:
    Figure PCTCN2020140591-appb-100094
    由式(59)得知,误差范数的期望有界收敛;
    根据
    Figure PCTCN2020140591-appb-100095
    情况下所述第二性能指标函数
    Figure PCTCN2020140591-appb-100096
    单调收敛的证明,同理可证明
    Figure PCTCN2020140591-appb-100097
    情况下所述第二性能指标函数
    Figure PCTCN2020140591-appb-100098
    单调收敛;
    第八步、实现批次长度可变的移动机器人控制系统在有输入约束情形下的轨迹跟踪:
    根据所述优化迭代学习控制律确定移动机器人系统每一迭代批次的输入矢量,将得到的输入矢量输入批次长度变化的移动机器人系统进行轨迹跟踪控制,移动机器人系统在批次长度变化情况下受到输入矢量的控制作用追踪期望输出。
PCT/CN2020/140591 2020-10-28 2020-12-29 一种移动机器人变批次长度迭代学习优化控制方法 WO2022088471A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202011171545.0 2020-10-28
CN202011171545.0A CN112318505B (zh) 2020-10-28 2020-10-28 一种移动机器人变批次长度迭代学习优化控制方法

Publications (1)

Publication Number Publication Date
WO2022088471A1 true WO2022088471A1 (zh) 2022-05-05

Family

ID=74296551

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2020/140591 WO2022088471A1 (zh) 2020-10-28 2020-12-29 一种移动机器人变批次长度迭代学习优化控制方法

Country Status (2)

Country Link
CN (1) CN112318505B (zh)
WO (1) WO2022088471A1 (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115047763A (zh) * 2022-06-08 2022-09-13 江南大学 一种多无人机系统的最小能量控制方法
CN116893619A (zh) * 2023-08-29 2023-10-17 江南大学 一种工业机器人量化迭代学习控制方法
CN116909154A (zh) * 2023-09-13 2023-10-20 武汉瀚迈科技有限公司 一种通过特征查表进行前馈补偿的机器人轨迹优化方法
CN117590766A (zh) * 2024-01-19 2024-02-23 青岛理工大学 通道入口导流栏杆角度调整的控制方法和装置
CN117590766B (zh) * 2024-01-19 2024-05-28 青岛理工大学 通道入口导流栏杆角度调整的控制方法和装置

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112947090B (zh) * 2021-03-23 2023-05-26 河南理工大学 一种dos攻击下轮式机器人数据驱动迭代学习控制方法
CN113352570B (zh) * 2021-06-04 2022-11-04 华北电力大学 基于迭代学习模型预测控制的注塑机注射速度控制方法
CN113786556B (zh) * 2021-09-17 2024-05-10 江南大学 足下垂功能性电刺激康复系统变长度迭代学习控制方法
CN114721268B (zh) * 2022-04-08 2022-11-04 江南大学 注塑成型喷嘴压力鲁棒启发式迭代学习控制方法
CN114888797B (zh) * 2022-05-06 2023-11-24 武汉科技大学 一种基于参考轨迹实时修正的机器人轨迹跟踪控制方法
CN116048085B (zh) * 2023-02-03 2023-11-07 江南大学 一种移动机器人的故障估计和容错迭代学习控制方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110301723A1 (en) * 2010-06-02 2011-12-08 Honeywell International Inc. Using model predictive control to optimize variable trajectories and system control
CN105549598A (zh) * 2016-02-16 2016-05-04 江南大学 一种二维运动移动机器人的迭代学习轨迹跟踪控制及其鲁棒优化方法
CN106933105A (zh) * 2017-04-24 2017-07-07 清华大学 受限条件下的轨迹更新综合预测迭代学习控制算法
CN109031958A (zh) * 2018-10-16 2018-12-18 廊坊师范学院 分数阶多智能体追踪一致性的迭代学习控制方法
CN110221538A (zh) * 2019-04-26 2019-09-10 华南理工大学 一种结合迭代学习的时间最优轨迹规划控制器及方法
CN110815225A (zh) * 2019-11-15 2020-02-21 江南大学 电机驱动单机械臂系统的点对点迭代学习优化控制方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103631142A (zh) * 2013-12-09 2014-03-12 天津工业大学 一种用于轮式机器人轨迹跟踪的迭代学习算法
US9630318B2 (en) * 2014-10-02 2017-04-25 Brain Corporation Feature detection apparatus and methods for training of robotic navigation
CN106529023B (zh) * 2016-11-09 2019-06-18 南京工程学院 一种基于迭代学习的地铁列车自动运行速度控制方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110301723A1 (en) * 2010-06-02 2011-12-08 Honeywell International Inc. Using model predictive control to optimize variable trajectories and system control
CN105549598A (zh) * 2016-02-16 2016-05-04 江南大学 一种二维运动移动机器人的迭代学习轨迹跟踪控制及其鲁棒优化方法
CN106933105A (zh) * 2017-04-24 2017-07-07 清华大学 受限条件下的轨迹更新综合预测迭代学习控制算法
CN109031958A (zh) * 2018-10-16 2018-12-18 廊坊师范学院 分数阶多智能体追踪一致性的迭代学习控制方法
CN110221538A (zh) * 2019-04-26 2019-09-10 华南理工大学 一种结合迭代学习的时间最优轨迹规划控制器及方法
CN110815225A (zh) * 2019-11-15 2020-02-21 江南大学 电机驱动单机械臂系统的点对点迭代学习优化控制方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115047763A (zh) * 2022-06-08 2022-09-13 江南大学 一种多无人机系统的最小能量控制方法
CN115047763B (zh) * 2022-06-08 2023-10-13 国网安徽省电力有限公司天长市供电公司 一种多无人机系统的最小能量控制方法
CN116893619A (zh) * 2023-08-29 2023-10-17 江南大学 一种工业机器人量化迭代学习控制方法
CN116893619B (zh) * 2023-08-29 2024-04-09 江南大学 一种工业机器人量化迭代学习控制方法
CN116909154A (zh) * 2023-09-13 2023-10-20 武汉瀚迈科技有限公司 一种通过特征查表进行前馈补偿的机器人轨迹优化方法
CN116909154B (zh) * 2023-09-13 2023-12-08 武汉瀚迈科技有限公司 一种通过特征查表进行前馈补偿的机器人轨迹优化方法
CN117590766A (zh) * 2024-01-19 2024-02-23 青岛理工大学 通道入口导流栏杆角度调整的控制方法和装置
CN117590766B (zh) * 2024-01-19 2024-05-28 青岛理工大学 通道入口导流栏杆角度调整的控制方法和装置

Also Published As

Publication number Publication date
CN112318505B (zh) 2021-11-16
CN112318505A (zh) 2021-02-05

Similar Documents

Publication Publication Date Title
WO2022088471A1 (zh) 一种移动机器人变批次长度迭代学习优化控制方法
CN111618858B (zh) 一种基于自适应模糊滑模的机械手鲁棒跟踪控制算法
Fierro et al. Control of a nonholomic mobile robot: Backstepping kinematics into dynamics
Li et al. A dynamic neural network approach for efficient control of manipulators
CN110815225B (zh) 电机驱动单机械臂系统的点对点迭代学习优化控制方法
Chiu et al. Real-time control of a wheeled inverted pendulum based on an intelligent model free controller
Polydoros et al. Online multi-target learning of inverse dynamics models for computed-torque control of compliant manipulators
Fateh et al. Indirect adaptive fuzzy control for flexible-joint robot manipulators using voltage control strategy
Ngo et al. Robust adaptive self-organizing wavelet fuzzy CMAC tracking control for de-icing robot manipulator
Kolathaya PD tracking for a class of underactuated robotic systems with kinetic symmetry
Zhang et al. An adaptive approach to whole-body balance control of wheel-bipedal robot Ollie
Yen et al. Design of a robust neural network-based tracking controller for a class of electrically driven nonholonomic mechanical systems
Ak et al. Trajectory tracking control of an industrial robot manipulator using fuzzy SMC with RBFNN
Chattopadhyay et al. Control of single-segment continuum robots: reinforcement learning vs. neural network based PID
Saidi et al. Sliding Mode Control of a 2DOF Robot Manipulator: A Simulation Study Using Artificial Neural Networks with Minimum Parameter Learning
Zhang et al. Hierarchical autonomous switching control of a multi-modes omnidirectional mobile robot
CN114851193A (zh) 一种空间机械臂与未知环境接触过程的智能柔顺操控方法
Sabah Al-Araji et al. Design of a nonlinear fractional order PID neural controller for mobile robot based on particle swarm optimization
Alavilli et al. TinyMPC: Model-Predictive Control on Resource-Constrained Microcontrollers
Hsu Adaptive PI Hermite neural control for MIMO uncertain nonlinear systems
Dumlu Practical position tracking control of a robotic manipulator based on fractional order sliding mode controller
Sun et al. Stable neuro-adaptive control for robots with the upper bound estimation on the neural approximation errors
Rizal et al. Hybrid Sine-Spiral Dynamic Algorithm for Dynamic Modelling of a Flexible Manipulator
CN116048085B (zh) 一种移动机器人的故障估计和容错迭代学习控制方法
Singh et al. Neural network based adaptive non linear PID controller for non-holonomic mobile robot

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20959628

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20959628

Country of ref document: EP

Kind code of ref document: A1