WO2022088471A1

WO2022088471A1 - 一种移动机器人变批次长度迭代学习优化控制方法

Info

Publication number: WO2022088471A1
Application number: PCT/CN2020/140591
Authority: WO
Inventors: 陶洪峰; 庄志和; 黄彦德; 官上雷; 胡计昶; 陶新悦
Original assignee: 江南大学
Priority date: 2020-10-28
Filing date: 2020-12-29
Publication date: 2022-05-05
Also published as: CN112318505A; CN112318505B

Abstract

一种移动机器人变批次长度迭代学习优化控制方法，涉及移动机器人优化控制领域；控制方法基于提升技术将重复运行的移动机器人系统转换为时间序列的输入输出矩阵模型，并通过随机变量将变批次长度问题建立为批次长度随机变化模型；针对系统出现的批次长度变化情况，采用优化的思想设计迭代学习优化控制算法，并基于性能指标函数得到批次长度变化下迭代学习优化控制算法的前馈形式；基于逐次投影框架，证明了存在及不存在输入约束时设计的迭代学习优化控制算法在数学期望意义下的收敛性，解决了变批次长度下移动机器人系统的跟踪控制问题，同时考虑输入受约束的情况，从而实现对期望轨迹的高精度跟踪。

Description

一种移动机器人变批次长度迭代学习优化控制方法

技术领域

本发明涉及移动机器人优化控制领域，尤其是一种移动机器人变批次长度迭代学习优化控制方法。

背景技术

移动机器人可通过移动来完成一些繁重、危险、重复的任务，如地雷探测、海底探测、无人驾驶等，在工业、医疗、国防等很多领域都有实用价值。移动机器人有很多种，最常见的是在地面上依靠轮子移动的机器人。

移动机器人在执行重复过程任务时，受限于某些输出约束或在运行轨迹上出现障碍，不同批次的持续时长可能是变化的。比如移动机器人的位姿角被约束在一定输出范围内运行时，当移动机器人转动角度超出该限制范围，移动机器人将中断运行；又或者在某一批次中运行轨迹中出现障碍，使得移动机器人受迫停下，这些都会导致出现批次长度变化的情况。

批次长度变化问题的常用解决思路是设定一个期望的批次长度，在实际应用中，该期望批次长度一般设为可能出现的最大长度。若实际批次长度小于最大长度，则将该批次缺失的误差信息用零来补齐，那么批次长度变化问题就可以用常规的迭代学习控制(Iterative learning control，ILC)方法来解决。常规的ILC解决批次长度变化问题一般有两种：其一为采用高阶迭代学习控制方法，使用以往批次的误差及输入信息来更新输入信号，从而增强对于批次长度随机变化的鲁棒性。值得一提的是，一阶迭代学习控制律对于批次长度变化问题也具有较强的鲁棒性；其二为采用自适应迭代学习控制方法，在某次迭代过程中，先根据输出误差对系统的未知参数进行学习，再根据这些参数估计值更新系统的输入信号。然而，常规的ILC方法在处理批次长度变化问题时，由于批次长度的随机性，其收敛速度及单调性并不能得到良好保证。

优化ILC方法是一种将优化思想与ILC相结合的高性能控制方法，针对上述批次长度可变问题，优化ILC方法应运而生。

发明内容

本发明人针对上述问题及技术需求，提出了一种移动机器人变批次长度迭代学习优化控制方法，利用优化的思想来解决批次长度可变问题，通过引入逐次投影算法的思想来设计优化算法，并采用前馈结构来构造控制律，得到了单调收敛特性及更快的收敛速度，提升了系统对于批次长度可变情况的跟踪性能表现。

本发明的技术方案如下：

单机械臂变批次长度迭代学习优化控制方法，包括如下步骤：

第一步、建立双后轮独立驱动刚性移动机器人控制系统的动态模型：

双后轮独立驱动刚性移动机器人通过两个后轮的不同速度来控制移动机器人的速度和航向，在固定平面内设置绝对坐标XOY，假设双后轮独立驱动刚性移动机器人在固定平面内移动，移动机器人的实际物理模型如下：

其中，v表示移动机器人的线速度，θ表示移动机器人的位姿角，u _r和u _l分别表示右轮和左轮的驱动控制输入，c表示黏性摩擦系数，k表示驱动增益，M ₁表示移动机器人的质量，I _w表示车轮的转动惯量，I _v表示绕机器人重心的转动惯量，r表示车轮半径，l表示左右轮到机器人重心的距离；

第二步、构建双后轮独立驱动刚性移动机器人控制系统的离散状态空间方程：

将移动机器人的线速度、位姿角和位姿角导数定义为状态变量：

定义输入变量为驱动控制输入：u＝[u _r u _l] ^T，输出变量为移动机器人的线速度和位姿角：y＝[v θ] ^T，则式(1)所示的移动机器人控制系统描述为：

其中，

对连续系统模型式(2)进行离散化，选取满足香农采样定理的采样周期T _s，进一步得到移动机器人控制系统的离散状态空间模型：

式中t和k分别代表采样时间和批次，批次过程的运行周期为T，且在每个重复过程周期t∈[0，T]内，取N _d个采样点；u _k(t)∈R ^l，y _k(t)∈R ^m和x _k(t)∈R ⁿ分别是移动机器人控制系统第k批次t时刻的l维输入、m维输出和n个状态向量；A，B，C为式(2)对应的离散系统参数矩阵，且满足CB≠0；并且假设系统运行的初始状态在围绕期望初始状态x _d(0)的小范围内随机变化，其数学期望满足E{x _k(0)}＝x _d(0)；

第三步、利用随机变量建立批次长度随机变化模型：

针对式(3)形式的线性离散系统，将其状态空间表达式转换为时间序列的输入输出矩阵模型：y _k＝Gu _k+d _k (4)

其中：

u _k＝[u _k(0),u _k(1),…,u _k(N _d-1)] ^T y _k＝[y _k(1),y _k(2),…,y _k(N _d)] ^T，G是时间序列上的输入输出传递矩阵，d _k是系统初始状态对输出的影响；输入Hilbert空间

和输出Hilbert空间

分别由如下内积及相关的诱导范数定义：

其中，

分别为输入输出Hilbert空间上的向量，权矩阵R和Q为适当维数的实正定矩阵；并且，定义期望输出y _d∈l ₂[0,N _d]为：y _d＝[y _d(1) y _d(2) … y _d(N _d)] ^T (7)

传统的迭代学习控制要求批次长度固定为预期长度N _d，然而实际的运行批次长度在不同批次之间可能随机变化；记第k次迭代实际批次长度为N _k，定义实际批次长度的最小值与最大值分别为N _m和N _h；实际情况下一般将预期长度N _d设定为最大长度，即N _d＝N _h；那么实际批次长度N _k在{N _m,N _m+1,…,N _d}内随机变动，即至多存在τ _m＝N _d-N _m+1个运行批次长度；为了描述批次长度的随机性，令批次长度为N _m,N _m+1,…,N _d的概率分别为

其中p _i＞0,1≤i≤τ _m，且

当实际批次长度N _k小于预期长度N _d时，第k批次的输出y _k在时刻 t∈[N _k+1,N _d]是缺失的，不能被用于输入的更新；将缺失时刻的跟踪误差简单地设置为零，从而转化成常规情况；那么得到修正后的跟踪误差为：

修正后的跟踪误差序列为：

当N _k＜N _d时，e _k≠y _d-y _k，于是引入如下随机矩阵M _k来消除该不等关系：

其中

表示N _k×N _k维的单位矩阵、I _m表示m×m维的单位矩阵、

表示(N _d-N _k)×(N _d-N _k)维的零矩阵，

表示克罗内克积，于是修正后的跟踪误差序列表示为：

对于多输出系统，当其中一个输出出现提前终止的情况，其它的输出也应同时终止，即使其它输出并未终止，其产生的输出也失去了学习的价值；例如，移动机器人在预设轨迹上移动时，遇到障碍提前停止，线速度变为零，但位姿角仍在变化，然而位姿角之后的输出值失去了迭代学习的价值，因此在刻画多输出系统随机矩阵的数学期望时，可以看做各输出具有相同的数学期望；

为了计算随机矩阵M _k的数学期望，引入伯努利二元随机变量γ _k(t)来表示第k批次时刻t输出是否存在；记第k批次时刻t输出存在的概率为p(t)，则有：

由于E{γ _k(t)}＝P{γ _k(t)＝1}×1+P{γ _k(t)＝0}×0＝p(t)，则随机矩阵M _k的数学期望计算如下：

其中，用

来简单表示随机矩阵的期望；

第四步、设计批次长度可变的迭代学习轨迹跟踪优化算法：

将批次长度随机变化的离散状态空间模型(3)作为批次长度随机变化系统，给定任意初始输入及对应的跟踪误差，通过如下定义的输入信号：

得到的输入序列{u _k} _k≥0能够迭代地解决批次长度随机变化下的跟踪问题，其中，M为某一批次的随机矩阵，其定义与式(10)相同，输入信号控制律的前馈形式通过求解如下定义的第一性能指标函数得到：

将式(11)和式(4)先后代入第一性能指标函数(15)，求其二次型最优解得：

其中

根据系统初始状态的假设E{x _k(0)}＝x _d(0)可知：

E{d _k-d _k+1}＝0 (17)

将式(17)代入式(16)得：

由于对于第k+1批次的输入，第k批次的输入信号和跟踪误差已知，其期望等于其本身，又由于

可逆，将式(18)整理后得到控制律为：u _k+1＝u _k+Le _k(19)

其中

是误差项的学习增益；

第五步、分析批次长度可变的迭代学习轨迹跟踪优化算法的收敛性：

鉴于批次长度随机变化系统迭代学习优化算法的特殊性，引入逐次投影思想对算法进行收敛性分析；批次长度随机变化下轨迹跟踪问题的设计目标是迭代地找到一个最优控制输入

使得跟踪误差的期望收敛到零，这等价于迭代地在Hilbert空间中两个凸集S ₁和S ₂的交集中寻找点

集合S ₁和集合S ₂定义如下：S ₁＝{(e,u)∈H:e＝E{M(y _d-y)},y＝Gu+d} (20)

S ₂＝{(e,u)∈H:e＝0} (21)

其中，集合S ₁表示系统动态，集合S ₂表示跟踪需求；假设集合S ₁和S ₂在Hilbert空间中存在交集，即

Hilbert空间H定义如下：

Hilbert空间H包括跟踪误差及输入信号，其内积和相关的诱导范数由式(5)

<(e,u),(z,v)> _{Q,R}＝e ^TQz+u ^TRv

和式(6)导出：

其中，

分别为输入输出Hilbert空间上的向量；

定义投影算子如下：

其中，x为Hilbert空间H上的一个点，P _S(x)表示x在集合S上的投影；

对于x＝(0,u)∈S ₂，其在S ₁上的投影为：

优化问题(26)的解为

其中

那么：

对投影算子

采取相似的运算，对于

有：

优化问题(28)的解取

于是：

根据逐次投影思想，使用

及x _k＝(0,u _k)分别表示对集合S ₁和S ₂第k次投影后的点，给定一个初始点x ₀＝(0,u ₀)∈S ₂，通过控制律(19)进行连续投影能够得到沿迭代轴更新的输入序列{u _k} _k≥0；

设集合S ₁和S ₂交于一点

即

由于集合S ₁和S ₂均为Hilbert空间中的有限维闭凸集，根据逐次投影引理知，序列

和{x _k} _k≥0均收敛于

即：

由式(30)得：

第k+1次输入如式(14)所示，

根据第一性能指标函数式(15)，对于其非最优解u _k有：

由式(33)得：E{||e _k+1||}≤E{||e _k||}(33)，即期望意义下的误差范数E{||e _k||}单调收敛至零；

另外，为了得到权矩阵Q和R的选取范围，将控制律的前馈形式(19)代入式(33)，并全部替换为与e _k相关的形式，得：

其中，

为单位矩阵，由于每个批次的误差e _k均不相同，为了选取一组对任意批次误差均满足式(34)的权矩阵Q和R，需要得到一个约束条件；对式(34)两边取范数后，得其一个必要条件：

将式(35)整理得到权矩阵Q和R应满足的约束条件为：

第六步、在输入约束下设计批次长度可变的迭代学习轨迹跟踪优化算法：

在许多工业过程控制应用中，为了确保工业过程安全、顺利地运行，需要对输入变量施加一定的约束，输入约束集Ω通常为凸集；输入约束集Ω一般有如下几种形式：

控制器输入的饱和约束：Ω＝{u∈l ₂[0,N _d]:|u(t)|≤Z(t),0≤t≤N _d}(37)其中Z(t)≥0,0≤t≤N _d是随时间变化的输入幅值约束；

控制器输入的能量约束：

其中Z＞0是输入总能量约束；

控制器输入的震荡约束：Ω＝{u∈l ₂[0,N _d]:|Δu(t)|≤Z(t),1≤t≤N _d}(39)其中Δu(t)＝u(t)-u(t-1)，Z(t)≥0,0≤t≤N _d是随时间变化的执行器输入震荡约束；当出于实际需要对输入信号进行约束时，直接求取输入约束下的二次规划QP问题是困难的，于是根据逐次投影的思想设计在实际应用中更易实现的算法；

对于批次长度随机变化系统，给定任意满足约束的初始输入及对应的跟踪误差，先通过无约束控制律的前馈形式(19)得到输入信号

再将其投影到输入约束集Ω：

从而得到满足输入约束的输入序列{u _k∈Ω} _k≥0能够迭代地解决批次长度随机变化下的跟踪问题；由于在实践中输入约束通常是逐点约束，因而需计算出优化问题(41)的解；当输入约束为饱和约束形式(37)时，对于t∈[0,N _d]，优化问题(41)的解直接由如下形式给出：

第七步、分析输入约束下的批次长度可变的迭代学习轨迹跟踪优化算法的收敛性：

仍然采用逐次投影思想对输入约束下的批次长度随机变化优化算法进行收敛性分析；重新定义集合S ₁和S ₂如下：

S ₁＝{(e,u)∈H:e＝E{M(y _d-y)},y＝Gu+d} (43)

S ₂＝{(e,u)∈H:e＝0,u∈Ω} (44)

与第五步证明类似，对于x＝(0,u)∈S ₂，其在S ₁上的投影为：

其中

是根据无约束控制律的前馈形式(19)得到的；

对于

其在S ₂上的投影

有：

S ₂中的

和

是相互独立的，也就是说可以分开进行求解，于是：

其中

根据逐次投影思想，使用

及x _k＝(0,u _k)分别表示对集合S ₁和S ₂第k次投影后的点，给定一个初始点x ₀＝(0,u ₀)∈S ₂，通过式(40)和式(41)进行连续投影能够得到沿迭代轴更新的输入序列{u _k} _k≥0；

当存在输入约束时，集合S ₁和S ₂可能不存在交集，所以对输入约束下的批次长度随机变化优化算法进行收敛性分析时，需要考虑

和

两种情况；

针对输入约束情况，先定义第二性能指标函数：

当

时，仍然得到式(30)和式(31)；x _k与集合S ₁的最小距离为：

根据优化迭代学习控制律的前馈形式(19)，得式(49)的优化解为：u ^*＝u _k+Le _k(50)，将式(50)代入到式(49)中，得：

同理有：

根据逐次投影引理的内容，每次投影后的抽象距离均单调减小，得到：

即第二性能指标函数

是单调收敛的；

当

时，首先定义

是两集合S ₁和S ₂取最小距离时线段的两个端点，同时这也是如下优化问题的解：

式(54)等价于：

那么输入约束下的最优解为：

根据优化迭代学习控制律的前馈形式(19)可知，式(56)内部的最小化问题的最优解为：

将式(57)代入到式(56)中，得：

式(58)中e _k前的权重I-M _kGL和L均是可逆的，那么需要最小化的性能指标是严格凸的，且输入约束集Ω也是凸的，因此该最小化问题具有唯一解，

由此可得：

其中，a是一个正常数，d _d由期望初始状态导出：

由式(59)得知，误差范数的期望有界收敛；

根据

情况下第二性能指标函数

单调收敛的证明，同理可证明

情况下第二性能指标函数

单调收敛；

第八步、实现批次长度可变的移动机器人控制系统在有输入约束情形下的轨迹跟踪：

根据优化迭代学习控制律确定移动机器人系统每一迭代批次的输入矢量，将得到的输入矢量输入批次长度变化的移动机器人系统进行轨迹跟踪控制，移动机器人系统在批次长度变化情况下受到输入矢量的控制作用追踪期望输出。

本发明的有益技术效果是：

本申请公开了针对双后轮独立驱动刚性移动机器人控制系统此类具有重复运动特征的线性系统，将该移动机器人控制系统作为被控对象，针对被控对象出现的变批次长度情况，采用优化的思想设计迭代学习优化控制算法，并基于第一性能指标函数得到批次长度可变情况下的迭代学习优化控制算法的前馈形式，进而保证跟踪误差的单调收敛特性以及获得更快的收敛速度，提升了系统对于批次长度可变情况的跟踪性能表现。同时基于逐次投影框架，对存在及不存在输入约束时设计的迭代学习优化算法进行收敛性分析，保证了跟踪误差在数学期望意义下的收敛性。

附图说明

图1是移动机器人控制系统的模型框图。

图2是双后轮独立驱动刚性移动机器人系统的物理模型图。

图3是移动机器人控制系统的线速度和位姿角实际输出与跟踪曲线图。

图4是无输入约束下系统线速度和位姿角跟踪误差2-范数收敛图。

图5是移动机器人系统的位置轨迹跟踪曲线图。

图6是输入约束下最佳跟踪可行时左右两轮电机的输入电压曲线图。

图7是输入约束下最佳跟踪不可行时左右两轮电机的输入电压曲线图。

图8是输入约束下最佳跟踪可行时系统线速度和位姿角跟踪误差2-范数曲线图。

图9是输入约束下最佳跟踪不可行时系统线速度和位姿角跟踪误差2-范数曲线图。

具体实施方式

下面结合附图对本发明的具体实施方式做进一步说明。

结合图1-图9所示，请参考图1，其示出了本申请公开的双后轮独立驱动刚性移动机器人控制系统模型框图。第k批次的控制器输入为u _k，作用于移动机器人两个独立的后轮驱动电机可以得到系统第k批次的实际输出y _k，其与储存在期望轨迹存储器的设定期望值进行比较，结果传递给跟踪误差修正器，得到修正后的跟踪误差e _k。修正后的跟踪误差精度与设定的精度值做比较，若误差精度没有达到所设定的精度则将修正后误差e _k与当前控制器输入u _k传递到优化迭代学习控制器生成下一批次的控制器输入u _k+1，如此循环运行直至系统实际输出与期望值之间的误差达到精度要求，则停止运行，此时的控制器输入即为最优控制输入。

针对图2和式(1)所示的双后轮独立驱动刚性移动机器人实际物理模型，变量参数分别设定为：c＝0.05kg·m ²/s,I _w＝0.005kg·m ²,k＝5,I _v＝10kg·m ²,M＝200kg l＝0.3m,r＝0.1m。

系统仿真时间设定为t＝2s，采样时间设定为T _s＝0.1s，则系统的离散状态空间表达式的参数矩阵分别为：

在移动机器人系统实际运行过程中，可能需要该系统跟踪某一个特定的轨迹。因此，本实施方式分别设定移动机器人的期望线速度和位姿角期望轨迹为：

v _d＝1m/s,θ _d＝sin(4t) _，位姿角单位为rad。

令初始状态满足：E{x _k(0)}＝x _d(0)＝[0 0 0] ^T

当移动机器人在运行轨迹上遇到障碍时，移动机器人的运行可能会提前终止，这就会导致实际批次长度的变化。作为一个简单的示例，令实际批次长度N _k满足离散均匀分布，且在16～20之间随机变化的随机变量，即p _i＝0.2。不失一般性，令初始输入u ₀＝0，0≤t≤N _d。

选取权矩阵Q＝1I，R＝0.001I，满足式(37)。当权矩阵Q和R与采样点确定时，优化迭代学习控制律的前馈形式(19)中的L也随之确定。本申请的上述优化迭代学习控制器基于STM32F103RCT6芯片实现，芯片的输入为电机控制电压u，并通过电压传感器采集得到。输入信号通过调理电路进入STM32F103RCT6芯片进行存储和计算，并构建迭代学习更新律，CPU计算后得到的信号为最优控制输入信号u _k+1，输入信号再经RS232通信模块作用于移动机器人控制系统，不断修正移动机器人跟踪轨迹，直到跟踪上期望轨迹。移动机器人控制系统的动态模型(1)运行时，请参考图3，其分别示出了移动机器人系统应用优化迭代学习控制律前馈形式(19)的线速度和位姿角轨迹跟踪效果图，经过一定批次k后，系统的输出值能准确跟踪到期望轨迹，并且迭代过程中间几个批次的实际运行长度均不到2s，这也显示了系统批次长度随机变化的问题假设。图4表明移动机器人线速度和位姿角的跟踪误差经过一定的迭代批次后能够收敛。请注意，此处误差的2-范数的收敛并未呈现单调形式是由于跟踪误差范数的期望形式无法获得，当前后批次长度不等时，则呈现不单调的情形。图5示出了移动机器人系统的位置轨迹跟踪轨迹图，表明系统在经过一定次数的迭代之后，能够跟踪上预设轨迹。

移动机器人系统在实际控制过程中输入可能会受到约束，这里考虑对左轮电机输入电压施加输入幅值约束。当控制输入受到约束时，根据约束强度的不同，可能会出现最优控制输入能够得到以及得不到的情况。当在输入约束下最优控制输入能够取到时，即最佳跟踪可行时，此时电机控制电压的范围可取为[-10V,20V]；当在输入约束下最优控制输入取不到时，即最佳跟踪不可行时，此时电机控制电压的范围可取为[-8V,8V]。结合图6至图9所示，上述各图表明系统的输入信号在加以一定的约束条件后，无论最佳跟踪是否可行，系统依然能够完成跟踪任务，只是当最佳跟踪不可行时，系统会收敛到一个界而不是收敛到零，这也进一步验证了算法的合理性以及有效性。

本申请将迭代学习算法和优化算法相结合构造优化迭代学习控制器，采用优化的思想来解决移动机器人系统重复过程的批次长度变化的轨迹跟踪问题。此外移动机器人系统执行重复过程任务时，控制器输入信号可能会受到约束。然而不管输入是否受到约束，所提出的变批次长度迭代学习优化方法能保证移动机器人系统在出现批次长度变化情况时，依然能实现对期望轨迹的高精度跟踪。

以上所述的仅是本申请的优选实施方式，本发明不限于以上实施例。可以理解，本领域技术人员在不脱离本发明的精神和构思的前提下直接导出或联想到的其他改进和变化，均应认为包含在本发明的保护范围之内。

Claims

一种移动机器人变批次长度迭代学习优化控制方法，其特征在于，所述方法包括：建立双后轮独立驱动刚性移动机器人控制系统的动态模型；构建所述双后轮独立驱动刚性移动机器人控制系统的离散状态空间方程；利用随机变量建立批次长度随机变化模型；设计批次长度可变的迭代学习轨迹跟踪优化算法；分析所述批次长度可变的迭代学习轨迹跟踪优化算法的收敛性；在输入约束下设计批次长度可变的迭代学习轨迹跟踪优化算法；分析所述输入约束下的批次长度可变的迭代学习轨迹跟踪优化算法的收敛性；实现批次长度可变的移动机器人控制系统在有输入约束情形下的轨迹跟踪；

第一步、建立双后轮独立驱动刚性移动机器人控制系统的动态模型：

所述双后轮独立驱动刚性移动机器人通过两个后轮的不同速度来控制移动机器人的速度和航向，在固定平面内设置绝对坐标XOY，假设所述双后轮独立驱动刚性移动机器人在所述固定平面内移动，所述移动机器人的实际物理模型如下：

其中，v表示移动机器人的线速度，θ表示移动机器人的位姿角，u _r和u _l分别表示右轮和左轮的驱动控制输入，c表示黏性摩擦系数，k表示驱动增益，M ₁表示移动机器人的质量，I _w表示车轮的转动惯量，I _v表示绕机器人重心的转动惯量，r表示车轮半径，l表示左右轮到机器人重心的距离；

第二步、构建所述双后轮独立驱动刚性移动机器人控制系统的离散状态空间方程：

将所述移动机器人的线速度、位姿角和位姿角导数定义为状态变量：
定义输入变量为驱动控制输入：u＝[u _r u _l] ^T，输出变量为所述移动机器人的线速度和位姿角：y＝[v θ] ^T，则式(1)所示的移动机器人控制系统描述为：

其中，

对连续系统模型式(2)进行离散化，选取满足香农采样定理的采样周期T _s，进一步得到所述移动机器人控制系统的离散状态空间模型：

式中t和k分别代表采样时间和批次，批次过程的运行周期为T，且在每个重复过程周期t∈[0，T]内，取N _d个采样点；u _k(t)∈R ^l，y _k(t)∈R ^m和x _k(t)∈R ⁿ分别是所述移动机器人控制系统第k批次t时刻的l维输入、m维输出和n个状态向量；A，B，C为式(2)对应的离散系统参数矩阵，且满足CB≠0；并且假设系统运行的初始状态在围绕期望初始状态x _d(0)的小范围内随机变化，其数学期望满足E{x _k(0)}＝x _d(0)；

第三步、利用随机变量建立批次长度随机变化模型：

针对式(3)形式的线性离散系统，将其状态空间表达式转换为时间序列的输入输出矩阵模型：y _k＝Gu _k+d _k    (4)

其中：

u _k＝[u _k(0),u _k(1),...,u _k(N _d-1)] ^Ty _k＝[y _k(1),y _k(2),...,y _k(N _d)] ^T，G是时间序列上的输入输出传递矩阵，d _k是系统初始状态对输出的影响；输入Hilbert空间
和输出Hilbert空间
分别由如下内积及相关的诱导范数定义：

其中，
分别为输入输出Hilbert空间上的向量，权矩阵R和Q为适当维数的实正定矩阵；并且，定义期望输出y _d∈l ₂[0,N _d]为：y _d＝[y _d(1) y _d(2) … y _d(N _d)] ^T    (7)

传统的迭代学习控制要求批次长度固定为预期长度N _d，然而实际的运行批次长度在不同批次之间可能随机变化；记第k次迭代实际批次长度为N _k，定义实际批次长度的最小值与最大值分别为N _m和N _h；实际情况下一般将预期长度N _d设定为最大长度，即N _d＝N _h；那么实际批次长度N _k在{N _m,N _m+1,…,N _d}内随机变动，即至多存在τ _m＝N _d-N _m+1个运行批次长度；为了描述批次长度的随机性，令批次长度为N _m,N _m+1,…,N _d的概率分别为
其中p _i＞0,1≤i≤τ _m，且

当实际批次长度N _k小于预期长度N _d时，第k批次的输出y _k在时刻t∈[N _k+1,N _d]是缺失的，不能被用于输入的更新；将缺失时刻的跟踪误差简单地设置为零，从而转化成常规情况；那么得到修正后的跟踪误差为：

修正后的跟踪误差序列为：

当N _k＜N _d时，e _k≠y _d-y _k，于是引入如下随机矩阵M _k来消除该不等关系：

其中
表示N _k×N _k维的单位矩阵、I _m表示m×m维的单位矩阵、
表示(N _d-N _k)×(N _d-N _k)维的零矩阵，
表示克罗内克积，于是修正后的跟踪误差序列表示为：

对于多输出系统，当其中一个输出出现提前终止的情况，其它的输出也应同时终止，即使其它输出并未终止，其产生的输出也失去了学习的价值；例如，所述移动机器人在预设轨迹上移动时，遇到障碍提前停止，所述线速度变为零，但所述位姿角仍在变化，然而位姿角之后的输出值失去了迭代学习的价值，因此在刻画多输出系统随机矩阵的数学期望时，可以看作各输出具有相同的数学期望；

为了计算所述随机矩阵M _k的数学期望，引入伯努利二元随机变量γ _k(t)来表示第k批次时刻t输出是否存在；记第k批次时刻t输出存在的概率为p(t)，则有：

由于E{γ _k(t)}＝P{γ _k(t)＝1}×1+P{γ _k(t)＝0}×0＝p(t)，则所述随机矩阵M _k的数学期望计算如下：

其中，用
来简单表示随机矩阵的期望；

第四步、设计批次长度可变的迭代学习轨迹跟踪优化算法：

将批次长度随机变化的离散状态空间模型(3)作为批次长度随机变化系统，给定任意初始输入及对应的跟踪误差，通过如下定义的输入信号：

得到的输入序列{u _k} _k≥0能够迭代地解决批次长度随机变化下的跟踪问题，其中，M为某一批次的随机矩阵，其定义与式(10)相同，输入信号控制律的前馈形式通过求解如下定义的第一性能指标函数得到：

将式(11)和式(4)先后代入所述第一性能指标函数(15)，求其二次型最优解，得：

其中
根据系统初始状态的假设E{x _k(0)}＝x _d(0)可知：

E{d _k-d _k+1}＝0    (17)

将式(17)代入式(16)得：
由于对于第k+1批次的输入，第k批次的输入信号和跟踪误差已知，其期望等于其本身，又由于
可逆，将式(18)整理后得到控制律为：u _k+1＝u _k+Le _k  (19)

其中
是误差项的学习增益；

第五步、分析所述批次长度可变的迭代学习轨迹跟踪优化算法的收敛性：

鉴于批次长度随机变化系统迭代学习优化算法的特殊性，引入逐次投影思想对算法进行收敛性分析；批次长度随机变化下轨迹跟踪问题的设计目标是迭代地找到一个最优控制输入
使得跟踪误差的期望收敛到零，这等价于迭代地在Hilbert空间中两个凸集S ₁和S ₂的交集中寻找点
集合S ₁和集合S ₂定义如下：S ₁＝{(e,u)∈H:e＝E{M(y _d-y)},y＝Gu+d}    (20)

S ₂＝{(e,u)∈H:e＝0}    (21)

其中，所述集合S ₁表示系统动态，所述集合S ₂表示跟踪需求；假设所述集合S ₁和S ₂在Hilbert空间中存在交集，即
Hilbert空间H定义如下：

Hilbert空间H包括跟踪误差及输入信号，其内积和相关的诱导范数由式(5)和式(6)导出：

其中，
分别为输入输出Hilbert空间上的向量；

定义投影算子如下：

其中，x为Hilbert空间H上的一个点，P _S(x)表示x在集合S上的投影；

对于x＝(0,u)∈S ₂，其在S ₁上的投影为：

优化问题(26)的解为
其中
那么：

对投影算子
采取相似的运算，对于
有：

优化问题(28)的解取
于是：

根据逐次投影思想，使用
及x _k＝(0，u _k)分别表示对集合S ₁和S ₂第k次投影后的点，给定一个初始点x ₀＝(0,u ₀)∈S ₂，通过所述控制律(19)进行连续投影能够得到沿迭代轴更新的输入序列{u _k} _k≥0；

设所述集合S ₁和S ₂交于一点
即
由于所述集合S ₁和S ₂均为Hilbert空间中的有限维闭凸集，根据逐次投影引理知，序列
和{x _k} _k≥0均收敛于
即：

由式(30)得：
第k+1次输入如式(14)所示，

根据所述第一性能指标函数式(15)，对于其非最优解u _k有：

由式(33)得：E{||e _k+1||}≤E{||e _k||}(33)，即期望意义下的误差范数E{||e _k||}单调收敛至零；

另外，为了得到所述权矩阵Q和R的选取范围，将控制律的前馈形式(19)代入式(33)，并全部替换为与e _k相关的形式，得：

其中，
为单位矩阵，由于每个批次的误差e _k均不相同，为了选取一组对任意批次误差均满足式(34)的所述权矩阵Q和R，需要得到一个约束条件；对式(34)两边取范数后，得其一个必要条件：

将式(35)整理得到所述权矩阵Q和R应满足的约束条件为：

第六步、在输入约束下设计批次长度可变的迭代学习轨迹跟踪优化算法：

在许多工业过程控制应用中，为了确保工业过程安全、顺利地运行，需要对输入变量施加一定的约束，输入约束集Ω通常为凸集；所述输入约束集Ω一般有如下几种形式：

控制器输入的饱和约束：Ω＝{u∈l ₂[0,N _d]:|u(t)|≤Z(t),0≤t≤N _d}  (37)

其中Z(t)≥0,0≤t≤N _d是随时间变化的输入幅值约束；

控制器输入的能量约束：

其中Z＞0是输入总能量约束；

控制器输入的震荡约束：Ω＝{u∈l ₂[0,N _d]:|Δu(t)|≤Z(t),1≤t≤N _d}  (39)

其中Δu(t)＝u(t)-u(t-1)，Z(t)≥0,0≤t≤N _d是随时间变化的执行器输入震荡约束；当出于实际需要对输入信号进行约束时，直接求取输入约束下的二次规划QP问题是困难的，于是根据逐次投影的思想设计在实际应用中更易实现的算法；

对于所述批次长度随机变化系统，给定任意满足约束的初始输入及对应的跟踪误差，先通过无约束控制律的前馈形式(19)得到输入信号

再将其投影到所述输入约束集Ω：

从而得到满足输入约束的输入序列{u _k∈Ω} _k≥0能够迭代地解决批次长度随机变化下的跟踪问题；由于在实践中输入约束通常是逐点约束，因而需计算出优化问题(41)的解；当所述输入约束为饱和约束形式(37)时，对于t∈[0,N _d]，优化问题(41)的解直接由如下形式给出：

第七步、分析所述输入约束下的批次长度可变的迭代学习轨迹跟踪优化算法的收敛性：

仍然采用所述逐次投影思想对所述输入约束下的批次长度随机变化优化算法进行收敛性分析；重新定义集合S ₁和S ₂如下：

S ₁＝{(e,u)∈H:e＝E{M(y _d-y)},y＝Gu+d}    (43)

S ₂＝{(e,u)∈H:e＝0,u∈Ω}    (44)

与第五步证明类似，对于x＝(0,u)∈S ₂，其在S ₁上的投影为：

其中
是根据所述无约束控制律的前馈形式(19)得到的；

对于
其在S ₂上的投影
有：

S ₂中的
和
是相互独立的，也就是说可以分开进行求解，于是：

其中

根据所述逐次投影思想，使用
及x _k＝(0,u _k)分别表示对集合S ₁和S ₂第k次投影后的点，给定一个初始点x ₀＝(0,u ₀)∈S ₂，通过式(40)和式(41)进行连续投影能够得到沿迭代轴更新的输入序列{u _k} _k≥0；

当存在所述输入约束时，集合S ₁和S ₂可能不存在交集，所以对所述输入约束下的批次长度随机变化优化算法进行收敛性分析时，需要考虑
和
两种情况；

针对输入约束情况，先定义第二性能指标函数：

当
时，仍然得到式(30)和式(31)；x _k与集合S ₁的最小距离为：

根据优化迭代学习控制律的前馈形式(19)，得式(49)的优化解为：u ^*＝u _k+Le _k  (50)，将式(50)代入到式(49)中，得：

同理有：

根据逐次投影引理的内容，每次投影后的抽象距离均单调减小，得到：

即所述第二性能指标函数
是单调收敛的；

当
时，首先定义r ₁＝(e，u)∈S ₁，
是两集合S ₁和S ₂取最小距离时线段的两个端点，同时这也是如下优化问题的解：

式(54)等价于：

那么输入约束下的最优解为：
根据所述优化迭代学习控制律的前馈形式(19)可知，式(56)内部的最小化问题的最优解为：
将式(57)代入到式(56)中，得：

式(58)中e _k前的权重I-M _kGL和L均是可逆的，那么需要最小化的性能指标是严格凸的，且所述输入约束集Ω也是凸的，因此该最小化问题具有唯一解，

由此可得：

其中，a是一个正常数，d _d由期望初始状态导出：

由式(59)得知，误差范数的期望有界收敛；

根据
情况下所述第二性能指标函数
单调收敛的证明，同理可证明
情况下所述第二性能指标函数
单调收敛；

第八步、实现批次长度可变的移动机器人控制系统在有输入约束情形下的轨迹跟踪：

根据所述优化迭代学习控制律确定移动机器人系统每一迭代批次的输入矢量，将得到的输入矢量输入批次长度变化的移动机器人系统进行轨迹跟踪控制，移动机器人系统在批次长度变化情况下受到输入矢量的控制作用追踪期望输出。