WO2024114458A1

WO2024114458A1 - 基于李雅普诺夫神经网络的无人系统控制方法及控制系统

Info

Publication number: WO2024114458A1
Application number: PCT/CN2023/133088
Authority: WO
Inventors: 夏镭; 崔允端; 李慧云; 彭磊; 邵翠萍
Original assignee: 中国科学院深圳先进技术研究院
Priority date: 2022-12-02
Filing date: 2023-11-21
Publication date: 2024-06-06
Also published as: CN115933467A

Abstract

本发明公开了一种基于李雅普诺夫神经网络的无人系统控制方法及控制系统，包括：通过李雅普诺夫神经网络拟合无人系统对应的李雅普诺夫函数；根据所述李雅普诺夫神经网络划分出的安全区域指导无人系统进行迭代训练；融合李雅普诺夫神经网络和无人系统的有模型强化学习智能体后，对无人系统进行控制。本发明通过李雅普诺夫神经网络拟合李雅普诺夫函数，可以涵盖大部分的李雅普诺夫稳定区域，保证安全区域的充分探索；可扩展至较为复杂的非线性系统，可以在无人船等无人系统中学习李雅普诺夫神经网络；可以有效地迁移到其他的控制算法中，方便与其他算法进行融合。

Description

基于李雅普诺夫神经网络的无人系统控制方法及控制系统

技术领域

本发明属于无人系统控制技术领域，特别涉及一种基于李雅普诺夫神经网络的无人系统控制方法及控制系统。

背景技术

近年来，为了解决海上运输行业中熟练的专业人员短缺以及运营效率问题，无人船的发展得到了快速的发展，出现了多种无人船控制方法。

船舶的海洋上航行的过程中会受到例如风力、水流扰动等环境因素的影响，存在着一定的安全隐患。同时安全性问题一直是控制领域中的核心问题，但是由于无人船系统的安全性强烈依赖于人对无人船的先验知识以及手动选择的特征，所以安全问题在现有的无人船控制方法中很少被解决。

具有安全保证的无人船控制技术具有重大意义。保障无人船控制的安全性，一方面可以减小无人船出现不必要的损伤，发生危险事故，如翻船这类事件的可能性；另一方面可以帮助无人船排除危险系数较大的控制动作，实现更为稳定、有效的控制，帮助无人船摆脱过度依赖人类的先验知识，实现真正的智能化。所以，无人船的安全性保障是一个重要的研究方向，也是亟待解决的关键问题。

针对保障安全控制问题，研究者提出了许多方法，大致可以分为3类：基于传统方法的计算李雅普诺夫函数方法；给定简单动力模型学习李雅普诺夫神经网络；学习李雅普诺夫神经网络控制器。其中，基于传统方法计算李雅普诺夫函数，通过多项式拟合来进行计算；给定简单动力模型学习李雅普诺夫神经网络是通过神经网络来拟合给定的动力系统的李雅普诺夫函数，解决了李雅普诺夫函数不易寻找的问题；学习李雅普诺夫神经网络控制器可以应用到一些简单的非线性系统中，并找到一个合适的控制函数，同时对李雅普诺夫条件进行了验证。

技术问题

无人船系统是一个相对较为复杂的非线性系统，上述几种方法都无法直接完成安全保障任务。基于传统方法计算李雅普诺夫函数，在简单的线性系统中可以计算出合适的李雅普诺夫函数，但在无人船系统中很难寻找到合适的函数，而且所找到的函数只能涵盖一小部分的李雅普诺夫稳定区域；给定简单动力模型学习李雅普诺夫神经网络，这种普遍适用于低维、离散状态的动力系统，无法直接应用到高维、连续的动力系统中，相关研究也基本停留在简单的实验，如倒立摆等，没有在更为复杂的情况下进行拓展；学习李雅普诺夫神经网络控制器，这种方法在生成控制器的同时用李雅普诺夫条件进行验证，但是这种方法固定了李雅普诺夫函数，无法得到占比较大的李雅普诺夫稳定区域，探索不充分，而且不易进行算法迁移，针对有控制算法的系统，无法进行有效的融合。

技术解决方案

本发明的目的在于，针对上述现有技术的不足，提供一种基于李雅普诺夫神经网络的无人系统控制方法及控制系统，用以至少解决上述现有技术问题之一。

为解决上述技术问题，本发明所采用的技术方案是：

一种基于李雅普诺夫神经网络的无人系统控制方法，其特点是包括：

通过李雅普诺夫神经网络拟合无人系统对应的李雅普诺夫函数；

根据所述李雅普诺夫神经网络划分出的安全区域指导无人系统进行迭代训练；

融合李雅普诺夫神经网络和无人系统的有模型强化学习智能体后，对无人系统进行控制。

进一步地，还包括基于无人系统的观测状态集合对李雅普诺夫神经网络进行训练，其中，所述李雅普诺夫神经网络的输入为状态对应的无人系统的工作参数数据和工作环境数据，所述李雅普诺夫神经网络的输出为状态对应的李雅普诺夫值。

作为一种优选方式，在李雅普诺夫神经网络训练过程中，状态在递减区域内。

作为一种优选方式，在李雅普诺夫神经网络训练过程中，在潜在的安全区域内，若某个状态在经历设定时间步后满足设定的安全集定义，则将该状态加入安全集中。

作为一种优选方式，在每次迭代训练结束后，基于最新的样本集更新高斯过程模型和李雅普诺夫神经网络。

作为一种优选方式，所述无人系统的有模型强化学习智能体基于滤波概率模型预测控制算法获得；所述融合李雅普诺夫神经网络和无人系统的有模型强化学习智能体包括根据李雅普诺夫神经网络指导滤波概率模型预测控制算法进行训练，获得基于李雅普诺夫指导的奖励函数，基于所述奖励函数指导控制无人系统。

作为一种优选方式，所述无人系统为无人船、无人车、无人机或机器人。

作为一种优选方式，当所述无人系统为无人船时，训练样本集数据包括无人船的实时定位数据、无人船的速度和方向数据、无人船所处环境的风速和风向数据；对无人系统进行控制包括对其发动机油门和/或船舵舵角控制。

基于同一个发明构思，本发明还提供了一种基于李雅普诺夫神经网络的无人系统控制系统，其特点是包括：

李雅普诺夫函数获得模块：用于通过李雅普诺夫神经网络拟合获得无人系统对应的李雅普诺夫函数；

迭代训练模块：用于根据所述李雅普诺夫神经网络划分出的安全区域指导无人系统进行迭代训练；

控制模块：用于在融合李雅普诺夫神经网络和无人系统的有模型强化学习智能体后，对无人系统进行控制。

有益效果

与现有技术相比，本发明具有以下有益效果：

1)通过李雅普诺夫神经网络拟合李雅普诺夫函数，可以涵盖大部分的李雅普诺夫稳定区域，保证安全区域的充分探索。

2)可扩展至较为复杂的非线性系统，可以在无人船等无人系统中学习李雅普诺夫神经网络。

3)可以有效地迁移到其他的控制算法中，方便与其他算法进行融合。

附图说明

图1为本发明一实施例的基于李雅普诺夫神经网络的无人系统控制方法整体框架图(以无人系统为无人船为例)。

图2为本发明一实施例的基于李雅普诺夫神经网络的无人船无人系统控制方法图(以无人系统为无人船为例)。

本发明的实施方式

针对现有技术中的问题和不足，为了更高效、完整的探索安全区域，让无人船等无人系统的控制过程更加稳定，控制效率更加高效，从而能够实际应用，本发明提出一种基于李雅普诺夫神经网络来进行迭代学习的强化学习无人系统控制方法和控制系统。

本发明提出的基于李雅普诺夫神经网络来进行迭代学习的强化学习无人系统(如无人船等)控制方法，通过迭代学习李雅普诺夫神经网络来保证系统的安全性，同时能够实现无需人类的先验知识的无人系统(如无人船等)自主学习，可以更为安全、有效的实现对无人系统(如无人船等)的操控。

根据本发明的第一方面，本发明提供了一种基于李雅普诺夫神经网络的无人系统控制方法，包括：

在某些优选实施例中，还包括基于无人系统的观测状态集合对李雅普诺夫神经网络进行训练，其中，所述李雅普诺夫神经网络的输入为状态对应的无人系统的工作参数数据和工作环境数据，所述李雅普诺夫神经网络的输出为状态对应的李雅普诺夫值。

在某些优选实施例中，在李雅普诺夫神经网络训练过程中，状态在递减区域内。

在某些优选实施例中，在李雅普诺夫神经网络训练过程中，在潜在的安全区域内，若某个状态在经历设定时间步后满足设定的安全集定义，则将该状态加入安全集中。

在某些优选实施例中，在每次迭代训练结束后，基于最新的样本集更新高斯过程模型和李雅普诺夫神经网络。

在某些优选实施例中，所述无人系统的有模型强化学习智能体基于滤波概率模型预测控制算法获得；所述融合李雅普诺夫神经网络和无人系统的有模型强化学习智能体包括根据李雅普诺夫神经网络指导滤波概率模型预测控制算法进行训练，获得基于李雅普诺夫指导的奖励函数，基于所述奖励函数指导控制无人系统。

所述无人系统为无人船、无人车、无人机或机器人等。

当所述无人系统为无人船时，训练样本集数据包括无人船的实时定位数据、无人船的速度和方向数据、无人船所处环境的风速和风向数据；对无人系统进行控制包括对其发动机油门和/或船舵舵角控制。

根据本发明的第二方面，本发明提供了一种基于李雅普诺夫神经网络的无人系统控制系统，所述无人系统为无人船、无人车、无人机或机器人等。无人系统控制系统包括：

本发明改善了无人船等无人系统缺乏考虑安全保障的问题，并且利用李雅普诺夫神经网络解决了需要人类先验知识的安全保障难题，把李雅普诺夫神经网络拓展到高维、复杂的非线性系统中，提出基于李雅普诺夫神经网络来进行迭代学习的强化学习无人系统控制方法及控制系统。

本发明通过迭代训练神经网络来拟合无人系统(如无人船等)的李雅普诺夫函数，然后根据该李雅普诺夫神经网络划分出的安全区域来指导无人系统(如无人船等)进行强化学习训练，把李雅普诺夫神经网络与无人系统(如无人船等)的有模型强化学习算法进行融合，提高无人系统(如无人船等)的稳定控制能力，更为高效、安全的行驶。

以无人系统为无人船为例，本发明控制方法的整体框架图见图1。下面对本发明技术方案及原理进行详细阐述。

一、无人船控制系统

(一)李雅普诺夫神经网络

本发明的核心思想是用李雅普诺夫第二法，以能量的角度来表示无人船系统的稳定性。针对一个给定策略π，定义安全集为S_π，在给定的系统和策略下，任何从x∈S_π区域内出发的轨迹都保持在此区域内，并逐渐接近平衡点。针对时间步t，李雅普诺夫函数v(x_t)需要满足以下条件：
v(0)＝0,v(x_t)>0for x_t≠0,       (1)
Δv(x_t)＝v(x_t+1)-v(x_t)<0,x_t≠0,       (2)
||f′(x_t+1)-f′(x_t)||≦k||x_t+1-x_t||,k∈R_>0    (3)

设置一个特别的神经网络来拟合李雅普诺夫函数，v_θ(x)＝φ_θ(x)^·φ_θ(x)，φ_θ是一个前反馈神经网络。李雅普诺夫神经网络v_θ(x)应该满足上述李雅普诺夫函数的条件：
v_θ(0)＝0；v_θ(x)>0,x≠0；Δv_θ(x)<0 (4)

为了保障具有简单零空间，即满足条件(1)，每一层的激活函数和权重矩阵都应该满足具有简单零空间。定义每一层l的输出维度为d_l，确定权重矩阵W_l为一个d_l×d_l-1的矩阵，权重矩阵应该是满秩的矩阵，W_lx＝0只有零解，权重矩阵满足d_l≥d_l-1条件就可以满足条件(1)。每一层的激活函数及神经网络满足李普希兹连续条件，即可保证李雅普诺夫神经网络满足李普希兹连续条件，即条件(3)。所以如果一个状态满足条件(2)Δv_θ(x)<0就可以确定该状态是李雅普诺夫稳定状态，这个条件在训练的过程进行处理。

(二)用李雅普诺夫神经网络处理无人船数据

将具有8个维度的无人船的数据作为神经网络的输入，神经网络的输出是该状态的李雅普诺夫值。按照i＝1,2,…,N_trial迭代训练李雅普诺夫神经网络，首先使用一个较小的数值初始化C_i用来描述安全区域，初始近似安全区域S_i按照以下公式提供：
S_i≈V(x,C_i)＝{x|v_θ(x)<C_i} (5)

在当前的样本集X中，确定符合条件(3)的状态作为递减区域D_i：
D_i＝{x_t∣v_θ(x_t)<0},x_t∈X (6)

在训练的过程中，保证状态在递减区域内即可以保证符合李雅普诺夫稳定性条件，确定安全集S_i为：
S_i＝V(x,C_i)＝{x|v_θ(x)<C_i},x∈D_i (7)

在强化学习训练的过程中，使用一个参数α∈R_>1获得拓展训练集，探索潜在的安全区域：
G_i＝V(x,αC_i)-V(x,C_i),x∈D_i (8)

在区域G_i内，如果一个状态在经历h个时间步后满足上述安全集的定义(7)，则将该状态加入到安全集中。将位于潜在安全区域及已确定安全区域的状态当作训练集，x∈V(x,αC_i)，并将安全状态的标签设置为y＝+1，否则设置为y＝-1，遵循以下公式：

损失函数分为两个部分：第一部分根据错误的分类以及李雅普诺夫值与C_i的距离进行惩罚；第二部分针对S_i中违反递减条件(3)的状态进行惩罚：

其中λ∈R_>0是拉格朗日算子，模型使用随机梯度下降的方式进行更新，在训练完成之后C_i按照如下公式进行更新：
C_i+1＝maxv_θ(x),x∈S_i (11)

也就是安全集中最大的李雅普诺夫值，可以作为临界值划分安全集与不安全区域。

(三)整合李雅普诺夫神经网络到有模型强化学习框架中

滤波概率模型预测控制与李雅普诺夫神经网络进行融合，将学习后的李雅普诺夫神经网络引入到滤波概率模型预测控制算法中的奖励函数：

根据李雅普诺夫神经网络计算出S_i，把它加入到奖励函数中指导无人船的训练。

二、无人船硬件系统

无人船在海洋中航行的过程中，起主要控制作用的是发动机和船的船舵，所以本发明产生的控制信号主要控制发动机的油门和船舵的舵角，通过控制油门来控制无人船的速度，同时控制船舵的舵角来控制转向。为了能使整个系统顺利运行，无人船就必须采集一些数据来表示此时的状态送给控制系统来产生控制信号，这就需要一些硬件来完成这个采集工作，使用了GPS来对无人船的位置做定位，得到船的坐标，使用方向传感器来得到无人船的速度和方向，通过风传感器来得到风速和风向信息，通过对这些硬件采集到的信息进行整合送入无人船的控制系统产生针对无人船的控制信号，使无人船能够顺利在海上航行。

三、强化学习框架

因为本发明方案不依赖于任何人类先验经验，所以这就需要无人船能够进行自主探索来学习。强化学习作为机器学习的一种，由于其不依赖于先验知识的学习方式而得到了广泛的应用，所以本发明在无人船的控制算法中也加入了强化学习，使无人船能够进行自主探索学习，从而使无人船在航行的过程中不断自我优化，使模型更加精准，对无人船的控制性能也会更加卓越。

以无人系统为无人船为例，图2本发明一实施例的基于李雅普诺夫神经网络的无人船无人系统控制方法图，开始会初始化样本集、损失函数等参数，然后通过样本集训练初始的高斯过程模型，初始化李雅普诺夫神经网络和C值，之后开始进行迭代。迭代过程中，首先训练李雅普诺夫神经网络，然后根据李雅普诺夫神经网络指导滤波概率模型预测控制进行训练，每一次迭代结束后，根据最新的样本集来更新高斯过程模型及李雅普诺夫神经网络。整个过程保证了无人船能够在海洋中进行自主探索学习，通过自己不断航行的“经验”来优化模型，从而获得更好的控制表现。

本发明所提出的基于李雅普诺夫神经网络来进行迭代学习的强化学习无人船控制方法，相较于其他现有技术，具有以下优点：

1.将李雅普诺夫神经网络拓展到有模型强化学习框架中的高维数据，拓展李雅普诺夫神经网络到高维、连续的动力系统中。

2.借助李雅普诺夫神经网络来指导无人船学习，提高无人船控制的稳定性、鲁棒性和安全性，避免出现失控等现象。

本发明方法已经过计算机仿真验证，结果很好，具有可行性。

本发明适用性好，除无人船控制外，还可拓展至如无人车、无人机、机器人等无人系统中，具有广阔的应用前景。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是局限性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，这些均属于本发明的保护范围之内。

Claims

一种基于李雅普诺夫神经网络的无人系统控制方法，其特征在于，包括：

通过李雅普诺夫神经网络拟合无人系统对应的李雅普诺夫函数；

根据所述李雅普诺夫神经网络划分出的安全区域指导无人系统进行迭代训练；

融合李雅普诺夫神经网络和无人系统的有模型强化学习智能体后，对无人系统进行控制。
根据权利要求1所述的基于李雅普诺夫神经网络的无人系统控制方法，其特征在于，还包括基于无人系统的观测状态集合对李雅普诺夫神经网络进行训练，其中，所述李雅普诺夫神经网络的输入为状态对应的无人系统的工作参数数据和工作环境数据，所述李雅普诺夫神经网络的输出为状态对应的李雅普诺夫值。
根据权利要求2所述的基于李雅普诺夫神经网络的无人系统控制方法，其特征在于，在李雅普诺夫神经网络训练过程中，状态在递减区域内。
根据权利要求2所述的基于李雅普诺夫神经网络的无人系统控制方法，其特征在于，在李雅普诺夫神经网络训练过程中，在潜在的安全区域内，若某个状态在经历设定时间步后满足设定的安全集定义，则将该状态加入安全集中。
根据权利要求1至4任一项所述的基于李雅普诺夫神经网络的无人系统控制方法，其特征在于，在每次迭代训练结束后，基于最新的样本集更新高斯过程模型和李雅普诺夫神经网络。
根据权利要求1至4任一项所述的基于李雅普诺夫神经网络的无人系统控制方法，其特征在于，所述无人系统的有模型强化学习智能体基于滤波概率模型预测控制算法获得；所述融合李雅普诺夫神经网络和无人系统的有模型强化学习智能体包括根据李雅普诺夫神经网络指导滤波概率模型预测控制算法进行训练，获得基于李雅普诺夫指导的奖励函数，基于所述奖励函数指导控制无人系统。
根据权利要求1至4任一项所述的基于李雅普诺夫神经网络的无人系统控制方法，其特征在于，所述无人系统为无人船、无人车、无人机或机器人。
根据权利要求7所述的基于李雅普诺夫神经网络的无人系统控制方法，其特征在于，当所述无人系统为无人船时，训练样本集数据包括无人船的实时定位数据、无人船的速度和方向数据、无人船所处环境的风速和风向数据；对无人系统进行控制包括对其发动机油门和/或船舵舵角控制。
一种基于李雅普诺夫神经网络的无人系统控制系统，其特征在于，包括：

李雅普诺夫函数获得模块：用于通过李雅普诺夫神经网络拟合获得无人系统对应的李雅普诺夫函数；

迭代训练模块：用于根据所述李雅普诺夫神经网络划分出的安全区域指导无人系统进行迭代训练；

控制模块：用于在融合李雅普诺夫神经网络和无人系统的有模型强化学习智能体后，对无人系统进行控制。
根据权利要求9所述的基于李雅普诺夫神经网络的无人系统控制系统，其特征在于，所述无人系统为无人船、无人车、无人机或机器人。