WO2023044878A1

WO2023044878A1 - 运动控制方法及装置

Info

Publication number: WO2023044878A1
Application number: PCT/CN2021/120801
Authority: WO
Inventors: 王子健; 范顺杰
Original assignee: 西门子股份公司; 西门子（中国）有限公司
Priority date: 2021-09-26
Filing date: 2021-09-26
Publication date: 2023-03-30
Also published as: CN117813561A

Abstract

一种运动控制方法（100），包括：确定受控对象的运动控制模型（211），根据运动控制模型（211）训练一在线强化学习模型（223），运动控制模型（211）输出一模型控制值，受控对象根据模型控制值和在线强化学习模型（223）输出的初始控制值产生一反馈值（110）；利用模型控制值和反馈值计算奖励（120）；在线强化学习模型（223）根据奖励、模型控制值和反馈值生成一残差控制值，根据残差控制值和模型控制值控制受控对象运动（130）。

Description

运动控制方法及装置

技术领域

本发明主要涉及运动控制领域，尤其涉及一种运动控制方法及装置。

背景技术

运动控制优化对于提升产品生产线的性能至关重要，例如对伺服电机的速度控制优化、同步多轴位置控制优化可以显著提升产品生产线的性能。

运动控制优化通常是通过选择模型参数来实现的，受控对象(例如驱动器)的动态模型由富有经验的领域专家设计，选择合适的模型以及优化模型参数将会得到更好的运动控制性能，但是这个手动的优化过程耗时耗力，效率不高。

为了克服手动优化的缺陷，强化学习被引入以学习运动控制模型中的最优参数，此类强化学习可以实现自动化优化，然而，受控对象的建模，需要较深的领域知识，并且受限于运动模型本身性能提升的效果有限，此外，强化学习模型只能适用于当前的受控对象，无法复用到其它的受控对象中。

发明内容

为了解决上述技术问题，本发明提供一种运动控制方法及装置，并提高运动控制中强化学习模型建模的效率。

为实现上述目的，本发明提出了一种运动控制方法，所述运动控制方法包括：确定受控对象的运动控制模型，根据所述运动控制模型训练一在线强化学习模型，所述运动控制模型输出一模型控制值，所述受控对象根据所述模型控制值和所述在线强化学习模型输出的初始控制值产生一反馈值；利用所述模型控制值和所述反馈值计算奖励；所述在线强化学习模型根据所述奖励、所述模型控制值和所述反馈值生成一残差控制值，根据所述残差控制值和所述模型控制值控制所述受控对象运动。为此，在线强化学习模型基于运动控制模型训练得到，无需从头开始训练，提高了在线强化学习模型的训练效率。

优选地，所述运动控制方法包括：将所述运动控制模型、模型控制值、反馈值、奖励发送至云端，根据所述运动控制模型、模型控制值、反馈值、奖励训练一离线强化学习模型，用离线强化学习模型更新原有在线强化学习模型，或将离线强化学习模型部署到不具有在线强化学习模型的运动控制系统。为此，将受控对象的在线强化学习过程中采集的数据上传至云端进行分类训练出离线强化学习模型，可以部署在相同运动学类型的运动控制系统中，提高了运动控制中强化学习模型的通用性。

优选地，将所述在线强化学习模型更新为所述离线强化学习模型之前包括：获取受控对象的运动学类型，在所述受控对象的运动学类型与所述离线强化学习模型的运动学类型一致时，用离线强化学习模型更新原有在线强化学习模型，或将离线强化学习模型部署到不具有在线强化学习模型的运动控制系统。为此，通过判断受控对象的运动学类型与离线强化学习模型的运动学类型的一致性，可以提高更新或部署的针对性。

优选地，所述模型控制值包括轴位置控制值，所述反馈值包括轴位置反馈值，利用所述模型控制值和所述反馈值计算奖励包括：根据所述所述轴位置控制值和所述轴位置反馈值计算轴位置跟随误差，根据所述轴位置跟随误差计算奖励。为此，实现了通过轴位置的控制值和反馈值计算奖励。

优选地，确定受控对象的运动控制模型包括：接收用户选择的运动学类型和输入的模型参数，在所述运动学类型和模型参数下所述受控对象启动。为此，用户仅需粗略地选择运动学类型和输入模型参数，无需优化参数，降低了对用户建模的要求，提高了运动控制的自动化程度和智能性。

优选地，将所述运动控制模型、模型控制值、反馈值、奖励发送至云端之后，将所述运动控制模型、模型控制值、反馈值、奖励分类为多个训练数据集，利用所述多个训练数据集对所述离线强化学习模型进行训练。为此，实现了对离线强化学习模型的训练。

本发明还提出了一种运动控制装置，所述运动控制装置包括：确定模块，确定受控对象的运动控制模型，根据所述运动控制模型训练一在线强化学习模型，所述运动控制模型输出一模型控制值，所述受控对象根据所述模型控制值和所述在线强化学习模型输出的初始控制值产生一反馈值；奖励计算模块，利用所述模型控制值和所述反馈值计算奖励；控制模块，所述在线强化学习模型根据所述奖励、所述模型控制值和所述反馈值生成一残差控制值，根据所述残差控制值和所述模型控制值控制所述受控对象运动。

优选地，所述运动控制装置包括：将所述运动控制模型、模型控制值、反馈值、奖励发送至云端，根据所述运动控制模型、模型控制值、反馈值、奖励训练一离线强化学习模型，用离线强化学习模型更新原有在线强化学习模型，或将离线强化学习模型部署到不具有在线强化学习模型的运动控制系统。

优选地，将所述在线强化学习模型更新为所述离线强化学习模型之前包括：获取受控对象的运动学类型，在所述受控对象的运动学类型与所述离线强化学习模型的运动学类型一致时，用离线强化学习模型更新原有在线强化学习模型，或将离线强化学习模型部署到不具有在线强化学习模型的运动控制系统。

优选地，所述模型控制值包括轴位置控制值，所述反馈值包括轴位置反馈值，利用所述模型控制值和所述反馈值计算奖励包括：根据所述所述轴位置控制值和所述轴位置反馈值计算轴位置跟随误差，根据所述轴位置跟随误差计算奖励。

优选地，确定受控对象的运动控制模型包括：接收用户选择的运动学类型和输入的模型参数，在所述运动学类型和模型参数下所述受控对象启动。

优选地，将所述运动控制模型、模型控制值、反馈值、奖励发送至云端之后，将所述运动控制模型、模型控制值、反馈值、奖励分类为多个训练数据集，利用所述多个训练数据集对所述离线强化学习模型进行训练。

本发明还提出了一种电子设备，包括处理器、存储器和存储在所述存储器中的指令，其中所述指令被所述处理器执行时实现如上文所述的方法。

本发明还提出了一种计算机可读存储介质，其上存储有计算机指令，所述计算机指令在被运行时执行如上文所述的方法。

附图说明

以下附图仅旨在于对本发明做示意性说明和解释，并不限定本发明的范围。其中，

图1是根据本发明的一实施例的一种的运动控制方法的流程图；

图2是根据本发明的一实施例的一种的运动控制方法的示意图；

图3是根据本发明的一实施例的一种的运动控制装置的示意图；

图4是根据本发明的一实施例的一种电子设备的示意图。

附图标记说明

100运动控制方法

110-130步骤

210控制器

211运动控制模型

212收发器

220边缘设备

221数据采集模块

222奖励计算模块

223在线强化学习模型

230云端

231训练数据处理模块

232训练数据集

233离线强化学习模型

300运动控制装置

310确定模块

320奖励计算模块

330控制模块

400电子设备

410处理器

420存储器

具体实施方式

为了对本发明的技术特征、目的和效果有更加清楚的理解，现对照附图说明本发明的具体实施方式。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是本发明还可以采用其它不同于在此描述的其它方式来实施，因此本发明不受下面公开的具体实施例的限制。

如本申请和权利要求书中所示，除非上下文明确提示例外情形，“一”、“一个”、“一种”和/或“该”等词并非特指单数，也可包括复数。一般说来，术语“包括”与“包含”仅提示包括已明确标识的步骤和元素，而这些步骤和元素不构成一个排它性的罗列，方法或者设备也可能包含其他的步骤或元素。

图1是根据本发明的一实施例的一种的运动控制方法的流程图。如图1所示，运动控制方法100包括：

步骤110，确定受控对象的运动控制模型，根据运动控制模型训练一在线强化学习模型，运动控制模型输出一模型控制值，受控对象根据模型控制值和在线强化学习模型输出的初始控制值产生一反馈值。

在一些实施例中，确定受控对象的运动控制模型包括：接收用户选择的运动学类型和输入的模型参数，在运动学类型和模型参数下所述受控对象启动。为此，用户只需调整模型参数至受控对象能够启动，无需用户进行参数优化，显著降低了工作量，提高了运动控制的效率。运动学类型可以由用户基于受控对象(例如单轴驱动器或同步多轴驱动器)的运动学或应用需求进行设计或选择。示例性地，对于单轴驱动器选择比例-积分-微分控制(PID控制)，或对于同步多轴驱动器选择笛卡尔位置控制。至此，通过选择运动控制模型的运动学类型和初步输入运动控制模型的参数，可以确定受控对象的运动控制模型，该运动控制模型输出一模型控制值U _m。此外，根据运动控制模型训练一在线强化学习模型，在线强化学习模型在初始时刻会输出一初始控制值U _a0，受控对象基于模型控制值U _m和初始控制值U _a0进行运动，并在运动过程中产生一反馈值，反馈值可以是轴位置值、轴速度值、轴扭矩值等。

图2是根据本发明的一实施例的一种的运动控制方法的示意图。图2示出了多个运动控制系统A、B、C，各运动控制系统包括控制装置和受控对象。以运动控制系统A为例，控制装置包括边缘设备220和控制器210，受控对象为驱动器240，驱动器240可以驱动电机转动。可以理解，本发明的实施例中的控制装置并非限于此，控制装置也可是单个的硬件形态。边缘设备220可以是工业计算机(IPC)，控制器210可以是可编程逻辑控制器(PLC)，在另外一些形态中，控制装置可以是工业计算机，内部配置有虚拟PLC，或者控制装置可以是PLC，内部集成有计算模块。如图2所示，控制器210包括运动控制模型211，运动控制模型211可以由用户选择运动控制模型的运动学类型，例如PID控制或笛卡尔位置控制，并输入模型参数，由此确定运动控制模型211，运动控制模型211输出一模型控制值U _m，根据运动控制模型训练一在线强化学习模型，在线强化学习模型在初始时刻会输出一初始控制值U _a0，受控对象基于模型控制值U _m和初始控制值U _a0进行运动，并在运动过程中产生一反馈值。

步骤120，利用模型控制值和反馈值计算奖励。

根据运动控制模型和驱动器运动学类型，可以利用模型控制值和反馈值计算奖励，例如轴位置跟随误差、轴速度跟随误差、轴扭矩跟随误差、笛卡尔位置跟随误差和笛卡尔速度跟随误差等。在一些实施例中，模型控制值包括轴位置控制值，反馈值包括轴位置反馈值，利用模型控制值和反馈值计算奖励包括：根据轴位置控制值和轴位置反馈值计算轴位置跟随误差，根据轴位置跟随误差计算奖励。

例如，对于单轴驱动器，可以通过下列公式计算奖励：

r＝1/|err _pos|

其中，r是奖励，err _pos是轴位置跟随误差，轴位置跟随误差可以通过模型轴位置控制值减去反馈轴位置值得到。

又例如，对于同步多轴驱动器，可以通过下列公式计算奖励：

r＝1/||err _x+err _y+err _z||

其中，r是奖励，err _x、err _y、err _z分别是X，Y，Z方向的笛卡尔位置误差。

如图2所示，数据采集模块221采集到运动控制模型211输出的模型控制值和驱动器 240产生的反馈值，将模型控制值和反馈值发送至奖励计算模块222，奖励计算模块222根据模型控制值和反馈值计算奖励，并将奖励发送至强化学习模型223。

步骤130，在线强化学习模型根据奖励、模型控制值和反馈值生成一残差控制值，根据残差控制值和模型控制值控制受控对象运动。

可以采用SARSA算法(state-action-reward-state-action)训练在线强化学习模型，经训练的在线强化学习模型根据奖励、模型控制值和反馈值生成一残差控制值U _a，根据残差控制值U _a和模型控制值U _m控制受控对象运动。

如图2所示，强化学习模型223接收到奖励计算模块222发送的奖励，接收到数据采集模块发送的模型控制值和反馈值，根据奖励、模型控制值和反馈值生成一残差控制值U _a，并将残差控制值发送至控制器210中的收发器212中，收发器212将残差控制值U _a和模型控制值U _m发送至驱动器240，受控对象基于残差控制值U _a和模型控制值U _m进行运动，并在运动过程中持续产生反馈值，反馈值继续发送至数据采集模块221，并重复迭代之前的过程，直至跟随误差被消除，至此达到预期的控制。

在一些实施例中，为了提升控制模型的通用性，运动控制方法可以包括将多个控制系统在线强化学习过程中采集的数据(包括运动控制模型、模型控制值、反馈值、奖励等)发送至云端，根据运动控制模型、模型控制值、反馈值、奖励训练一通用的离线强化学习模型。用于训练离线强化学习模型的相关数据，需要采集自具有相同运动学类型的受控对象及其控制系统。

在一些实施例中，将所述在线强化学习模型更新为所述离线强化学习模型之前包括：获取受控对象的运动学类型，在所述受控对象的运动学类型与所述离线强化学习模型的运动学类型一致时，用离线强化学习模型更新原有在线强化学习模型，或将离线强化学习模型部署到不具有在线强化学习模型的运动控制系统。

在一些实施例中，将运动控制模型、模型控制值、反馈值、奖励发送至云端之后，将运动控制模型、模型控制值、反馈值、奖励分类为多个训练数据集，利用多个训练数据集对离线强化学习模型进行训练。示例性地，可以采用CQL算法(Conservative Q-Learning算法)对离线强化学习模型进行训练。

继续参考图2所示，还包括云端230，云端230包括训练数据处理模块231、训练数据集232和离线强化学习模型233，数据采集模块231将运动控制模型、模型控制值、反馈值、奖励发送至云端230的训练数据处理模块231，训练数据处理模块231将运动控制模型、模型控制值、反馈值、奖励按照运动学类型分类成多个训练数据集232，利用多个训练数据集232采用CQL算法(Conservative Q-Learning算法)对离线强化学习模型233 进行训练，从而实现对离线强化学习模型233的训练，将训练好的离线强化学习模型233更新到运动控制系统A的在线强化学习模型中，或部署到不具有在线强化学习模型的运动控制系统B、C中，从而提高了运动控制中强化学习模型的通用性。为了提高部署或更新的针对性，在部署或更新之前，获取受控对象的运动学类型，在受控对象的运动学类型与离线强化学习模型233的运动学类型一致时，用离线强化学习模型更新原有在线强化学习模型，或将离线强化学习模型部署到不具有在线强化学习模型的运动控制系统。

本发明的实施例提供了一种运动控制方法，在线强化学习模型基于运动控制模型训练得到，无需从头开始训练，提高了在线强化学习模型的训练效率。此外，将受控对象的在线强化学习过程中采集的数据上传至云端进行分类训练出离线强化学习模型，可以部署在相同运动学类型的运动控制系统中，提高了运动控制中强化学习模型的通用性。

本发明还提出一种运动控制装置，图3是根据本发明的一实施例的一种的运动控制装置300的示意图，如图3所示，运动控制装置300包括：

确定模块310，确定受控对象的运动控制模型，根据运动控制模型训练一在线强化学习模型，运动控制模型输出一模型控制值，受控对象根据模型控制值和在线强化学习模型输出的初始控制值产生一反馈值；

奖励计算模块320，利用模型控制值和反馈值计算奖励；

控制模块330，在线强化学习模型根据奖励、模型控制值和反馈值生成一残差控制值，根据残差控制值和模型控制值控制受控对象运动。

在一些实施例中，运动控制装置300包括：将运动控制模型、模型控制值、反馈值、奖励发送至云端，根据运动控制模型、模型控制值、反馈值、奖励训练一离线强化学习模型，用离线强化学习模型更新原有在线强化学习模型，或将离线强化学习模型部署到不具有在线强化学习模型的运动控制系统。

在一些实施例中，将在线强化学习模型更新为离线强化学习模型之前包括：获取受控对象的运动学类型，在受控对象的运动学类型与离线强化学习模型的运动学类型一致时，用离线强化学习模型更新原有在线强化学习模型，或将离线强化学习模型部署到不具有在线强化学习模型的运动控制系统。

在一些实施例中，模型控制值包括轴位置控制值，反馈值包括轴位置反馈值，利用模型控制值和反馈值计算奖励包括：根据轴位置控制值和轴位置反馈值计算轴位置跟随误差，根据轴位置跟随误差计算奖励。

在一些实施例中，确定受控对象的运动控制模型包括：接收用户选择的运动控制模型和输入的模型参数，在所述运动控制模型和模型参数下所述受控对象启动。

在一些实施例中，将运动控制模型、模型控制值、反馈值、奖励发送至云端之后，将运动控制模型、模型控制值、反馈值、奖励分类为多个训练数据集，利用多个训练数据集对离线强化学习模型进行训练。

本发明还提出一种电子设备400。图4是根据本发明的一实施例的一种电子设备400的示意图。如图4所示，电子设备400包括处理器410和存储器420，存储器420存储中存储有指令，其中指令被处理器410执行时实现如上文所述的方法100。

本发明还提出一种计算机可读存储介质，其上存储有计算机指令，计算机指令在被运行时执行如上文所述的方法100。

本发明的方法和装置的一些方面可以完全由硬件执行、可以完全由软件(包括固件、常驻软件、微码等)执行、也可以由硬件和软件组合执行。以上硬件或软件均可被称为“数据块”、“模块”、“引擎”、“单元”、“组件”或“系统”。处理器可以是一个或多个专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理器件(DAPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、处理器、控制器、微控制器、微处理器或者其组合。此外，本发明的各方面可能表现为位于一个或多个计算机可读介质中的计算机产品，该产品包括计算机可读程序编码。例如，计算机可读介质可包括，但不限于，磁性存储设备(例如，硬盘、软盘、磁带……)、光盘(例如，压缩盘(CD)、数字多功能盘(DVD)……)、智能卡以及闪存设备(例如，卡、棒、键驱动器……)。

在此使用了流程图用来说明根据本申请的实施例的方法所执行的操作。应当理解的是，前面的操作不一定按照顺序来精确地执行。相反，可以按照倒序或同时处理各种步骤。同时，或将其他操作添加到这些过程中，或从这些过程移除某一步或数步操作。

应当理解，虽然本说明书是按照各个实施例描述的，但并非每个实施例仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

以上所述仅为本发明示意性的具体实施方式，并非用以限定本发明的范围。任何本领域的技术人员，在不脱离本发明的构思和原则的前提下所作的等同变化、修改与结合，均应属于本发明保护的范围。

Claims

一种运动控制方法(100)，其特征在于，所述运动控制方法(100)包括：

确定受控对象的运动控制模型，根据所述运动控制模型训练一在线强化学习模型，所述运动控制模型输出一模型控制值，所述受控对象根据所述模型控制值和所述在线强化学习模型输出的初始控制值产生一反馈值(110)；

利用所述模型控制值和所述反馈值计算奖励(120)；

所述在线强化学习模型根据所述奖励、所述模型控制值和所述反馈值生成一残差控制值，根据所述残差控制值和所述模型控制值控制所述受控对象运动(130)。
根据权利要求1所述的运动控制方法(100)，其特征在于，所述运动控制方法(100)包括：将所述运动控制模型、模型控制值、反馈值、奖励发送至云端，根据所述运动控制模型、模型控制值、反馈值、奖励训练一离线强化学习模型，用离线强化学习模型更新原有在线强化学习模型，或将离线强化学习模型部署到不具有在线强化学习模型的运动控制系统。
根据权利要求2所述的运动控制方法(100)，其特征在于，将所述在线强化学习模型更新为所述离线强化学习模型之前包括：获取受控对象的运动学类型，在所述受控对象的运动学类型与所述离线强化学习模型的运动学类型一致时，用离线强化学习模型更新原有在线强化学习模型，或将离线强化学习模型部署到不具有在线强化学习模型的运动控制系统。
根据权利要求1所述的运动控制方法(100)，其特征在于，所述模型控制值包括轴位置控制值，所述反馈值包括轴位置反馈值，利用所述模型控制值和所述反馈值计算奖励包括：根据所述所述轴位置控制值和所述轴位置反馈值计算轴位置跟随误差，根据所述轴位置跟随误差计算奖励。
根据权利要求1所述的运动控制方法(100)，其特征在于，确定受控对象的运动控制模型包括：接收用户选择的运动学类型和输入的模型参数，在所述运动学类型和模型参数下所述受控对象启动。
根据权利要求2所述的运动控制方法(100)，其特征在于，将所述运动控制模型、模型控制值、反馈值、奖励发送至云端之后，将所述运动控制模型、模型控制值、反馈值、奖励分类为多个训练数据集，利用所述多个训练数据集对所述离线强化学习模型进行训练。
一种运动控制装置(300)，其特征在于，所述运动控制装置(300)包括：

确定模块(310)，确定受控对象的运动控制模型，根据所述运动控制模型训练一在线强化学习模型，所述运动控制模型输出一模型控制值，所述受控对象根据所述模型控制值和所述在线强化学习模型输出的初始控制值产生一反馈值；

奖励计算模块(320)，利用所述模型控制值和所述反馈值计算奖励；

控制模块(330)，所述在线强化学习模型根据所述奖励、所述模型控制值和所述反馈值生成一残差控制值，根据所述残差控制值和所述模型控制值控制所述受控对象运动。
根据权利要求7所述的运动控制装置(300)，其特征在于，所述运动控制装置(300)包括：将所述运动控制模型、模型控制值、反馈值、奖励发送至云端，根据所述运动控制模型、模型控制值、反馈值、奖励训练一离线强化学习模型，用离线强化学习模型更新原有在线强化学习模型，或将离线强化学习模型部署到不具有在线强化学习模型的运动控制系统。
根据权利要求8所述的运动控制装置(300)，其特征在于，将所述在线强化学习模型更新为所述离线强化学习模型之前包括：获取受控对象的运动学类型，在所述受控对象的运动学类型与所述离线强化学习模型的运动学类型一致时，用离线强化学习模型更新原有在线强化学习模型，或将离线强化学习模型部署到不具有在线强化学习模型的运动控制系统。
根据权利要求7所述的运动控制装置(300)，其特征在于，所述模型控制值包括轴位置控制值，所述反馈值包括轴位置反馈值，利用所述模型控制值和所述反馈值计算奖励包括：根据所述所述轴位置控制值和所述轴位置反馈值计算轴位置跟随误差，根据所述轴位置跟随误差计算奖励。
根据权利要求7所述的运动控制装置(300)，其特征在于，确定受控对象的运动控制模型包括：接收用户选择的运动学类型和输入的模型参数，在所述运动学类型和模型参数下所述受控对象启动。
根据权利要求8所述的运动控制装置(300)，其特征在于，将所述运动控制模型、模型控制值、反馈值、奖励发送至云端之后，将所述运动控制模型、模型控制值、反馈值、奖励分类为多个训练数据集，利用所述多个训练数据集对所述离线强化学习模型进行训练。
一种电子设备(400)，包括处理器(410)、存储器(420)和存储在所述存储器(420)中的指令，其中所述指令被所述处理器(410)执行时实现如权利要求1-6任一项所述的方法。
一种计算机可读存储介质，其上存储有计算机指令，所述计算机指令在被运行时执行根据权利要求1-6中任一项所述的方法。