WO2022241806A1

WO2022241806A1 - 一种基于强化学习的双机器人力/位多元数据驱动方法

Info

Publication number: WO2022241806A1
Application number: PCT/CN2021/095966
Authority: WO
Inventors: 张弓; 侯至丞; 杨文林; 吕浩亮; 徐征; 吴月玉; 李亚锋; 杨根
Original assignee: 广州先进技术研究所
Priority date: 2021-05-19
Filing date: 2021-05-26
Publication date: 2022-11-24
Also published as: CN113427483A

Abstract

本发明公开了一种基于强化学习的双机器人力/位多元数据驱动方法，主机器人采用理想位置元控制策略，通过强化学习算法来学习期望位置，将实际位置反馈给期望位置，目标是在机器人与环境相互作用时产生一个最优力，使位置误差最小化；从机器人基于主机器人位置偏差的力元控制策略，采用适用于未知环境的阻尼PD控制策略，通过强化学习算法来学习期望作用力，驱动从机器人接近期望参考点的最小力。主从机器人分别强化学习算法来学习期望位置和期望作用力，均采用比例微分控制率，对各自的微分系数(kp)与比例系数(kd)进行整定。本发明可提高双机协同的灵巧性，解决力/位控制中的参数优化问题，避免瞬态时的较大误差。

Description

一种基于强化学习的双机器人力/位多元数据驱动方法

技术领域

本发明涉及多机器人协同控制技术领域，具体涉及一种基于强化学习的双机器人力/位多元数据驱动方法。

背景技术

随着钢/铝等复杂构件行业的加工量和作业环境的不断变化，有些工作仅靠单机器人难以承担，需要通过多台机器人之间的协同配合才能完成。多机协同作业已取代单机，成为构建智能产线的研究热点。多机器人系统相比于单机器人系统具有适应环境能力强、自我调节能力高、系统空间分布广、更好的数据冗余性、鲁棒性等特点。采用多台机器人之间的协同合作，能够可靠地完成单机器人无法完成的高精度作业和高效加工等复杂任务。

多机器人协同搬运同一个物体时，各机器人之间具有物理链接和内力约束，要实现紧耦合必须通过实施有效的力－位置协调控制策略，来提升多机器人协同作业的柔顺性和稳定性。

已有双机器人协调控制研究，多对从动机器人施加控制策略，未充分考虑主动机器人的优化控制，也并未涉及从机器人对主机器人的跟踪控制概念。较多的机器人力－位置控制方案都假设对动力学模型有精确的了解，但是多机器人的协同动力学模型是高度不确定的，并且面临外部不确定环境的干扰等，因此基于模型的控制方法不足以应对这种不确定的系统。

应用于复杂任务的多机器人的协同控制作业，需要研究机器人与环境的相互作用。当环境未知时，力控制对于环境中的不确定性不足以产生期望的强度。如何通过实施有效的力－位置协同控制策略，解决力/位控制中的参数优化问题，避免瞬态时的较大误差，实现双机器人协同搬运和翻转的柔顺性与平稳性，是目前拟解决的关键问题。

发明内容

有鉴于此，为了解决现有技术中的上述问题，本发明提出一种基于强化学习的双机器人力/位多元数据驱动方法，主机器人采用理想位置元控制策略，通过强化学习算法来学习期望位置；从机器人基于主机器人位置偏差的力元控制策略，采用适用于未知环境的阻尼PD控制策略，通过强化学习算法来学习期望作用力。

本发明通过以下技术手段解决上述问题：

一种基于强化学习的双机器人力/位多元数据驱动方法，包括如下步骤：

获得主机器人和从机器人的末端执行器在任务空间中的实际位置、实际速度和实际加速度；

利用主机器人和从机器人末端执行器在任务空间中的实际位置、实际速度和实际加速度，建立双机器人机械阻尼系统模型；

根据双机器人机械阻尼系统模型的动态力平衡方程，获得主机器人和从机器人的吸盘作用力，主机器人的吸盘作用力即为主机器人实际施加力，从机器人的吸盘作用力即为从机器人实际施加力；

主机器人采用理想位置元控制策略，通过强化学习算法来学习期望位置，根据主机器人实际施加力采用比例微分控制率，对微分系数与比例系数进行整定，将实际位置反馈给期望位置；当主机器人没有接触环境时，主机器人实际位置跟随期望位置；当主机器人接触环境时，主机器人期望位置由位置PD控制修改更新，主机器人实际位置跟随新的期望位置；

从机器人基于主机器人位置偏差的力元控制策略，采用适用于未知环境的阻尼PD控制策略，通过强化学习算法来学习期望作用力，通过对比期望作用力与从机器人实际施加力的误差值，将力误差反馈信号转换为从机器人末端的速度修正量；然后利用导纳控制产生期望参考位置，并维护从机器人的期望作用力和期望参考位置的关系。

进一步地，获得主机器人和从机器人的末端执行器在任务空间中的实际位置、实际速度和实际加速度具体如下：

机器人末端执行器上，具有力传感器的n连杆机器人的关节空间动力学可写成：

式中，q、

分别为关节位置、速度和加速度；M(q)为对称正定惯性矩阵；

表示向心和科里奥利力矩；G(q)为重力转矩矢量；τ为驱动转矩矢量；f _e为力传感器测得的外力；f(q)为将外力矢量f _e映射到广义坐标的雅可比矩阵，满足：

式中，

分别是机器人末端执行器在任务空间中的实际速度和实际加速度，

为机器人末端执行器在任务空间中的实际位置x的一阶导数。

进一步地，建立双机器人机械阻尼系统模型具体如下：

当机器人末端执行器接触环境时，可通过弹簧－阻尼模型进行建模：

式中，C _e、K _e分别是环境阻尼和刚度常数矩阵；x _e是环境的位置；当x≥x _e时，则机器人末端执行器与环境之间存在交互力；反之，当x<x _e时，不存在交互力；

理想工况下，两个机器人末端吸盘夹持工件时，机构间无任何相对移动，可视作从机器人刚体与夹持工件的主机器人刚体，在传感器的机械阻尼中相互耦合，可得双机器人机械阻尼系统模型。

进一步地，根据双机器人机械阻尼系统模型的动态力平衡方程，获得主机器人的吸盘作用力具体如下：

根据双机器人机械阻尼系统模型的动态力平衡方程，在主机器人端，吸盘作用力f ₁为：

式中，f ₁为主机器人实际施加力；k _s为环境刚度系数；b _s为环境阻尼系数；x ₁为主机器人实际位置；x ₂为从机器人实际位置；

为主机器人实际速度，

为从机器人实际速度，

为主机器人实际加速度；m ₁为主机器人的吸盘与工件质量之和。

进一步地，根据双机器人机械阻尼系统模型的动态力平衡方程，获得从机器人的吸盘作用力具体如下：

在从机器人端，吸盘作用力f ₂为：

式中，f ₂可等效为机器人腕部安装的力传感器测得的外力f _e；k _s为环境刚度系数；b _s为环境阻尼系数；x ₁为主机器人实际位置；x ₂为从机器人实际位置；

为主机器人实际速度，

为从机器人实际速度，

为从机器人实际加速度；m ₂为从机器人的吸盘质量。

进一步地，主机器人将实际位置反馈给期望位置具体如下：

施加基于位置误差值的比例－微分控制律，输出为力修正量；对主机器人的位置控制律表示为：

式中，f ₁为主机器人实际施加力，f _d为从机器人的期望作用力；x _d为主机器人的期望位置；e _x和

分别为主机器人的位置偏移量误差和速度误差；

为位置控制比例系数；

为位置控制微分系数，x ₁为主机器人实际位置。

进一步地，从机器人将力误差反馈信号转换为从机器人末端的速度修正量具体如下：

对从机器人的阻尼控制律表示为：

式中，

为从机器人速度修正量，即为从机器人实际速度；e _f为从机器人的力误差值；

为从机器人的力变化率误差值；

为力控制比例系数；

为力控制微分系数；f _d为从机器人期望作用力；f ₂为从机器人实际施加力。

与现有技术相比，本发明的有益效果至少包括：

本发明主机器人采用理想位置元控制策略，通过强化学习算法来学习期望位置；从机器人基于主机器人位置偏差的力元控制策略，采用适用于未知环境的阻尼PD控制策略，通过强化学习算法来学习期望作用力。利用强化学习下力/位多元数据驱动方法，可提高双机协同的灵巧性，解决力/位控制中的参数优化问题，避免瞬态时的较大误差。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明双机器人协同夹持、搬运和翻转示意图；

图2是本发明双机器人机械阻尼系统模型；

图3是本发明双机器人强化学习多元数据驱动模式框图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面将结合附图和具体的实施例对本发明的技术方案进行详细说明。需要指出的是，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

双机器人在同一个工位区域内对工件的协同夹持、搬运和翻转，需要研究机器人与环境的相互作用，最常用的交互控制方法是力－位置控制。当环境未知时，力/位控制对于环境中的不确定性不足以产生期望的强度，要获得力/位控制，需要估计其期望值。

机器学习(Machine Learning，ML)是通过计算机实现人类学习能力等功能的技术，强化学习(Reinforcement Learning，RL)是对机器学习模型进行训练，以便机器人在一个不确定的、潜在的复杂环境中，在没有精确系统模型的情况下，根据环境选择要执行的动作，通过奖励或惩罚的方式对目标进行编程，进而学习以实现目标。强化学习通过分析与测量系统轨迹数据来估计其功能，从而实时改善其控制行为，可广泛应用于机器人控制、调度等领域。

应用最广泛的强化学习算法是Q学习(Q-Learning)，这是一种迭代算法，其目标是使总奖励的期望值最大化，也是马尔可夫(Markov)决策过程中的一种最优行为选择策略，且不需要环境模型。从而提高双机协同性能，解决力/位控制中的参数优化问题，避免瞬态时的较大误差。实现了两个机器人协同搬运同一刚体时的实时追踪，维持机器人动力学不确定时的鲁棒性。

双机器人协同搬运的坐标标定示意图，如图1所示，采用主从协同控制模式，主从机器人的末端分别装载气动吸盘，主吸盘和副吸盘夹持同一工件，执行复杂搬运轨迹。图中O点为世界坐标系原点，(x _i,y _i,z _i)表示当前轴向关节坐标系。机器人基坐标相对O点中心对称，末端关节坐标系的z轴相对于旋转中心对称。

机器人末端执行器上，具有力传感器的n连杆机器人的关节空间动力学可以写成：

式中，q、

分别为关节位置、速度和加速度；M(q)为对称正定惯性矩阵；

表示向心和科里奥利(Coriolis)力矩；G(q)为重力转矩矢量；τ为驱动转矩矢量；f _e为力传感器测得的外力；f(q)为将外力矢量f _e映射到广义坐标的雅可比矩阵，满足：

式中，

为机器人末端执行器在任务空间中的实际位置x的一阶导数。

当机器人末端执行器接触环境时，可以通过弹簧－阻尼模型(Kelvin-Voigt)进行建模：

式中，C _e、K _e分别是环境阻尼和刚度常数矩阵；x _e是环境的位置；当x≥x _e时，则机器人末端执行器与环境之间存在交互力；反之，当x<x _e时，不存在交互力。

理想工况下，两个机器人末端吸盘夹持工件时，机构间无任何相对移动，可视作从机器人刚体与夹持工件的主机器人刚体，在传感器的机械阻尼中相互耦合，可得其机械阻尼系统模型，如图2所示。根据图中所述模型的动态力平衡方程，在主机器人端，吸盘作用力f ₁为：

式中，f ₁为主机器人实际施加力；k _s为环境刚度系数；b _s为环境阻尼系数； x ₁为主机器人实际位置；x ₂为从机器人实际位置；m ₁为主机器人的吸盘与工件质量之和。

在从机器人端，吸盘作用力f ₂为：

式中，f ₂可等效为机器人腕部安装的力传感器测得的外力f _e；m ₂为从机器人的吸盘质量。

主机器人采用理想位置元控制策略，通过强化学习算法来学习期望位置，将实际位置反馈给期望位置，目标是在机器人与环境相互作用时产生一个最优力，使位置误差最小化。施加基于位置误差值的比例－微分(Proportion Differentiation，PD)控制律，输出为力修正量。对主机器人的位置控制律表示为：

式中，f _d为从机器人的期望作用力；x _d为主机器人的期望位置；e _x和

分别为主机器人的位置偏移量误差和速度误差；

为位置控制比例系数；

为位置控制微分系数。

当没有接触力时，主机器人实际位置x ₁跟随期望位置x _d。当机器人接触环境时，主机器人期望位置x _d由位置PD控制修改更新，主机器人实际位置跟随新的期望位置。

另一方面，基于环境刚度和阻尼模型，从机器人须实时跟踪主机器人的实时运动状态，由此采用适用于未知环境的阻尼PD控制策略，通过强化学习算法来学习期望作用力，即驱动从机器人接近期望参考点的最小力，通过强化学习方法可以获得所期望的力，该力是机器人接近其参考点所需的最小力。然后利用导纳控制产生期望参考位置，并维护从机器人的期望作用力和期望参考位置的关系。

考虑到机器人末端的速度和位置参量，采用阻尼PD控制，通过对比期望作用力与实际从机器人作用力的误差值，将力误差反馈信号转换为从机器人末端的速度修正量。对从机器人的阻尼控制律表示为：

式中，

为从机器人速度修正量；e _f为从机器人的力误差值；

为从机器人的力变化率误差值；

为力控制比例系数；

为力控制微分系数。

为了加快学习的收敛速度，采用资格迹(Eligibility Traces)对Q学习算法进行了修正，可为访问状态分配信用提供更好方法。它会随着时间而衰减，因此最近访问过的状态更有资格获得信用奖励，从而加快强化学习的收敛速度。

综上分析，可得到双机器人强化学习多元数据驱动模式框图，如图3所示，为双输入双输出系统。输入为：主机器人期望位置x _d、从机器人期望作用力f _d；输出为：主机器人实际位置x ₁，从机器人实际施加力f ₂。

主机器人采用理想位置元控制策略，通过强化学习算法来学习期望位置，将实际位置反馈给期望位置，目标是在机器人与环境相互作用时产生一个最优力，使位置误差最小化；从机器人基于主机器人位置偏差的力元控制策略，采用适用于未知环境的阻尼PD控制策略，通过强化学习算法来学习期望作用力，驱动从机器人接近期望参考点的最小力。然后利用导纳控制产生期望参考位置，并维护从机器人的期望作用力和期望参考位置的关系。也就是，主从机器人分别强化学习算法来学习期望位置和期望作用力，均采用比例微分控制率，对各自的微分系数(k _p)与比例系数(k _d)进行整定。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

一种基于强化学习的双机器人力/位多元数据驱动方法，其特征在于，包括如下步骤：

获得主机器人和从机器人的末端执行器在任务空间中的实际位置、实际速度和实际加速度；

利用主机器人和从机器人末端执行器在任务空间中的实际位置、实际速度和实际加速度，建立双机器人机械阻尼系统模型；

根据双机器人机械阻尼系统模型的动态力平衡方程，获得主机器人和从机器人的吸盘作用力，主机器人的吸盘作用力即为主机器人实际施加力，从机器人的吸盘作用力即为从机器人实际施加力；

主机器人采用理想位置元控制策略，通过强化学习算法来学习期望位置，根据主机器人实际施加力采用比例微分控制率，对微分系数与比例系数进行整定，将实际位置反馈给期望位置；当主机器人没有接触环境时，主机器人实际位置跟随期望位置；当主机器人接触环境时，主机器人期望位置由位置PD控制修改更新，主机器人实际位置跟随新的期望位置；

从机器人基于主机器人位置偏差的力元控制策略，采用适用于未知环境的阻尼PD控制策略，通过强化学习算法来学习期望作用力，通过对比期望作用力与从机器人实际施加力的误差值，将力误差反馈信号转换为从机器人末端的速度修正量；然后利用导纳控制产生期望参考位置，并维护从机器人的期望作用力和期望参考位置的关系。
根据权利要求1所述的基于强化学习的双机器人力/位多元数据驱动方法，其特征在于，获得主机器人和从机器人的末端执行器在任务空间中的实际位置、实际速度和实际加速度具体如下：

机器人末端执行器上，具有力传感器的n连杆机器人的关节空间动力学可写成：

式中，q、
分别为关节位置、速度和加速度；M(q)为对称正定惯性矩阵；
表示向心和科里奥利力矩；G(q)为重力转矩矢量；τ为驱动转矩矢量；f _e为力传感器测得的外力；f(q)为将外力矢量f _e映射到广义坐标的雅可比矩阵，满足：

式中，
分别是机器人末端执行器在任务空间中的实际速度和实际加速度，
为机器人末端执行器在任务空间中的实际位置x的一阶导数。
根据权利要求2所述的基于强化学习的双机器人力/位多元数据驱动方法，其特征在于，建立双机器人机械阻尼系统模型具体如下：

当机器人末端执行器接触环境时，可通过弹簧－阻尼模型进行建模：

式中，C _e、K _e分别是环境阻尼和刚度常数矩阵；x _e是环境的位置；当x≥x _e时，则机器人末端执行器与环境之间存在交互力；反之，当x<x _e时，不存在交互力；

理想工况下，两个机器人末端吸盘夹持工件时，机构间无任何相对移动，可视作从机器人刚体与夹持工件的主机器人刚体，在传感器的机械阻尼中相互耦合，可得双机器人机械阻尼系统模型。
根据权利要求1所述的基于强化学习的双机器人力/位多元数据驱动方法，其特征在于，根据双机器人机械阻尼系统模型的动态力平衡方程，获得主机器人的吸盘作用力具体如下：

根据双机器人机械阻尼系统模型的动态力平衡方程，在主机器人端，吸盘作用力f ₁为：

式中，f ₁为主机器人实际施加力；k _s为环境刚度系数；b _s为环境阻尼系数；x ₁为主机器人实际位置；x ₂为从机器人实际位置；
为主机器人实际速度，
为从机器人实际速度，
为主机器人实际加速度；m ₁为主机器人的吸盘与工件质量之和。
根据权利要求1所述的基于强化学习的双机器人力/位多元数据驱动方法，其特征在于，根据双机器人机械阻尼系统模型的动态力平衡方程，获得从机器人的吸盘作用力具体如下：

在从机器人端，吸盘作用力f ₂为：

式中，f ₂可等效为机器人腕部安装的力传感器测得的外力f _e；k _s为环境刚度系数；b _s为环境阻尼系数；x ₁为主机器人实际位置；x ₂为从机器人实际位置；
为主机器人实际速度，
为从机器人实际速度，
为从机器人实际加速度；m ₂为从机器人的吸盘质量。
根据权利要求1所述的基于强化学习的双机器人力/位多元数据驱动方法，其特征在于，主机器人将实际位置反馈给期望位置具体如下：

施加基于位置误差值的比例－微分控制律，输出为力修正量；对主机器人的位置控制律表示为：

式中，f ₁为主机器人实际施加力，f _d为从机器人的期望作用力；x _d为主机器人的期望位置；e _x和
分别为主机器人的位置偏移量误差和速度误差；
为位置控制比例系数；
为位置控制微分系数，x ₁为主机器人实际位置。
根据权利要求1所述的基于强化学习的双机器人力/位多元数据驱动方法，其特征在于，从机器人将力误差反馈信号转换为从机器人末端的速度修正量具体如下：

对从机器人的阻尼控制律表示为：

式中，
为从机器人速度修正量，即为从机器人实际速度；e _f为从机器人的力误差值；
为从机器人的力变化率误差值；k _pf为力控制比例系数；
为力控制微分系数；f _d为从机器人期望作用力；f ₂为从机器人实际施加力。