WO2022105635A1

WO2022105635A1 - 一种机器人运动技能学习方法及系统

Info

Publication number: WO2022105635A1
Application number: PCT/CN2021/129342
Authority: WO
Inventors: 程韬波; 苏泽荣; 徐智浩; 吴鸿敏; 李晓晓; 周雪峰
Original assignee: 广东省科学院智能制造研究所
Priority date: 2020-11-19
Filing date: 2021-11-08
Publication date: 2022-05-27
Also published as: CN112605973B; CN112605973A

Abstract

本发明公开了一种机器人运动技能学习方法及系统，其方法包括：获取人类拖动示教的数据样本集；基于主成分分析法对所述数据样本集进行降维处理；在隐空间内建立变量约束条件，并结合所述变量约束条件对降维处理后的数据样本集进行筛选，生成隐空间数据集；采用高斯混合模型与混合高斯回归法对所述隐空间数据集进行建模学习，输出机器人运动控制训练模型；基于递归神经网络对所述机器人运动控制训练模型进行预测，求解模型优化解，并将所述模型优化解转换为机器人实际控制量。在本发明实施例中，通过利用少量人类示教数据且同时兼顾机器人本体的固有约束可实现机器人运动技能的自主学习，有效地提高算法的泛化能力与编程效率。

Description

一种机器人运动技能学习方法及系统

技术领域

本发明涉及机器人与人工智能领域，尤其涉及一种机器人运动技能学习方法及系统。

背景技术

机器人运动技能可实现机器人对给定任务的运动规划与运动指令生成，是机器人智能化的基础。针对实现机器人在复杂环境与任务下的自主运动这一研究热点，如何将人类的操作技能赋予机器人成为关键所在。传统上通常采用离线编程或者示教式编程，通过对运动任务进行几何化描述以及结合机器人运动学模型与插值方法进行计算求解，但这类方法存在对复杂任务的适应性不强、任务描述困难、对同类型任务需要重复编程等缺点。

随着人工智能技术的兴起，相关技术人员提出以数据驱动的方式从人类操作数据中提取出人类操作特点，并通过模拟人类操作特点来实现机器人的运行生成。这种纯数据驱动的学习方法能够有效提高机器人的任务适应性与编程效率，但是在运行过程中为借鉴人类对复杂任务与环境的适应能力，存在以下不足：(1)人类示教数据有限，尤其当机器人位型不佳(如临近关节限幅、临近奇异点等)时缺乏有效的训练数据；(2)需要大量实验数据进行采集标注，使得所搭建的神经网络结构庞大，算法的硬件实现较为困难。

发明内容

本发明的目的在于克服现有技术的不足，本发明提供了一种机器人运动技能学习方法及系统，通过利用少量人类示教数据且同时兼顾机器人本体的固有约束可实现机器人运动技能的自主学习，有效地提高算法的泛化能力与编程效率。

为了解决上述问题，本发明提出了一种机器人运动技能学习方法，所述方法包括：

获取人类拖动示教的数据样本集；

基于主成分分析法对所述数据样本集进行降维处理；

在隐空间内建立变量约束条件，并结合所述变量约束条件对降维处理后的数据样本集进行筛选，生成隐空间数据集；

采用高斯混合模型与混合高斯回归法对所述隐空间数据集进行建模学习，输出机器人运动控制训练模型；

基于递归神经网络对所述机器人运动控制训练模型进行预测，求解模型优化解，并将所述模型优化解转换为机器人实际控制量，实现机器人运动技能的学习。

可选的，所述获取人类拖动示教的数据样本集包括：

基于人类对机器人所执行的若干次拖动示教，依次记录所述机器人在每一次拖动示教过程中的采样时间与采样数据，其中所述采样数据包括所述机器人的关节角矩阵与末端执行位置矩阵。

可选的，所述基于主成分分析法对所述数据样本集进行降维处理包括：

对所述数据样本集进行归一化处理，获取归一化数据集；

计算所述数据样本集的协方差矩阵，并计算所述协方差矩阵的特征值；

基于所述特征值确定降维处理所利用到的转换矩阵，并结合所述归一化数据集构建出降维数据集。

可选的，所述在隐空间内建立变量约束条件包括：

根据机器人的运动学性质，构建所述机器人的关节速度与末端速度之间的等式约束条件以及所述机器人关节角度的不等式约束条件，并结合所述转换矩阵分别将所述等式约束条件与所述不等式约束条件映射到隐空间内表示。

可选的，所述采用高斯混合模型与混合高斯回归法对所述隐空间数据集进行建模学习，输出机器人运动控制训练模型包括：

确定所述隐空间数据集中所包含的样本数量为K，并为每一组样本数据构建一个高斯混合模型；

以导入的隐空间时间信息为查询点，基于混合高斯回归法对K个高斯混合模型进行空间值估计与回归处理，输出机器人运动控制训练模型。

可选的，所述基于递归神经网络对所述机器人运动控制训练模型进行预测，求解模型优化解，并将所述模型优化解转换为机器人实际控制量，实现机器人运动技能的学习包括：

以学习评价指标为判定条件，构建递归神经网络对所述机器人运动控制训练模型进行迭代更新与最优化问题求解，获取模型优化解；

将所述模型优化解从隐空间映射到初始采样空间，获取所述机器人的实际控制量，实现机器人运动技能的学习。

另外，本发明实施例还提供了一种机器人运动技能学习系统，所述系统包括：

获取模块，用于获取人类拖动示教的数据样本集；

处理模块，用于基于主成分分析法对所述数据样本集进行降维处理；

转换模块，用于在隐空间内建立变量约束条件，并结合所述变量约束条件对降维处理后的数据样本集进行筛选，生成隐空间数据集；

学习模块，用于采用高斯混合模型与混合高斯回归法对所述隐空间数据集进行建模学习，输出机器人运动控制训练模型；

求解模块，用于基于递归神经网络对所述机器人运动控制训练模型进行预测，求解模型优化解，并将所述模型优化解转换为机器人实际控制量，实现机器人运动技能的学习。

可选的，所述处理模块用于对所述数据样本集进行归一化处理，获取归一化数据集；计算所述数据样本集的协方差矩阵，并计算所述协方差矩阵的特征值；基于所述特征值确定降维处理所利用到的转换矩阵，并结合所述归一化数据集构建出降维数据集。

可选的，所述学习模块用于确定所述隐空间数据集中所包含的样本数量为K，并为每一组样本数据构建一个高斯混合模型；以导入的隐空间时间信息为查询点，基于混合高斯回归法对K个高斯混合模型进行空间值估计与回归处理，输出机器人运动控制训练模型。

可选的，所述求解模块用于以学习评价指标为判定条件，构建递归神经网络对所述机器人运动控制训练模型进行迭代更新与最优化问题求解，获取模型优化解；将所述模型优化解从隐空间映射到初始采样空间，获取所述机器人的实际控制量，实现机器人运动技能的学习。

在本发明实施例中，基于少量人类示教数据以及机器人系统模型的先验知识，通过增加考虑机器人的物理约束特征与示教数据的等式性质特征，可实现机器人运动技能的自主学习，同时兼顾人类对复杂任务与环境的高适应能力，能够有效地提高算法的泛化能力与编程效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见的，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是本发明实施例中的机器人运动技能学习方法的流程示意图；

图2是本发明实施例中的机器人运动技能学习系统的结构组成示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

实施例

请参阅图1，图1示出了本发明实施例中的机器人运动技能学习方法的流程示意图。

如图1所示，一种机器人运动技能学习方法，所述方法包括如下步骤：

S101、获取人类拖动示教的数据样本集；

本发明实施过程包括：基于人类对机器人所执行的若干次拖动示教，依次记录所述机器人在每一次拖动示教过程中的采样时间X _t,i,j与采样数据 X _s,i,j，其中所述采样数据X _s,i,j包括所述机器人的关节角矩阵θ _s,i,j与末端执行位置矩阵x _s,i,j，最终可获取到数据样本集为X _s＝{θ _s,x _s}。

需要说明的是，本发明设定人类对所述机器人执行n(i＝1,…,n)次拖动示教，且每一次拖动示教可采集到T(j＝1,…,T)个样本数据，此时所述数据样本集X _s中包含有N＝n×T组样本数据。

S102、基于主成分分析法对所述数据样本集进行降维处理；

本发明实施过程包括：

(1)对所述数据样本集进行归一化处理，获取归一化数据集；

具体的，计算所述数据样本集X _s中的每一类数据样本的均值，以此形成所述数据样本集X _s所对应的均值矩阵

此时可得到归一化数据集为

(2)计算所述数据样本集X _s的协方差矩阵为

并利用现有的正交三角分解法或者其他典型算法计算出所述协方差矩阵Σ的特征值为λ _i(i＝1,2,…,d)，其中d为所述数据样本集X _s的信息维度，同时获取特征值λ _i所对应的特征向量为v _i；

(3)基于所述特征值λ _i确定降维处理所利用到的转换矩阵，并结合所述归一化数据集构建出降维数据集。

具体的，首先由技术人员设定降维的阈值为0.98，此时可根据不等式

确定所述数据样本集X _s在降维处理后的隐空间维度D，即说明隐空间内包含有D个特征向量，并基于该隐空间维度D构建出转换矩阵为A＝[v ₁,…,v _D]∈{A ^θ,A ^x,A ^y}；其次将所述数据样本集X _s转换到该隐空间内表示为：

其中，A ^θ、A ^x、A ^y均为转换矩阵A的拆分形式，A ^x为最左侧几列向量所组成的矩阵，A ^y为最右侧几列向量所组成的矩阵，A ^θ为中间几列向量所组成的矩阵，具体列数将根据实际降维后特征值的数量所决定。

S103、在隐空间内建立变量约束条件，并结合所述变量约束条件对降维处理后的数据样本集进行筛选，生成隐空间数据集；

本发明实施过程包括：

(1)提取所述机器人的速度信息为：

其中，X _s,i,j为第i次拖动示教所采集到的第j个样本数据，ξ _s,i,j为样本数据X _s,i,j映射到该隐空间内的对应样本数据，

为X _s,i,j的时间导数；

(2)根据机器人的运动学性质，构建所述机器人的关节速度与末端速度之间的等式约束条件为：

结合所述转换矩阵A将上述等式约束条件映射到隐空间内表示为：

其中，

为所述机器人的末端速度，

为映射到该隐空间内的末端速度，

为所述机器人的关节角速度，

为映射到该隐空间内的关节角速度，

为映射到该隐空间内的关节角，

为所述数据样本集中的所有关节角数据的均值，且各个参数可从上述速度信息中直接获取，J(x)为所述机器人的雅克比矩阵；

(3)构建所述机器人关节角度的不等式约束条件为：

结合所述转换矩阵A将上述不等式约束条件映射到隐空间内表示为：

其中，

为所述机器人的关节角下限，

为所述机器人的关节角上限，

为映射到该隐空间内的关节角速度下限，

为映射到该隐空间内的关节角速度上限，k为正常数；

(4)根据上述所规定的两个约束条件，对降维处理后的数据样本集(即所述降维数据集ξ _s)进行内部筛选并剔除出异常数据，形成隐空间数据集。

S104、采用高斯混合模型与混合高斯回归法对所述隐空间数据集进行建模学习，输出机器人运动控制训练模型；

本发明实施过程包括：

(1)确定所述隐空间数据集中所包含的样本数量为K，并为每一组样本数据构建一个高斯混合模型为：

p(k)＝π _k

其中，ξ _j为映射到该隐空间内的示教信息，且ξ _j＝{ξ _t,ξ _s}＝{X _t,ξ _s}，ξ _i∈ξ _s，p(k)为先验值，p(ξ _i|k)为其对应的概率密度函数，π _k、u _k、Σ _k均为第k个高斯混合模型的参数，可采用极大似然估计法求解而来；

需要说明的是，对于每一个高斯混合模型，均应区分开时间分量和空间变量，即第k个高斯混合模型的均值矩阵u _k应表示为：u _k＝{u _t,k,u _s,k}，以及协方差矩阵Σ _k应表示为：

(2)以导入的隐空间时间信息为查询点，基于混合高斯回归法对K个高斯混合模型进行空间值估计与回归处理，输出机器人运动控制训练模型。

具体的，首先在给定隐空间时间信息ξ _t的条件下，采用混合高斯回归法可估计第k个高斯混合模型的条件期望

以及条件协方差

分别为：

其次可通过结合K个高斯混合模型，搭建机器人运动控制训练模型为：

其中，β _k为第k个高斯混合模型对隐空间时间信息ξ _t的贡献，p(ξ _t|k)为第k个高斯混合模型的概率密度分布，p(ξ _t|i)为特定第i个高斯混合模型的概率密度分布。

S105、基于递归神经网络对所述机器人运动控制训练模型进行预测，求解模型优化解，并将所述模型优化解转换为机器人实际控制量，实现机器人运动技能的学习。

本发明实施过程包括：

(1)以学习评价指标为判定条件，构建递归神经网络对所述机器人运动控制训练模型进行迭代更新与最优化问题求解，获取模型优化解；

具体的，首先定义学习评价指标H为：

其次，结合所述学习评价指标H，并利用所述机器人运动控制训练模型构建相应的递归神经网络为：

再对上述递归神经网络进行迭代更新与最优化问题求解，获取模型优化解为：

其中，ε为正常数，P _Ω为投影算子，且其下限为

其上限为

c ₁、c ₂、W ^θ、W ^x、

均为辅助变量，λ为递归神经网络的对偶变量，

为模型最优解

的变化率；

(2)将所述模型优化解

从隐空间映射到初始采样空间，获取所述机器人的实际控制量为：

且以该实际控制量操作所述机器人，实现所述机器人运动技能的学习。

实施例

请参阅图2，图2示出了本发明实施例中的机器人运动技能学习系统的结构组成示意图。

如图2所示，一种机器人运动技能学习系统，所述系统包括如下：

获取模块201，用于获取人类拖动示教的数据样本集；

本发明实施过程包括：基于人类对机器人所执行的若干次拖动示教，依次记录所述机器人在每一次拖动示教过程中的采样时间X _t,i,j与采样数据X _s,i,j，其中所述采样数据X _s,i,j包括所述机器人的关节角矩阵θ _s,i,j与末端执行位置矩阵x _s,i,j，最终可获取到数据样本集为X _s＝{θ _s,x _s}。

处理模块202，用于基于主成分分析法对所述数据样本集进行降维处理；

本发明实施过程包括：

(1)对所述数据样本集进行归一化处理，获取归一化数据集；

此时可得到归一化数据集为

(2)计算所述数据样本集X _s的协方差矩阵为

转换模块203，用于在隐空间内建立变量约束条件，并结合所述变量约束条件对降维处理后的数据样本集进行筛选，生成隐空间数据集；

本发明实施过程包括：

(1)提取所述机器人的速度信息为：

为X _s,i,j的时间导数；

其中，

为所述机器人的末端速度，

为映射到该隐空间内的末端速度，

为所述机器人的关节角速度，

为映射到该隐空间内的关节角速度，

为映射到该隐空间内的关节角，

(3)构建所述机器人关节角度的不等式约束条件为：

其中，

为所述机器人的关节角下限，

为所述机器人的关节角上限，

为映射到该隐空间内的关节角速度下限，

为映射到该隐空间内的关节角速度上限，k为正常数；

学习模块204，用于采用高斯混合模型与混合高斯回归法对所述隐空间数据集进行建模学习，输出机器人运动控制训练模型；

本发明实施过程包括：

p(k)＝π _k

以及条件协方差

分别为：

其中，ξ _j为映射到该隐空间内的示教信息，且ξ _j＝{ξ _t,ξ _s}＝{X _t,ξ _s}， ξ _i∈ξ _s，p(k)为先验值，p(ξ _i|k)为其对应的概率密度函数，π _k、u _k、Σ _k均为第k个高斯混合模型的参数，可采用极大似然估计法求解而来；

求解模块205，用于基于递归神经网络对所述机器人运动控制训练模型进行预测，求解模型优化解，并将所述模型优化解转换为机器人实际控制量，实现机器人运动技能的学习。

本发明实施过程包括：

具体的，首先定义学习评价指标H为：

其中，ε为正常数，P _Ω为投影算子，且其下限为

其上限为

c ₁、c ₂、W ^θ、W ^x、

均为辅助变量，λ为递归神经网络的对偶变量，

为模型最优解

的变化率；

(2)将所述模型优化解

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可存储于一计算机可读存储介质中，存储介质可包括：只读存储器(ROM，Read Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁盘或光盘等。

以上对本发明实施例所提供的一种机器人运动技能学习方法及系统进行了详细介绍，本文中采用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

一种机器人运动技能学习方法，其特征在于，所述方法包括：

获取人类拖动示教的数据样本集；

基于主成分分析法对所述数据样本集进行降维处理；

在隐空间内建立变量约束条件，并结合所述变量约束条件对降维处理后的数据样本集进行筛选，生成隐空间数据集；

采用高斯混合模型与混合高斯回归法对所述隐空间数据集进行建模学习，输出机器人运动控制训练模型；

基于递归神经网络对所述机器人运动控制训练模型进行预测，求解模型优化解，并将所述模型优化解转换为机器人实际控制量，实现机器人运动技能的学习。
根据权利要求1所述的机器人运动技能学习方法，其特征在于，所述获取人类拖动示教的数据样本集包括：

基于人类对机器人所执行的若干次拖动示教，依次记录所述机器人在每一次拖动示教过程中的采样时间与采样数据，其中所述采样数据包括所述机器人的关节角矩阵与末端执行位置矩阵。
根据权利要求2所述的机器人运动技能学习方法，其特征在于，所述基于主成分分析法对所述数据样本集进行降维处理包括：

对所述数据样本集进行归一化处理，获取归一化数据集；

计算所述数据样本集的协方差矩阵，并计算所述协方差矩阵的特征值；

基于所述特征值确定降维处理所利用到的转换矩阵，并结合所述归一化数据集构建出降维数据集。
根据权利要求3所述的机器人运动技能学习方法，其特征在于，所述在隐空间内建立变量约束条件包括：

根据机器人的运动学性质，构建所述机器人的关节速度与末端速度之间的等式约束条件以及所述机器人关节角度的不等式约束条件，并结合所述转换矩阵分别将所述等式约束条件与所述不等式约束条件映射到隐空间内表示。
根据权利要求4所述的机器人运动技能学习方法，其特征在于，所述采用高斯混合模型与混合高斯回归法对所述隐空间数据集进行建模学习，输出机器人运动控制训练模型包括：

确定所述隐空间数据集中所包含的样本数量为K，并为每一组样本数据构建一个高斯混合模型；

以导入的隐空间时间信息为查询点，基于混合高斯回归法对K个高斯混合模型进行回归处理与空间值估计，输出机器人运动控制训练模型。
根据权利要求5所述的机器人运动技能学习方法，其特征在于，所述基于递归神经网络对所述机器人运动控制训练模型进行预测，求解模型优化解，并将所述模型优化解转换为机器人实际控制量，实现机器人运动技能的学习包括：

以学习评价指标为判定条件，构建递归神经网络对所述机器人运动控制训练模型进行迭代更新与最优化问题求解，获取模型优化解；

将所述模型优化解从隐空间映射到初始采样空间，获取所述机器人的实际控制量，实现机器人运动技能的学习。
一种机器人运动技能学习系统，其特征在于，所述系统包括：

获取模块，用于获取人类拖动示教的数据样本集；

处理模块，用于基于主成分分析法对所述数据样本集进行降维处理；

转换模块，用于在隐空间内建立变量约束条件，并结合所述变量约束条件对降维处理后的数据样本集进行筛选，生成隐空间数据集；

学习模块，用于采用高斯混合模型与混合高斯回归法对所述隐空间数据集进行建模学习，输出机器人运动控制训练模型；

求解模块，用于基于递归神经网络对所述机器人运动控制训练模型进行预测，求解模型优化解，并将所述模型优化解转换为机器人实际控制量，实现机器人运动技能的学习。
根据权利要求7所述的机器人运动技能学习系统，其特征在于，所述处理模块用于对所述数据样本集进行归一化处理，获取归一化数据集；计算所述数据样本集的协方差矩阵，并计算所述协方差矩阵的特征值；基于所述特征值确定降维处理所利用到的转换矩阵，并结合所述归一化数据集构建出降维数据集。
根据权利要求7所述的机器人运动技能学习系统，其特征在于，所述学习模块用于确定所述隐空间数据集中所包含的样本数量为K，并为每一组样本数据构建一个高斯混合模型；以导入的隐空间时间信息为查询点，基于混合高斯回归法对K个高斯混合模型进行回归处理与空间值估计，输出机器人运动控制训练模型。
根据权利要求7所述的机器人运动技能学习系统，其特征在于，所述求解模块用于以学习评价指标为判定条件，构建递归神经网络对所述机器人运动控制训练模型进行迭代更新与最优化问题求解，获取模型优化解；将所述模型优化解从隐空间映射到初始采样空间，获取所述机器人的实际控制量，实现机器人运动技能的学习。