WO2020211447A1

WO2020211447A1 - 基于手部速度与轨迹分布的跟随机器人手势轨迹识别方法

Info

Publication number: WO2020211447A1
Application number: PCT/CN2019/128938
Authority: WO
Inventors: 赵昕玥; 高淦; 何再兴; 张博伦; 张树有; 谭建荣
Original assignee: 赵昕玥
Priority date: 2019-04-17
Filing date: 2019-12-27
Publication date: 2020-10-22
Also published as: EP3951643A1; US20220083770A1; CN110232308A; EP3951643B1; EP3951643A4; CN110232308B; US11847803B2

Abstract

本发明公开了一种基于手部速度与轨迹分布的跟随机器人手势轨迹识别方法。kinect相机朝向操作者采样拍摄，获得手部投影平面数据；对手部投影平面数据进行滑动平均平滑处理，建立速度向量，处理速度向量获得手部运动描述子；建立手部运动区域，按采样拍摄的时序遍历所有帧的手部三维位置，将每帧的手部三维位置所在的网格赋值，再计算所有被赋值网格的质心位置；建立质心指向向量，处理质心指向向量得到手部轨迹形状描述子；综合两个夹角余弦值处理获得运动描述子、轨迹形状描述子与标准描述子的共同相似度，取共同相似度最大为结果。本发明能准确识别获得人手势的类型，对手势轨迹的平移、缩放、旋转、轨迹的时序不敏感，灵活性高，节省时间和精力。

Description

基于手部速度与轨迹分布的跟随机器人手势轨迹识别方法

技术领域

本发明涉及姿态识别领域，具体涉及一种基于手部速度与轨迹分布直方图的跟随机器人手势轨迹识别方法。

背景技术

跟随机器人在日常生活中有广泛的应用背景，可协助旅客运送行李，或购物时帮助特定顾客。但是，仅具有追踪功能的跟随机器人无法在实际工作环境中胜任。追踪对象的确定，切换；追踪任务的结束；追踪过程中接收追踪对象的指令等都要求跟随机器人具有人机交互的功能。遥控交互的方式受限于一定物理器材，使用起来不方便；语音交互由于跟随机器人工作环境嘈杂，追踪人与跟随机器人又有一定距离，外部噪声的干扰太大，也无法应用；而手势作为一种自然的人机交互方式，因其具有不依赖外部媒介，表意直观，可远距离传递信息的特点，适合用作跟随机器人的人机交互方式。

但是，不同人甚至同一个人在不同时间做同一手势，轨迹都有较大的不同，这种不确定性要求跟随机器人的手势交互技术可以对手势轨迹作出区分。近年来，有众多学者对手势轨迹识别都有所研究，Beh等人提出用轨迹相邻两点角度变化是否超过阈值对手势轨迹分段，使用基于Von-Mise分布的HMM分类器对轨迹建模，对字母数字手势轨迹数据集最佳识别率达到97.11％。Jingren Tang等人提出结构化的动态时间规划方法，首先利用角度阈值分割连续轨迹，使用滑动窗提取分割点处的位置和速度特征，使用SVM分类器检测速度降低以验证分割的正确性，再用加权的动态时间规划方法识别轨迹。Mahmoud等计算手势轨迹的前后点之间角度并离散，建立姿态和非姿态轨迹的HMM模型，在连续轨迹上做滑动窗匹配，如果某姿态的概率与非姿态概率之差负为正则有意义姿态轨迹起始点检出，差值正变负代表姿态结束点检出，最后识别开始点和结束点之间的轨迹含义。

以上手势分类的方法需要针对单一动作建立包含大量数据的训练集，先期工作量大；对手势完成的时间序列敏感，导致必须按照设定好的顺序完成手势才能与机器人交互，缺乏灵活性；且计算消耗大，不利于快速性，对硬件有较高的要求。

发明内容

针对以上问题，为了解决背景技术中存在的问题，本发明提出一种基于手部速度及轨迹分布的跟随机器人手势轨迹识别方法。

本发明利用kinect采样手部运动轨迹并平滑；统计轨迹的速度方向和幅值信息，形成手部运动速度描述符；统计轨迹点相对轨迹重心分布的方向和幅值信息，形成手部轨迹形状描述子；手势的标准描述通过轨迹形状的表达式或者示范模板轨迹的方法给定；计算速度和形状描述符与标准速度与形状描述符的余弦相似度，加权后得到综合相似度，作为手势类型的判别依据。

如图1所示，本发明所采用的技术方案是包括以下步骤：

步骤1：kinect相机朝向操作者采样拍摄获得骨骼关节的三维位置信息，根据骨骼关节的三维位置信息以及操作者和kinect相机的相对位置建立投影平面，kinect相机朝向操作者拍摄获得人手部的手部三维位置，从操作者进行开始标志手势到进行结束标志手势之间的过程中，记录手部三维位置的运动数据，将手部三维位置的运动数据投影到投影平面，获得手部投影平面数据；

本发明在跟随机器人上安装有kinect相机和上位机，底部安装由四个轮子，通过kinect相机拍摄操作者的手势连续图像发送到上位机中进行处理判断，识别获得手势轨迹。

所述的手部三维位置为人手部中心点的三维位置。

步骤2：对手部投影平面数据进行滑动平均平滑处理，相邻的两个手部三维位置用一个从上一帧手部三维位置出发指向下一帧手部三维位置的向量连接，该向量作为速度向量，对速度向量的角度按邻域方法分为n类，对速度向量的幅值按照大小分为m类，将每个速度向量表示如下：

(q,j),q≤n,j≤m (1)

其中，q表示速度向量的角度按邻域的方法分类的类型结果，j表示速度向量的幅值按大小分类的类型结果；

所述步骤2中，对速度向量的角度按邻域方法分类是指：将速度向量的起点平移到投影平面的坐标原点，将投影平面上0到360度之间的速度向量的所有角度区间等分成n个区域，速度向量终点落在第q个区域，则速度向量的角度按邻域方法的分类结果为q。

所述步骤2中，对速度向量的幅值按照大小分类是指：将速度向量的幅值分成m个区间，速度向量幅值落在第j个区间，则速度向量的幅值按照大小的分类结果为j。

步骤3：处理各个速度向量的角度和幅值类别得到手部运动向量，将手部运动向量中各分量做循环移位，获得手部运动描述子；通过循环移位使最大分量位于向量首位，使手部运动描述子具有旋转不变性。

步骤4：手部投影平面数据中在手部周围建立手部运动区域，将手部运动区域网格化，按采样拍摄的时序遍历所有帧的手部三维位置，将每帧的手部三维位置所在的网格赋值，再计算所有被赋值网格的质心位置；

步骤5：对从质心位置出发指向每个被赋值网格的位置作向量作为质心指向向量，然后按照步骤2中的相同方式作角度和幅值分类，分类方法与步骤2中对速度向量分类的方法相同，即对质心指向向量的角度按邻域方法分为多类，对质心指向向量的幅值按照大小分为多类；接着，处理各个质心指向向量的角度和幅值类别得到手部形状向量，将手部形状向量中各分量做循环移位得到手部轨迹形状描述子；使最大分量位于向量的首位。

步骤6：计算手部运动描述子和标准手部运动描述子的夹角余弦值，计算手部轨迹形状描述子和标准手部轨迹形状描述子的夹角余弦值，综合两个夹角余弦值处理获得运动描述子、轨迹形状描述子与标准描述子的共同相似度，取共同相似度最大的标准手势作为手势识别的结果。

所述标准手部运动描述子和标准手部轨迹形状描述子均为标准描述子，标准描述子获得的方法如下：通过kinect采集数据获得标准的模板手势，而后通过上述步骤处理获得标准手部运动描述子和标准手部轨迹形状描述子。

所述的步骤2中，对投影后的手部三维位置的运动数据进行滑动平均平滑处理，具体采用以下公式进行处理为：

P _i'＝P _i，i＝0,N

其中，P _i表示第i个手部三维位置，P _i＝(x _i,y _i)，x _i,y _i分别表示第i个手部三维位置在投影平面上的横纵坐标；P _i'表示滑动平均平滑处理后的第i个手部三维位置，P _i'＝(x _i',y _i')，x _i',y _i'分别表示滑动平均平滑处理后的第i个手部三维位置在投影平面上的横纵坐标，i≤N，N表示采样拍摄的手部三维位置的总数。

所述步骤3中，处理各个速度向量的角度和幅值类别得到手部运动向量，是指：将角度分类结果相同的速度向量的幅值分类结果相加，加和结果作为手部运动向量的第i个序数分量，i与角度分类结果相同。

所述步骤4的网格赋值具体是针对每一帧的手部三维位置作为当前帧进行处理：

4.1、对当前帧的手部三维位置与进行检查，如果两帧的手部三维位置不在同一网格内，且前一帧的手部三维位置不在当前帧的手部三维位置所在网格的八邻域网格内，作一条连线段连接两帧的手部三维位置，将连线段经过的网格赋值，具体为：

4.1.1、计算两帧的手部三维位置之间连线段在投影平面上的斜率，获得连线段的坐标公式y＝kx+b，并且将前一帧手部三维位置所在网格和当前帧手部三维位置所在网格均进行赋值；

4.1.2、首先从前一帧手部三维位置所在网格列出发，取向靠近当前帧手部三维位置所在网格方向相邻的一列网格作为第一网格列，从前一帧手部三维位置所在网格行开始向靠近当前帧手部三维位置所在网格方向将第一网格列中的H个网格进行赋值，H取为连线段斜率绝对值四舍五入后的整数值；

4.1.3、然后再从第一网格列出发，取向靠近当前帧手部三维位置所在网格方向相邻的一列网格作为下一网格列，从上述步骤赋值后最靠近当前帧手部三维位置所在网格的网格所在网格行开始向靠近当前帧手部三维位置所在网格方向将下一网格列中的H’个网格进行赋值，H’的取值为：将上述步骤赋值后最靠近当前帧手部三维位置所在网格的网格列坐标带入连线段的坐标公式获得纵坐标，若行坐标相比纵坐标更接近当前帧手部三维位置所在网格，则H’取为小于连线段斜率绝对值的最大整数值；若纵坐标相比行坐标更接近当前帧手部三维位置所在网格，则H’取为大于连线段斜率绝对值的最小整数值。

4.1.4、不断重复上述步骤4.1.3处理直到赋值网格到达当前帧手部三维位置所在网格；

4.2、由所有被赋值网格构成了手势中心的运动轨迹，具体实施中赋值是作为标记添加，再计算所有被赋值网格的质心位置，质心位置可以为小数。

所述步骤5中的处理各个质心指向向量的角度和幅值类别得到手部形状向量的方式与步骤3中的处理各个速度向量的角度和幅值类别得到手部运动向量的方式相同，即将角度分类结果相同的质心指向向量的幅值分类结果相加，加和结果作为手部形状向量的第i个序数分量，i与角度分类结果相同。

所述步骤6中，综合运动描述子和轨迹形状描述子与标准描述子的相似度的计算方法是：

S ₀＝ω ₁S ₁+ω ₂S ₂

式中，S ₁表示运动描述子与标准描述子的相似度，S ₂表示轨迹形状描述子与标准描述子的相似度，S ₀表示运动描述子、轨迹形状描述子与标准描述子的共同相似度，ω ₁表示运动描述子与标准描述子的相似度在运动描述子、轨迹形状描述子与标准描述子的共同相似度中所占的权重，ω ₂表示轨迹形状描述子与标准描述子的相似度在运动描述子、轨迹形状描述子与标准描述子的共同相似度中所占的权重。

本发明的有益效果是：

本发明对kinect相机采集获得的数据进行处理，能从中准确识别获得人手势的类型，对手势轨迹的平移、缩放、旋转、轨迹的时序不敏感，灵活性高。

本发明不需要大量样本的训练，节省时间和精力。

本发明识别速度快，资源消耗少。

附图说明

图1是本发明所述手势轨迹识别的流程图；

图2是截取的开始与结束标志之间的手部运动位置图；

图3是对手部运动位置滑动平滑滤波后的效果图；

图4是速度向量角度和幅值在极坐标图下进行分类的效果图；

图5是手部运动描述子示意图；

图6是手部三维位置所在的网格赋值示意图；

图7是手部轨迹形状描述子示意图。

具体实施方式

下面结合图和实例对本发明进行进一步描述。

本发明实施例及其实施过程如下：

步骤1：kinect相机朝向操作者采样拍摄获得骨骼关节的三维位置信息，根据骨骼关节的三维位置信息以及操作者和kinect相机的相对位置建立投影平面，kinect相机朝向操作者拍摄获得人手部的手部三维位置，从操作者进行开始标志手势到进行结束标志手势之间的过程中，记录手部三维位置的运动数据，将手部三维位置的运动数据投影到投影平面，获得手部投影平面数据。将步骤一获得的手部投影平面数据用‘*’标记，然后按时序依次用直线相连，如图2。

步骤2：对手部投影平面数据进行滑动平均平滑处理，处理后的效果如图3所示。相邻的两个手部三维位置用一个从上一帧手部三维位置出发指向下一帧手部三维位置的向量连接，该向量作为速度向量，对速度向量的角度按邻域方法分为n类，对速度向量的幅值按照大小分为m类，将每个速度向量表示如下：

(q,j),q≤n,j≤m (1)

其中，q表示速度向量的角度按邻域的方法分类的类型结果，j表示速度向量的幅值按大小分类的类型结果。

本实施例将速度向量从-22.5度起每45度作为一类，在0到360度之间共分8类；对于幅值每0.01米分为一类，共分m ₀类。m ₀取决于最大速度向量的幅值。对角度分类的判别条件如表一所示；对幅值分类的判别条件如表二所示。把所有速度向量的起点移动到极坐标图原点，如图4所示。

表1

x的条件	y的条件	y/x的条件	类别
x>0		-0.414≤y/x<0.414	0
x>0	y>0	0.414≤y/x<2.414	1
	y>0	2.414≤y/x\|\|y/x<-2.414	2
x<0	y>0	-2.414≤y/x<-0.414	3
x<0		-0.414≤y/x<0.414	4
x<0	y<0	0.414≤y/x<2.414	5
	y<0	2.414≤y/x\|\|y/x<-2.414	6
x>0	y<0	-2.414≤y/x<-0.414	7

表2

步骤3：处理各个速度向量的角度和幅值类别得到手部运动向量，将手部运动向量中各分量做循环移位，获得手部运动描述子。经过以上步骤获得的手部运动向量为：[116；74；73；108；71；79；102；59]；手部运动描述子为：[116；74；73；108；71；79；102；59]；手部运动描述子对应的直方图如图5所示。

步骤4：手部投影平面数据中在手部周围建立手部运动区域，将手部运动区域网格化，按采样拍摄的时序遍历所有帧的手部三维位置，将每帧的手部三维位置所在的网格赋值，再计算所有被赋值网格的质心位置；以轨迹上两点(21，4)，(25，10)为例说明赋值过程，如表3和图6所示。

计算斜率

大于斜率绝对值的最小整数为2，小于斜率绝对值的最大整数值为1。直线方程y＝1.667x-31。

将赋值后最靠近当前帧手部三维位置所在网格的网格列称为上一网格列；将从上一网格列出发，靠近当前帧手部三维位置所在网格方向相邻的一列网格称为当前网格列。

表3：

所有点的质心计算结果为：(15.35，25.75)。

步骤5：对从质心位置出发指向每个被赋值网格的位置作向量作为质心指向向量，然后按照步骤2中的相同方式作角度和幅值分类，处理各个质心指向向量的角度和幅值类别得到手部形状向量，将手部形状向量中各分量做循环移位；经过以上步骤获得的手部形状向量为：[45；137；162；50；168；136；90；136]；手部轨迹形状描述子为：[168；136；90；136；45；137；162；50]；手部轨迹形状描述子对应的直方图如图6所示。

本实施例中标准手部运动描述子获得的方法如下：给定轨迹形状的表达式，按一定密度在解析式上取点，对取得的点按照步骤1-5所述方法得到标准手部运动描述子和标准手部轨迹形状描述子。本次通过表达式x ²+y ²＝1采集得到的对于圆形的标准手部运动描述子为：[1；1；1；1；1；1；1；1]；标准手部轨迹形状描述子为：[1；1；1；1；1；1；1；1]。手部运动描述子和标准手部运动描述子的夹角余弦值为：0.9755；手部轨迹形状描述子和标准手部轨迹形状描述子的夹角余弦值为：0.9320。

具体实施中，ω ₁＝0.5,ω ₂＝0.5。运动描述子、轨迹形状描述子与标准描述子的共同相似度：0.9538。

将步骤1-5得到的运动描述子、轨迹形状描述子分别与其他标准手势描述子对比相似度，选取相似度最大的作为手势轨迹识别的结果。表4是将手势描述子与对于直线和S形曲线的标准手势描述子对比结果。

表4

手势类型	圆形	直线	S形曲线
相似度	0.9538	0.1812	0.4733

得到轨迹识别结果是圆形。

由上述实施可见，本发明对kinect相机采集获得的数据进行处理，在不需要大量样本的训练情况下能从中准确识别获得人手势的类型，对手势轨迹的平移、缩放、旋转、轨迹的时序不敏感，灵活性高，非常节省时间和精力，识别速度快，资源消耗少。

Claims

一种基于手部速度与轨迹分布的跟随机器人手势轨迹识别方法，其特征在于，包括以下步骤：

步骤1：kinect相机朝向操作者采样拍摄获得骨骼关节的三维位置信息，根据骨骼关节的三维位置信息以及操作者和kinect相机的相对位置建立投影平面，kinect相机朝向操作者拍摄获得人手部的手部三维位置，从操作者进行开始标志手势到进行结束标志手势之间的过程中，记录手部三维位置的运动数据，将手部三维位置的运动数据投影到投影平面，获得手部投影平面数据；

步骤2：对手部投影平面数据进行滑动平均平滑处理，相邻的两个手部三维位置用一个从上一帧手部三维位置出发指向下一帧手部三维位置的向量连接，该向量作为速度向量，对速度向量的角度按邻域方法分为n类，对速度向量的幅值按照大小分为m类，将每个速度向量表示如下：

(q,j),q≤n,j≤m (1)

其中，q表示速度向量的角度按邻域的方法分类的类型结果，j表示速度向量的幅值按大小分类的类型结果；

步骤3：处理各个速度向量的角度和幅值类别得到手部运动向量，将手部运动向量中各分量做循环移位，获得手部运动描述子；

步骤4：手部投影平面数据中在手部周围建立手部运动区域，将手部运动区域网格化，按采样拍摄的时序遍历所有帧的手部三维位置，将每帧的手部三维位置所在的网格赋值，再计算所有被赋值网格的质心位置；

步骤5：对从质心位置出发指向每个被赋值网格的位置作向量作为质心指向向量，然后按照步骤2中的相同方式作角度和幅值分类；接着，处理各个质心指向向量的角度和幅值类别得到手部形状向量，将手部形状向量中各分量做循环移位得到手部轨迹形状描述子；

步骤6：计算手部运动描述子和标准手部运动描述子的夹角余弦值，计算手部轨迹形状描述子和标准手部轨迹形状描述子的夹角余弦值，综合两个夹角余弦值处理获得运动描述子、轨迹形状描述子与标准描述子的共同相似度，取共同相似度最大的标准手势作为手势识别的结果。
根据权利要求1所述的一种基于手部速度与轨迹分布的跟随机器人手势轨迹识别方法，其特征在于：所述的步骤2中，对投影后的手部三维位置的运动数据进行滑动平均平滑处理，具体采用以下公式进行处理为：

P _i'＝P _i，i＝0,N

其中，P _i表示第i个手部三维位置，P _i＝(x _i,y _i)，x _i,y _i分别表示第i个手部三维位置在投影平面上的横纵坐标；P _i'表示滑动平均平滑处理后的第i个手部三维位置，P _i'＝(x _i',y _i')，x _i',y _i'分别表示滑动平均平滑处理后的第i个手部三维位置在投影平面上的横纵坐标，i≤N，N表示采样拍摄的手部三维位置的总数。
根据权利要求1所述的一种基于手部速度与轨迹分布的跟随机器人手势轨迹识别方法，其特征在于：所述步骤3中，处理各个速度向量的角度和幅值类别得到手部运动向量，是指：将角度分类结果相同的速度向量的幅值分类结果相加，加和结果作为手部运动向量的第i个序数分量。
根据权利要求1所述的一种基于手部速度与轨迹分布的跟随机器人手势轨迹识别方法，其特征在于：所述步骤4的网格赋值具体是针对每一帧的手部三维位置作为当前帧进行处理：

4.1、对当前帧的手部三维位置与进行检查，如果两帧的手部三维位置不在同一网格内，且前一帧的手部三维位置不在当前帧的手部三维位置所在网格的八邻域网格内，作一条连线段连接两帧的手部三维位置，将连线段经过的网格赋值，具体为：

4.1.1、计算两帧的手部三维位置之间连线段在投影平面上的斜率，获得连线段的坐标公式，并且将前一帧手部三维位置所在网格和当前帧手部三维位置所在网格均进行赋值；

4.1.2、首先从前一帧手部三维位置所在网格列出发，取向靠近当前帧手部三维位置所在网格方向相邻的一列网格作为第一网格列，从前一帧手部三维位置所在网格行开始向靠近当前帧手部三维位置所在网格方向将第一网格列中的H个网格进行赋值，H取为连线段斜率绝对值四舍五入后的整数值；

4.1.3、然后再从第一网格列出发，取向靠近当前帧手部三维位置所在网格方向相邻的一列网格作为下一网格列，从上述步骤赋值后最靠近当前帧手部三维位置所在网格的网格所在网格行开始向靠近当前帧手部三维位置所在网格方向将下一网格列中的H’个网格进行赋值，H’的取值为：将上述步骤赋值后最靠近当前帧手部三维位置所在网格的网格列坐标带入连线段的坐标公式获得纵坐标，若行坐标相比纵坐标更接近当前帧手部三维位置所在网格，则H’取为小于连线段斜率绝对值的最大整数值；若纵坐标相比行坐标更接近当前帧手部三维位置所在网格，则H’取为大于连线段斜率绝对值的最小整数值。

4.1.4、不断重复上述步骤处理直到赋值网格到达当前帧手部三维位置所在网格；

4.2、由所有被赋值网格构成了手势中心的运动轨迹，再计算所有被赋值网格的质心位置。
根据权利要求1所述的一种基于手部速度与轨迹分布的跟随机器人手势轨迹识别方法，其特征在于：所述步骤5中的处理各个质心指向向量的角度和幅值类别得到手部形状向量的方式与步骤3中的处理各个速度向量的角度和幅值类别得到手部运动向量的方式相同。
根据权利要求1所述的一种基于手部速度与轨迹分布的跟随机器人手势轨迹识别方法，其特征在于：所述步骤6中，综合运动描述子和轨迹形状描述子与标准描述子的相似度的计算方法是：

S ₀＝ω ₁S ₁+ω ₂S ₂

式中，S ₁表示运动描述子与标准描述子的相似度，S ₂表示轨迹形状描述子与标准描述子的相似度，S ₀表示运动描述子、轨迹形状描述子与标准描述子的共同相似度，ω ₁表示运动描述子与标准描述子的相似度在运动描述子、轨迹形状描述子与标准描述子的共同相似度中所占的权重，ω ₂表示轨迹形状描述子与标准描述子的相似度在运动描述子、轨迹形状描述子与标准描述子的共同相似度中所占的权重。