WO2021237875A1

WO2021237875A1 - 基于图卷积网络的手部数据识别方法、系统和存储介质

Info

Publication number: WO2021237875A1
Application number: PCT/CN2020/099766
Authority: WO
Inventors: 黄昌正; 周言明; 陈曦; 霍炼楚
Original assignee: 广州幻境科技有限公司; 肇庆市安可电子科技有限公司
Priority date: 2020-05-29
Filing date: 2020-07-01
Publication date: 2021-12-02
Also published as: CN111753669A

Abstract

一种基于图卷积网络的手部数据识别方法、系统和存储介质，方法包括以下步骤：获取预设状态的手部图像（S11）；提取所述手部图像的特征图像、关键点坐标和二维热图像（S12）；将所述特征图像和所述二维热图像进行结合，生成特征向量（S13）；根据所述特征向量和所述关键点坐标生成三维关节点位置坐标（S14）；根据所述三维关节点位置坐标还原手部姿态（S15）。该方法能在虚拟交互过程中，交互人员无需佩戴特定手套即能准确完成虚拟交互过程，从而简化虚拟交互过程的应用设备，以在一定程度上扩宽应用场景。

Description

基于图卷积网络的手部数据识别方法、系统和存储介质

技术领域

本发明涉及计算机视觉技术领域，尤其是一种基于图卷积网络的手部数据识别方法、系统和存储介质。

背景技术

在虚拟现实的交互过程中，手部姿态识别过程是通过在手部上穿戴特定的手套，使特定手套追踪手部姿态数据，虚拟设备接收该手部的实时姿态，并在虚拟现实界面内进行跟踪显示，以提高虚拟现实界面内的真实感。然而，特定手套及其配套设施严重限制了应用范围，从而使得虚拟设备无法得到有效推广。

发明内容

为解决上述技术问题，本发明的目的在于：提供一种基于图卷积网络的手部数据识别方法、系统和存储介质，其能在一定程度上扩宽应用场景。

本发明实施例的第一方面提供了：

一种基于图卷积网络的手部数据识别方法，包括以下步骤：

获取预设状态的手部图像；

提取所述手部图像的特征图像、关键点坐标和二维热图像；

将所述特征图像和所述二维热图像进行结合，生成特征向量；

根据所述特征向量和所述关键点坐标生成三维关节点位置坐标；

根据所述三维关节点位置坐标还原手部姿态。

进一步地，所述提取所述手部图像的关键点坐标和二维热图像，包括：

采用堆叠沙漏网络从所述第一图像中提取关键点特征位置；

根据所述关键点特征位置预测所述二维热图，以及确定所述关键点坐标。

进一步地，所述将所述特征图像和所述二维热图像进行结合，生成特征向量，包括：

将所述二维热图像的尺寸大小转换为所述特征图像的尺寸大小；

根据所述特征图像和尺寸转化后的所述二维热图通过卷积网络计算得到特征向量。

进一步地，所述根据所述特征向量和所述关键点坐标生成三维关节点位置坐标，包括：

根据所述特征向量计算得到三维网格的顶点坐标；

根据所述顶点坐标和所述关键点坐标计算得到三维关节点位置坐标。

进一步地，所述根据所述特征向量计算得到三维网格的顶点坐标，其具体为：

根据所述特征向量采用图卷积网络计算得到三维网格的所有顶点坐标。

进一步地，所述根据所述顶点坐标和所述关键点坐标计算得到三维关节点位置坐标，其具体为：

根据所述顶点坐标和所述关键点坐标采用线性图卷积网络回归三维关节点位置坐标。

进一步地，所述根据所述三维关节点位置坐标还原手部姿态，其具体为：

根据所述三维关节点位置坐标在虚拟现实界面中还原手部图像对应的手部姿态。

本发明实施例的第二方面提供了：

一种基于图卷积网络的手部数据识别系统，包括：

获取模块，用于获取预设状态的手部图像；

提取模块，用于提取所述手部图像的特征图像、关键点坐标和二维热图像；

结合模块，用于将所述特征图像和所述二维热图像进行结合，生成特征向量；

生成模块，用于根据所述特征向量和所述关键点坐标生成三维关节点位置坐标；

还原模块，用于根据所述三维关节点位置坐标还原手部姿态。

本发明实施例的第三方面提供了：

一种基于图卷积网络的手部数据识别系统，包括：

至少一个存储器，用于存储程序；

至少一个处理器，用于加载所述程序以执行所述的基于图卷积网络的手部数据识别方法。

本发明实施例的第四方面提供了：

一种计算机可读存储介质，其中存储有处理器可执行的指令，所述处理器可执行的指令在由处理器执行时用于实现所述的基于图卷积网络的手部数据识别方法。

本发明实施例的有益效果是：本发明实施例通过获取预设状态的手部图像，并提手部图像的特征图像、关键点坐标和二维热图像，接着将特征图像和二维热图像进行结合后生成特征向量，然后根据特征向量和关键点坐标生成三维关节点位置坐标，最后根据三维关节点位置坐标还原手部姿态，使得在虚拟交互过程中，交互人员无需佩戴特定手套即能完成交互过程，从而简化虚拟交互过程的应用设备，以在一定程度上扩宽应用场景。

附图说明

图1为本发明一种具体实施例的基于图卷积网络的手部数据识别方法的流程图；

图2为一种具体实施例的堆叠沙漏网络结构示意图；

图3为一种具体实施例的21个关节节点的分布示意图。

具体实施方式

下面结合附图和具体实施例对本发明做进一步的详细说明。对于以下实施例中的步骤编号，其仅为了便于阐述说明而设置，对步骤之间的顺序不做任何限定，实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

参照图1，本发明实施例提供了一种基于图卷积网络的手部数据识别方法，本实施例应用于控制服务器，该控制服务器可以与多个终端设备通信。其中，终端设备可以是摄像头、虚拟显示设备等。

本实施例包括步骤S11-S15：

S11、获取预设状态的手部图像；该手部图像可通过普通的RGB摄像头获取。该预设状态是指拍摄场景下手部在图像的中心位置，同时手部所占图像比例适中。

S12、提取手部图像的特征图像、关键点坐标和二维热图像；具体地，可使用堆叠沙漏网络从手部图像中提取关键点像素位置，预测手部关键点热图，确定初始关键点坐标。

如图2所示，堆叠沙漏网络是一种对称结构的网络架构。本步骤中是利用其多尺度特征来识别姿态，获取低分辨率特征过程中每一个网络层，则在上采样的过程中相应的就会有一个对应网络层。整体的网络架构先利用卷积和池化操作将特征降到一个很低的分辨率，例如4*4。在每一步最大池化操作的时候，网络都会加上一个新的卷积分支，用于直接对池化前的原始分辨率提取特征，类似残差操作，并与后面上采样操作后提取出的特征相融合。在到达最低分辨率之后，网络就开始对特征进行上采样，即最近邻插值，并结合不同尺度下的信息，之后再与前面连接过的特征按元素位置相加。当到达输出分辨率时，再接2个的卷积来进行最后的运算。最终网络的输出就是一组关键点热图，用于预测如图3所示的21个关键点在每一个像素点存在的概率。如图2所示，从C1到C4是一个下采样的过程，特征图的分辨率逐渐降低，而C1a、C2a、C3a和C4a是与之对应的特征图进行下采样前的一个备份。将达到最低分辨率的特征图逐步进行上采样，然后分辨率恢复的特征图和相对应备份的原特征图进行结合得到C1b、C2b、C3b和C4b。在不同的特征图下，对应提取手部不同的关键点即可以取得较好的精度。

S13、将特征图像和二维热图像进行结合，生成特征向量；该特征向量为关键点的特征向量。其具体是在将特征图像和二维热图像进行结合时，输入由8个残差层和4个池化层组成的残差网络，以生成关键点特征向量。

在一些实施例中，步骤S13可以通过以下步骤实现：

将二维热图像的尺寸大小转换为特征图像的尺寸大小；其可以使用1*1的卷积将包含关键点的二维热图像的尺寸大小转化为特征图像的尺寸大小。

根据特征图像和尺寸转化后的二维热图通过卷积网络计算得到特征向量。

在本实施例中，卷积网络的结构类似resnet18，由8个残差层和4个池化层组成，采用该卷积网络进行特征向量计算，提高计算结果的准确性。

S14、根据特征向量和关键点坐标生成三维关节点位置坐标；

具体地，本步骤是先根据特征向量计算得到三维网格的顶点坐标，接着根据顶点坐标和所述关键点坐标计算得到三维关节点位置坐标。

在一些实施例中，根据特征向量计算得到三维网格的顶点坐标，其具体可以通过以下步骤实现：

根据特征向量采用图卷积网络计算得到三维网格的所有顶点坐标。

具体是把关键点特征向量输入到图卷积网络，图卷积网络经过一系列网络层的计算输出3D网格中所有顶点的3D坐标，利用该3D网格中顶点的3D坐标重建手部表面的3D网格。

手部3D网格其本质是图形结构，因此，3D网格可以采用无向图M＝(V,ε,W)表示，其中，

是网格中N个顶点的集合，

是网格中E条边的集合，W＝{w _ij} _N×N是邻接矩阵。

定义图M顶点上的信号f＝(f ₁,…,f _N) ^T∈R ^N×F，用于表示3D网格中N个顶点的F维特征，在切比雪夫图卷积中，信号

上的图卷积运算定义为公式1：

其中，T _K(x)＝2xT _K-1(x)-T _K-2(x)是k阶切比雪夫多项式，T ₀＝1，T ₀＝x，

是重新缩放的拉普拉斯算子，

λ _max是L的最大特征值，θ _k∈R ^Fin×Fout是图卷积层中的可训练参数，

是图卷积层的输出信号。

在预先定义的标识手部表面的三角形网格的图结构上，首先执行图粗化操作，类似于卷积神经网络池化的过程，使用Graclus多级聚类算法来粗化图向量，并创建树结构来存储相邻粗化级别的图向量中顶点的对应关系，在图卷积前向传播器件，将已粗化后的图向量中的顶点特征上采样到图结构中的相应子顶点，最后执行图卷积以更新图网络中的特征，所有图卷积层的参数K设置为3。

具体是从沙漏网络提取的特征向量作为图卷积的输入，通过两个全连接层，特征向量在图形粗化过程中转换为具有64维特征的80个顶点，接着这些特征在卷积过程中被上采样由低维度向高维度转化。通过两个上采样层和四个图形卷积层，网络输出1280个网格顶点的3D坐标。

在一些实施例中，根据顶点坐标和所述关键点坐标计算得到三维关节点位置坐标，其可通过以下方式实现：

根据顶点坐标和关键点坐标采用线性图卷积网络回归三维关节点位置坐标。

本实施例中具体可使用简化的线性图卷积，从三维手部网格顶点坐标线性回归3D手关节点位置坐标。三维网格顶点坐标包含了整个手部的关键点坐标，可以直接从中筛选出21个关节节点的三维坐标，如图3所示，在一个手部上，从0关节点-20关节点共21个关节节点涵盖了整个手部姿势。使用不带非线性激活模块的两层图卷积网络直接从三维网格顶点估计三维关节深度信息，然后利用前面获取的二维关键点，生成三维关节位置坐标。

本实施例中能够提取到涵盖整个手部姿态的关节点坐标，从而提高虚拟现实中虚拟手部姿态同步过程中的准确性。

S15、根据三维关节点位置坐标还原手部姿态。其具体是根据三维关节点位置坐标在虚拟现实界面中还原手部图像对应的手部姿态，以使虚拟现实中的手部姿态数据最大程度的同步实际手部姿态，增强虚拟交互过程中的同步性。

综上所述，本实施例通过获取预设状态的手部图像，并提手部图像的特征图像、关键点坐标和二维热图像，接着将特征图像和二维热图像进行结合后生成特征向量，然后根据特征向量和关键点坐标生成三维关节点位置坐标，最后根据三维关节点位置坐标还原手部姿态，使得在虚拟交互过程中，交互人员无需佩戴特定手套即能完成虚拟交互过程，从而简化虚拟交互过程的应用设备，以在一定程度上扩宽应用场景。

本发明实施例提供了一种与图1方法相对应的基于图卷积网络的手部数据识别系统，包括：

获取模块，用于获取预设状态的手部图像；

本发明方法实施例的内容均适用于本系统实施例，本系统实施例所具体实现的功能与上述方法实施例相同，并且达到的有益效果与上述方法达到的有益效果也相同。

本发明实施例提供了一种基于图卷积网络的手部数据识别系统，包括：

至少一个存储器，用于存储程序；

此外，本发明实施例提供了一种计算机可读存储介质，其中存储有处理器可执行的指令，所述处理器可执行的指令在由处理器执行时用于实现所述的基于图卷积网络的手部数据识别方法。

以上是对本发明的较佳实施进行了具体说明，但本发明并不限于所述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

一种基于图卷积网络的手部数据识别方法，其特征在于，包括以下步骤：

获取预设状态的手部图像；

提取所述手部图像的特征图像、关键点坐标和二维热图像；

将所述特征图像和所述二维热图像进行结合，生成特征向量；

根据所述特征向量和所述关键点坐标生成三维关节点位置坐标；

根据所述三维关节点位置坐标还原手部姿态。
根据权利要求1所述的一种基于图卷积网络的手部数据识别方法，其特征在于，所述提取所述手部图像的关键点坐标和二维热图像，包括：

采用堆叠沙漏网络从所述第一图像中提取关键点特征位置；

根据所述关键点特征位置预测所述二维热图，以及确定所述关键点坐标。
根据权利要求1所述的一种基于图卷积网络的手部数据识别方法，其特征在于，所述将所述特征图像和所述二维热图像进行结合，生成特征向量，包括：

将所述二维热图像的尺寸大小转换为所述特征图像的尺寸大小；

根据所述特征图像和尺寸转化后的所述二维热图通过卷积网络计算得到特征向量。
根据权利要求1所述的一种基于图卷积网络的手部数据识别方法，其特征在于，所述根据所述特征向量和所述关键点坐标生成三维关节点位置坐标，包括：

根据所述特征向量计算得到三维网格的顶点坐标；

根据所述顶点坐标和所述关键点坐标计算得到三维关节点位置坐标。
根据权利要求4所述的一种基于图卷积网络的手部数据识别方法，其特征在于，所述根据所述特征向量计算得到三维网格的顶点坐标，其具体为：

根据所述特征向量采用图卷积网络计算得到三维网格的所有顶点坐标。
根据权利要求4所述的一种基于图卷积网络的手部数据识别方法，其特征在于，所述根据所述顶点坐标和所述关键点坐标计算得到三维关节点位置坐标，其具体为：

根据所述顶点坐标和所述关键点坐标采用线性图卷积网络回归三维关节点位置坐标。
根据权利要求1所述的一种基于图卷积网络的手部数据识别方法，其特征在于，所述根据所述三维关节点位置坐标还原手部姿态，其具体为：

根据所述三维关节点位置坐标在虚拟现实界面中还原手部图像对应的手部姿态。
一种基于图卷积网络的手部数据识别系统，其特征在于，包括：

获取模块，用于获取预设状态的手部图像；

提取模块，用于提取所述手部图像的特征图像、关键点坐标和二维热图像；

结合模块，用于将所述特征图像和所述二维热图像进行结合，生成特征向量；

生成模块，用于根据所述特征向量和所述关键点坐标生成三维关节点位置坐标；

还原模块，用于根据所述三维关节点位置坐标还原手部姿态。
一种基于图卷积网络的手部数据识别系统，其特征在于，包括：

至少一个存储器，用于存储程序；

至少一个处理器，用于加载所述程序以执行如权利要求1-7任一项所述的基于图卷积网络的手部数据识别方法。
一种计算机可读存储介质，其中存储有处理器可执行的指令，其特征在于，所述处理器可执行的指令在由处理器执行时用于实现如权利要求1-7任一项所述的基于图卷积网络的手部数据识别方法。