WO2021103648A1

WO2021103648A1 - 手部关键点检测方法、手势识别方法及相关装置

Info

Publication number: WO2021103648A1
Application number: PCT/CN2020/107960
Authority: WO
Inventors: 项伟; 王毅峰
Original assignee: 百果园技术(新加坡)有限公司
Priority date: 2019-11-29
Filing date: 2020-08-07
Publication date: 2021-06-03
Also published as: EP4068150A4; US20230252670A1; EP4068150A1; CN110991319A; CN110991319B

Abstract

一种手部关键点检测方法、手势识别方法及相关装置，手部关键点检测方法包括：获取待检测的手部图像（S101）；将手部图像输入预先训练的热力图模型中得到手部关键点的热力图，所述热力图包含所述手部关键点的二维坐标（S102）；将热力图和手部图像输入预先训练的三维信息预测模型中获得手部结构化连接信息（S103）；根据手部结构化连接信息和热力图中的二维坐标确定手部关键点在世界坐标系下的三维坐标（S104）。

Description

手部关键点检测方法、手势识别方法及相关装置

本申请要求在2019年11月29日提交中国专利局、申请号为201911198688.8的中国专利申请的优先权，该申请的全部内容通过引用结合在本申请中。

技术领域

本公开涉及计算机视觉技术领域，例如涉及手部关键点检测方法、手部关键点检测装置、手势识别方法、手势识别装置、设备和存储介质。

背景技术

在计算机视觉领域中，手势识别被广泛应用于人机交互、手语识别等场景中，而手势识别依赖于手部关键点检测，并且随着移动终端和移动互联网的普及，手势识别也广泛应用于移动终端中。

手部关键点是指手部中的多个关节点，相关技术中手部关键点检测最常用的方法是使用深度卷积神经网络，通过深度卷积神经网络输出手部关键点的三维坐标，例如，使用包含多个卷积层和全连接层的深度卷积神经网络提取二维手部图像的图像特征后，通过全连接层回归手部关键点的三维坐标，此种方式深度卷积神经网络复杂、数据计算量大，然而，受限于移动终端的计算能力，上述通过深度卷积神经网络直接回归手部关键点三维坐标的方式应用于移动终端后，计算时间长，难以通过移动终端实时地检测手部关键点，限制了手势识别在移动终端的应用。

发明内容

本公开提供一种手部关键点检测方法、手部关键点检测装置、手势识别方法、手势识别装置、设备和存储介质，以解决相关技术中手部关键点检测方法应用于移动终端后存在计算时间长、实时性差、限制了手势识别在移动终端应用的问题。

提供了一种手部关键点检测方法，包括：

获取待检测的手部图像；

将所述手部图像输入预先训练的热力图模型中得到手部关键点的热力图，所述热力图包含所述手部关键点的二维坐标；

将所述热力图和所述手部图像输入预先训练的三维信息预测模型中获得手部结构化连接信息；

根据所述手部结构化连接信息和所述热力图中的二维坐标确定所述手部关键点在世界坐标系下的三维坐标。

还提供了一种手势识别方法，包括：

获取待识别的手部图像；

检测出所述手部图像中的关键点；

基于所述关键点识别所述手部图像中手部所表达的手势；

其中，所述检测出所述手部图像中的关键点包括：根据本公开所述的手部关键点检测方法检测出所述手部图像中的关键点。

还提供了一种手部关键点检测装置，包括：

手部图像获取模块，设置为获取待检测的手部图像；

热力图获取模块，设置为将所述手部图像输入预先训练的热力图模型中得到手部关键点的热力图，所述热力图包含所述手部关键点的二维坐标；

手部结构化连接信息获取模块，设置为将所述热力图和所述手部图像输入预先训练的三维信息预测模型中获得手部结构化连接信息；

三维坐标计算模块，设置为根据所述手部结构化连接信息和所述热力图中的二维坐标确定所述手部关键点在世界坐标系下的三维坐标。

还提供了一种手势识别装置，包括：

手部图像获取模块，设置为获取待识别的手部图像；

关键点检测模块，设置为检测出所述手部图像中的关键点；

手势识别模块，设置为基于所述关键点识别所述手部图像中手部所表达的手势；

其中，所述关键点检测模块是设置为根据本公开所述的手部关键点检测装置检测出所述手部图像中的关键点。

还提供了一种设备，所述设备包括：

一个或多个处理器；

存储装置，设置为存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现本公开所述的手部关键点检测方法和/或手势识别方法。

还提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现本公开所述的手部关键点检测方法和/或手势识别方法。

附图说明

图1是本发明实施例一提供的一种手部关键点检测方法的流程图；

图2是本发明实施例的手部关键点的示意图；

图3是本发明实施例二提供的一种手部关键点检测方法的流程图；

图4是本发明实施例中手部坐标系和世界坐标系的示意图；

图5是本发明实施例三提供的一种手势识别方法的流程图；

图6是本发明实施例中手势识别时检测到的手部关键点的示意图；

图7是图6中的手部关键点所表达的手势的示意图；

图8是本发明实施例四提供的一种手部关键点检测装置的结构框图；

图9是本发明实施例五提供的一种手势识别装置的结构框图；

图10是本发明实施例六提供的一种设备的结构框图。

具体实施方式

下面结合附图和实施例对本公开进行说明。为了便于描述，附图中仅示出了与本公开相关的部分而非全部结构。

实施例一

图1为本发明实施例一提供的一种手部关键点检测方法的流程图，本发明实施例可适用于检测手部关键点的情况，该方法可以由手部关键点检测装置来执行，该装置可以通过软件和/或硬件的方式来实现，并集成在执行本方法的设备中，如图1所示，本发明实施例的手部关键点检测方法可以包括如下步骤：

S101、获取待检测的手部图像。

在本发明实施例中，待检测的手部图像可以是需要检测出手部关键点的三维坐标的图像，该手部图像可以是位图(bitmap，bmp)、联合图像专家组(Joint Photographic Experts Group，jpg)、便携式网络图形(Portable Network Graphics，png)、标签图像文件格式(Tag Image File Format，tif)等存储格式的、包含手部生理特征的图像，另外，手部图像可以是彩色图像。

在实际应用中，可以在手势识别应用的场景中获取手部图像，该手势识别应用的场景可以是通过手势控制的人机交互(虚拟现实(Virtual Reality，VR)应用)、手语识别(直播手语教学)等场景，在上述场景中，可以通过图像采集装置采集手部图像，还可以对图像进行检测以从图像中获得手部图像，本发明实施例对获取手部图像的场景和方式不加以限制。

S102、将所述手部图像输入预先训练的热力图模型中得到手部关键点的热力图，所述热力图包含所述手部关键点的二维坐标。

在本发明实施例中，热力图可以是以特殊高亮的形式显示手部关键点所属区域的图像，热力图上一个位置关联的值为手部关键点在该位置上的概率，一个位置上的概率越大，该位置离热力图上高斯核的中心越近，因此高斯核的中心即为概率最大的位姿，也就是手部关键点的位置。

可以预先训练热力图模型，该热力图模型可以输出手部关键点的热力图，热力图模型可以由一种或多种神经网络得到，例如，可以使用深度卷积神经网络训练热力图模型，比如，对于已知手部关键点的二维坐标的手部图像，首先，使用手部关键点的二维坐标生成一个高斯核，该高斯核即为热力图的高斯核，训练时，将该手部图像输入深度卷积神经网络输出一热力图，采用该输出的热力图中的高斯核与之前生成的高斯核计算损失率，再对深度卷积神经网络的参数进行调整，不断迭代该深度卷积神经网络，直到损失率小于预设值或者达到预设的迭代次数后停止迭代，最终得到的深度卷积神经网络即为热力图模型，向该热力图模型输入一个手部图像后，可以获得手部的多个手部关键点的热力图，该热力图中高斯核的中心即为手部关键点所在位置，即高斯核中心的坐标即为手部关键点的二维坐标。

S103、将所述热力图和所述手部图像输入预先训练的三维信息预测模型中获得手部结构化连接信息。

如图2所示为手部关键点的示意图，手部关键点可以包括手腕关键点O以及每根手指上的多个关键点(关键点MCP、PIP、DIP和TIP)，如图2所示，手腕关键点为点O，每个手指包括有点MCP、PIP、DIP和TIP四个关键点，手腕关键点和多个手指的关键点构成手部的手部关键点。

在本发明实施例中，手部结构化连接信息可以包括手部的欧拉角以及多个手部关键点所形成的关节弯曲角度，手部的欧拉角可以是手部坐标系相对于世界坐标系的表示，表达了手部在三维空间中的位姿；手部关键点所形成的关节弯曲角度可以包括相邻两个手指的关键点MCP到手腕关键点O的连线形成的夹角a，还包括关键点MCP处的夹角b，关键点PIP处的夹角c，关键点DIP处的夹角d。

在本发明实施例中，可以先将通过人工标注的方法标注的手部的欧拉角、通过传感器获得的手部关节处的角度以及热力图模型预测的多个手部关键点的热力图作为训练数据来训练三维信息预测模型，该三维信息预测模型可以是多种神经网络。将热力图和手部图像输入训练好的三维信息预测模型后，可以获得包括手部的欧拉角以及多个手部关键点所形成的关节弯曲角度的手部结构化连接信息。

S104、根据所述手部结构化连接信息和所述热力图中的二维坐标确定所述手部关键点在世界坐标系下的三维坐标。

本发明实施例通过三维信息预测模型获得手部结构化连接信息后，可以通过该手部结构化连接信息确定相邻两个手部关键点所形成的、在手部坐标系下的向量的方向向量，然后通过欧拉角将该方向向量转换为世界坐标系下的方向向量，同时通过热力图可以获得每个手部关键点的二维坐标，以此可以求得两个手部关键点形成的向量的向量长度，知道向量的向量长度和方向向量后可以确定该向量，同时，可以通过手部图像的成像原理获得手腕关键点在世界坐标系下的三维坐标，根据向量加法原理，可以获得每个手部关键点在世界坐标系下的三维坐标。

本发明实施例在获取待检测的手部图像后，先通过热力图模型得到包含手部关键点的二维坐标的热力图，再通过三维信息预测模型获得手部结构化连接信息，最后通过二维坐标和手部结构化连接信息计算手部关键点的三维坐标，相对于直接通过深度神经网络回归手部关键点的三维坐标，通过两个模型先后预测二维坐标和手部结构化连接信息以计算手部关键点的三维坐标，每个模型结构简单，计算量小，适用于计算能力有限的移动终端，并且由于模型结构简单、计算量小，手部关键点的检测时间短，实现了在移动终端实时检测手部关键点，有利于手势识别应用于移动终端上。

实施例二

图3为本发明实施例二提供的一种手部关键点检测方法的流程图，本发明实施例在前述实施例一的基础上进行说明，如图3所示，本发明实施例的手部关键点检测方法可以包括如下步骤：

S301、获取原始图像。

在本发明实施例中，原始图像可以是包括手部的图像，例如，可以是包含整个人体的图像或者是包含手臂和手掌在内的图像，该原始图像可以是图像采集装置采集到的图像，例如可以是直播过程中通过摄像头采集到的图像，或者是从多媒体视频数据中提取到的图像。

S302、从所述原始图像中检测出手部。

手部可以是从手腕到手指末端的部分，在本发明实施例中可以通过手部检测算法从原始图像中检测出手部，例如，可以通过语义分割网络检测出原始图像中的手部，还可以通过其他方式从原始图像中检测出手部，本发明实施例对从原始图像中检测出手部的方式不加以限制。

S303、截取包含所述手部的、预设尺寸的图像作为待检测的手部图像。

在实际应用中，手部关键点检测时一般假设原始图像中的手部位于手部检测器中，并通过手部检测器来检测手部关键点，可以先从原始图像中截取包含手部的图像区域作为手部图像，该图像区域可以是预设尺寸的区域，例如，该图像区域的形状可以为正方形，并且将该正方形区域缩放为64×64的尺寸大小，对于每张手部图像均为64×64×3的三维张量，64×64是手部图像的尺寸大小，3是二维图像的RGB通道。

本发明实施例从原始图像中截取包含手部的、预设尺寸的图像作为待检测的手部图像，使得该手部图像所包含的背景减少，后续模型处理更关注于手部本身的特征，降低了需要处理的数据量，能够提高手部关键点检测的效率。

S304、将所述手部图像输入预先训练的热力图模型中获得每一个手部关键点的热力图，每一个手部关键点的热力图的尺寸与所述手部图像的尺寸相同。

本发明实施例的热力图模型可以预先训练，该热力图模型可以输出手部关键点的热力图，热力图模型可以由一种或多种神经网络得到，例如，可以使用深度卷积神经网络训练热力图模型，该热力图模型输入一个手部图像后，可以获得手部的多个手部关键点的热力图，该热力图中高斯核的中心即为手部关键点所在位置，高斯核的中心的坐标即为手部关键点的二维坐标。

本发明实施例中，手部图像经缩放后可以为64×64×3的三维张量，将该三维张量输入热力图模型后，该热力图模型实际为深度神经网络，通过深度神经网络提取图像特征，最后输出所有手部关键点的热力图，如图2所示，手部关键点总共有20个，则热力图模型输出20个热力图，每个热力图的尺寸大小与手部图像相同，即热力图的尺寸大小也为64×64。

S305、将所有手部关键点的热力图和所述手部图像输入预先训练的三维信息预测模型中，以获得所述手部关键点所形成的关节弯曲角度和所述手部的欧拉角。

在本发明实施例中，可以通过已知手部的欧拉角、手部关节处的角度以及热力图模型预测的多个手部关键点的热力图来训练三维信息预测模型，该三维信息预测模型在输入手部关键点的热力图和手部图像后可以输出手部的欧拉角和多个手部关键点的关节弯曲所形成的夹角的角度。

本发明实施例中，手部关键点的热力图和手部图像的大小尺寸相同，手部图像为64×64×3的三维张量，手部关键点有20个，所有手部关键点的热力图可以表示为一个64×64×20的三维张量，以上两个张量连接形成一个64×64×23的张量输入到训练好的三维信息预测模型中，得到多个手部关键点所形成的关节弯曲角度和手部的欧拉角。

S306、根据所述关节弯曲角度计算在所述手部的手部坐标系下两个手部关键点所构成的向量的第一方向向量。

向量为具有大小和方向的量，本发明实施例中，任意两个手部关键点均可以构成一个向量，该向量的大小为两个手部关键点之间的距离，向量的方向为两个手部关键点连线的方向，如图2所示的向量B为手腕关键点O到小指的近指骨关键点MCP所形成的向量，基于此，可以根据预测得到的关节弯曲角度计算在手部的手部坐标系下两个手部关键点所构成的向量的第一方向向量，可以包括如下步骤：

S3061、基于预先建立的手部模型确定手腕关键点到中指的近指骨关键点的向量的第一方向向量。

建立手部模型为：假设手腕关键点O和所有手指的关键点MCP在三维空间中共面，假设手腕关键点O和每个手指的关键点MCP，PIP，DIP，TIP五点在三维空间中共面且平行于手掌所在的平面，由于手部骨架的限制，每个手指的关节只能做一些弯曲和伸展的动作，所以手腕关键点O以外的多个手指的关键点总是共面的，为简化问题，假设手腕关键点O也和每个手指的关键点共面。

基于上述手部模型，建立手部坐标系如下(如图2)：

以手腕关键点O到中指的关键点MCP(近指骨关键点)的方向为y轴正方向建立y轴，可知y轴位于手掌所在的平面上，在此平面上，以垂直于y轴，大拇指侧的方向为x轴正方向，建立x轴；以垂直于xy平面，手背朝向为z轴正方向，建立z轴。

根据上述建立的手部坐标系，即可得到手腕关键点O到中指的关键点MCP构成的向量C的第一方向向量为(0，1，0)。

S3062、采用所述关节弯曲角度、所述手腕关键点到中指的近指骨关键点的向量的第一方向向量分别计算所述手腕关键点到每个手指的近指骨关键点的向量的第一方向向量。

向量的方向和向量长度无关，已知一个向量的方向向量后，另一向量的方向向量可以通过已知方向向量的向量旋转一定的角度所得，对于手腕关键点到每个手指的近指骨关键点MCP形成的向量而言，可以通过手腕关键点到中指的近指骨关键点的向量的第一方向向量和预测得到的关节弯曲角度求得。

如图2所示，对于手腕关键点O到无名指的近指骨关键点MCP所形成的向量D，向量D的第一方向向量可以通过向量C以及夹角θ求得，即向量C的方向向量旋转角度θ即可以得到向量D的第一方向向量，即向量D的第一方向向量为sinθ，cosθ，0)。

同理，手腕关键点O到其他手指的近指骨关键点MCP所形成的向量的第一方向向量均可以通过相邻的向量旋转一定的夹角所得，该夹角为三维信息预测模型预测得到关节弯曲处的角度，如图2中的θ、a。通过步骤S3062后，可以得到手腕关键点O分别到小指、无名指、中指、食指以及拇指的关键点MCP的向量的第一方向向量。

S3063、针对每个手指，采用所述关节弯曲角度、所述手腕关键点到所述每个手指的近指骨关键点的向量的第一方向向量计算所述手指的每个指骨连接的两个关键点之间的向量的第一方向向量。

如图2所示，对于每个手指，获得该手腕关键点O到该手指的近指骨关键点MCP的向量的第一方向向量后，可以采用手腕关键点O到该手指的近指骨关键点MCP的向量的第一方向向量、三维信息预测模型预测的多个关节弯曲角度计算该手指的每个指骨连接的两个关键点之间的向量的第一方向向量。

如图2所示，以小指为示例，在前述S3062已经计算出手腕关键点O到小指近指骨关键点MCP的向量B的第一方向向量，并且通过三维信息预测模型可以得到小指的关键点MCP、PIP、DIP处关节弯曲夹角的角度分别为b、c、d，则在小指中，关键点MCP与关键点PIP所形成的向量E与向量B的夹角为b，关键点PIP与关键点DIP所形成的向量F与向量B的夹角为夹角b和夹角c的和，关键点DIP与关键点TIP所形成的向量G与向量B的夹角为夹角b、夹角c和夹角d的和，当知道每个向量与手腕关键点O到近指骨关键点MCP的夹角后，可以通过旋转手腕关键点O到手指近指骨关键点MCP所形成的向量B得到每个向量的第一方向向量。

以上以小指为示例说明了小指上多个关键点形成的向量的第一方向向量的计算方式，对于其他手指计算多个关键点形成的向量的第一方向向量的方式相同，在此不再详述。

S307、采用所述欧拉角将所述第一方向向量转换为世界坐标系下的第二方向向量。

在实际应用中，每个向量的第一方向向量为在手部坐标系下的方向向量，由于手部在空间中具有一定的位姿，需要将每个向量的第一方向向量转换为世界坐标系下的方向向量，即第二方向向量，可以采用欧拉角计算欧拉旋转矩阵，计算第一方向向量和欧拉旋转矩阵的乘积得到第一方向向量在世界坐标系下的第二方向向量。

图4是本发明实施例中手部坐标系和世界坐标系的示意图，如图4所示，欧拉角可以用三个夹角α，β，γ来表示，坐标系xyz为手部坐标系，XYZ为世界坐标系，x轴和N轴之间的夹角为α，z轴和Z轴之间的夹角为β，N轴和X轴之间的夹角为γ，N轴是x轴在绕z轴旋转后的位置。

假设一个手掌平行于x-y平面且中指关节到手腕关键点处的直线L垂直于x轴，平行于y轴，此时手部的状态为初始状态。初始状态的手部经过欧拉角的旋转可以得到当前三维空间中手部的状态，即手部在世界坐标系下的位姿。在手部旋转的过程中，手部坐标系随着手部的旋转同时旋转，手部关键点在手部坐标系下的坐标不变，而手部关键点在世界坐标系下的坐标改变，手部的旋转的过程可以如下：先绕z轴旋转角度α，再绕N轴旋转角度β，最后绕Y轴旋转角度γ，即可得到当前手部在世界坐标系中的状态。

在本发明实施例中，欧拉旋转矩阵表达了向量从手部坐标系到世界坐标系下的转换关系，欧拉旋转矩阵如下：

对于每个向量的第一方向向量，其第一方向向量与上述欧拉旋转矩阵相乘后即可以的到该向量在世界坐标系下的第二方向向量。

S308、采用所述热力图中的二维坐标计算所述向量的向量长度。

向量由两个手部关键点构成，对于每个向量可以确定构成该向量的两个手部关键点，基于两个手部关键点的热力图分别确定该两个手部关键点的二维坐标，然后采用两个手部关键点的二维坐标计算向量的长度。

在本发明实施例中，每个手部关键点的热力图表达了手部关键点在该热力图的位置的分布，该热力图上的每个像素点均可以关联一个概率值，该概率值表达了手部关键点在所述每个像素点的概率。因此，所述基于两个手部关键点的热力图分别确定所述两个手部关键点的二维坐标，包括：对于每个手部关键点，可以从该手部关键点的热力图上确定概率值最大的像素点；获取该概率值最大的像素点在热力图中的坐标得到局部二维坐标，将该局部二维坐标转换为手部图像中的坐标得到该手部关键点的二维坐标。亦即，先确定手部关键点在热力图中的坐标(概率值最大的像素点的位置)，同时热力图和手部图像成比例的关系，手部关键点在热力图中的坐标乘上比例系数即得到手部关键点在手部图像中的坐标，亦即二维坐标。

如图2所示，向量为向量长度和向量方向的表示，假设手腕关键点到无名指关键点MCP的向量是D＝(X，Y，Z)，已知向量D的第二方向向量为A＝(x， y，z)，所以D＝m×A，m为向量长度。把第二方向向量A投影到x-y平面上，也就是方向向量B＝(x,y,0)。

同时，根据热力图可以求出所有手部关键点的二维坐标，该二维坐标也是手部关键点在x-y平面上的投影，由于向量D在x-y平面上的投影为C＝(X,Y,0)，即C＝m×B，该投影C中的坐标X，Y即为热力图所求得的二维坐标，即已知B和C，可以求出向量长度m，同时已知方向向量A，可以求出向量D。

S309、计算所述向量长度和所述第二方向向量的乘积以得到所述向量。

即向量为向量长度和方向向量的表示，计算向量长度和第二方向向量的乘积即为向量，如向量D＝m×A，m为向量长度，A为向量的方向向量。

S310、采用所述向量计算构成所述向量的两个手部关键点在所述世界坐标系下的三维坐标。

在本发明实施例中，可以获取手部关键点中手腕关键点在世界坐标系下的三维坐标，采用手腕关键点在世界坐标系下的三维坐标和向量计算构成向量的两个手部关键点在世界坐标系下的三维坐标。

手腕关键点在世界坐标系下的三维坐标可以通过手部图像获取，即可以根据近大远小的成像原理从手部图像获得到手腕关键点在世界坐标系下的三维坐标。

假设手腕关键点在世界坐标系下的坐标为O(X0，Y0，Z0)，并且已知手腕关键点O到每个手指的关键点MCP的向量为D(X，Y，Z)，则关键点MCP的三维坐标为(X0，Y0，Z0)+(X，Y，Z)＝(X0+X，Y0+Y，Z0+Z)，即在构成向量的两个手部关键点中，已知一个手部关键点的三维坐标和该向量，可以通过向量求和得到另一个手部关键点的三维坐标。

本发明实施例中，对于每个手指，可以根据该手指上手部关键点与手腕关键点的生理结构连接顺序依次计算每个手部关键点的三维坐标，例如对于图2中的小指，在获得手腕关键点O的三维坐标后，由于前述已获得手腕关键点O到小指关键点MCP的向量B，则可以通过手腕关键点O的三维坐标和向量B通过向量求和的方式得到小指关键点MCP的三维坐标，同时前述已获得小指关键点MCP到小指关键点PIP的向量E，则可以通过小指关键点MCP的三维坐标和向量E计算小指关键点PIP的三维坐标，以此类推直到计算出小指关键点TIP的三维坐标。

本发明实施例从获取的原始图像中检测出手部并截取出待检测的手部图像，通过热力图模型和三维信息预测模型分别获得手部关键点的热力图和包含关节弯曲角度和欧拉角的手部结构化连接信息，并且通过关节弯曲角度计算手部关键点构成的向量在手部坐标系下的第一方向向量，通过欧拉角将第一方向向量转换为世界坐标系下的第二方向向量，通过热力图获得多个手部关键点的二维坐标以计算向量的向量长度，通过向量长度和第二方向向量确定多个手部关键点处的向量，进而能够根据向量计算形成向量的手部关键点在世界坐标系下的三维坐标。通过两个模型先后预测二维坐标和手部结构化连接信息以计算手部关键点的三维坐标，相对于直接通过深度神经网络回归手部关键点的三维坐标，每个模型结构简单，计算量小，适用于计算能力有限的移动终端，并且由于模型结构简单、计算量小，手部关键点的检测时间短，实现了在移动终端实时检测手部关键点，有利于手势识别应用于移动终端上。

实施例三

图5为本发明实施例三提供的一种手势识别方法的流程图，本发明实施例可适用于基于手部图像识别手势的情况，该方法可以由手势识别装置来执行，该装置可以通过软件和/或硬件的方式来实现，并集成在执行本方法的设备中，如图5所示，本发明实施例的手势识别方法可以包括如下步骤：

S501、获取待识别的手部图像。

在发明实施例中，待识别的手部图像可以是需要识别出手势的图像，该手部图像可以是在手势识别应用的场景中获取的图像，可选地，手势识别应用的场景可以是通过手势控制的人机交互(VR控制)、手语识别(手语教学)等场景，在上述场景中，可以通过图像采集装置采集手部图像，还可以对图像进行识别以从图像中获得手部图像，本发明实施例对获取手部图像的场景和方式不加以限制。

S502、检测出所述手部图像中的关键点。

可以将待识别的手部图像输入预先训练的热力图模型中得到手部关键点的热力图，热力图包含手部关键点的二维坐标；将热力图和手部图像输入预先训练的三维信息预测模型中获得手部结构化连接信息；根据手部结构化连接信息和热力图中的二维坐标确定手部关键点在世界坐标系下的三维坐标。

在本发明实施例中，检测手部关键点即确定手部的多个关键点在空间中的三维坐标，可以通过本发明实施例一或者实施例二所提供的手部关键点检测方法检测出手部图像中手部关键点在三维空间中的三维坐标，可参考实施例一或者实施例二，在此不再详述。

S503、基于所述关键点识别所述手部图像中手部所表达的手势。

手势即为手指的多个关键点位于不同位置时所组成，不同的手势可以表达不同的意思，手势识别即识别手指的多个关键点的三维坐标所能表达的手势。

图6是本发明实施例中手势识别时检测到的手部关键点的示意图，如图6所示，手部可以包括21个关键点，在获取到该21个关键点的三维坐标后，可以基于三维坐标识别手部图像中手部所表达的手势，在本发明的一个示例中，可以按照手部的骨骼结构连接多个手部关键点，并根据多个手部关键点的三维坐标识别该手部所表达的手势，例如，连接多个手部关键点后得到一手部骨骼图像，可以对该手部骨骼图像识别得到一手势，图7为图6中所检测到的手部关键点所表达的手势的示意图。

本发明实施例的手势识别方法在获取待识别图像后，通过本发明实施例的手部关键点检测方法检测出手部关键点，并基于关键点识别手部图像中手部所表达的手势，由于手部关键点检测通过两个模型先后预测二维坐标和手部结构化连接信息以计算手部关键点的三维坐标，无需通过深度神经网络直接回归手部关键点的三维坐标，每个模型结构简单，数据计算量小，适用于计算能力有限的移动终端，并且由于模型结构简单、数据计算量小，手部关键点的检测时间短，实现了在移动终端实时检测手部关键点，有利于手势识别应用于移动终端上。

实施例四

图8是本发明实施例四提供的一种手部关键点检测装置的结构框图，本发明实施例的手部关键点检测装置可以包括如下模块：手部图像获取模块801，设置为获取待检测的手部图像；热力图获取模块802，设置为将所述手部图像输入预先训练的热力图模型中得到手部关键点的热力图，所述热力图包含所述手部关键点的二维坐标；手部结构化连接信息获取模块803，设置为将所述热力图和所述手部图像输入预先训练的三维信息预测模型中获得手部结构化连接信息；三维坐标计算模块804，设置为根据所述手部结构化连接信息和所述热力图中的二维坐标确定所述手部关键点在世界坐标系下的三维坐标。

本发明实施例所提供的手部关键点检测装置可执行本发明实施例所提供的手部关键点检测方法，具备执行方法相应的功能模块和效果。

实施例五

图9是本发明实施例五提供的一种手势识别装置的结构框图，本发明实施例的手势识别装置可以包括如下模块：手部图像获取模块901，设置为获取待识别的手部图像；关键点检测模块902，设置为检测出所述手部图像中的关键点；手势识别模块903，设置为基于所述关键点识别所述手部图像中手部所表达的手势；所述关键点根据实施例四所述的手部关键点检测装置所检测。

本发明实施例所提供的手势识别装置可执行本发明实施例所提供的手势识别方法，具备执行方法相应的功能模块和效果。

实施例六

参照图10，示出了本发明一个示例中的一种设备的结构示意图。如图10所示，该设备可以包括：处理器1000、存储器1001、具有触摸功能的显示屏1002、输入装置1003、输出装置1004以及通信装置1005。该设备中处理器1000的数量可以是一个或者多个，图10中以一个处理器1000为例。该设备中存储器1001的数量可以是一个或者多个，图10中以一个存储器1001为例。该设备的处理器1000、存储器1001、显示屏1002、输入装置1003、输出装置1004以及通信装置1005可以通过总线或者其他方式连接，图10中以通过总线连接为例。

存储器1001作为一种计算机可读存储介质，可设置为存储软件程序、计算机可执行程序以及模块，如本发明实施例一到实施例二所述的手部关键点检测方法对应的程序指令/模块(例如，上述手部关键点检测装置中的手部图像获取模块801、热力图获取模块802、手部结构化连接信息获取模块803和三维坐标计算模块804)，或如本发明实施例三所述的手势识别方法对应的程序指令/模块(例如，上述手势识别装置中的手部图像采集模块901、关键点检测模块902和手势识别模块903)。

处理器1000通过运行存储在存储器1001中的软件程序、指令以及模块，从而执行设备的多种功能应用以及数据处理，即实现上述手部关键点检测方法和/或手势识别方法。

实施例中，处理器1000执行存储器1001中存储的一个或多个程序时，实现本发明实施例提供的手部关键点检测方法和/或手势识别方法的步骤。

本发明实施例还提供一种计算机可读存储介质，所述存储介质中的指令由设备的处理器执行时，使得设备能够执行如上述方法实施例所述的手部关键点检测方法和/或手势识别方法。

对于装置、设备、存储介质实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本公开可借助软件及必需的通用硬件来实现，也可以通过硬件实现。本公开可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、闪存(FLASH)、硬盘或光盘等，包括多条指令用以使得一台计算机设备(可以是机器人，个人计算机，服务器，或者网络设备等)执行本公开任意实施例所述的手部关键点检测方法和/或手势识别方法。

上述手部关键点检测装置和/或手势识别装置中，所包括的多个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，多个功能单元的名称也只是为了便于相互区分，并不用于限制本公开的保护范围。

Claims

一种手部关键点的检测方法，包括：

获取待检测的手部图像；

将所述手部图像输入预先训练的热力图模型中得到手部关键点的热力图，所述热力图包含所述手部关键点的二维坐标；

将所述热力图和所述手部图像输入预先训练的三维信息预测模型中获得手部结构化连接信息；

根据所述手部结构化连接信息和所述热力图中的二维坐标确定所述手部关键点在世界坐标系下的三维坐标。
根据权利要求1所述的检测方法，其中，所述获取待检测的手部图像，包括：

获取原始图像；

从所述原始图像中检测出手部；

截取包含所述手部的、预设尺寸的图像作为待检测的手部图像。
根据权利要求1所述的检测方法，其中，将所述手部图像输入预先训练的热力图模型中得到手部关键点的热力图，包括：

将所述手部图像输入预先训练的热力图模型中获得每一个手部关键点的热力图，其中，每一个手部关键点的热力图的尺寸与所述手部图像的尺寸相同。
根据权利要求1所述的检测方法，其中，所述热力图包括每一个手部关键点的热力图，所述将所述热力图和所述手部图像输入预先训练的三维信息预测模型中获得手部结构化连接信息，包括：

将所有手部关键点的热力图和所述手部图像输入预先训练的三维信息预测模型中，以获得所述手部关键点所形成的关节弯曲角度和所述手部的欧拉角。
根据权利要求1-4任一项所述的检测方法，其中，所述手部结构化连接信息包括所述手部关键点所形成的关节弯曲角度和所述手部的欧拉角，所述根据所述手部结构化连接信息和所述热力图中的二维坐标确定所述手部关键点在世界坐标系下的三维坐标，包括：

根据所述关节弯曲角度计算在所述手部的手部坐标系下两个手部关键点所构成的向量的第一方向向量；

采用所述欧拉角将所述第一方向向量转换为世界坐标系下的第二方向向量；

采用所述热力图中的二维坐标计算所述向量的向量长度；

计算所述向量长度和所述第二方向向量的乘积以得到所述向量；

采用所述向量计算构成所述向量的所述两个手部关键点在所述世界坐标系下的三维坐标。
根据权利要求5所述的检测方法，其中，所述根据所述关节弯曲角度计算在所述手部的手部坐标系下两个关键点之间构成的向量的第一方向向量，包括：

基于预先建立的手部模型确定手腕关键点到中指的近指骨关键点的向量的第一方向向量；

采用所述关节弯曲角度、所述手腕关键点到中指的近指骨关键点的向量的第一方向向量分别计算所述手腕关键点到每个手指的近指骨关键点的向量的第一方向向量；

采用所述关节弯曲角度、所述手腕关键点到所述每个手指的近指骨关键点的向量的第一方向向量计算所述每个手指的每个指骨连接的两个关键点之间的向量的第一方向向量。
根据权利要求5所述的检测方法，其中，所述采用所述欧拉角将所述第一方向向量转换为所述世界坐标系下的第二方向向量，包括：

采用所述欧拉角计算欧拉旋转矩阵；

计算所述第一方向向量和所述欧拉旋转矩阵的乘积得到所述第一方向向量在所述世界坐标系下的第二方向向量。
根据权利要求5所述的检测方法，其中，所述采用所述热力图中的二维坐标计算所述向量的向量长度，包括：

确定构成所述向量的两个手部关键点；

基于所述两个手部关键点的热力图分别确定所述两个手部关键点的二维坐标；

采用所述两个手部关键点的二维坐标计算所述向量的长度。
根据权利要求8所述的检测方法，其中，所述热力图上的每个像素点关联一个概率值，所述概率值表达了所述手部关键点在所述每个像素点处的概率，所述基于两个手部关键点的热力图分别确定所述两个手部关键点的二维坐标，包括：

从每个手部关键点的热力图上确定概率值最大的像素点；

获取所述概率值最大的像素点在所述热力图中的坐标得到局部二维坐标；

将所述局部二维坐标转换为所述手部图像中的坐标得到所述每个手部关键点的二维坐标。
根据权利要求5所述的检测方法，其中，所述采用所述向量计算构成所述向量的所述两个手部关键点在世界坐标系下的三维坐标，包括：

获取所述手部关键点中手腕关键点在所述世界坐标系下的三维坐标；

采用所述手腕关键点在所述世界坐标系下的三维坐标和所述向量计算构成所述向量的所述两个手部关键点在所述世界坐标系下的三维坐标。
一种手势识别方法，包括：

获取待识别的手部图像；

检测出所述手部图像中的关键点；

基于所述关键点识别所述手部图像中手部所表达的手势；

其中，所述检测出所述手部图像中的关键点包括：根据权利要求1-10任一项所述的手部关键点检测方法检测出所述手部图像中的关键点。
一种手部关键点的检测装置，包括：

手部图像获取模块，设置为获取待检测的手部图像；

热力图获取模块，设置为将所述手部图像输入预先训练的热力图模型中得到手部关键点的热力图，所述热力图包含所述手部关键点的二维坐标；

手部结构化连接信息获取模块，设置为将所述热力图和所述手部图像输入预先训练的三维信息预测模型中获得手部结构化连接信息；

三维坐标计算模块，设置为根据所述手部结构化连接信息和所述热力图中的二维坐标确定所述手部关键点在世界坐标系下的三维坐标。
一种手势识别装置，包括：

手部图像获取模块，设置为获取待识别的手部图像；

关键点检测模块，设置为检测出所述手部图像中的关键点；

手势识别模块，设置为基于所述关键点识别所述手部图像中手部所表达的手势；

其中，所述关键点检测模块是设置为根据权利要求12所述的手部关键点检测装置检测出所述手部图像中的关键点。
一种设备，包括：

至少一个处理器；

存储装置，设置为存储至少一个程序，

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现如权利要求1-10中任一所述的手部关键点检测方法和如权利要求11所述的手势识别方法中的至少之一。
一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1-10中任一所述的手部关键点检测方法和如权利要求11所述的手势识别方法中的至少之一。