WO2021190296A1

WO2021190296A1 - 一种动态手势识别方法及设备

Info

Publication number: WO2021190296A1
Application number: PCT/CN2021/079699
Authority: WO
Inventors: 吴觊豪; 马杰延
Original assignee: 华为技术有限公司
Priority date: 2020-03-27
Filing date: 2021-03-09
Publication date: 2021-09-30
Also published as: CN113449573A

Abstract

本发明公开了人工智能领域中的一种动态手势识别方法及设备，涉及人工智能AI领域。该动态手势识别方法包括：获取包含手势动作的多张图像；通过手势识别模型识别多张图像，得到多张图像中手势动作的类型和属性，该属性包括去程和回程。上述方法能够提高识别精度。

Description

一种动态手势识别方法及设备

本申请要求于2020年03月27日提交中国专利局、申请号为202010235859.6、申请名称为“一种动态手势识别方法及设备”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及人工智能(artificial intelligence，AI)领域，特别涉及一种动态手势识别方法及设备。

背景技术

手势是一种富有表现力的身体动作，能够传达各种有意义的信息。动态手势识别一直是深度学习领域的研究热点之一，作为一种新兴的人机交互(human-computer interaction，HCI)方式，动态手势识别在虚拟现实、智能家居、儿童早教、医用机器人等众多领域具有广阔的应用前景。在动态手势识别中，当用户要往一个方向连续挥动手势的时候，一定会往另一个方向回到起点，这就是手势回程，手势回程容易导致终端设备对手势方向的误判情况出现。例如，用户需要连续向右挥动两次手势，第二次挥动的时候需要将手返回至第一次挥动的起点重新挥动，在返回的过程中，终端设备很容易将其判断成向左的手势。

因此，如何实现对手势动作进行准确的识别是目前亟待解决的问题。

发明内容

本申请实施例提供一种动态手势识别方法及设备，可以提高识别精度。

第一方面，本申请实施例提供一种动态手势识别方法，包括：获取包含手势动作的多张图像；通过手势识别模型识别所述多张图像，得到所述多张图像中手势动作的类型和属性，所述属性包括去程和回程。

在本申请提供的方案中，利用手势识别模型识别包含手势动作的多张图像，可以得到所述多张图像中手势动作的类型和属性，进而根据得到的多张图像中手势动作的类型和属性进行对应的操作，可以避免因回程问题造成的终端对手势误判的情况。

在一种可能的实现方式中，获取多个携带标注信息的样本图像，所述样本图像为包含手势动作的多张图像，所述标注信息包括所述样本图像中手势动作的类型和属性；根据所述多个携带标注信息的样本图像对初始手势识别模型进行训练得到所述手势识别模型。

在本申请提供的方案中，可以提前获取样本图像中记录的手势动作在样本图像中的类型和属性，然后利用多个携带类型和属性的样本图像对初始手势识别模型进行训练，以使得训练完成的手势识别模型具备识别多张图像中记录的手势动作的类型和属性的能力，这样可以对输入手势识别模型的多张图像进行识别，从而可以输出多张图像中记录的手势动作的类型和属性。

在一种可能的实现方式中，所述手势识别模型包括空间特征模块、时域特征模块和分类模块；所述通过手势识别模型识别所述多张图像，得到所述多张图像中手势动作的类型和属性，包括：将所述多张图像输入所述空间特征模块，得到第一特征数据，所述第一特征数据包括所述多张图像中手势动作的空间特征；将所述第一特征数据输入所述时域特征模块，得到第二特征数据，所述第二特征数据包括所述第一特征数据在时间维度上的时域特征；将所述第二特征数据输入所述分类模块，得到所述多张图像中手势动作的类型和属性。

在本申请提供的方案中，通过手势识别模型的空间特征模块对输入的多张图像进行空间特征提取之后，得到第一特征数据，手势识别模型的时域特征模块提取多张图像针对第一特征数据在时间维度上的时域特征，最后输入手势识别模型的分类模块，得到所述多张图像中手势动作的类型和属性。

在一种可能的实现方式中，所述时域特征模块包括维度变换层、卷积层、批量标准化(batch normalization，BN)层、线性修正单元(rectified linear unit，ReLu)层、最大池化层和特征联合层；所述将所述第一特征数据输入所述时域特征模块，得到第二特征数据，所述第二特征数据包括所述第一特征数据在时间维度上的时域特征，包括：按照所述多张图像的时间信息通过所述维度变换层确定所述第一特征数据在时间维度上对应的第一时域特征数据；通过所述卷积层对所述第一时域特征数据进行卷积处理，得到第二时域特征数据；将所述第二时域特征数据依次经过所述BN层、所述ReLu层、所述最大池化层和所述特征联合层，获得所述第二特征数据。

在本申请提供的方案中，所述时域特征模块的维度变换层按照多张图像中各张图像的时间信息，确定所述多张图像对应的第一特征数据中位置相同的像素点在时间维度上对应的第一时域特征数据，所述时域特征模块的卷积层对所述第一特征数据进行卷积处理，得到对应的第二时域特征数据，将所述第二时域特征数据依次经过所述BN层、所述ReLu层、所述最大池化层和所述特征联合层，获得所述第二特征数据。

在一种可能的实现方式中，所述通过卷积层对所述第一时域特征数据进行卷积处理，得到第二时域特征数据包括：使用第一预设数量个卷积核大小不同的一维卷积层对所述第一时域特征数据进行卷积处理，得到第二时域特征数据，所述第二时域特征数据包括第一预设数量个不同尺度的特征数据；所述将所述第二时域特征数据依次经过所述BN层、所述ReLu层、所述最大池化层和所述特征联合层，获得所述第二特征数据包括：将所述第一预设数量个不同尺度的特征数据依次经过所述BN层、所述ReLu层、所述最大池化层和所述特征联合层，得到所述第二特征数据。

在本申请提供的方案中，针对所述第一时域特征数据，所述时域特征模块的卷积层用第一预设数量个卷积核大小不同的一维卷积层对第一时域特征数据进行卷积处理，得到第一预设数量个不同尺度的特征数据，所述特征数据经过所述BN层、所述ReLu层、所述最大池化层和所述特征联合层，所述特征联合层融合第一时域特征数据对应的第一预设数量个不同尺度的特征数据，得到所述第一特征数据对应的第二特征数据。使用一维卷积层可以有效降低计算量，提高时域特征模块的卷积层的处理效率。

在一种可能的实现方式中，所述手势识别模型还包括第一分类器和第二分类器，所述将所述第二特征数据输入所述分类模块，得到所述多张图像中手势动作的类型和属性包括：将所述第二特征数据输入所述第一分类器，得到所述多张图像中的手势动作属于每个类型的第一概率；将第一手势动作归类至所述第一手势动作对应的第一概率最大的类型，所述第一手势动作为所述多张图像中的手势动作中的任一手势动作；将所述第二特征数据输入所述第二分类器，得到所述多张图像中的手势动作属于每个属性的第二概率；将所述第一手势动作归类至所述第一手势动作对应的第二概率最大的属性。

在本申请提供的方案中，将所述第二特征数据输入已训练好的第一分类器和第二分类器，得到手势动作属于每个类型的第一概率和属于每个属性的第二概率，将第一手势动作归类至所述第一手势动作对应的第一概率最大的类型和第二概率最大的属性。

在一种可能的实现方式中，所述获取包含手势动作的多张图像包括：获取待识别视频；从所述待识别视频中每间隔第二预设数量张图像抽取一张图像，得到包括包含手势动作的多张图像。

在本申请提供的方案中，获取待识别视频，按待识别视频中图像的时序，从待识别视频中每间隔第二预设数量张图像抽取一张图像，在抽取的图像张的数量达到第三预设数量的情况下，将抽取的第三预设数量张图像确定为所述多张图像。

在一种可能的实现方式中，所述方法还包括：在所述多张图像中手势动作的属性为去程的情况下，执行所述手势动作的类型对应的功能。

在本申请提供的方案中，通过手势识别模型识别出所述多张图像中手势动作的类型和属性之后，在所述属性为去程的情况下，终端设备执行识别出的手势动作的类型对应的功能，在所述属性为回程的情况下，终端设备不作处理。

第二方面，本申请实施例提供一种动态手势识别装置，包括：第一获取单元，用于获取包含手势动作的多张图像；识别单元，用于通过手势识别模型识别所述多张图像，得到所述多张图像中手势动作的类型和属性，所述属性包括去程和回程。

在一种可能的实现方式中，所述装置还包括：第二获取单元，用于获取多个携带标注信息的样本图像，所述样本图像为包含手势动作的多张图像，所述标注信息包括所述样本图像中手势动作的类型和属性；训练单元，用于根据所述多个携带标注信息的样本图像对初始手势识别模型进行训练得到所述手势识别模型。

在一种可能的实现方式中，所述手势识别模型包括空间特征模块、时域特征模块和分类模块；所述识别单元，具体用于：将所述多张图像输入所述空间特征模块，得到第一特征数据，所述第一特征数据包括所述多张图像中手势动作的空间特征；将所述第一特征数据输入所述时域特征模块，得到第二特征数据，所述第二特征数据包括所述第一特征数据在时间维度上的时域特征；将所述第二特征数据输入所述分类模块，得到所述多张图像中手势动作的类型和属性。

在一种可能的实现方式中，所述时域特征模块包括维度变换层、卷积层、BN层、ReLu层、最大池化层和特征联合层；所述识别单元用于将所述第一特征数据输入所述时域特征模块，得到第二特征数据，所述第二特征数据包括所述第一特征数据在时间维度上的时域特征时，具体用于：按照所述多张图像的时间信息通过所述维度变换层确定所述第一特征数据在时间维度上对应的第一时域特征数据；通过所述卷积层对所述第一时域特征数据进行卷积处理，得到第二时域特征数据；将所述第二时域特征数据依次经过所述BN层、所述ReLu层、所述最大池化层和所述特征联合层，获得所述第二特征数据。

在一种可能的实现方式中，所述识别单元用于通过所述卷积层对所述第一时域特征数据进行卷积处理，得到第二时域特征数据时，具体用于：使用第一预设数量个卷积核大小不同的一维卷积层对所述第一时域特征数据进行卷积处理，得到第二时域特征数据，所述第二时域特征数据包括第一预设数量个不同尺度的特征数据；所述将所述第二时域特征数据依次经过所述BN层、所述ReLu层、所述最大池化层和所述特征联合层，获得所述第二特征数据包括：将所述第一预设数量个不同尺度的特征数据依次经过所述BN层、所述ReLu层、所述最大池化层和所述特征联合层，得到所述第二特征数据。

在一种可能的实现方式中，所述手势识别模型还包括第一分类器和第二分类器，所述识别单元用于将所述第二特征数据输入所述分类模块，得到所述多张图像中手势动作的类型和属性时，具体用于：将所述第二特征数据输入所述第一分类器，得到所述多张图像中的手势动作属于每个类型的第一概率；将第一手势动作归类至所述第一手势动作对应的第一概率最大的类型，所述第一手势动作为所述多张图像中的手势动作中的任一手势动作；将所述第二特征数据输入所述第二分类器，得到所述多张图像中的手势动作属于每个属性的第二概率；将所述第一手势动作归类至所述第一手势动作对应的第二概率最大的属性。

在一种可能的实现方式中，所述第一获取单元，具体用于：获取待识别视频；从所述待识别视频中每间隔第二预设数量张图像抽取一张图像，得到包括包含手势动作的多张图像。

在一种可能的实现方式中，所述装置还包括：执行单元，用于在所述多张图像中手势动作的属性为去程的情况下，执行所述手势动作的类型对应的功能。

第三方面，本申请实施例提供一种计算设备，所述计算设备包括处理器和存储器，所述存储器用于存储程序，所述处理器执行所述存储器存储的程序，当所述存储器存储的程序被执行时，使得所述计算设备实现上述第一方面以及结合上述第一方面中的任意一种实现方式所提供的动态手势识别方法。

第四方面，本申请实施例提供一种计算机可读存储介质，所述计算机可读介质用于存储有计算机可执行指令，所述计算机可执行指令在被所述计算机调用时用于使所述计算机实现上述第一方面以及结合上述第一方面中的任意一种实现方式所提供的动态手势识别方法。

第五方面，本申请实施例提供一种计算机程序产品，该计算机程序产品包括指令，当该计算机程序产品被计算机执行时，使得计算机可以执行上述第一方面以及结合上述第一方面中的任意一种实现方式所提供的动态手势识别方法的流程。

附图说明

图1为本申请实施例中的一种动态手势交互的场景；

图2为本申请实施例中的一种动态手势识别系统架构示意图；

图3为本申请实施例中的一种手势识别模型的示意图；

图4为本申请实施例中的一种CNN的示意图；

图5为本申请实施例中的一种芯片硬件结构示意图；

图6为本发明实施例中的一种动态手势识别方法的流程示意图；

图7为本申请实施例中的一种空间特征模块的示意图；

图8为本申请实施例中的一种第一特征数据提取的示意图；

图9为本申请实施例中的一种时域特征模块的示意图；

图10为本申请实施例中的一种维度变换层进行转换Reshape操作的示意图；

图11为本发明实施例中的另一种动态手势识别方法的流程示意图；

图12为本发明实施例中的另一种动态手势识别方法的流程示意图；

图13为本发明实施例中的一种手势识别模型训练方法的流程示意图；

图14为本发明实施例中的一种手势动作识别中特征提取的示意图；

图15为本发明实施例中的一种时域特征提取的示意图；

图16为本发明实施例中的一种动态手势识别装置的结构示意图；

图17为本发明实施例公开的一种计算设备的结构示意图。

具体实施方式

下面结合附图对本申请实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

下面将结合附图，对本申请中的技术方案进行描述。

由于本申请实施例涉及大量神经网络的应用，为了便于理解，下面先对本申请实施例涉及的相关术语及神经网络等相关概念进行介绍。

(1)人工智能

人工智能(artificial intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

(2)神经网络

神经网络可以是由神经单元组成的，神经单元可以是指以x _s和截距1为输入的运算单元，该运算单元的输出可以为：

其中，s＝1、2、……n，n为大于1的自然数，W _s为x _s的权重，b为神经单元的偏置。f为神经单元的激活函数(activation functions)，用于将非线性特性引入神经网络中，来将神经单元中的输入信号转换为输出信号。该激活函数的输出信号可以作为下一层卷积层的输入。激活函数可以是sigmoid函数。神经网络是将许多个上述单一的神经单元联结在一起形成的网络，即一个神经单元的输出可以是另一个神经单元的输入。每个神经单元的输入可以与前一层的局部接受域相连，来提取局部接受域的特征，局部接受域可以是由若干个神经单元组成的区域。

(3)深度神经网络

深度神经网络(deep neural network，DNN)，也称多层神经网络，可以理解为具有很多层隐含层的神经网络，这里的“很多”并没有特别的度量标准。从DNN按不同层的位置划分，DNN内部的神经网络可以分为三类：输入层，隐含层，输出层。一般来说第一层是输入层，最后一层是输出层，中间的层数都是隐含层。层与层之间是全连接的，也就是说，第i层的任意一个神经元一定与第i+1层的任意一个神经元相连。虽然DNN看起来很复杂，但是就每一层的工作来说，其实并不复杂，简单来说就是如下线性关系表达式：

其中，

是输入向量，

是输出向量，b是偏移向量，W是权重矩阵(也称系数)，α()是激活函数。每一层仅仅是对输入向量

经过如此简单的操作得到输出向量

由于DNN层数多，则系数W和偏移向量b的数量也就很多了。这些参数在DNN中的定义如下所述：以系数W为例：假设在一个三层的DNN中，第二层的第4个神经元到第三层的第2个神经元的线性系数定义为

上标3代表系数W所在的层数，而下标对应的是输出的第三层索引2和输入的第二层索引4。总结就是：第L-1层的第k个神经元到第L层的第j个神经元的系数定义为

需要注意的是，输入层是没有W参数的。在深度神经网络中，更多的隐含层让网络更能够刻画现实世界中的复杂情形。理论上而言，参数越多的模型复杂度越高，“容量”也就越大，也就意味着它能完成更复杂的学习任务。训练深度神经网络的也就是学习权重矩阵的过程，其最终目的是得到训练好的深度神经网络的所有层的权重矩阵(由很多层的向量W形成的权重矩阵)。

(4)卷积神经网络

卷积神经网络(convolutional neuron network，CNN)是一种带有卷积结构的深度神经网络。卷积神经网络包含了一个由卷积层和子采样层构成的特征抽取器。该特征抽取器可以看作是滤波器，卷积过程可以看作是使用一个可训练的滤波器与一个输入的图像或者卷积特征平面(feature map)做卷积。卷积层是指卷积神经网络中对输入信号进行卷积处理的神经元层。在卷积神经网络的卷积层中，一个神经元可以只与部分邻层神经元连接。一个卷积层中，通常包含若干个特征平面，每个特征平面可以由一些矩形排列的神经单元组成。同一特征平面的神经单元共享权重，这里共享的权重就是卷积核。共享权重可以理解为提取图像信息的方式与位置无关。这其中隐含的原理是：图像的某一部分的统计信息与其他部分是一样的。即意味着在某一部分学习的图像信息也能用在另一部分上。所以对于图像上的所有位置，都能使用同样的学习得到的图像信息。在同一卷积层中，可以使用多个卷积核来提取不同的图像信息，一般地，卷积核数量越多，卷积操作反映的图像信息越丰富。

卷积核可以以随机大小的矩阵的形式初始化，在卷积神经网络的训练过程中卷积核可以通过学习得到合理的权重。另外，共享权重带来的直接好处是减少卷积神经网络各层之间的连接，同时又降低了过拟合的风险。

(5)损失函数

在训练深度神经网络的过程中，因为希望深度神经网络的输出尽可能的接近真正想要预测的值，所以可以通过比较当前网络的预测值和真正想要的目标值，再根据两者之间的差异情况来更新每一层神经网络的权重向量(当然，在第一次更新之前通常会有过程，即为深度神经网络中的各层预先配置参数)，比如，如果网络的预测值高了，就调整权重向量让它预测低一些，不断的调整，直到深度神经网络能够预测出真正想要的目标值或与真正想要的目标值非常接近的值。因此，就需要预先定义“如何比较预测值和目标值之间的差异”，这便是损失函数(loss function)或目标函数(objective function)，它们是用于衡量预测值和目标值的差异的重要方程。其中，以损失函数举例，损失函数的输出值(loss)越高表示差异越大，那么深度神经网络的训练就变成了尽可能缩小这个loss的过程。

(6)手势回程

在动态手势识别中，当用户要往一个方向连续挥动手势的时候，一定会往另一个方向回到起点，这就是手势回程，手势回程容易导致终端设备对手势方向的误判情况出现。

随着计算机技术的飞速发展，动态手势识别已经成为人机交互方式之一。图1为本申请实施例中的一种动态手势交互的场景，如图1所示，在交互设计领域中，用户可以使用一只手或两只手对终端设备进行无接触操作，终端设备通过动态手势识别来响应用户的手势并且执行相关命令。目前主流的动态手势识别方法可分为两种：第一种为结合神经网络和视频输入的方法实现动态手势识别方法，该方法基于多图像输入，使用卷积神经网络(convolutional neuron network，CNN)抽取空间特征(图像的特征)，使用一维卷积(one dimensional convolution，1DCONV)或者全连接网络(multilayer perceptron，MLP)抽取时域特征，最后得到视频中动态手势识别结果。该方法可以端到端完成动态手势识别的自识别(训练过程中学习动作的特征)，但存在比较严重的回程问题。第二种为通过神经网络进行静态图像识别(检测跟踪、分类或关键点识别)，通过连续帧的分类的组合，例如位置以及手部形态的分类，推测动态的动作。该方法可以通过一些分类结果以及分类门限调整动态手势识别的准确率，但回程问题也很难解决。

基于上述问题，本申请提供了一种动态手势识别的方法，可以获取包含手势动作的多张图像，通过手势识别模型识别多张图像，得到多张图像中手势动作的类型和属性，该属性包括去程和回程，然后根据得到的手势动作的类型和属性执行对应的操作命令。通过这种方法，可以解决动态手势识别中回程去程的识别，提高手势动作的识别精度。

下面介绍本申请实施例提供的系统架构。

请参见图2，图2为本申请实施例中的一种动态手势识别系统架构示意图。如图2所示，动态手势识别系统架构200可以包括执行设备210、训练设备220、数据库230、用户设备240、数据存储系统250和数据采集设备260。

数据采集设备260用于采集包含手势动作的多张图像数据，并将多张图像数据存入数据库230，训练设备220基于数据库230中维护的多张图像数据训练得到手势识别模型201。训练过程可以包括：训练设备220将多张图像数据输入初始手势识别模型221，得到手势识别模型201，初始手势识别模型221为深度神经网络。深度神经网络中的每一层的工作可以用数学表达式

来描述：从物理层面深度神经网络中的每一层的工作可以理解为通过五种对输入空间(输入向量的集合)的操作，完成输入空间到输出空间的变换(即矩阵的行空间到列空间)，这五种操作包括：1、升维/降维；2、放大/缩小；3、旋转；4、平移；5、“弯曲”。其中1、2、3的操作由

完成，4的操作由+b完成，5的操作则由a()来实现。这里之所以用“空间”二字来表述是因为被分类的对象并不是单个事物，而是一类事物，空间是指这类事物所有个体的集合。其中，W是权重向量，该向量中的每一个值表示该层神经网络中的一个神经元的权重值。该向量W决定着上文所述的输入空间到输出空间的空间变换，即每一层的权重W控制着如何变换空间。训练深度神经网络的目的，也就是最终得到训练好的神经网络的所有层的权重矩阵(由很多层的向量W形成的权重矩阵)。因此，神经网络的训练过程本质上就是学习控制空间变换的方式，更具体的就是学习权重矩阵。

因为希望深度神经网络的输出尽可能的接近真正想要预测的值，所以可以通过比较当前网络的预测值和真正想要的目标值，再根据两者之间的差异情况来更新每一层神经网络的权重向量(当然，在第一次更新之前通常会有初始化的过程，即为深度神经网络中的各层预先配置参数)，比如，如果网络的预测值高了，就调整权重向量让它预测低一些，不断的调整，直到神经网络能够预测出真正想要的目标值。因此，就需要预先定义“如何比较预测值和目标值之间的差异”，这便是损失函数(loss function)或目标函数(objective function)，它们是用于衡量预测值和目标值的差异的重要方程。其中，以损失函数举例，损失函数的输出值(loss)越高表示差异越大，那么深度神经网络的训练就变成了尽可能缩小这个loss的过程。

根据训练设备220训练得到的手势识别模型201可以应用于不同的系统或设备中，如应用于图2所示的执行设备210，所述执行设备210可以是终端，如手机终端，平板电脑，笔记本电脑，AR/VR，车载终端等，还可以是服务器或者云端等。执行设备210可以执行本申请实施例中的动态手势识别方法。在图2中，执行设备210配置有I/O接口212，用于与外部设备进行数据交互，用户可以通过用户设备240向I/O接口212输入数据，所述输入数据在本申请实施例中可以为包含手势动作的多张图像数据，也可以为向执行设备210请求对动态手势进行识别的请求。

在执行设备210的计算模块211执行计算等相关的处理过程中，执行设备210可以调用数据存储系统250中的数据、代码等以用于相应的处理，也可以将相应处理得到的数据、指令等存入数据存储系统250中。

计算模块211可以使用手势识别模型201对输入的包含手势动作的多张图像数据进行处理，具体地，先获取包含手势动作的多张图像，通过手势识别模型201中的空间特征模块得到第一特征数据，将第一特征数据输入手势识别模型201中的时域特征模块得到第二特征数据，将第二特征数据输入手势识别模型201中的分类模块，得到多张图像中手势动作的类型和属性。

最后，I/O接口212将处理结果，如上述手势识别模型201的识别方法得到多张图像中手势动作的类型和属性返回给用户设备240。该用户设备240可以是终端，如手机终端、笔记本电脑、AR/VR终端或车载终端等，以用于响应与终端用户的相应需求。

在图2中所示的情况下，用户可以手动给定输入数据(如本申请实施例中包含手势动作的多张图像)，该手动给定可以通过I/O接口212提供的界面进行操作。另一种情况下，用户设备240可以自动地向I/O接口212发送输入数据，如果要求用户设备240自动发送输入数据需要获得用户的授权，则用户可以在用户设备240中设置相应权限。用户可以在用户设备240查看执行设备210输出的识别结果，识别结果包括多张图像中手势动作的类型和属性。用户设备240在接收到识别结果后，可以将识别结果转换成相应的指令以响应于用户的动态手势。

值得注意的是，图2仅是本发明实施例提供的一种系统架构的示意图，图中所示设备、器件、模块等之间的位置关系不构成任何限制，例如，在图2中，数据存储系统250相对执行设备210是外部存储器，在其它情况下，也可以将数据存储系统250置于执行设备210中。数据采集设备260可以是相对于用户设备240单独的外部设备，也可以是置于用户设备240中的内部设备。

如图2所示，根据训练设备220训练得到的可以是本实施例中的手势识别模型201，具体的，本申请实施例提供的手势识别模型201可以是用于动态手势识别的神经网络模型。

请参阅图3，图3为本申请实施例中的一种手势识别模型的示意图。如图3所示，手势识别模型300可以包括空间特征模块301、时域特征模块302和分类模块303，时域特征模块302可以设置在空间特征模块301后面。图3中的空间特征模块301从输入的包含手势动作的多张图像中逐层提取第一特征数据，第一特征数据中包含表征手势动作在多张图像中的空间特征。时域特征模块302的输入数据为位于其上一级的空间特征模块301输出的第一特征数据。时域特征模块302对第一特征数据进行处理，得到第二特征数据。分类模块303的输入数据为位于其上一级的时域特征模块302输出的第二特征数据，分类模块303对第二特征数据进行分类，确定多张图像中手势动作的类型和属性。分类模块303的输出值可以被传递给两个输出，一个输出可以采用softmax逻辑回归(softmax regression)进行分类用于表征手势动作的类型，另一个输出可以采用sigmoid函数用于表征手势动作的属性。

具体实施时，手势识别模型300可以包括多个空间特征模块和多个时域特征模块，多个空间特征模块的结构可以相同，也可以不同。单个空间特征模块可以仅包含一个神经网络层，例如，单个空间特征模块中仅包含一个卷积层；单个空间特征模块也可以包括多个相同或不同的神经网络层，例如，单个空间特征模块中包含卷积层和池化层，或者单个空间特征模块中包含多个不同的卷积层。图3所述的手势识别模型300仅为一个示例，实际应用中，手势识别模型300包含的空间特征模块的数量、结构、位置和时域特征模块的数量、结构、位置均可根据实际需求设定，本申请实施例不作限定。

在本实施例中，空间特征模块301可以是CNN架构。

请参阅图4，图4为本申请实施例中的一种CNN的示意图。如前文的基础概念介绍所述，CNN是一种带有卷积结构的深度神经网络，是一种深度学习(deep learning)架构，深度学习架构是指通过机器学习的算法，在不同的抽象层级上进行多个层次的学习。作为一种深度学习架构，CNN是一种前馈(feed-forward)人工神经网络，该前馈人工神经网络中的各个神经元可以对输入其中的包含手势动作的多张图像作出响应。

如图4所示，卷积神经网络(CNN)400可以包括输入层410，卷积层/池化层420(其中池化层为可选的)，以及神经网络层430。

卷积层/池化层420：

卷积层：

如图4所示卷积层/池化层420可以包括如示例421-426层，举例来说：在一种实现中，421层为卷积层，422层为池化层，423层为卷积层，424层为池化层，425为卷积层，426为池化层；在另一种实现方式中，421、422为卷积层，423为池化层，424、425为卷积层，426为池化层。即卷积层的输出可以作为随后的池化层的输入，也可以作为另一个卷积层的输入以继续进行卷积操作。

下面将以卷积层421为例，介绍一层卷积层的内部工作原理。

卷积层421可以包括很多个卷积算子，卷积算子也称为核，其在图像处理中的作用相当于一个从输入图像矩阵中提取特定信息的过滤器，卷积算子本质上可以是一个权重矩阵，这个权重矩阵通常被预先定义，在对图像进行卷积操作的过程中，权重矩阵通常在输入图像上沿着水平方向一个像素接着一个像素(或两个像素接着两个像素……这取决于步长stride的取值)的进行处理，从而完成从图像中提取特定特征的工作。该权重矩阵的大小应该与图像的大小相关，需要注意的是，权重矩阵的纵深维度(depth dimension)和输入图像的纵深维度是相同的，在进行卷积运算的过程中，权重矩阵会延伸到输入图像的整个深度。因此，和一个单一的权重矩阵进行卷积会产生一个单一纵深维度的卷积化输出，但是大多数情况下不使用单一权重矩阵，而是应用多个尺寸(行×列)相同的权重矩阵，即多个同型矩阵。每个权重矩阵的输出被堆叠起来形成卷积图像的纵深维度，这里的维度可以理解为由上面所述的“多个”来决定。不同的权重矩阵可以用来提取图像中不同的特征，例如一个权重矩阵用来提取图像边缘信息，另一个权重矩阵用来提取图像的特定颜色，又一个权重矩阵用来对图像中不需要的噪点进行模糊化等。该多个权重矩阵尺寸(行×列)相同，经过该多个尺寸相同的权重矩阵提取后的特征图的尺寸也相同，再将提取到的多个尺寸相同的特征图合并形成卷积运算的输出。这些权重矩阵中的权重值在实际应用中需要经过大量的训练得到，通过训练得到的权重值形成的各个权重矩阵可以用来从输入图像中提取信息，从而使得卷积神经网络400进行正确的预测。

当卷积神经网络400有多个卷积层的时候，初始的卷积层(例如421)往往提取较多的一般特征，该一般特征也可以称之为低级别的特征；随着卷积神经网络400深度的加深，越往后的卷积层(例如426)提取到的特征越来越复杂，比如高级别的语义之类的特征，语义越高的特征越适用于待解决的问题。

池化层：

由于常常需要减少训练参数的数量，因此卷积层之后常常需要周期性的引入池化层，在如图4中420所示例的421-426各层，可以是一层卷积层后面跟一层池化层，也可以是多层卷积层后面接一层或多层池化层。在图像处理过程中，池化层的唯一目的就是减少图像的空间大小。池化层可以包括平均池化算子和/或最大池化算子，以用于对输入图像进行采样得到较小尺寸的图像。平均池化算子可以在特定范围内对图像中的像素值进行计算产生平均值作为平均池化的结果。最大池化算子可以在特定范围内取该范围内值最大的像素作为最大池化的结果。另外，就像卷积层中用权重矩阵的大小应该与图像尺寸相关一样，池化层中的运算符也应该与图像的大小相关。通过池化层处理后输出的图像尺寸可以小于输入池化层的图像的尺寸，池化层输出的图像中每个像素点表示输入池化层的图像的对应子区域的平均值或最大值。

神经网络层430：

在经过卷积层/池化层420的处理后，卷积神经网络400还不足以输出所需要的输出信息。因为如前所述，卷积层/池化层520只会提取特征，并减少输入图像带来的参数。然而为了生成最终的输出信息(所需要的类信息或其他相关信息)，卷积神经网络400需要利用神经网络层430来生成一个或者一组所需要的类的数量的输出。因此，在神经网络层430中可以包括多层隐含层(如图4所示的431、432至43n)以及输出层440，该多层隐含层中所包含的参数可以根据具体的任务类型的相关训练数据进行预先训练得到。

在神经网络层430中的多层隐含层之后，也就是整个卷积神经网络400的最后层为输出层440，该输出层440具有类似分类交叉熵的损失函数，具体用于计算预测误差，一旦整个卷积神经网络400的前向传播(如图4由410至440方向的传播为前向传播)完成，反向传播(如图4由440至410方向的传播为反向传播)就会开始更新前面提到的各层的权重值以及偏差，以减少卷积神经网络400的损失，及卷积神经网络400通过输出层输出的结果和理想结果之间的误差。

需要说明的是，如图4所示的卷积神经网络400仅作为一种卷积神经网络的示例，在具体的应用中，卷积神经网络还可以以其他网络模型的形式存在。

下面介绍本申请实施例提供的一种芯片硬件结构。

请参阅图5，图5为本申请实施例中的一种芯片硬件结构示意图。如图5所示，该芯片包括神经网络处理器50。该芯片可以被设置在如图2所示的执行设备210中，用以完成计算模块211的计算工作。该芯片也可以被设置在如图2所示的训练设备220中，用以完成训练设备220的训练工作并输出目标模型201。如图3所示的手势识别模型中各模块的算法均可在如图5所示的芯片中得以实现。

神经网络处理器50可以是NPU，TPU，或者GPU等一切适合用于大规模异或运算处理的处理器。以NPU为例：NPU可以作为协处理器挂载到主CPU(host CPU)上，由主CPU为其分配任务。NPU的核心部分为运算电路503，通过控制器504控制运算电路503提取存储器(501和502)中的矩阵数据并进行乘加运算。

在一些实现中，运算电路503内部包括多个处理单元(process engine，PE)。在一些实现中，运算电路503是二维脉动阵列。运算电路503还可以是一维脉动阵列或者能够执行例如乘法和加法这样的数学运算的其它电子线路。在一些实现中，运算电路503是通用的矩阵处理器。

举例来说，假设有输入矩阵A，权重矩阵B，输出矩阵C。运算电路503从权重存储器502中取矩阵B的权重数据，并缓存在运算电路503中的每一个PE上。运算电路503从输入存储器501中取矩阵A的输入数据，根据矩阵A的输入数据与矩阵B的权重数据进行矩阵运算，得到的矩阵的部分结果或最终结果，保存在累加器(accumulator)508中。

统一存储器506用于存放输入数据以及输出数据。权重数据直接通过存储单元访问控制器(direct memory access controller，DMAC)505，被搬运到权重存储器502中。输入数据也通过DMAC被搬运到统一存储器506中。

总线接口单元(bus interface unit，BIU)510，用于DMAC和取指存储器(instruction fetch buffer)509的交互；总线接口单元501还用于取指存储器509从外部存储器获取指令；总线接口单元501还用于存储单元访问控制器505从外部存储器获取输入矩阵A或者权重矩阵B的原数据。

DMAC主要用于将外部存储器DDR中的输入数据搬运到统一存储器506中，或将权重数据搬运到权重存储器502中，或将输入数据搬运到输入存储器501中。

向量计算单元507多个运算处理单元，在需要的情况下，对运算电路503的输出做进一步处理，如向量乘，向量加，指数运算，对数运算，大小比较等等。向量计算单元507主要用于神经网络中非卷积层或全连接层(fully connected layers，FC)的计算，具体可以处理：池化(pooling)，归一化(normalization)等的计算。例如，向量计算单元507可以将非线性函数应用到运算电路503的输出，例如累加值的向量，用以生成激活值。在一些实现中，向量计算单元507生成归一化的值、合并值，或二者均有。

在一些实现中，向量计算单元507将经处理的向量存储到统一存储器506。在一些实现中，经向量计算单元507处理过的向量能够用作运算电路503的激活输入，例如用于神经网络中后续层中的使用，如图4所示，若当前处理层是隐含层1(431)，则经向量计算单元507处理过的向量还可以被用到隐含层2(432)中的计算。

控制器504连接的取指存储器(instruction fetch buffer)509，用于存储控制器504使用的指令；

统一存储器506，输入存储器501，权重存储器502以及取指存储器509均为On-Chip存储器。外部存储器独立于该NPU硬件架构。

其中，图3所示的手势识别模型中各模块的运算可以由运算电路503或向量计算单元507执行。

下面提供一种基于图2的系统架构的一种动态手势识别方法。请参阅图6，图6为本发明实施例中的一种动态手势识别方法的流程示意图。如图6所示，该动态手势识别方法可以包括以下步骤。

601、获取包含手势动作的多张图像。

在实施例中，当需要对手势动作进行识别时，可以获取包含手势动作的多张图像。包含手势动作的多张图像可以只包括手部对象，也可以包括手部对象的背景。

具体实施时，可以先获取待识别视频，从待识别视频中每间隔第二预设数量张图像抽取一张图像，得到包括包含手势动作的多张图像。在一种实现中，在抽取的图像的数量达到第三预设数量的情况下，将抽取的第三预设数量张图像确定为包含手势动作的多张图像。例如，第二预设数量为14，第三预设数量为8，则可从待识别视频中的第1帧开始，每隔14帧抽取一张图像，最终得到第1、15、29、43、57、71、85、99帧组成的第一个8张图像。可继续每间隔14帧抽取一张图像，得到第二个8张图像。

602、通过手势识别模型识别多张图像，得到多张图像中手势动作的类型和属性。

在获取到包含手势动作的多张图像之后，可以通过手势识别模型识别多张图像，得到多张图像中手势动作的类型和属性。其中，手势识别模型可以包括空间特征模块、时域特征模块、分类模块、第一分类器和第二分类器。

具体实施时，输入手势识别模型的多张图像可以是一段连续的图像，也可以是从一段待识别视频中截取的、不连续的多个图像按照时序排列后得到的多张图像。多张图像本质上是一个四维矩阵(B×T，C，H，W)，其中，B为批处理数目(batch size)，即手势识别模型可以一次处理完的多张图像的数量，T为图像长度，即多张图像中包含的图像的数量，C为图像的通道数，H为图像的高，W为图像的宽，此时所指的图像为视频帧。以批处理数目B＝2，图像长度T＝8，RGB通道数C＝3，高H＝224，宽W＝224的输入信息为例，即输入手势识别模型的多张图像为一个四维矩阵(2×8,3,224,224)。如果同一时间内，手势识别模型只处理一组图像，则B可以设置为1，即手势识别模型一次可处理一组图像中的T张图像。

具体实施时，可以先将包含手势动作的多张图像输入空间特征模块，得到第一特征数据，第一特征数据包括多张图像中手势动作的空间特征。在一种实现中，请参阅图7，图7为本申请实施例中的一种空间特征模块的示意图。如图7所示，空间特征模块700可以包括输入层710，卷积层/池化层720(其中池化层为可选的)，注意力机制(attention mechanism)730，以及神经网络层740。空间特征模块700的网络结构设计中，主干网络可以采用CNN架构，空间特征模块700是基于CNN架构的增加了attention机制的轻量级网络，使用批归一化BatchNorm代替L2Norm，可以得到比较好的效果。其中，attention机制730可以加在卷积层/池化层720(其中池化层为可选的)的后面。

请参阅图8，图8为本申请实施例中的一种第一特征数据提取的示意图。如图8中的(1)所示，本实施例采用的是多张图像输入的方案，对于每一张采用共享参数的方法，区块0～区块3采用每一张都用相同的参数来提取空间特征。其中，区块是空间特征模块中卷积层对图像的一个局部区域进行空间特征提取之后形成的特征区块，在区块之后可以加入attention机制，用于增强局部区域的空间特征提取。在本实施例中，每一个区块之后都加入了attention机制。具体的如图8中的(2)所示，例如，对图像0进行空间特征提取时，可以得到多个局部区域的特征，多个局部区域的特征进行相加，就可以得到空间特征0。相同地，对图像1进行空间特征提取，可以得到空间特征1，…，对图像n进行空间特征提取，可以得到空间特征n。

本申请实施例中，每张图像对应的第一特征数据包括多个二维图片(即二维矩阵(H，W))，每一个二维图片即为一个特征图(feature map)，第一特征数据包含的特征图数量等于对应的通道数。例如，空间特征模块输出的数据的维度为(16,64,112,112)，则一张图像对应的第一特征数据包含的特征图的数量为64，每个特征图的大小为112×112。需要说明的是，相同模块输出的每张图像对应的第一特征数据的维度、大小均相同。同样，每张图像对应的第二特征数据也包括多个特征图。

得到第一特征数据之后，可以将第一特征数据输入时域特征模块，得到第二特征数据，第二特征数据包括第一特征数据在时间维度上的时域特征。在一种实现中，时域特征模块可以是CNN架构。请参阅图9，图9为本申请实施例中的一种时域特征模块的示意图。如图9所示，时域特征模块900可以包括维度变换层901、卷积层902、批量归一化层903、激活函数层904、最大池化层905和特征联合层906。具体地，按照多张图像的时间信息通过维度变换层901确定第一特征数据在时间维度上对应的第一时域特征数据。请参阅图10，图10为本申请实施例中的一种维度变换层进行转换Reshape操作的示意图。Reshape是一种可以重新调整矩阵的行数、列数和维数的函数。如图10所示，维度变换层901可以实现对上一级空间特征模块输出的第一特征数据(B×T，C，H，W)的维度转换，即将第一特征数据(B×T，C，H，W)中的空间维度(H，W)合并到Batch批处理维度上，将时间维度T单独分离出来，得到三维矩阵(B×H×W，C，T)，第一时域特征数据由多张图像对应的第一特征数据(C，H，W)中H相同、W相同、C相同的像素点按照时间顺序排列而成，每个第一时域特征数据中包含T个数据，第一时域特征数据为由这T个数据组成的一维向量。例如，当B＝1，T＝8，C＝64，H＝56，W＝56时，Reshape操作后可得到1×56×56×64个第一时域特征数据，每个第一时域特征数据包含8个数据。

得到第一时域特征数据之后，通过卷积层902对第一时域特征数据进行卷积操作，得到第二时域特征数据。具体地，通过卷积层902对维度变换层901输出的第一时域特征数据进行卷积处理。卷积层902可以包含第一预设数量个卷积核大小不同的一维卷积层，针对维度变换层901输出的第一时域特征数据，分别用这第一预设数量个一维卷积层对第一时域特征数据进行卷积处理，得到第一时域特征数据对应的第一预设数量个不同尺度的第二时域特征数据。将第二时域特征数据依次经过BN层903、ReLu层904、最大池化层905，进一步地，特征联合层906融合第一预设数量个不同尺度的第二时域特征数据，得到对应的第二特征数据。具体地，特征联合层906可以将第一预设数量个不同尺度的第二时域特征数据相加，得到对应的第二特征数据。通过卷积层902设置多个卷积核大小不同的一维卷积层，可从同一第一时域特征数据中提取出不同尺度的时序特征，特征联合层906融合这多个不同尺度的时序特征，得到第二特征数据，较好保留了手势动作的时序特征。

其中，BN层903和卷积层902一样都是一个网络层，用于加快训练速度，提高网络的泛化能力。BN层本质上是一个归一化网络层，可以替代局部响应归一化层(LRN层)，ReLu层904，用于增加神经网络各层之间的非线性关系，且减轻梯度消失问题，最大池化层905 中的最大池化算子可以在特定范围内取该范围内值最大的像素作为最大池化的结果，可以对卷积层902输出的第一时域特征数据进行采样得到较小尺寸的图像。

在一种实现中，卷积层902可以包括4个卷积核大小不同的一维卷积层，卷积核分别为k＝3，k＝4，k＝5，k＝6，分别用这4个一维卷积层对第一时域特征数据进行卷积处理，得到第一时域特征数据对应的4个不同尺度的特征数据，经过BN层903、ReLu层904和最大池化层905之后，特征联合层906将4个不同尺度的特征数据相加，得到该第一时域特征数据对应的第二特征数据。

在一种实现中，请参阅图11，图11为本申请实施例中的一种数据组装方式的示意图。第一特征数据和第二特征数据可以按照如图11的方式进行组装之后输入进特征联合层906进行数据融合。

得到第二特征数据之后，可以将第二特征数据输入第一分类器，得到多张图像中手势动作属于每个类型的第一概率，将第一手势动作归类至第一手势动作对应的第一概率最大的类型，第一手势动作为多张图像中的手势动作中的任一手势动作。将第二特征数据输入第二分类器，得到多张图像中手势动作属于每个属性的第二概率，将第一手势动作归类至第一手势动作对应的第二概率最大的属性。第一分类器和第二分类器的输出值可以被传递给两个输出，一个输出可以采用softmax逻辑回归(softmax regression)进行分类用于表征类型分类，另一个输出可以采用sigmoid函数用于表征属性分类。

在图6所描述的动态手势识别方法中，获取包含手势动作的多张图像，通过图3所示的手势识别模型300中的空间特征模块301、时域特征模块302和分类模块303识别多张图像，得到多张图像中手势动作的类型和属性。其中，通过空间特征模块301得到包括多张图像中手势动作的空间特征的第一特征数据，通过时域特征模块302得到包括第一特征数据在时间维度上的时域特征的第二特征数据。通过分类模块303得到多张图像中手势动作的类型和属性。因此，基于上述的手势识别模型300和动态手势识别方法，能够从多张图像中获取到手势动作更加全面的特征信息，进而提高了针对手部动作的识别准确率。

下面提供一种基于图2的系统架构的另一种动态手势识别方法。请参阅图12，图12为本发明实施例中的另一种动态手势识别方法的流程示意图。如图12所示，该动态手势识别方法可以包括以下步骤。

1201、获取包含手势动作的多张图像。

其中，步骤1201与步骤601相同，详细描述请参考步骤601，在此不加赘述。

1202、通过手势识别模型识别多张图像，得到多张图像中手势动作的类型和属性。

其中，步骤1202与步骤602相同，详细描述请参考步骤602，在此不加赘述。

1203、在多张图像中手势动作的属性为去程的情况下，执行手势动作的类型对应的功能。

得到多张图像中手势动作的类型和属性之后，在多张图像中手势动作的属性为去程的情况下，可以执行手势动作的类型对应的功能。例如，得到手势动作的类型和属性分别为向左和去程，则执行向左的命令以响应于手势动作；得到手势动作的类型和属性分别为向左和回程，则不执行任何命令。

本申请实施例中，手势识别模型可以是一种AI模型，在利用手势识别模型进行识别之前需要对初始手势识别模型进行训练，以使得训练后的手势识别模型具备识别多张图像中手势动作的类型和属性和能力。本申请中的手势识别模型可以具有确定手势动作的类型和属性(去程回程)的能力。下面提供一种基于图2的系统架构的一种手势识别模型训练方法。请参阅图13，图13为本发明实施例中的一种手势识别模型训练方法的流程示意图。如图13所示，该手势识别模型训练方法可以包括以下步骤。

1301、获取多个携带标注信息的样本图像。

在训练初始手势识别模型的过程中，需要使用特别的训练数据进行训练，从模型能力需求出发进行分析，需要使用携带标注信息的样本图像进行训练，样本图像中记录了手势动作，标注信息可以包括手势动作在样本图像中的类型和属性。手势动作的类型信息用于表示手势动作的类型，例如：“连续左翻”、“连续右翻”、“连续上翻”、“连续下翻”等，属性信息用于表示手势动作在多张图像中的属性，属性信息可以是去程，也可以是回程，例如，手势动作在图像0-图像7中是去程，手势动作在图像8-图像15中是回程。需要说明的是，标注信息可以以可扩展标记语言(extensible markup language，XML)或JavaScript对象简谱(JavaScript object notation，JSON)等文件进行保存。

手势动作的包括类型和属性的标注信息可以利用手势动作检测算法对样本图像进行检测得到样本图像中记录的手势动作的类型信息和属性信息，也可以通过人工标注的方式得到类型信息和属性信息。

1302、根据多个携带标注信息的样本图像对初始手势识别模型进行训练得到手势识别模型。

获取到多个携带标注信息的样本图像之后，多个携带标注信息的样本图像构成了训练集，利用训练集中的训练样本进行模型训练，首先确定初始手势识别模型，本申请实施例中，初始手势识别模型可以为一种AI模型，具体可以选用一种深度神经网络模型，该网络可以对手势动作的类别进行识别，还可以对手势动作的属性进行识别。

该初始手势识别模型可以包括空间特征模块、时域特征模块、损失函数计算模块和分类模块。

首先，将初始手势识别模型的参数初始化，之后将样本图像输入至初始手势识别模型中的空间模块，对输入的样本图像进行空间特征提取，得到抽象的特征。通过空间特征模块可以检测到的手势动作中手部特征和手部关键点特征。再通过时域特征模型得到手部关键点特征针对时间信息对应的时域特征。请参阅图14，图14为本发明实施例中的一种手势动作识别中特征提取的示意图。如图14所示，对于样本图像，可以通过空间特征模块可以检测到手部在图像中的位置信息，将手部在图像中的位置信息用矩形框标注出来，再针对矩形框内的手部进行关键点检测。通过时域特征模块可以得到关键点根据多张图像的时间信息对应的时域特征，可以采用差分法得到前后张图像中关键点的时域特征。具体地，请参阅图15，图15为本发明实施例中的一种时域特征提取的示意图。如图15所示，手部关键点可以包括指尖点和指骨关键点，可以提取手部关键点的位移信息和速度信息。手部关键点相对于图像的位移可以用S _x和S _y来表示，S _x表示x方向的位移，S _y表示y方向的位移。在前后张图像采集的帧率相同的情况下，S _x和S _y也可以代表手部关键点的移动速度。根据大量数据经验所得，手势动作针对去程和回程的不同属性，移动的速度不同，因此在前后张图像采集的帧率不相同的情况下，还可以提取手部关键点的移动速度。对于不同的关键点，可以提取到多个位移信息和速度信息，将多个不同手部关键点的位移信息和速度信息合成向量，可以得到向量F，F＝[f ₁,f ₂,f ₃,...,f _n]。

对空间特征模块和时域特征模块提取到的特征进行检测和识别，预测出输入的样本图像中的手势动作的类型和属性，输出至损失函数计算模块，然后将该样本图像对应的标注信息也输入到损失函数计算模块，损失函数计算模块将预测得到的预测结果与该样本图像对应的标注信息进行比对，并计算出损失函数，以损失函数为目标函数使用反向传播(backpropagation，BP)、梯度下降(gradient descent，GD)或者随机梯度下降(stochastic gradient descent，SGD)等优化算法更新调整初始手势识别模型和分类器中的权重参数。依次循环输入携带标注信息的样本图像，不断迭代执行上述训练过程，直到基于初始手势识别模型和分类器得到的样本图像对应的预设概率与样本图像对应的标注信息一致的概率达到期望值，则表示已获得符合要求的手势识别模型，可结束训练得到手势识别模型，即手势识别模型已经具备识别多张图像中手势动作的类型和属性的功能，可以用于动态手势识别。

请参阅图16，图16为本发明实施例公开的一种动态手势识别装置的结构示意图。如图16所示，该动态手势识别装置1600可以包括：

第一获取单元1601，用于获取包含手势动作的多张图像；

识别单元1602，用于通过手势识别模型识别多张图像，得到多张图像中手势动作的类型和属性，属性包括去程和回程。

在一种可选的实现方式中，装置1600还可以包括：

第二获取单元1603，用于获取多个携带标注信息的样本图像，样本图像为包含手势动作的多张图像，标注信息包括样本图像中手势动作的类型和属性；

训练单元1604，用于根据多个携带标注信息的样本图像对初始手势识别模型进行训练得到手势识别模型。

在一种可选的实现方式中，手势识别模型包括空间特征模块、时域特征模块和分类模块；

识别单元1602，具体用于：

将多张图像输入空间特征模块，得到第一特征数据，第一特征数据包括多张图像中手势动作的空间特征；

将第一特征数据输入时域特征模块，得到第二特征数据，第二特征数据包括第一特征数据在时间维度上的时域特征；

将第二特征数据输入分类模块，得到多张图像中手势动作的类型和属性。

在一种可选的实现方式中，时域特征模块包括维度变换层、卷积层、BN层、ReLu层、最大池化层和特征联合层；

识别单元1602用于将第一特征数据输入时域特征模块，得到第二特征数据，第二特征数据包括第一特征数据在时间维度上的时域特征时，具体用于：

按照多张图像的时间信息通过维度变换层确定第一特征数据在时间维度上对应的第一时域特征数据；

通过卷积层对第一时域特征数据进行卷积处理，得到第二时域特征数据；

将第二时域特征数据依次经过BN层、ReLu层、最大池化层和特征联合层，获得第二特征数据。

在一种可选的实现方式中，识别单元1602用于通过卷积层对第一时域特征数据进行卷积处理，得到第二时域特征数据时，具体用于：

使用第一预设数量个卷积核大小不同的一维卷积层对第一时域特征数据进行卷积处理，得到第二时域特征数据，第二时域特征数据包括第一预设数量个不同尺度的特征数据；

将第二时域特征数据依次经过BN层、ReLu层、最大池化层和特征联合层，获得第二特征数据包括：

将第一预设数量个不同尺度的特征数据依次经过BN层、ReLu层、最大池化层和特征联合层，得到第二特征数据。

在一种可选的实现方式中，手势识别模型还包括第一分类器和第二分类器，识别单元1602用于将第二特征数据输入分类模块，得到多张图像中手势动作的类型和属性时，具体用于：

将第二特征数据输入第一分类器，得到多张图像中的手势动作属于每个类型的第一概率；

将第一手势动作归类至第一手势动作对应的第一概率最大的类型，第一手势动作为多张图像中的手势动作中的任一手势动作；

将第二特征数据输入第二分类器，得到多张图像中的手势动作属于每个属性的第二概率；

将第一手势动作归类至第一手势动作对应的第二概率最大的属性。

在一种可选的实现方式中，第一获取单元1601，具体用于：

获取待识别视频；

从待识别视频中每间隔第二预设数量张图像抽取一张图像，得到包括包含手势动作的多张图像。

在一种可选的实现方式中，装置1600还可以包括：执行单元1605，用于在多张图像中手势动作的属性为去程的情况下，执行手势动作的类型对应的功能。

请参阅图17，图17为本发明实施例公开的一种计算设备的结构示意图。如图17所示，该计算设备1700可以包括：存储器1701、处理器1702、通信接口1703以及总线1704。其中，存储器1701、处理器1702、通信接口1703通过总线1704实现彼此之间的通信连接。

存储器1701可以是只读存储器(Read Only Memory，ROM)，静态存储设备，动态存储设备或者随机存取存储器(Random Access Memory，RAM)。存储器1701可以存储程序，当存储器1701中存储的程序被处理器1702执行时，处理器1702和通信接口1703用于执行本申请实施例的动态手势识别方法的各个步骤。

处理器1702可以采用通用的中央处理器(Central Processing Unit，CPU)，微处理器，应用专用集成电路(Application Specific Integrated Circuit，ASIC)，图形处理器(graphics processing unit，GPU)或者一个或多个集成电路，用于执行相关程序，以实现本申请实施例的动态手势识别装置中的单元所需执行的功能，或者执行本申请方法实施例的动态手势识别方法。

处理器1702还可以是一种集成电路芯片，具有信号的处理能力。在实现过程中，本申请的动态手势识别方法的各个步骤可以通过处理器1702中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器1702还可以是通用处理器、数字信号处理器(Digital Signal Processing，DSP)、专用集成电路(ASIC)、现成可编程门阵列(Field Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器1701，处理器1702读取存储器1701中的信息，结合其硬件完成本申请实施例的动态手势识别装置中包括的单元所需执行的功能，或者执行本申请方法实施例的动态手势识别方法。

通信接口1703使用例如但不限于收发器一类的收发装置，来实现装置1700与其他设备或通信网络之间的通信。总线1704可包括在装置1700各个部件(例如，存储器1701、处理器1702、通信接口1703)之间传送信息的通路。上述各个功能器件的具体实现可以参见上述实施例中动态手势识别方法的相关描述，本申请实施例不再赘述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本领域技术人员能够领会，结合本文公开描述的各种说明性逻辑框、模块和算法步骤所描述的功能可以硬件、软件、固件或其任何组合来实施。如果以软件来实施，那么各种说明性逻辑框、模块、和步骤描述的功能可作为一或多个指令或代码在计算机可读媒体上存储或传输，且由基于硬件的处理单元执行。计算机可读媒体可包含计算机可读存储媒体，其对应于有形媒体，例如数据存储媒体，或包括任何促进将计算机程序从一处传送到另一处的媒体(例如，根据通信协议)的通信媒体。以此方式，计算机可读媒体大体上可对应于(1)非暂时性的有形计算机可读存储媒体，或(2)通信媒体，例如信号或载波。数据存储媒体可为可由一或多个计算机或一或多个处理器存取以检索用于实施本申请中描述的技术的指令、代码和/或数据结构的任何可用媒体。计算机程序产品可包含计算机可读媒体。

作为实例而非限制，此类计算机可读存储媒体可包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储装置、磁盘存储装置或其它磁性存储装置、快闪存储器或可用来存储指令或数据结构的形式的所要程序代码并且可由计算机存取的任何其它媒体。并且，任何连接被恰当地称作计算机可读媒体。举例来说，如果使用同轴缆线、光纤缆线、双绞线、数字订户线(DSL)或例如红外线、无线电和微波等无线技术从网站、服务器或其它远程源传输指令，那么同轴缆线、光纤缆线、双绞线、DSL或例如红外线、无线电和微波等无线技术包含在媒体的定义中。但是，应理解，所述计算机可读存储媒体和数据存储媒体并不包括连接、载波、信号或其它暂时媒体，而是实际上针对于非暂时性有形存储媒体。如本文中所使用，磁盘和光盘包含压缩光盘(CD)、激光光盘、光学光盘、数字多功能光盘(DVD)和蓝光光盘，其中磁盘通常以磁性方式再现数据，而光盘利用激光以光学方式再现数据。以上各项的组合也应包含在计算机可读媒体的范围内。

可通过例如一或多个数字信号处理器(DSP)、通用微处理器、专用集成电路(ASIC)、现场可编程逻辑阵列(FPGA)或其它等效集成或离散逻辑电路等一或多个处理器来执行指令。因此，如本文中所使用的术语“处理器”可指前述结构或适合于实施本文中所描述的技术的任一其它结构中的任一者。另外，在一些方面中，本文中所描述的各种说明性逻辑框、模块、和步骤所描述的功能可以提供于经配置以用于编码和解码的专用硬件和/或软件模块内，或者并入在组合编解码器中。而且，所述技术可完全实施于一或多个电路或逻辑元件中。

本申请的技术可在各种各样的装置或设备中实施，包含无线手持机、集成电路(IC)或一组IC(例如，芯片组)。本申请中描述各种组件、模块或单元是为了强调用于执行所揭示的技术的装置的功能方面，但未必需要由不同硬件单元实现。实际上，如上文所描述，各种单元可结合合适的软件和/或固件组合在编码解码器硬件单元中，或者通过互操作硬件单元(包含如上文所描述的一或多个处理器)来提供。

以上所述，仅为本申请示例性的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应该以权利要求的保护范围为准。

Claims

一种动态手势识别方法，其特征在于，包括：

获取包含手势动作的多张图像；

通过手势识别模型识别所述多张图像，得到所述多张图像中手势动作的类型和属性，所述属性包括去程和回程。
根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取多个携带标注信息的样本图像，所述样本图像为包含手势动作的多张图像，所述标注信息包括所述样本图像中手势动作的类型和属性；

根据所述多个携带标注信息的样本图像对初始手势识别模型进行训练得到所述手势识别模型。
根据权利要求1所述的方法，其特征在于，所述手势识别模型包括空间特征模块、时域特征模块和分类模块；

所述通过手势识别模型识别所述多张图像，得到所述多张图像中手势动作的类型和属性，包括：

将所述多张图像输入所述空间特征模块，得到第一特征数据，所述第一特征数据包括所述多张图像中手势动作的空间特征；

将所述第一特征数据输入所述时域特征模块，得到第二特征数据，所述第二特征数据包括所述第一特征数据在时间维度上的时域特征；

将所述第二特征数据输入所述分类模块，得到所述多张图像中手势动作的类型和属性。
根据权利要求3所述的方法，其特征在于，所述时域特征模块包括维度变换层、卷积层、批量标准化BN层、修正线性单元ReLu层、最大池化层和特征联合层；

所述将所述第一特征数据输入所述时域特征模块，得到第二特征数据，所述第二特征数据包括所述第一特征数据在时间维度上的时域特征，包括：

按照所述多张图像的时间信息通过所述维度变换层确定所述第一特征数据在时间维度上对应的第一时域特征数据；

通过所述卷积层对所述第一时域特征数据进行卷积处理，得到第二时域特征数据；

将所述第二时域特征数据依次经过所述BN层、所述ReLu层、所述最大池化层和所述特征联合层，获得所述第二特征数据。
根据权利要求4所述的方法，其特征在于，所述通过卷积层对所述第一时域特征数据进行卷积处理，得到第二时域特征数据包括：

使用第一预设数量个卷积核大小不同的一维卷积层对所述第一时域特征数据进行卷积处理，得到第二时域特征数据，所述第二时域特征数据包括第一预设数量个不同尺度的特征数据；

所述将所述第二时域特征数据依次经过所述BN层、所述ReLu层、所述最大池化层和所述特征联合层，获得所述第二特征数据包括：

将所述第一预设数量个不同尺度的特征数据依次经过所述BN层、所述ReLu层、所述最大池化层和所述特征联合层，得到所述第二特征数据。
根据权利要求3-5任一项所述的方法，其特征在于，所述手势识别模型还包括第一分类器和第二分类器，所述将所述第二特征数据输入所述分类模块，得到所述多张图像中手势动作的类型和属性包括：

将所述第二特征数据输入所述第一分类器，得到所述多张图像中的手势动作属于每个类型的第一概率；

将第一手势动作归类至所述第一手势动作对应的第一概率最大的类型，所述第一手势动作为所述多张图像中的手势动作中的任一手势动作；

将所述第二特征数据输入所述第二分类器，得到所述多张图像中的手势动作属于每个属性的第二概率；

将所述第一手势动作归类至所述第一手势动作对应的第二概率最大的属性。
根据权利要求1-6任一项所述的方法，其特征在于，所述获取包含手势动作的多张图像包括：

获取待识别视频；

从所述待识别视频中每间隔第二预设数量张图像抽取一张图像，得到包括包含手势动作的多张图像。
根据权利要求1-7任一项所述的方法，其特征在于，所述方法还包括：

在所述多张图像中手势动作的属性为去程的情况下，执行所述手势动作的类型对应的功能。
一种动态手势识别装置，其特征在于，包括：

第一获取单元，用于获取包含手势动作的多张图像；

识别单元，用于通过手势识别模型识别所述多张图像，得到所述多张图像中手势动作的类型和属性，所述属性包括去程和回程。
根据权利要求9所述的装置，其特征在于，所述装置还包括：

第二获取单元，用于获取多个携带标注信息的样本图像，所述样本图像为包含手势动作的多张图像，所述标注信息包括所述样本图像中手势动作的类型和属性；

训练单元，用于根据所述多个携带标注信息的样本图像对初始手势识别模型进行训练得到所述手势识别模型。
根据权利要求9所述的装置，其特征在于，所述手势识别模型包括空间特征模块、时域特征模块和分类模块；

所述识别单元，具体用于：

将所述多张图像输入所述空间特征模块，得到第一特征数据，所述第一特征数据包括所述多张图像中手势动作的空间特征；

将所述第一特征数据输入所述时域特征模块，得到第二特征数据，所述第二特征数据包括所述第一特征数据在时间维度上的时域特征；

将所述第二特征数据输入所述分类模块，得到所述多张图像中手势动作的类型和属性。
根据权利要求11所述的装置，其特征在于，所述时域特征模块包括维度变换层、卷积层、批量标准化BN层、修正线性单元ReLu层、最大池化层和特征联合层；

所述识别单元用于将所述第一特征数据输入所述时域特征模块，得到第二特征数据，所述第二特征数据包括所述第一特征数据在时间维度上的时域特征时，具体用于：

按照所述多张图像的时间信息通过所述维度变换层确定所述第一特征数据在时间维度上对应的第一时域特征数据；

通过所述卷积层对所述第一时域特征数据进行卷积处理，得到第二时域特征数据；

将所述第二时域特征数据依次经过所述BN层、所述ReLu层、所述最大池化层和所述特征联合层，获得所述第二特征数据。
根据权利要求12所述的装置，其特征在于，所述识别单元用于通过所述卷积层对所述第一时域特征数据进行卷积处理，得到第二时域特征数据时，具体用于：

使用第一预设数量个卷积核大小不同的一维卷积层对所述第一时域特征数据进行卷积处理，得到第二时域特征数据，所述第二时域特征数据包括第一预设数量个不同尺度的特征数据；

所述将所述第二时域特征数据依次经过所述BN层、所述ReLu层、所述最大池化层和所述特征联合层，获得所述第二特征数据包括：

将所述第一预设数量个不同尺度的特征数据依次经过所述BN层、所述ReLu层、所述最大池化层和所述特征联合层，得到所述第二特征数据。
根据权利要求11-13任一项所述的装置，其特征在于，所述手势识别模型还包括第一分类器和第二分类器，所述识别单元用于将所述第二特征数据输入所述分类模块，得到所述多张图像中手势动作的类型和属性时，具体用于：

将所述第二特征数据输入所述第一分类器，得到所述多张图像中的手势动作属于每个类型的第一概率；

将第一手势动作归类至所述第一手势动作对应的第一概率最大的类型，所述第一手势动作为所述多张图像中的手势动作中的任一手势动作；

将所述第二特征数据输入所述第二分类器，得到所述多张图像中的手势动作属于每个属性的第二概率；

将所述第一手势动作归类至所述第一手势动作对应的第二概率最大的属性。
根据权利要求9-14任一项所述的装置，其特征在于，所述第一获取单元，具体用于：

获取待识别视频；

从所述待识别视频中每间隔第二预设数量张图像抽取一张图像，得到包括包含手势动作的多张图像。
根据权利要求9-15所述的装置，其特征在于，所述装置还包括：

执行单元，用于在所述多张图像中手势动作的属性为去程的情况下，执行所述手势动作的类型对应的功能。
一种计算设备，其特征在于，包括处理器和存储器，所述存储器用于存储程序，所述处理器执行所述存储器存储的程序，当所述存储器存储的程序被执行时，使得所述计算设备实现如权利要求1-8任一项所述的方法。
一种计算机可读存储介质，其特征在于，所述计算机可读介质用于存储有计算机可执行指令，所述计算机可执行指令在被所述计算机调用时用于使所述计算机实现如权利要求1-8任一项所述的方法。