WO2022000420A1

WO2022000420A1 - 人体动作识别方法、人体动作识别系统及设备

Info

Publication number: WO2022000420A1
Application number: PCT/CN2020/099920
Authority: WO
Inventors: 周泓; 杨诚
Original assignee: 浙江大学
Priority date: 2020-07-02
Filing date: 2020-07-02
Publication date: 2022-01-06
Also published as: CN113196289B; CN113196289A

Abstract

本发明提供了一种人体动作识别方法、人体动作识别系统、设备，所述人体动作识别方法，包括：获取包含人体动作行为的视频，对视频帧进行重采样和预处理；提取视频帧的图像特征；基于人体骨骼信息获得视频帧对应人体关节点序列；将所述图像特征与所述人体关节点序列输入图卷积神经网络，获取动作类别。通过将包含有环境信息的图像特征和人体关节点序列构建模型，对环境变化鲁棒且能充分利用环境信息进行人体动作识别，准确率高。

Description

人体动作识别方法、人体动作识别系统及设备

技术领域

本发明涉及图像处理技术领域，其特别涉及一种人体动作识别方法、人体动作识别系统及人体动作识别方法设备。

背景技术

目前，人体识别领域中的动作识别方法主要包括基于RGB图像的人体动作识别和基于人体骨骼的人体动作识别。

其中，基于RGB图像的人体动作识别以RGB图像序列作为输入，现在效果最好的方法通常使用卷积神经网络进行端到端的训练与学习，即特征的提取与动作的分类同时完成。这种方法的好处在于提取了整个环境中的特征，为准确的人体动作识别提供了更加完备的信息，但是也正是由于这种方法提取的是整个环境的特征，难以针对人体本身提取特征，人体动作识别的准确率受环境的影响较大，例如受光照变化、遮挡等因素影响较大，缺乏鲁棒性。

基于人体骨骼的动作学习以人体关节点序列作为输入，这些输入仅仅包含人体关键点的2D或者3D坐标这样更加抽象的信息，减少了环境噪声的影响，可以构建鲁棒性更强的动作算法，但是缺失了环境信息，对于一些需要环境信息的人体动作识别准确率较差。因为动作的含义并不能完全由人体的运动来定义。在现实世界中，动作在不同的环境下做出可能会有不同的含义，为了做到准确的人体动作识别，我们需要环境信息作为辅助信息，而基于人体骨骼的人体动作识别缺失了所有的环境信息。

发明内容

本发明为了克服现有技术的不足，提供一种人体动作识别方法、人体动作识别系统、设备及可读存储介质，以人体骨骼的人体动作识别为主构建模型，用合适的方式将环境信息编码到模型中，实现对环境变化鲁棒且能充分利用环境信息进行人体动作识别。

为了实现上述目的，本发明实施例提供了一种人体动作识别方法，包括：

获取包含人体动作行为的视频，对视频帧进行重采样和预处理；

提取视频帧的图像特征；

基于人体骨骼信息获得视频帧对应人体关节点序列；

将所述图像特征与所述人体关节点序列输入图卷积神经网络，获取动作类别。

可选的，获取动作类别的具体步骤包括：

获取第一向量，所述第一向量表征视频帧的图像特征；

利用所述人体关节点序列构建人体关节点图；

将所述人体关节点图输入图卷积神经网络，生成第二向量；

将第一向量和第二向量进行连接并输入全连接层，生成第三向量；

将所述第三向量输入分类器，获取预测的动作类别。

可选的，利用所述人体关节点序列构建人体关节点图的具体步骤包括：

将构建的人体关节点图记为G＝(V,E)，其中V表示图的顶点集合，V＝{V _ti|t＝1,…,T,i＝1,…,N}，T表示骨骼序列的数量，N表示一张图片检测的关节点数目；V _ti表示第t张图片第i个关节点，E表示图的边，由两部分组成，分别是一帧图像内关节点的连接状态E ₁以及不同帧之间关节点的连接状态E _D，E ₁是一帧图像的不同关节点之间的物理连接状态，E _D是不同帧之间同一个关节点的连接，为了方便后续捕捉时序特征而定义的一个虚拟物理连接；在实现过程中，利用一个N×N的邻接矩阵A来表示同一帧内关节点的连接状态，如果关节点i和关节点j存在物理连接则Aij为1，否则为0。

可选的，生成第二向量的具体步骤包括：

图卷积神经网络由图卷积层堆叠而成，每一层图卷积层都执行相同的操作；

在每一个图卷积层中，执行两个不同维度的操作，一个是在空间维度上执行图卷积操作，一个是在时间维度上执行普通卷积操作；

对所述图神经网络模块的输出进行变换得到第二向量。

可选的，在空间维度上执行图卷积操作的具体步骤包括：

在空间维度上，对于每一帧人体关节点图执行图卷积操作以捕获不同关节点之间的联系，具体实现如下式所示：

上式中I表示单位矩阵，A是邻接矩阵，D是度矩阵，D ⁱⁱ＝∑ _i(A ^ij+I ^ij)，Xin是输入，是一个N×U的张量；W是图卷积层的权重参数，用于对特征进行变换。

可选的，在时间维度上执行普通卷积操作的具体步骤包括：

在时间维度上，针对相邻帧之间的同一个关节点执行通用卷积操作以捕捉每一个关节点随着时间发生的变化。

可选的，获取第一向量的具体步骤包括：

从视频帧中选取若干图片，将所述若干图片分别输入在Imagenet图像数据集上预训练的ResNet-50残差网络，将最后一个全连接层的输出作为图片的特征，获得若干初始向量，对所述若干初始向量取平均值，得到第一向量。

本发明实施了还提供了一种人体动作识别系统，包括：

视频帧获取模块，用于获取包含人体动作行为的视频，对视频帧进行重采样和预处理；

图像特征提取模块，用于提取视频帧的图像特征；

人体关节点序列提取模块，用于基于人体骨骼信息获得视频帧对应人体关节点序列；

动作类别获取模块，将所述图像特征与所述人体关节点序列输入深度神经网络，获取动作类别。

本发明实施例还提供了一种人体动作识别设备，所述人体动作识别设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的人体动作识别程序，所述人体动作识别程序被所述处理器执行时实现上述的人体动作识别方法的步骤。

本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有人体动作识别程序，所述人体动作识别程序被处理器执行时实现上述的人体动作识别方法的步骤。

本发明有益效果：

通过提取视频帧的图像特征和人体关节点序列，将所述图像特征与所述人体关节点序列输入图卷积神经网络，进行动作类别的预测，通过将包含有环境信息的图像特征和人体关节点序列构建模型，对环境变化鲁棒且能充分利用环境信息进行人体动作识别，准确率高。

为让本发明的上述和其它目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合附图，作详细说明如下。

附图说明

图1所示为本发明一实施例提供的人体动作识别方法的流程示意图；

图2所示为本发明一实施例提供的获取动作类别具体方法的流程示意图；

图3所示为本发明一实施例所构建的人体关节点图；

图4所示为本发明一实施例提供的人体动作识别系统的结构框图。

具体实施方式

由于现有技术基于RGB图像的人体动作识别提取的是整个环境的特征，难以针对人体本身提取特征，人体动作识别的准确率受环境的影响较大，缺乏鲁棒性。而基于人体骨骼的动作学习虽然可以构建鲁棒性更强的动作算法，但是缺失了环境信息，对于一些需要环境信息的人体动作识别准确率较差。

因此，本发明实施例基于人体骨骼的人体动作识别为主构建模型，用合适的方式将环境信息编码到模型中，实现对环境变化鲁棒且能充分利用环境信息的人体动作识别。

请参考图1，为本发明实施例的人体动作识别方法的流程示意图，具体包括：

步骤S10，获取包含人体动作行为的视频，对视频帧进行重采样和预处理；

步骤S20，提取视频帧的图像特征；

步骤S30，基于人体骨骼信息获得视频帧对应人体关节点序列；

步骤S40，将所述图像特征与所述人体关节点序列输入图卷积神经网络，获取动作类别。

具体的，首先，执行步骤S10，对包含人体动作行为的视频，进行视频帧重采样和预处理。

在本实施例中，对于一段包含人体动作行为视频，使用opencv的图像库对视频进行采样，每一秒采样25帧，按时间顺序进行排列得到视频帧图像序列，同时使用opencv对所有图像进行预处理缩放，使所有图像的分辨率为224*224。

在其他实施例中，也可以采用其他图像库对视频进行采样，分辨率也可以设置为其他值。

执行步骤S20，在步骤S101中获得的视频帧图像序列中随机选择n张图片，分别提取视频帧的图像特征。在本实施例中，选择3张图片进行图像特征的提取，在其他实施例中，还可以为4张、5张、6张等。但是数量过多的话会引入过多的计算量，不是非常必要，因此本实施例选择3张图片进行提取。

在本实施例中，所述提取视频帧的图像特征具体包括：

将所述3张图片分别输入在Imagenet图像数据集上预训练的ResNet-50残差网络，将最后一个全连接层的输出作为图像特征，获得三个2048维的向量，对这三个向量取平均值，得到一个2048维的向量，将其记为环境向量X _con。

在本实施例中，采用ResNet-50残差网络进行图像特征提取，在其他实施例中，也可以采用其他传统的特征描述，例如SIFT算法等提取特征，也可以使用其他的预训练深度模型如VGG-19和ResNet-152等提取特征。

将所述环境向量X _con输入到两层全连接层组成的编码器，输出一个K维的第一向量X _C。

由于提取的图像特征和图卷积网络提取的人体骨骼特征可能存在非常大的空间不匹配，会导致之后的特征融合出现难以学习的情况。由于难以准确地将两个不同空间的特征映射到同一个空间，因此使用可学习的编码器从数据中学习如何将两个不同网络提取的特征映射到同一个隐空间之中。

执行步骤S30，基于人体骨骼信息获得视频帧对应人体关节点序列。

在本实施例中，使用openpose算法从选取的图片中获得人体关节点序列，每一张图片检测15个关节点，所述openpose算法为卡耐基梅隆大学提出的一个人体姿态估计开源算法，用于检测人体关节点并输出人体关节点的2D或者3D坐标。

在其他实施例中，也可以使用其他算法获取人体关节点序列。

其中，步骤S20和步骤S30不分先后，可以互换。

执行步骤S40，将所述图像特征与所述人体关节点序列输入图卷积神经网络，获取动作类别。

获取动作类别具体步骤请参考图2，包括：

步骤S41，获取第一向量，所述第一向量表征视频帧的图像特征。

由于提取的图像特征和图卷积网络提取的特征可能存在非常大的空间不匹配，会导致之后的特征融合出现难以学习的情况。由于难以准确地将两个不同空间的特征映射到同一个空间，因此使用可学习的编码器从数据中学习如何将两个不同网络提取的特征映射到同一个隐空间之中。其中获取第一向量和第二向量没有先后顺序，可以同时进行也可以任意先后。

步骤S42，利用所述人体关节点序列构建人体关节点图。

请参考图3，为所述构建的人体关节点图，将所构建的人体关节点图记为G＝(V,E)，其中V表示图的顶点集合，V＝{V _ti|t＝1,…,T,i＝1,…,N}，T表示骨骼序列的数量，N表示一张图片检测的关节点数目；V _ti表示第t张图片第i个关节点；E表示图的边，由两部分组成，分别是一帧图像内关节点的连接状态E ₁以及不同帧之间关节点的连接状态E _D，E ₁是一帧图像的不同关节点之间的物理连接状态，E _D是不同帧之间同一个关节点的连接，为了方便后续捕捉时序特征而定义的一个虚拟物理连接；在实现过程中，利用一个N×N的邻接矩阵A来表示连接状态，如果关节点i和关节点j存在物理连接则Aij为1，否则为0。

步骤S43，将所述人体关节点图输入图卷积神经网络，生成第二向量。

所述图卷积神经网络由图卷积层堆叠而成，每一层图卷积层都执行相同的操作；在每一个图卷积层中，执行两个不同维度的操作，一个是在空间维度上执行图卷积操作，一个是在时间维度上执行普通卷积操作；

其中，在空间维度上执行图卷积操作的具体步骤包括：

上式中I表示单位矩阵，即对角线元素是1其他元素为0的矩阵，在这里就表示一个自连接矩阵，即每一个顶点和自身有连接，A是邻接矩阵，表示连接状态，如果关节点i和关节点j存在物理连接则A _ij为1，否则为0；D是度矩阵，即描述每一个顶点连接的边有多少条，只有对角线元素不为0，其他元素都为0，D ⁱⁱ＝∑ _i(A ^ij+I ^ij)，X _in是输入，是一个N×U的张量；W是图卷积层的权重参数，用于对特征进行变换。

其中，在时间维度上执行普通卷积操作的具体步骤包括：

之所以在两个不同的维度执行不同的卷积操作，因为在空间维度上执行卷积操作主要目的是捕捉不同关节点之间的联系，在时间维度上执行卷积操作目的是捕捉关节点随着时间的移动。在两个维度做不同的两次卷积是因为动作是一个动态过程，由关节点在空间上的关系以及时间上的变化共同组成，且使用不同的卷积是因为卷积的输入不同，空间上的卷积输入是同一个时刻不同关节点，且关节点之间以图的形式连接，使用图卷积；在时间维度上，输入是不同时刻的同一个关节点，使用常规卷积。

对所述图神经网络模块的输出进行维度转换得到一个K维的第二向量X _k。

由于提取的图像特征和图卷积网络提取的特征可能存在非常大的空间不匹配，会导致之后的特征融合出现难以学习的情况。由于难以准确地将两个不同空间的特征映射到同一个空间，因此通过转化为与第一向量相同维度的第二向量，使用可学习的编码器从数据中能够学习如何将两个不同网络提取的特征映射到同一个隐空间之中。

步骤S44，将第一向量和第二向量进行连接并输入全连接层，生成第三向量。

将第一向量X _c和第二向量X _k进行连接并输入到一个有Q个神经元的全连接层，输出一个Q维第三向量X _q。

步骤S45，将所述第三向量输入分类器，获取预测的动作类别。

本发明通过将一种将环境信息的图像特征编码到现有的基于骨骼的人体动作识别模型之中，从而同时利用了环境信息和人体骨骼信息，进而保证了模型对环境变化鲁棒且能充分利用环境信息。

本发明实施了还提供了一种人体动作识别系统，请参考图4，包括：

视频帧获取模块10，用于获取包含人体动作行为的视频，对视频帧进行重采样和预处理；

图像特征提取模块20，用于提取视频帧的图像特征；

人体关节点序列提取模块30，用于基于人体骨骼信息获得视频帧对应人体关节点序列；

动作类别获取模块40，将所述图像特征与所述人体关节点序列输入深度神经网络，获取动作类别。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

虽然本发明已由较佳实施例揭露如上，然而并非用以限定本发明，任何熟知此技艺者，在不脱离本发明的精神和范围内，可作些许的更动与润饰，因此本发明的保护范围当视权利要求书所要求保护的范围为准。

Claims

一种人体动作识别方法，其特征在于，包括：

获取包含人体动作行为的视频，对视频帧进行重采样和预处理；

提取视频帧的图像特征；

基于人体骨骼信息获得视频帧对应人体关节点序列；

将所述图像特征与所述人体关节点序列输入图卷积神经网络，获取动作类别。
根据权利要求1所述的人体动作识别方法，其特征在于，获取动作类别的具体步骤包括：

获取第一向量，所述第一向量表征视频帧的图像特征；

利用所述人体关节点序列构建人体关节点图；

将所述人体关节点图输入图卷积神经网络，生成第二向量；

将第一向量和第二向量进行连接并输入全连接层，生成第三向量；

将所述第三向量输入分类器，获取预测的动作类别。
根据权利要求2所述的人体动作识别方法，其特征在于，利用所述人体关节点序列构建人体关节点图的具体步骤包括：

将构建的人体关节点图记为G＝(V,E)，其中V表示图的顶点集合，V＝{V _ti|t＝1,…,T,i＝1,…,N}，T表示骨骼序列的数量，N表示一张图片检测的关节点数目；V _ti表示第t张图片第i个关节点，E表示图的边，由两部分组成，分别是一帧图像内关节点的连接状态E ₁以及不同帧之间关节点的连接状态E _D，E ₁是一帧图像的不同关节点之间的物理连接状态，E _D是不同帧之间同一个关节点的连接，为了方便后续捕捉时序特征而定义的一个虚拟物理连接；在实现过程中，利用一个N×N的邻接矩阵A来表示同一帧内关节点的连接状态，如果关节点i和关节点j存在物理连接则Aij为1，否则为0。
根据权利要求2所述的人体动作识别方法，其特征在于，生成第二向量的具体步骤包括：

图卷积神经网络由图卷积层堆叠而成，每一层图卷积层都执行相同的操作；

在每一个图卷积层中，执行两个不同维度的操作，一个是在空间维度上执行图卷积操作，一个是在时间维度上执行普通卷积操作；

对所述图神经网络模块的输出进行变换得到第二向量。
根据权利要求4所述的人体动作识别方法，其特征在于，在空间维度上执行图卷积操作的具体步骤包括：

在空间维度上，对于每一帧人体关节点图执行图卷积操作以捕获不同关节点之间的联系，具体实现如下式所示：

上式中I表示单位矩阵，A是邻接矩阵，D是度矩阵，D ⁱⁱ＝∑ _i(A ^ij+I ^ij)，Xin是输入，是一个N×U的张量；W是图卷积层的权重参数，用于对特征进行变换。
根据权利要求4所述的人体动作识别方法，其特征在于，在时间维度上执行普通卷积操作的具体步骤包括：

在时间维度上，针对相邻帧之间的同一个关节点执行通用卷积操作以捕捉每一个关节点随着时间发生的变化。
根据权利要求1所述的人体动作识别方法，其特征在于，获取第一向量的具体步骤包括：

从视频帧中选取若干图片，将所述若干图片分别输入在Imagenet上预训练的ResNet-50残差网络，将最后一个全连接层的输出作为图片的特征，获得若干初始向量，对所述若干初始向量取平均值，得到第一向量。
一种人体动作识别系统，其特征在于，包括：

视频帧获取模块，用于获取包含人体动作行为的视频，对视频帧进行重采样和预处理；

图像特征提取模块，用于提取视频帧的图像特征；

人体关节点序列提取模块，用于基于人体骨骼信息获得视频帧对应人体关节点序列；

动作类别获取模块，将所述图像特征与所述人体关节点序列输入深度神经网络，获取动作类别。
一种人体动作识别设备，其特征在于，所述人体动作识别设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的人体动作识别程序，所述人体动作识别程序被所述处理器执行时实现如权利要求1至7中任一项所述的人体动作识别方法的步骤。
一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有人体动作识别程序，所述人体动作识别程序被处理器执行时实现如权利要求1至7中任一项所述的人体动作识别方法的步骤。