WO2023010758A1

WO2023010758A1 - 一种动作检测方法、装置、终端设备和存储介质

Info

Publication number: WO2023010758A1
Application number: PCT/CN2021/138566
Authority: WO
Inventors: 任子良; 程俊; 张锲石; 高向阳; 康宇航
Original assignee: 中国科学院深圳先进技术研究院
Priority date: 2021-08-04
Filing date: 2021-12-15
Publication date: 2023-02-09
Also published as: CN113326835A; CN113326835B

Abstract

一种动作检测方法、装置、终端设备和存储介质。该方法包括：获取包含目标动作的目标视频序列，所述目标视频序列包括一一对应的目标像素帧序列和目标深度图序列（101）；根据所述目标像素帧序列生成像素特征图像，所述像素特征图像包含所述目标像素帧序列具有的各帧图像的特征（102）；根据所述目标深度图序列生成深度特征图像，所述深度特征图像包含所述目标深度图序列具有的各帧图像的特征（103）；将所述像素特征图像和所述深度特征图像输入已训练的深度神经网络执行图像特征的提取与融合处理，以确定所述目标动作的类别（104）。采用该方法能够在一定程度上减弱环境因素对检测样本的干扰，从而提高动作检测的准确率。

Description

一种动作检测方法、装置、终端设备和存储介质

技术领域

本申请涉及图像处理技术领域，尤其涉及一种动作检测方法、装置、终端设备和存储介质。

背景技术

动作检测作为模式识别的研究分支，广泛应用于视频安全监控、视频检索和健康医疗等领域。动作检测是指对视频片段中的目标(例如人体)进行识别与跟踪，以确定该目标的动作类别。

目前，通常采用基于RGB图像的动作检测方法，该方法通过对RGB图像序列的像素特征进行分析以实现动作检测。然而，作为检测样本的RGB图像容易受到光照变化等环境因素的干扰，导致动作检测的准确率较低。

发明内容

有鉴于此，本申请实施例提供了一种动作检测方法、装置、终端设备和存储介质，能够提高动作检测的准确率。

本申请实施例的第一方面提供了一种动作检测方法，包括：

获取包含目标动作的目标视频序列，所述目标视频序列包括一一对应的目标像素帧序列和目标深度图序列；

根据所述目标像素帧序列生成像素特征图像，所述像素特征图像包含所述目标像素帧序列具有的各帧图像的特征；

根据所述目标深度图序列生成深度特征图像，所述深度特征图像包含所述目标深度图序列具有的各帧图像的特征；

将所述像素特征图像和所述深度特征图像输入已训练的深度神经网络执行图像特征的提取与融合处理，以确定所述目标动作的类别。

在本申请实施例中，首先，获取包含目标动作的目标视频序列，该目标视频序列包括一一对应的像素帧序列和深度图序列；然后，根据像素帧序列生成包含其中各帧图像的图像特征的像素特征图像，以及根据深度图序列生成包含其中各帧图像的图像特征的深度特征图像；最后，将像素特征图像和深度特征图像输入一个已训练的深度神经网络进行图像特征的提取与融合处理，从而确定目标动作的类别。上述过程将视频图像的像素特征和深度特征融合，利用像素信息和深度信息的互补性，能够在一定程度上减弱环境因素对检测样本的干扰，从而提高动作检测的准确率。

在本申请的一种实现方式中，所述深度神经网络包括特征提取模块和特征融合模块，所述将所述像素特征图像和所述深度特征图像输入已训练的深度神经网络执行图像特征的提取与融合处理，以确定所述目标动作的类别，可以包括：

将所述像素特征图像和所述深度特征图像输入所述特征提取模块进行处理，得到图像语义特征；

将所述图像语义特征输入所述特征融合模块进行处理，得到融合后的图像特征；

基于所述融合后的图像特征确定所述目标动作的类别。

在本申请的一种实现方式中，所述根据所述目标像素帧序列生成像素特征图像，可以包括：

在时间维度上对所述目标像素帧序列执行稀疏采样处理，得到第一图像序列；

将所述第一图像序列包含的各帧图像融合，得到所述像素特征图像；

所述根据所述目标深度图序列生成深度特征图像，可以包括：

在时间维度上对所述目标深度图序列执行稀疏采样处理，得到第二图像序列；

将所述第二图像序列包含的各帧图像融合，得到所述深度特征图像。

进一步的，所述将所述第一图像序列包含的各帧图像融合，得到所述像素特征图像，可以包括：

对所述第一图像序列包含的各帧图像按照对应位置像素点执行图像特征的叠加、求平均和取整操作，得到所述像素特征图像；

所述将所述第二图像序列包含的各帧图像融合，得到所述深度特征图像，可以包括：

将所述第二图像序列包含的各帧图像分别转换成各帧灰度图像；

对所述各帧灰度图像按照对应位置像素点执行图像特征的叠加、求平均和取整操作，得到所述深度特征图像。

在本申请的一种实现方式中，在确定所述目标动作的类别之后，还可以包括：

从预设的规范动作视频库中查找与所述目标动作的类别对应的基准视频序列，所述基准视频序列包含规范化的所述目标动作；

在时间维度上对所述基准视频序列执行稀疏采样处理，得到第三图像序列，所述第三图像序列包含的图像帧数和所述第一图像序列包含的图像帧数相同；

分别标注出所述第一图像序列包含的各帧图像中目标物体具有的指定部位的位置，以及所述第三图像序列包含的各帧图像中所述目标物体具有的所述指定部位的位置，所述目标物体为执行所述目标动作的物体；

根据所述第一图像序列包含的各帧图像中所述目标物体具有的所述指定部位的位置，构建得到所述指定部位对应的第一运动轨迹曲线；

根据所述第三图像序列包含的各帧图像中所述目标物体具有的所述指定部位的位置，构建得到所述指定部位对应的第二运动轨迹曲线；

根据所述第一运动轨迹曲线和所述第二运动轨迹曲线，计算得到曲线误差；

根据所述曲线误差确定所述目标视频序列包含的所述目标动作的规范化程度。

进一步的，所述根据所述第一运动轨迹曲线和所述第二运动轨迹曲线，计算得到曲线误差，可以包括：

分别计算所述第一运动轨迹曲线中的每个目标位置点和其在所述第二运动轨迹曲线中的对应位置点之间的距离，得到每个所述目标位置点的误差；

将每个所述目标位置点的误差叠加，得到所述曲线误差。

在本申请的一种实现方式中，所述获取包含目标动作的目标视频序列，可以包括：

获取包含多个动作的原始视频序列，所述原始视频序列包括一一对应的原始像素帧序列和原始深度图序列；

对所述原始像素帧序列执行视频的动作分割处理，得到多个包含单一动作的像素帧序列分段，并从所述多个像素帧序列分段中选取一个像素帧序列分段，作为所述目标像素帧序列；

对所述原始深度图序列执行视频的动作分割处理，得到多个包含单一动作的深度图序列分段，并从所述多个深度图序列分段中选取与所述目标像素帧序列对应的深度图序列分段，作为所述目标深度图序列。

本申请实施例的第二方面提供了一种动作检测装置，包括：

视频序列获取模块，用于获取包含目标动作的目标视频序列，所述目标视频序列包括一一对应的目标像素帧序列和目标深度图序列；

像素特征生成模块，用于根据所述目标像素帧序列生成像素特征图像，所述像素特征图像包含所述目标像素帧序列具有的各帧图像的特征；

深度特征生成模块，用于根据所述目标深度图序列生成深度特征图像，所述深度特征图像包含所述目标深度图序列具有的各帧图像的特征；

动作检测模块，用于将所述像素特征图像和所述深度特征图像输入已训练的深度神经网络执行图像特征的提取与融合处理，以确定所述目标动作的类别。

本申请实施例的第三方面提供了一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如本申请实施例的第一方面提供的动作检测方法。

本申请实施例的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如本申请实施例的第一方面提供的动作检测方法。

本申请实施例的第五方面提供了一种计算机程序产品，当计算机程序产品在终端设备上运行时，使得终端设备执行本申请实施例的第一方面所述的动作检测方法。

可以理解的是，上述第二方面至第五方面的有益效果可以参见上述第一方面中的相关描述，在此不再赘述。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种动作检测方法的流程图；

图2是对像素帧序列和深度图序列分别进行时空信息表示，获得对应的像素特征图像和深度特征图像的示意图；

图3是本申请实施例提供的一种深度神经网络的结构示意图；

图4是本申请实施例提供的一种特征交互模块的结构示意图；

图5是采用视觉显著性算法将人体分割标注成多个指定部位的示意图；

图6是本申请实施例提供的一种人体动作检测与动作规范化评价方法的流程示意图；

图7是本申请实施例提供的一种动作检测装置的结构图；

图8是本申请实施例提供的一种终端设备的示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。另外，在本申请说明书和所附权利要求书的描述中，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

本申请提出一种基于计算机视觉的动作检测方法，通过将视频图像的像素特征和深度特征融合，能够有效利用像素信息和深度信息的互补性，极大地提高整体动作识别效率和模型的抗干扰能力。另外，在识别出动作之后，还能进一步对该动作的规范性进行评价。本申请更具体的技术实现细节，请参照下文所述的方法实施例。

应当理解，本申请各个方法实施例的执行主体为各种类型的终端设备或服务器，比如手机、平板电脑、笔记本电脑、台式电脑和各类可穿戴设备等。

请参阅图1，示出了本申请实施例提供的一种动作检测方法，包括：

101、获取包含目标动作的目标视频序列，所述目标视频序列包括一一对应的目标像素帧序列和目标深度图序列；

首先，获取一个包含目标动作的目标视频序列。其中，目标动作是待识别的动作，其可以是任何目标物体(例如人体、动物或者机器人等)执行的一个任意类型的动作，例如人体的坐下、打保龄球和俯卧撑等动作。另外，该目标视频序列包含两部分的图像序列，第一部分是包含像素特征的目标像素帧序列(具体可以是RGB图像序列或者灰度图像序列等)，第二部分是包含深度特征的目标深度图序列，两部分图像序列是一一对应的，即目标像素帧序列的第一帧图像与目标深度图序列的第一帧图像对应，目标像素帧序列的第二帧图像与目标深度图序列的第二帧图像对应，以此类推。在实际操作中，可以采用某些指定类型的摄像头(例如微软的kinect摄像头等)，拍摄得到RGB图像序列及其对应的深度图像序列，两个图像序列中的每帧图像都是一一对应的。

(1)获取包含多个动作的原始视频序列，所述原始视频序列包括一一对应的原始像素帧序列和原始深度图序列；

(2)对所述原始像素帧序列执行视频的动作分割处理，得到多个包含单一动作的像素帧序列分段，并从所述多个像素帧序列分段中选取一个像素帧序列分段，作为所述目标像素帧序列；

(3)对所述原始深度图序列执行视频的动作分割处理，得到多个包含单一动作的深度图序列分段，并从所述多个深度图序列分段中选取与所述目标像素帧序列对应的深度图序列分段，作为所述目标深度图序列。

在某些应用场合中，获取到的通常是包含多个不同动作的原始视频序列，例如针对某个人体在一定时间内的活动视频，其可能包含走路、坐下、站立和跑步等多个不同动作。针对这些应用场合，可以采用动作分割的方法，将原始视频序列分割成一个个包含单一动作的视频序列分段，然后针对每个视频序列分段可以分别采用本申请提出的动作检测方法识别出各自包含的动作，从而实现整个原始视频序列包含的所有动作的识别。

具体的，获取到的原始像素帧序列同样包括一一对应的原始像素帧序列和原始深度图序列，可以分别对原始像素帧序列和原始深度图序列执行视频序列的动作分割处理，分别得到多个包含单一动作的像素帧序列分段和多个包含单一动作的深度图序列分段。然后，从该多个像素帧序列分段中选取一个像素帧序列分段(包含当前需要识别的目标动作的像素帧序列分段)，作为目标像素帧序列；从该多个深度图序列分段中选取与目标像素帧序列对应的深度图序列分段(即包含当前需要识别的目标动作的深度图序列分段)，作为目标深度图序列。

在实际操作中，可以采用基于运动量(Quantity of movement，QOM)的动作分割方法。对于包含多个不同动作的原始视频序列，其包含的每一帧图像具有相对于其相邻帧图像和第一帧图像的相关移动信息，可以根据其中对应的运动量来检测每个动作的开始帧和结束帧，从而实现动作分割。例如，假设某个原始视频序列为I，可以定义其包含的第t帧图像的QOM为：

其中，(m，n)表示图像中的像素坐标，Ψ(x，y)定义为：

Threshold _QOM是一个预设的参数，根据经验值一般可以设为60。另外设置一个参数Threshold _inter作为动作内分割的门限值，可以通过滑窗的方法来对其进行迭代更新。假设某个动作的平均长度为L帧图像，则可以以其前12.5％和后12.5％帧图像的平均QOM值作为Threshold _inter的候选数值。然后，通过比对选取L帧图像长度内的最小QOM值所对应的帧作为动作分界帧(开始帧和结束帧)，以此完成动作分割。总的来说，基于QOM的动作分割方法，主要通过运动量变化和时间尺度的结合，来实现视频序列的动作检测与分割，最终获得的是仅包含单一动作的视频序列分段。

102、根据所述目标像素帧序列生成像素特征图像，所述像素特征图像包含所述目标像素帧序列具有的各帧图像的特征；

在获得目标像素帧序列之后，可以基于该目标像素帧序列具有的各帧图像生成一幅像素特征图像。该像素特征图像包含目标像素帧序列具有的每帧图像的特征，可以用于表征目标像素帧序列的整体像素特征。例如，假设目标像素帧序列为N帧RGB图像，则可以基于该N帧RGB图像生成一幅类似RGB的像素特征图像，用于表征该N帧RGB图像的整体像素特征。这个过程获得的像素特征图像，可以称作目标像素帧序列的时空信息表示。

(1)在时间维度上对所述目标像素帧序列执行稀疏采样处理，得到第一图像序列；

(2)将所述第一图像序列包含的各帧图像融合，得到所述像素特征图像。

可以采用将目标像素帧序列包含的各帧图像融合的方式获得像素特征图像，然而，由于目标像素帧序列包含很多帧图像，若将这些图像都进行融合会产生大量的计算量，影响算法运行速度。因此，可以先在时间维度上对目标像素帧序列执行稀疏采样处理，从而去除帧间的冗余信息，降低计算量。另外，该稀疏采样可以采用平均采样的方式，以避免产生动作表示不均匀，丢失空间维度信息的问题。例如，假设目标像素帧序列包含100帧图像，则可以使用稀疏平均采样的方式，从中提取出第5帧、第15帧、第25帧…第95帧总共10帧图像，作为得到的第一图像序列，即可以用该10帧图像来表示整个目标动作。然后，可以采用图像叠加等方式将该第一图像序列包含的各帧图像融合，从而得到对应的像素特征图像。

具体的，所述将所述第一图像序列包含的各帧图像融合，得到所述像素特征图像，可以包括：

对所述第一图像序列包含的各帧图像按照对应位置像素点执行图像特征的叠加、求平均和取整操作，得到所述像素特征图像。

假设第一图像序列是RGB图像序列，则这个过程可以将RGB三通道视作一个矢量矩阵，即该RGB图像序列中的每帧RGB图像都具有一个对应的矢量矩阵，将这些矢量矩阵包含的像素特征叠加、求平均再取整后，就可以得到一个最终的矢量矩阵，其即为该像素特征图像对应的矢量矩阵，也可以称作该RGB图像序列的时空信息表示样本。例如，假设第一图像序列为〈I ₁，I ₂，I ₃，…I _T〉，即共包含T帧图像，则其对应的像素特征图像M可以表示为：

103、根据所述目标深度图序列生成深度特征图像，所述深度特征图像包含所述目标深度图序列具有的各帧图像的特征；

与步骤102类似的，在获得目标深度图序列之后，同样可以基于该目标深度图序列具有的各帧图像生成一幅深度特征图像。该深度特征图像包含目标深度图序列具有的每帧图像的特征，可以用于表征目标深度图序列的整体深度特征。例如，假设目标深度图序列为N帧深度图像，则可以基于该N帧深度图像生成一幅近似的深度图像，用于表征该N帧深度图像的整体深度特征。这个过程获得的深度特征图像，可以称作目标深度图序列的时空信息表示。

在本申请的一种实现方式中，所述根据所述目标深度图序列生成深度特征图像，可以包括：

(1)在时间维度上对所述目标深度图序列执行稀疏采样处理，得到第二图像序列；

(2)将所述第二图像序列包含的各帧图像融合，得到所述深度特征图像。

与根据目标像素帧序列生成像素特征图像的方法类似，同样可以在时间维度上对目标深度图序列执行稀疏采样处理，从而去除帧间的冗余信息，降低计算量。例如，假设目标深度图序列包含100帧深度图像，则可以使用稀疏平均采样的方式，从中提取出第5帧、第15帧、第25帧…第95帧(帧标可以与步骤102中第一图像序列的帧标一一对应)总共10帧深度图像，作为得到的第二图像序列，即可以用该10帧深度图像来表示整个目标动作。然后，可以采用图像叠加等方式将该第二图像序列包含的各帧深度图像融合，从而得到对应的深度特征图像。

具体的，所述将所述第二图像序列包含的各帧图像融合，得到所述深度特征图像，可以包括：

(1)将所述第二图像序列包含的各帧图像分别转换成各帧灰度图像；

(2)对所述各帧灰度图像按照对应位置像素点执行图像特征的叠加、求平均和取整操作，得到所述深度特征图像。

对于由深度图像构成的第二图像序列，由于其表示的是距离信息，故需要先通过缩放等方式将其包含的各帧深度图像转换成灰度值为0-255的灰度图像，此时可视作单通道的矢量矩阵，从而方便地实现图像融合。也即，第二图像序列中的每帧深度图像都具有一个对应的单通道的矢量矩阵，将这些矢量矩阵包含的像素特征叠加、求平均再取整后，就可以得到一个最终的矢量矩阵，其即为该深度特征图像对应的矢量矩阵，也可以称作该第二图像序列的时空信息表示样本。

如图2所示，是对像素帧序列和深度图序列分别进行时空信息表示，获得对应的像素特征图像和深度特征图像的示意图。可以看出，获得的像素特征图像包含该像素帧序列的整体像素特征；获得的深度特征图像包含该深度图序列的整体深度特征。

104、将所述像素特征图像和所述深度特征图像输入已训练的深度神经网络执行图像特征的提取与融合处理，以确定所述目标动作的类别。

在通过步骤102获得像素特征图像以及通过步骤103获得深度特征图像之后，可以将该两帧特征图像输入一个预先训练完成的深度神经网络进行处理。该深度神经网络通过执行图像特征的提取与融合等方式，能够联合学习特征图像中的像素特征和深度特征，最终输出一个类别标签，从而确定目标动作的类别。在实际操作中，该深度神经网络可以选用Resnet、inception和VGG等成熟的网络模型架构，本申请不对该深度神经网络的类型和结构进行限定。

(1)将所述像素特征图像和所述深度特征图像输入所述特征提取模块进行处理，得到图像语义特征；

(2)将所述图像语义特征输入所述特征融合模块进行处理，得到融合后的图像特征；

(3)基于所述融合后的图像特征确定所述目标动作的类别。

可以采用多级卷积层和池化层的结构构建特征提取模块，用于提取像素特征图像和深度特征图像的图像语义特征；然后，通过包含卷积神经单元的特征融合模块来实现图像语义特征的融合(主要采用特征的点乘、加权求和或者求最大值等方式实现融合)，得到融合后的图像特征。该融合后的图像特征是目标动作与其它动作之间的区别性特征，故可以基于该特征实现动作识别，即确定目标动作的类别。

该深度神经网络的一种结构示意图如图3所示。在图3中，该深度神经网络包含特征提取模块和特征融合模块两部分，其中特征提取模块主要由多级级联的卷积层、特征交互模块和全连接层构成，特征融合模块主要由多级级联的卷积神经单元(用图中3的圆圈表示)构成。该特征交互模块的一种结构示意图如图4所示，该模块主要包含两个卷积核1*1的卷积层，将两个模态的图像特征(像素特征和深度特征)输入该模块之后，能够对图像特征进行中层语义特征和高层语义特征(中层语义特征一般指在网络模型参数学习过程中所学习到的特征，高层语义特征一般指网络模型学习完成后输出的能够对样本进行分类的特征)的互补学习。

假设像素特征图像是三通道的RGB图像，深度特征图像是单通道的深度图像，为了适应该深度神经网络，可以将两个模态的特征图像进行联结，获得四通道的样本。例如，RGB图像可以表示为三通道的矢量矩阵，深度图像可以表示为单通道的矢量矩阵，那么将两个矢量矩阵拼接，即可得到一个四通道的矢量矩阵。相应的，该深度神经网络的输入端通道数也是四个，将四通道的样本输入该深度神经网络后，经过多级卷积层、池化层以及前文所述的交互学习模块的处理，能够学习到样本的中层语义特征和高层语义特征；之后，通过特征融合模块将高层语义特征融合，得到目标动作的区别性特征，最终基于该区别性特征完成动作分类。

在某些应用场景中，除识别出用户的动作类型之外，还需要进一步检测该动作是否规范，并给出相应的规范性评价结果，以便纠正用户的错误动作。有鉴于此，在本申请的一种实现方式中，在确定所述目标动作的类别之后，还可以包括：

(1)从预设的规范动作视频库中查找与所述目标动作的类别对应的基准视频序列，所述基准视频序列包含规范化的所述目标动作；

(2)在时间维度上对所述基准视频序列执行稀疏采样处理，得到第三图像序列，所述第三图像序列包含的图像帧数和所述第一图像序列包含的图像帧数相同；

(3)分别标注出所述第一图像序列包含的各帧图像中目标物体具有的指定部位的位置，以及所述第三图像序列包含的各帧图像中所述目标物体具有的所述指定部位的位置，所述目标物体为执行所述目标动作的物体；

(4)根据所述第一图像序列包含的各帧图像中所述目标物体具有的所述指定部位的位置，构建得到所述指定部位对应的第一运动轨迹曲线；

(5)根据所述第三图像序列包含的各帧图像中所述目标物体具有的所述指定部位的位置，构建得到所述指定部位对应的第二运动轨迹曲线；

(6)根据所述第一运动轨迹曲线和所述第二运动轨迹曲线，计算得到曲线误差；

(7)根据所述曲线误差确定所述目标视频序列包含的所述目标动作的规范化程度。

可以预先在指定的存储区域(例如某个数据库)构建一个规范动作视频库，将规范化的各种类型动作的视频序列(例如人体标准跑步动作的视频序列、人体标准俯卧撑动作的视频序列等)存入该规范动作视频库。在确定目标动作的类别之后，可以从该规范动作视频库中查找与该目标动作的类型对应的基准视频序列，该基准视频序列包含规范化的所述目标动作。例如，若目标动作为跑步，则基准视频序列为人体标准跑步动作的视频序列。

然后，在时间维度上对基准视频序列执行稀疏采样处理，得到第三图像序列，需要注意第三图像序列包含的图像帧数和前文所述的第一图像序列包含的图像帧数是相同的。例如，假设第一图像序列为包含T帧图像的〈I ₁，I ₂，I ₃，…,I _T〉，则第三图像序列可以表示为包含T帧图像的〈N ₁，N ₂，N ₃，…,N _T〉。

接着，分别标注出第一图像序列包含的各帧图像中目标物体具有的指定部位的位置，以及第三图像序列包含的各帧图像中目标物体具有的该指定部位的位置；其中，该目标物体是执行目标动作的物体，该指定部位的数量可以是一个，也可以是多个(为了提高后续曲线误差计算的准确率，一般需要设置多个)。例如，若目标物体是人体，则可以采用视觉显著性算法等方式将人体分割标注成头部、躯干、左手、右手、左脚和右脚等6个指定部位，如图5所示。

之后，根据第一图像序列包含的各帧图像中该目标物体具有的各个指定部位的位置，基于时间维度构建出各个指定部位分别对应的第一运动轨迹曲线。例如，针对人体的6个指定部位，可以将第一图像序列包含的各帧图像中人体头部中心点(可以采用归一化的操作，将人体头部表示为一个中心点，具体可以计算人体头部包含的所有坐标点的平均坐标值作为中心点，针对其它指定部位均可以采用相同的操作方式)的坐标连接起来，得到人体头部对应的第一运动轨迹曲线；将第一图像序列包含的各帧图像中人体躯干中心点的坐标连接起来，得到人体躯干对应的第一运动轨迹曲线，以此类推，分别构建出6个指定部位对应的第一运动轨迹曲线。

同样的，可以根据第三图像序列包含的各帧图像中该目标物体具有的各个指定部位的位置，基于时间维度构建得到各个指定部位分别对应的第二运动轨迹曲线。也即，针对人体的6个指定部位，可以将第三图像序列包含的各帧图像中人体头部中心点的坐标连接起来，得到人体头部对应的第二运动轨迹曲线；将第三图像序列包含的各帧图像中人体躯干中心点的坐标连接起来，得到人体躯干对应的第二运动轨迹曲线，以此类推，分别构建出6个指定部位对应的第二运动轨迹曲线。

接下来，根据构建的第一运动轨迹曲线和第二运动轨迹曲线，可以计算得到曲线误差。假设指定部位只有一个，即第一运动轨迹曲线和第二运动轨迹曲线都只有一条，那么曲线误差可以是该第一运动轨迹曲线和该第二运动轨迹曲线之差。具体的，可以分别计算第一运动轨迹曲线中的每个目标位置点和其在第二运动轨迹曲线中的对应位置点之间的距离，得到每个目标位置点的误差，然后再将每个目标位置点的误差叠加，得到曲线误差。这里的目标位置点可以是运动轨迹曲线连接的节点，例如，假设指定部位为人体头部，则第一运动轨迹曲线中的各个目标位置点可以为第一图像序列包含的各帧图像中的人体头部中心点，各个目标位置点在第二运动轨迹曲线中的对应位置点可以为第三图像序列包含的各帧图像中的人体头部中心点。该曲线误差可以采用以下公式计算：

其中，err表示曲线误差，t＝1,2,3…T，T表示第一图像序列和第三图像序列的图像帧数，

表示第一运动轨迹曲线中的目标位置点和其在第二运动轨迹曲线中的对应位置点之间的距离。

假设指定部位有多个，即第一运动轨迹曲线和第二运动轨迹曲线都有多条，则可以采用以上方法分别计算得到各个指定部位的曲线误差分量，最后再将各个指定部位的曲线误差分量相加，得到总的曲线误差。例如，针对人体的6个指定部位，可以分别计算得到6个曲线误差分量：err _头部、err _躯干、err _左手、err _右 _手、err _左脚和err _右脚，则总的曲线误差err _总可以表示为：

err _总＝err _头部+err _躯干+err _左手+err _右手+err _左脚+err _右脚

在计算得到曲线误差之后，可以根据该曲线误差确定目标视频序列包含的目标动作的规范化程度。具体的，该曲线误差可以用于表征目标视频序列包含的目标动作和基准视频序列包含的规范化目标动作(标准动作)之间的偏差程度，也即若该曲线误差越小，则表示目标视频序列包含的目标动作和标准动作之间的偏差越小，即该目标动作的规范化程度越高。在实际操作中，可以先对该曲线误差执行归一化处理，这里可以采用计算误差倒数的方法来处理，即：

1/err _总＝1/err _头部+1/err _躯干+1/err _左手+1/err _右手+1/err _左脚+1/err _右脚

然后，可以通过softmax函数将归一化后的曲线误差转换为概率值，该概率值越大则表示待测样本(即目标视频序列)和规范化动作样本(即基准视频序列)越接近，即待测样本的规范化程度越高。反之，则表示待测样本和规范化动作样本的偏差越大，即待测样本的规范化程度越低。

为便于理解本申请实施例提出的动作检测与动作规范化评价方法，以下列举一个实际的应用场景。如图6所示，是本申请实施例提出的一种人体动作检测与动作规范化评价方法的流程示意图。

在图6中，首先输入原始视频序列，然后对该原始视频序列执行QOM动作分割处理，得到包含单一人体动作的目标视频序列；接着，对目标视频序列执行稀疏平均采样处理，得到第一图像序列；然后，获取第一图像序列的时空信息表示得到像素特征图像，将其和对应的深度特征图像输入深度神经网络进行识别，得到动作类别；之后，从规范动作视频库中查找与该动作类别对应的基准视频序列，对基准视频序列执行稀疏平均采样处理，得到第三图像序列；然后，采用显著性检测的方式，分别标注出第一图像序列包含的各帧图像中人体头部、躯干、左手、右手、左脚和右脚6个指定部位的位置，并据此构建得到对应的第一运动轨迹曲线，以及标注出第三图像序列包含的各帧图像中该6个指定部位的位置，并据此构建得到对应的第二运动轨迹曲线；接下来，根据两部分运动轨迹曲线计算得到对应的曲线误差，最后对曲线误差执行归一化处理，通过softmax函数将归一化后的曲线误差转换为概率值，并根据该概率值的大小评估目标视频序列包含的人体动作的规范化程度。

综上所述，本申请实施例通过将视频图像的像素特征和深度特征融合，能够有效利用像素信息和深度信息的互补性，极大地提高整体动作识别效率和模型的抗干扰能力。而且，通过将待测样本的动作和规范化动作样本的动作进行向量化的误差比对，能够实现动作的规范化程度评价，在体育锻炼等领域中具有重大的应用价值。

应理解，上述各个实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

上面主要描述了一种动作检测方法，下面将对一种动作检测装置进行描述。

请参阅图7，本申请实施例中一种动作检测装置的一个实施例包括：

视频序列获取模块701，用于获取包含目标动作的目标视频序列，所述目标视频序列包括一一对应的目标像素帧序列和目标深度图序列；

像素特征生成模块702，用于根据所述目标像素帧序列生成像素特征图像，所述像素特征图像包含所述目标像素帧序列具有的各帧图像的特征；

深度特征生成模块703，用于根据所述目标深度图序列生成深度特征图像，所述深度特征图像包含所述目标深度图序列具有的各帧图像的特征；

动作检测模块704，用于将所述像素特征图像和所述深度特征图像输入已训练的深度神经网络执行图像特征的提取与融合处理，以确定所述目标动作的类别。

在本申请的一种实现方式中，所述深度神经网络包括特征提取模块和特征融合模块，所述动作检测模块可以包括：

特征提取单元，用于将所述像素特征图像和所述深度特征图像输入所述特征提取模块进行处理，得到图像语义特征；

特征融合单元，用于将所述图像语义特征输入所述特征融合模块进行处理，得到融合后的图像特征；

动作检测单元，用于基于所述融合后的图像特征确定所述目标动作的类别。

在本申请的一种实现方式中，所述像素特征生成模块可以包括：

第一稀疏采样处理单元，用于在时间维度上对所述目标像素帧序列执行稀疏采样处理，得到第一图像序列；

第一图像融合单元，用于将所述第一图像序列包含的各帧图像融合，得到所述像素特征图像；

所述深度特征生成模块可以包括：

第二稀疏采样处理单元，用于在时间维度上对所述目标深度图序列执行稀疏采样处理，得到第二图像序列；

第二图像融合单元，用于将所述第二图像序列包含的各帧图像融合，得到所述深度特征图像。

进一步的，所述第一图像融合单元可以包括：

像素特征处理子单元，用于对所述第一图像序列包含的各帧图像按照对应位置像素点执行图像特征的叠加、求平均和取整操作，得到所述像素特征图像；

所述第二图像融合单元可以包括：

灰度转换子单元，用于将所述第二图像序列包含的各帧图像分别转换成各帧灰度图像；

深度特征处理子单元，用于对所述各帧灰度图像按照对应位置像素点执行图像特征的叠加、求平均和取整操作，得到所述深度特征图像。

在本申请的一种实现方式中，所述动作检测装置还可以包括：

基准视频查找模块，用于从预设的规范动作视频库中查找与所述目标动作的类别对应的基准视频序列，所述基准视频序列包含规范化的所述目标动作；

稀疏采样处理模块，用于在时间维度上对所述基准视频序列执行稀疏采样处理，得到第三图像序列，所述第三图像序列包含的图像帧数和所述第一图像序列包含的图像帧数相同；

显著性标注模块，用于分别标注出所述第一图像序列包含的各帧图像中目标物体具有的指定部位的位置，以及所述第三图像序列包含的各帧图像中所述目标物体具有的所述指定部位的位置，所述目标物体为执行所述目标动作的物体；

第一曲线构建模块，用于根据所述第一图像序列包含的各帧图像中所述目标物体具有的所述指定部位的位置，构建得到所述指定部位对应的第一运动轨迹曲线；

第二曲线构建模块，用于根据所述第三图像序列包含的各帧图像中所述目标物体具有的所述指定部位的位置，构建得到所述指定部位对应的第二运动轨迹曲线；

曲线误差计算模块，用于根据所述第一运动轨迹曲线和所述第二运动轨迹曲线，计算得到曲线误差；

规范化评价模块，用于根据所述曲线误差确定所述目标视频序列包含的所述目标动作的规范化程度。

进一步的，所述曲线误差计算模块可以包括：

位置点误差计算单元，用于分别计算所述第一运动轨迹曲线中的每个目标位置点和其在所述第二运动轨迹曲线中的对应位置点之间的距离，得到每个所述目标位置点的误差；

误差叠加单元，用于将每个所述目标位置点的误差叠加，得到所述曲线误差。

在本申请的一种实现方式中，所述视频序列获取模块可以包括：

原始视频序列获取单元，用于获取包含多个动作的原始视频序列，所述原始视频序列包括一一对应的原始像素帧序列和原始深度图序列；

第一动作分割处理单元，用于对所述原始像素帧序列执行视频的动作分割处理，得到多个包含单一动作的像素帧序列分段，并从所述多个像素帧序列分段中选取一个像素帧序列分段，作为所述目标像素帧序列；

第二动作分割处理单元，用于对所述原始深度图序列执行视频的动作分割处理，得到多个包含单一动作的深度图序列分段，并从所述多个深度图序列分段中选取与所述目标像素帧序列对应的深度图序列分段，作为所述目标深度图序列。

本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如图1表示的任意一种动作检测方法。

本申请实施例还提供一种计算机程序产品，当该计算机程序产品在终端设备上运行时，使得终端设备执行实现如图1表示的任意一种动作检测方法。

图8是本申请一实施例提供的终端设备的示意图。如图8所示，该实施例的终端设备8包括：处理器80、存储器81以及存储在所述存储器81中并可在所述处理器80上运行的计算机程序82。所述处理器80执行所述计算机程序82时实现上述各个动作检测方法的实施例中的步骤，例如图1所示的步骤101至104。或者，所述处理器80执行所述计算机程序82时实现上述各装置实施例中各模块/单元的功能，例如图7所示模块701至704的功能。

所述计算机程序82可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器81中，并由所述处理器80执行，以完成本申请。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序82在所述终端设备8中的执行过程。

所称处理器80可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器81可以是所述终端设备8的内部存储单元，例如终端设备8的硬盘或内存。所述存储器81也可以是所述终端设备8的外部存储设备，例如所述终端设备8上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，所述存储器81还可以既包括所述终端设备8的内部存储单元也包括外部存储设备。所述存储器81用于存储所述计算机程序以及所述终端设备所需的其他程序和数据。所述存储器81还可以用于暂时地存储已经输出或者将要输出的数据。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的系统实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括是电载波信号和电信信号。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

一种动作检测方法，其特征在于，包括：

获取包含目标动作的目标视频序列，所述目标视频序列包括一一对应的目标像素帧序列和目标深度图序列；

根据所述目标像素帧序列生成像素特征图像，所述像素特征图像包含所述目标像素帧序列具有的各帧图像的特征；

根据所述目标深度图序列生成深度特征图像，所述深度特征图像包含所述目标深度图序列具有的各帧图像的特征；

将所述像素特征图像和所述深度特征图像输入已训练的深度神经网络执行图像特征的提取与融合处理，以确定所述目标动作的类别。
如权利要求1所述的方法，其特征在于，所述深度神经网络包括特征提取模块和特征融合模块，所述将所述像素特征图像和所述深度特征图像输入已训练的深度神经网络执行图像特征的提取与融合处理，以确定所述目标动作的类别，包括：

将所述像素特征图像和所述深度特征图像输入所述特征提取模块进行处理，得到图像语义特征；

将所述图像语义特征输入所述特征融合模块进行处理，得到融合后的图像特征；

基于所述融合后的图像特征确定所述目标动作的类别。
如权利要求1所述的方法，其特征在于，所述根据所述目标像素帧序列生成像素特征图像，包括：

在时间维度上对所述目标像素帧序列执行稀疏采样处理，得到第一图像序列；

将所述第一图像序列包含的各帧图像融合，得到所述像素特征图像；

所述根据所述目标深度图序列生成深度特征图像，包括：

在时间维度上对所述目标深度图序列执行稀疏采样处理，得到第二图像序列；

将所述第二图像序列包含的各帧图像融合，得到所述深度特征图像。
如权利要求3所述的方法，其特征在于，所述将所述第一图像序列包含的各帧图像融合，得到所述像素特征图像，包括：

对所述第一图像序列包含的各帧图像按照对应位置像素点执行图像特征的叠加、求平均和取整操作，得到所述像素特征图像；

所述将所述第二图像序列包含的各帧图像融合，得到所述深度特征图像，包括：

将所述第二图像序列包含的各帧图像分别转换成各帧灰度图像；

对所述各帧灰度图像按照对应位置像素点执行图像特征的叠加、求平均和取整操作，得到所述深度特征图像。
如权利要求3所述的方法，其特征在于，在确定所述目标动作的类别之后，还包括：

从预设的规范动作视频库中查找与所述目标动作的类别对应的基准视频序列，所述基准视频序列包含规范化的所述目标动作；

在时间维度上对所述基准视频序列执行稀疏采样处理，得到第三图像序列，所述第三图像序列包含的图像帧数和所述第一图像序列包含的图像帧数相同；

分别标注出所述第一图像序列包含的各帧图像中目标物体具有的指定部位的位置，以及所述第三图像序列包含的各帧图像中所述目标物体具有的所述指定部位的位置，所述目标物体为执行所述目标动作的物体；

根据所述第一图像序列包含的各帧图像中所述目标物体具有的所述指定部位的位置，构建得到所述指定部位对应的第一运动轨迹曲线；

根据所述第三图像序列包含的各帧图像中所述目标物体具有的所述指定部位的位置，构建得到所述指定部位对应的第二运动轨迹曲线；

根据所述第一运动轨迹曲线和所述第二运动轨迹曲线，计算得到曲线误差；

根据所述曲线误差确定所述目标视频序列包含的所述目标动作的规范化程度。
如权利要求5所述的方法，其特征在于，所述根据所述第一运动轨迹曲线和所述第二运动轨迹曲线，计算得到曲线误差，包括：

分别计算所述第一运动轨迹曲线中的每个目标位置点和其在所述第二运动轨迹曲线中的对应位置点之间的距离，得到每个所述目标位置点的误差；

将每个所述目标位置点的误差叠加，得到所述曲线误差。
如权利要求1至6中任一项所述的方法，其特征在于，所述获取包含目标动作的目标视频序列，包括：

获取包含多个动作的原始视频序列，所述原始视频序列包括一一对应的原始像素帧序列和原始深度图序列；

对所述原始像素帧序列执行视频的动作分割处理，得到多个包含单一动作的像素帧序列分段，并从所述多个包含单一动作的像素帧序列分段中选取一个像素帧序列分段，作为所述目标像素帧序列；

对所述原始深度图序列执行视频的动作分割处理，得到多个包含单一动作的深度图序列分段，并从所述多个包含单一动作的深度图序列分段中选取与所述目标像素帧序列对应的深度图序列分段，作为所述目标深度图序列。
一种动作检测装置，其特征在于，包括：

视频序列获取模块，用于获取包含目标动作的目标视频序列，所述目标视频序列包括一一对应的目标像素帧序列和目标深度图序列；

像素特征生成模块，用于根据所述目标像素帧序列生成像素特征图像，所述像素特征图像包含所述目标像素帧序列具有的各帧图像的特征；

深度特征生成模块，用于根据所述目标深度图序列生成深度特征图像，所述深度特征图像包含所述目标深度图序列具有的各帧图像的特征；

动作检测模块，用于将所述像素特征图像和所述深度特征图像输入已训练的深度神经网络执行图像特征的提取与融合处理，以确定所述目标动作的类别。
一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的动作检测方法。
一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的动作检测方法。