WO2019091417A1

WO2019091417A1 - 基于神经网络的识别方法与装置

Info

Publication number: WO2019091417A1
Application number: PCT/CN2018/114487
Authority: WO
Inventors: 季向阳; 吴嘉林; 杨武魁; 王谷
Original assignee: 清华大学
Priority date: 2017-11-09
Filing date: 2018-11-08
Publication date: 2019-05-16
Also published as: CN107766839B; CN107766839A; JP6920771B2; JP2021502638A

Abstract

本公开涉及一种基于神经网络的识别方法与装置，所述方法包括：将待识别视频输入训练好的第一三维神经网络模型进行处理，得到所述待识别视频的动作提取结果；根据所述待识别视频的动作提取结果，确定所述待识别视频的动作实例检测结果；将所述待识别视频输入训练好的第二三维神经网络模型进行处理，得到所述待识别视频的动作类别判别结果；根据所述待识别视频的动作实例检测结果和所述待识别视频的动作类别判别结果，确定所述待识别视频的动作类别。利用两个三维神经网络模型得到的不同的识别结果进行结合，可以提高三维神经网络模型的识别效率，减小单个三维神经网络模型的计算量。

Description

基于神经网络的识别方法与装置

技术领域

本公开涉及神经网络技术领域，尤其涉及一种基于神经网络的识别方法与装置。

背景技术

动作定位一般分为两种，一种是仅在空间中定位，另一种是时空同时定位。在较长且有多个动作执行人同时做动作的视频中，不同的动作实例之间相互影响，重叠。由于神经网络得到的是关于类别的泛化表达，所以传统基于神经网络的定位方法难以区分这些相互交叠动作。

在传统的动作定位方法中，一种典型的二维加时间的动作定位框架是在每一帧中检测在移动的人，再在不同的帧间将这些检测出来的人连接在一起，形成一个动作实例。这些算法在检测人的时候仅能够考虑到一帧中的外表特征和动作特征，就导致了神经网络的时间感受域大大减小，动作幅度小的动作与背景难以分开。另外，在评判每一个检测人的检测框时候，由于算法逐帧进行，所以检测框都必须单独通过网络。这导致了计算消耗大大增加。另外，多个动作实例使得在回归出来的得分图中的响应是交叠在一起的，导致普通的三维动作定位的方法难以对多个动作实例进行定位。

发明内容

有鉴于此，本公开提出了一种基于神经网络的动作识别方法和装置，用以提高基于神经网络的动作识别方法的准确率和检测效率。

根据本公开的另一方面，提供了一种基于神经网络的动作识别方法，所述方法包括：

将待识别视频输入训练好的第一三维神经网络模型进行处理，得到所述待识别视频的动作提取结果；

根据所述待识别视频的动作提取结果，确定所述待识别视频的动作实例检测结果；

将所述待识别视频输入训练好的第二三维神经网络模型进行处理，得到所述待识别视频的动作类别判别结果；

根据所述待识别视频的动作实例检测结果和动作类别判别结果，确定所述待识别视频的动作类别。

在一种可能的实现方式中，所述待识别视频的动作提取结果，包括；

所述待识别视频中每帧图像属于一个动作实例中的一个动作位置的第一概率，以及

所述待识别视频中的动作起始帧和动作结束帧。

在一种可能的实现方式中，根据所述待识别视频的动作提取结果，确定所述待识别视频的动作实例检测结果，包括：

根据所述待识别视频中每帧图像的第一概率，以及所述待识别视频中的动作起始帧和动作结束帧，计算每帧图像中的动作检测框；

根据所述动作检测框计算每帧图像间的检测框匹配值；

根据所述检测框匹配值，确定所述待识别视频的动作实例检测框。

在一种可能的实现方式中，所述待识别视频的动作类别判别结果，包括：

每帧图像上的像素所对应的动作类别概率。

在一种可能的实现方式中，根据所述待识别视频的动作实例检测结果和动作类别判别结果，确定所述待识别视频的动作类别，包括：

在每帧图像上的像素所对应的动作类别概率中，确定所述动作实例检测框中的像素所对应的动作类别；

根据所述动作实例检测框中的像素所对应的动作类别，确定所述待识别视频的动作类别。

在一种可能的实现方式中，将所述待识别视频输入训练好的第一三维神经网络模型进行处理，得到所述待识别视频的动作提取结果，包括：

将所述待识别视频输入训练好的二维神经网络模型，获取特征值；

将所述特征值输入训练好的第一三维神经网络模型进行处理，得到所述待识别视频的动作提取结果；

将所述待识别视频输入训练好的第二三维神经网络模型进行处理，得到所述待识别视频的动作类别判别结果，包括：

将所述特征值输入训练好的第二三维神经网络模型进行处理，得到所述待识别视频的动作类别判别结果。

根据本公开的另一方面，提供了一种基于神经网络的动作识别装置，包括：

第一三维识别模块，用于将待识别视频输入训练好的第一三维神经网络模型进行处理，得到所述待识别视频的动作提取结果；

动作提取结果处理模块，用于根据所述待识别视频的动作提取结果，确定所述待识别视频的动作实例检测结果；

第二三维识别模块，用于将所述待识别视频输入训练好的第二三维神经网络模型进行处理，得到所述待识别视频的动作类别判别结果；

动作类别确定模块，用于根据所述待识别视频的动作实例检测结果和动作类别判别结果，确定所述待识别视频的动作类别。

所述待识别视频中的动作起始帧和动作结束帧。

在一种可能的实现方式中，所述动作提取结果处理模块，包括：

动作检测框计算子模块，用于根据所述待识别视频中每帧图像的第一概率，以及所述待识别视频中的动作起始帧和动作结束帧，计算每帧图像中的动作检测框；

匹配值计算子模块，用于根据所述动作检测框计算每帧图像间的检测框匹配值；

动作实例确定子模块，用于根据所述检测框匹配值，确定所述待识别视频的动作实例检测框。

每帧图像上的像素所对应的动作类别概率。

在一种可能的实现方式中，所述动作类别确定模块，包括：

第一动作类别确定子模块，用于在每帧图像上的像素所对应的动作类别概率中，确定所述动作实例检测框中的像素所对应的动作类别；

第二动作类别确定子模块，用于根据所述动作实例检测框中的像素所对应的动作类别，确定所述待识别视频的动作类别。

在一种可能的实现方式中，所述第一三维识别模块，包括：

第一二维识别子模块，用于将所述待识别视频输入训练好的二维神经网络模型，获取特征值；

第一三维识别子模块，用于将所述特征值输入训练好的第一三维神经网络模型进行处理，得到所述待识别视频的动作提取结果；

所述第二三维识别模块，包括：

第二二维识别子模块，用于将所述待识别视频输入训练好的二维神经网络模型，获取特征值；

第二三维识别子模块，用于将所述特征值输入训练好的第二三维神经网络模型进行处理，得到所述待识别视频的动作类别判别结果。

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为执行上述基于神经网络的动作识别方法。

根据本公开的另一方面，提供了一种非易失性计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令被处理器执行时实现上述基于神经网络的动作识别方法。

根据本公开的实施例，利用两个三维神经网络模型对待识别视频进行处理，分别得到动作提取结果和动作类别判别结果。其中，根据动作提取结果确定出待识别视频中的动作实例后，在于动作类别判别结果一起，确定待识别视频中的动作类型。利用两个三维神经网络模型得到的不同的识别结果进行结合，可以提高三维神经网络模型的识别效率，减小单个三维神经网络模型的计算量。

根据下面参考附图对示例性实施例的详细说明，本公开的其它特征及方面将变得清楚。

附图说明

包含在说明书中并且构成说明书的一部分的附图与说明书一起示出了本公开的示例性实施例、特征和方面，并且用于解释本公开的原理。

图1示出根据本公开一实施例的基于神经网络的动作识别方法的流程图；

图2示出根据本公开一实施例的基于神经网络的动作识别方法的流程图；

图3示出根据本公开一实施例的基于神经网络的动作识别方法的流程图；

图4示出根据本公开一实施例的基于神经网络的动作识别方法的流程图；

图5示出根据本公开一实施例的基于神经网络的动作识别方法中生成单帧动作检测框的示意图；

图6示出根据本公开一实施例的基于神经网络的动作识别方法中生成动作实例检测框的示意图；

图7示出根据本公开一实施例的基于神经网络的动作识别方法中确定待识别视频的动作类别的示意图；

图8示出根据本公开一实施例的基于神经网络的动作识别装置的框图；

图9示出根据本公开一实施例的基于神经网络的动作识别装置的框图；

图10示出根据本公开一实施例的基于神经网络的动作识别装置的框图。

具体实施方式

以下将参考附图详细说明本公开的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面，但是除非特别指出，不必按比例绘制附图。

在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。

另外，为了更好的说明本公开，在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解，没有某些具体细节，本公开同样可以实施。在一些实例中，对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述，以便于凸显本公开的主旨。

图1示出根据本公开一实施例的基于神经网络的动作识别方法的流程图，如图1所示的基于神经网络的动作识别方法，包括：

步骤S10，将待识别视频输入训练好的第一三维神经网络模型进行处理，得到所述待识别视频的动作提取结果。

在一种可能的实现方式中，待识别视频包括连续的图像帧组成的视频，图像中的人物在进行某种动作类别，如跳远、打篮球、唱歌等。

第一三维神经网络模型包括3D卷积神经网络模型，由多层3D卷积层和多层3D池化层组成，根据待识别视频中的空间信息和时间信息进行建模。其中空间信息包括每帧图像上的像素点，时间信息包括视频流中的时间信息。动作提取结果包括在待识别视频中提取出的分解动作特征。

步骤S20，根据所述待识别视频的动作提取结果，确定所述待识别视频的动作实例检测结果。

在一种可能的实现方式中，动作实例包括具有时序特征的分解动作，多个动作实例组成动作类别。例如在动作类别中，跳远包括助跑、起跳、落下三个动作实例。根据动作提取结果中的分解动作特征，确定出待识别视频中的各动作实例。

步骤S30，将所述待识别视频输入训练好的第二三维神经网络模型进行处理，得到所述待识别视频的动作类别判别结果。

在一种可能的实现方式中，第二三维神经网络模型包括3D卷积神经网络模型，由多层3D卷积层和多层3D池化层组成，根据待识别视频中的空间信息和时间信息进行建模。其中空间信息包括每帧图像上的像素点，时间信息包括视频流中的时间信息。动作类别判别结果包括在待识别视频中提取出的动作类别特征。

可以理解的是，步骤S30，可以与步骤S10同时执行，在步骤S10之前执行，或在步骤S10之后执行。

步骤S40，根据所述待识别视频的动作实例检测结果和动作类别判别结果，确定所述待识别视频的动作类别。

在本实施例中，利用两个三维神经网络模型对待识别视频进行处理，分别得到动作提取结果和动作类别判别结果。其中，根据动作提取结果确定出待识别视频中的动作实例后，在于动作类别判别结果一起，确定待识别视频中的动作类型。利用两个三维神经网络模型得到的不同的识别结果进行结合，可以提高三维神经网络模型的识别效率，减小单个三维神经网络模型的计算量。

图2示出根据本公开一实施例的基于神经网络的动作识别方法的流程图，如图2所示的方法，在图1所示的实施例的基础上，

步骤S10中所述待识别视频的动作提取结果，包括；所述待识别视频中每帧图像属于一个动作实例中的一个动作位置的第一概率，以及所述待识别视频中的动作起始帧和动作结束帧。

在该实现方式中，动作起始帧包括一个动作实例的起始帧，也包括一个动作类别的起始帧。动作结束帧包括动作类别的结束帧，也包括一个动作类别的结束帧。

动作实例是在时间上持续进行的一个分解动作，每个分解动作具有多个连续的动作位置，提取每个分解动作中具有明显特征的动作位置，可以在后续分析中得到更准确的动作实例。例如在跳远这个动作类别中的起跳动作实例，至少包括双脚离地、跳起、跳至最高点、下落、双脚落地这五个动作位置。

在第一三维神经网络模型的训练过程中所使用的样本视频，标识了动作起始帧、动作结束帧，以及标识了图像中的动作属于预设的一个动作实例中的预设动作位置。利用训练好的第一三维神经网络模型进行处理后得到的动作提取结果包括：待识别视频中的动作起始帧、动作结束帧，以及所述待识别视频中每帧图像属于一个动作实例中的一个动作位置的第一概率。例如，在待识别视频1中包括20帧图像，其中第6帧为动作起始帧，第20帧为动作结束帧，第6帧为起跳的概率为60％，第12帧为跳至最高点的概率为70％等。

步骤S20包括：

步骤S21，根据所述待识别视频中每帧图像的第一概率，以及所述待识别视频中的动作起始帧和动作结束帧，计算每帧图像中的动作检测框。

在一种可能的实现方式中，图5示出根据本公开一实施例的基于神经网络的动作识别方法中生成单帧动作检测框的示意图，如图5所示，根据每帧图像的第一概率，得出每帧图像中推测出该动作位置的像素点的范围，即动作检测框。例如，在图5右边的图像，可以根据动作检测框中主要包括了手臂部位的像素，推测出动作位置为抬手。

步骤S22，根据所述动作检测框计算每帧图像间的检测框匹配值。

在一种可能的实现方式中，根据每帧图像中的动作检测框中的动作位置的概率，可以计算每帧图像中的检测框匹配值。例如动作实例1最后一帧中的动作检测框中的动作，和动作实例1倒数第二帧中的动作检测框中的动作的匹配值为A；动作实例1最后一帧中的动作检测框中的动作，和动作实例2第一帧中的动作检测框中的动作的匹配值为B。

步骤S23，根据所述检测框匹配值，确定所述待识别视频的动作实例检测框。

在一种可能的实现方式中，相同动作实例中的每帧图像，在动作检测框中的动作具有更强的相关性。容易理解的是，不同的动作实例间的动作之间的匹配度低。因此，上述例子中的匹配值A大于B。根据各动作实例中的动作检测框，确定各动作实例的动作实例检测框。

图6示出根据本公开一实施例的基于神经网络的动作识别方法中生成动作实例检测框的示意图，如图6所示，左侧四帧图像同属于一个动作实例1。根据左侧四帧图像中的动作检测框，确定出右侧的动作实例检测框，动作示例检测框包含动作实例中的所有帧的动作检测框。

在本实施例中，第一三维神经网络模型给出的动作提取结果，包括待识别视频中每帧图像所归属的动作实例的动作位置的概率，增强了区分不同动作实例的能力，以使后续的动作类别的判定过程更加的准确。根据第一三维神经网络模型的动作提取结果，确定待识别视频中的各动作实例检测框。将待识别视频中的各动作实例进行确定后，能够在后续的动作类别的识别过程中，提高动作类别的定位准确率。

图3示出根据本公开一实施例的基于神经网络的动作识别方法的流程图，如图3所示的方法，在上述实施例的基础上，步骤S30中所述待识别视频的动作类别判别结果，包括：每帧图像上的像素所对应的动作类别概率。

在该实施例中，第二三维神经网络模型，直接给出待识别视频中每帧图像上的各像素所对应的动作类别概率。例如第一帧图像中的像素1对应的动作类别是唱歌的概率是0.3，是跑步的概率为0.5，是踢球的概率为0.2。像素2对应的动作类别是踢球的概率为0.1，是跑步的概率为0.1，是唱歌的概率为0.8。

步骤S40包括：

步骤S41，在每帧图像上的像素所对应的动作类别概率中，确定所述动作实例检测框中的像素所对应的动作类别。

步骤S42，根据所述动作实例检测框中的像素所对应的动作类别，确定所述待识别视频的动作类别。

图7示出根据本公开一实施例的基于神经网络的动作识别方法中确定待识别视频的动作类别的示意图，如图7所示，左上小立方体即为根据第一三维神经网络模型的处理结果，获取到的一个动作实例检测框，动作实例检测框的空间位置，是由动作开始帧、动作结束帧和动作检测框组成的立方体，确定了在待识别视频中判定动作类别的取值范围。

左侧下方大立方体，为第一三维神经网络模型处理后的，每个像素均携带动作类别概率的视频信息。根据左侧上方小立方体在左侧下方大立方体中确定动作类别的判定范围，最终得到右侧小立方体中的像素的动作类别之和。并将右侧小立方体的动作类别中概率最大的动作类别，判定为待识别视频的动作类别。

在本实施例中，通过第二三维神经网络模型给出的动作类别判别结果，可以得出每帧图像上的像素所对应的动作类别的概率，由于对每个像素均进行了动作类别的判断，使得后续整个待识别视频的动作类别识别结果更加准确。并且通过两个三维神经网络模型，分别对时间信息与空间信息进行同时建模，使得动作的定位的鲁棒性更高，且通过提取的动作实例检测框，避免了逐一计算每帧图像中的动作类别特征的负担，降低了动作识别的计算量，同时对于动作的开始、动作的结束，以及动作在特定动作位置的建模，增强了区分不同动作实例的能力，使得动作识别的结果更加准确。

图4示出根据本公开一实施例的基于神经网络的动作识别方法的流程图，如图4所示的方法，在图1所示的实施例的基础上，

步骤S10，包括：

步骤101，将所述待识别视频输入训练好的二维神经网络模型，获取特征值。

步骤102，将所述特征值输入训练好的第一三维神经网络模型进行处理，得到所述待识别视频的动作提取结果。

步骤S30，包括：

步骤301，将所述待识别视频输入训练好的二维神经网络模型，获取特征值。

步骤302，将所述特征值输入训练好的第二三维神经网络模型进行处理，得到所述待识别视频的动作类别判别结果。

在该实施例中，将待识别视频输入二维神经网络模型中进行处理，得到较为泛化的特征表达，提取特征值，再分别输入第一三维神经网络模型和第二三维神经网络模型中进行处理。

在本实施例中，将待识别视频首先输入二维神经网络模型中，进行特征的提取后，能够提高三维神经网络模型的处理效率，从而提高待识别视频的动作类别的判定效率。

图8示出根据本公开一实施例的基于神经网络的动作识别装置的框图，如图8所示，本实施例提供的基于神经网络的动作识别装置，包括：

第一三维识别模块41，用于将待识别视频输入训练好的第一三维神经网络模型进行处理，得到所述待识别视频的动作提取结果；

动作提取结果处理模块42，用于根据所述待识别视频的动作提取结果，确定所述待识别视频的动作实例检测结果；

第二三维识别模块43，用于将所述待识别视频输入训练好的第二三维神经网络模型进行处理，得到所述待识别视频的动作类别判别结果；

动作类别确定模块44，用于根据所述待识别视频的动作实例检测结果和所述待识别视频的动作类别判别结果，确定所述待识别视频的动作类别。

图9示出根据本公开一实施例的基于神经网络的动作识别装置的框图，如图9所示，在图8所示的装置的基础上，

所述待识别视频的动作提取结果，包括；所述待识别视频中每帧图像属于一个动作实例中的一个动作位置的第一概率，以及所述待识别视频中的动作起始帧和动作结束帧。

在一种可能的实现方式中，所述动作提取结果处理模块42，包括：

动作检测框计算子模块421，用于根据所述待识别视频中每帧图像的第一概率，以及所述待识别视频中的动作起始帧和动作结束帧，计算每帧图像中的动作检测框；

匹配值计算子模块422，用于根据所述动作检测框计算每帧图像间的检测框匹配值；

动作实例确定子模块423，用于根据所述检测框匹配值，确定所述待识别视频的动作实例检测框。

在一种可能的实现方式中，所述待识别视频的动作类别判别结果，包括：每帧图像上的像素所对应的动作类别概率。

在一种可能的实现方式中，所述动作类别确定模块44，包括：

第一动作类别确定子模块441，用于在每帧图像上的像素所对应的动作类别概率中，确定所述动作实例检测框中的像素所对应的动作类别；

第二动作类别确定子模块442，用于根据所述动作实例检测框中的像素所对应的动作类别，确定所述待识别视频的动作类别。

在一种可能的实现方式中，所述第一三维识别模块41，包括：

第一二维识别子模块411，用于将所述待识别视频输入训练好的二维神经网络模型，获取特征值；

第一三维识别子模块412，用于将所述特征值输入训练好的第一三维神经网络模型进行处理，得到所述待识别视频的动作提取结果；

所述第二三维识别模块43，包括：

第二二维识别子模块431，用于将所述待识别视频输入训练好的二维神经网络模型，获取特征值；

第二三维识别子模块432，用于将所述特征值输入训练好的第二三维神经网络模型进行处理，得到所述待识别视频的动作类别判别结果。

图10是根据一示例性实施例示出的一种基于神经网络的动作识别装置1900的框图。例如，装置1900可以被提供为一服务器。参照图10，装置1900包括处理组件1922，其进一步包括一个或多个处理器，以及由存储器1932所代表的存储器资源，用于存储可由处理组件1922的执行的指令，例如应用程序。存储器1932中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件1922被配置为执行指令，以执行上述方法。

装置1900还可以包括一个电源组件1926被配置为执行装置1900的电源管理，一个有线或无线网络接口1950被配置为将装置1900连接到网络，和一个输入输出(I/O)接口1958。装置1900可以操作基于存储在存储器1932的操作系统，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM或类似。

在示例性实施例中，还提供了一种非易失性计算机可读存储介质，例如包括计算机程序指令的存储器1932，上述计算机程序指令可由装置1900的处理组件1922执行以完成上述方法。

本公开可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于使处理器实现本公开的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本公开的各个方面。

这里参照根据本公开实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本公开的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本公开的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

一种基于神经网络的动作识别方法，其特征在于，所述方法包括：

将待识别视频输入训练好的第一三维神经网络模型进行处理，得到所述待识别视频的动作提取结果；

根据所述待识别视频的动作提取结果，确定所述待识别视频的动作实例检测结果；

将所述待识别视频输入训练好的第二三维神经网络模型进行处理，得到所述待识别视频的动作类别判别结果；

根据所述待识别视频的动作实例检测结果和动作类别判别结果，确定所述待识别视频的动作类别。
根据权利要求1所述的方法，其特征在于，所述待识别视频的动作提取结果，包括；

所述待识别视频中每帧图像属于一个动作实例中的一个动作位置的第一概率，以及

所述待识别视频中的动作起始帧和动作结束帧。
根据权利要求2所述的方法，其特征在于，根据所述待识别视频的动作提取结果，确定所述待识别视频的动作实例检测结果，包括：

根据所述待识别视频中每帧图像的第一概率，以及所述待识别视频中的动作起始帧和动作结束帧，计算每帧图像中的动作检测框；

根据所述动作检测框计算每帧图像间的检测框匹配值；

根据所述检测框匹配值，确定所述待识别视频的动作实例检测框。
根据权利要求3所述的方法，其特征在于，所述待识别视频的动作类别判别结果，包括：

每帧图像上的像素所对应的动作类别概率。
根据权利要求4所述的方法，其特征在于，根据所述待识别视频的动作实例检测结果和动作类别判别结果，确定所述待识别视频的动作类别，包括：

在每帧图像上的像素所对应的动作类别概率中，确定所述动作实例检测框中的像素所对应的动作类别；

根据所述动作实例检测框中的像素所对应的动作类别，确定所述待识别视频的动作类别。
根据权利要求1所述的方法，其特征在于，将所述待识别视频输入训练好的第一三维神经网络模型进行处理，得到所述待识别视频的动作提取结果，包括：

将所述待识别视频输入训练好的二维神经网络模型，获取特征值；

将所述特征值输入训练好的第一三维神经网络模型进行处理，得到所述待识别视频的动作提取结果；

将所述待识别视频输入训练好的第二三维神经网络模型进行处理，得到所述待识别视频的动作类别判别结果，包括：

将所述待识别视频输入训练好的二维神经网络模型，获取特征值；

将所述特征值输入训练好的第二三维神经网络模型进行处理，得到所述待识别视频的动作类别判别结果。
一种基于神经网络的动作识别装置，其特征在于，包括：

第一三维识别模块，用于将待识别视频输入训练好的第一三维神经网络模型进行处理，得到所述待识别视频的动作提取结果；

动作提取结果处理模块，用于根据所述待识别视频的动作提取结果，确定所述待识别视频的动作实例检测结果；

第二三维识别模块，用于将所述待识别视频输入训练好的第二三维神经网络模型进行处理，得到所述待识别视频的动作类别判别结果；

动作类别确定模块，用于根据所述待识别视频的动作实例检测结果和动作类别判别结果，确定所述待识别视频的动作类别。
根据权利要求7所述的装置，其特征在于，所述待识别视频的动作提取结果，包括；

所述待识别视频中每帧图像属于一个动作实例中的一个动作位置的第一概率，以及

所述待识别视频中的动作起始帧和动作结束帧。
根据权利要求8所述的装置，其特征在于，所述动作提取结果处理模块，包括：

动作检测框计算子模块，用于根据所述待识别视频中每帧图像的第一概率，以及所述待识别视频中的动作起始帧和动作结束帧，计算每帧图像中的动作检测框；

匹配值计算子模块，用于根据所述动作检测框计算每帧图像间的检测框匹配值；

动作实例确定子模块，用于根据所述检测框匹配值，确定所述待识别视频的动作实例检测框。
根据权利要求9所述的装置，其特征在于，所述待识别视频的动作类别判别结果，包括：

每帧图像上的像素所对应的动作类别概率。
根据权利要求10所述的装置，其特征在于，所述动作类别确定模块，包括：

第一动作类别确定子模块，用于在每帧图像上的像素所对应的动作类别概率中，确定所述动作实例检测框中的像素所对应的动作类别；

第二动作类别确定子模块，用于根据所述动作实例检测框中的像素所对应的动作类别，确定所述待识别视频的动作类别。
根据权利要求7所述的装置，其特征在于，所述第一三维识别模块，包括：

第一二维识别子模块，用于将所述待识别视频输入训练好的二维神经网络模型，获取特征值；

第一三维识别子模块，用于将所述特征值输入训练好的第一三维神经网络模型进行处理，得到所述待识别视频的动作提取结果；

所述第二三维识别模块，包括：

第二二维识别子模块，用于将所述待识别视频输入训练好的二维神经网络模型，获取特征值；

第二三维识别子模块，用于将所述特征值输入训练好的第二三维神经网络模型进行处理，得到所述待识别视频的动作类别判别结果。
一种基于神经网络的动作识别装置，其特征在于，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：执行权利要求1至6中任一项所述的方法。
一种非易失性计算机可读存储介质，其上存储有计算机程序指令，其特征在于，所述计算机程序指令被处理器执行时实现权利要求1至6中任意一项所述的方法。