WO2021098616A1

WO2021098616A1 - 运动姿态识别方法、运动姿态识别装置、终端设备及介质

Info

Publication number: WO2021098616A1
Application number: PCT/CN2020/128854
Authority: WO
Inventors: 乔宇; 邹静; 王亚立
Original assignee: 中国科学院深圳先进技术研究院
Priority date: 2019-11-21
Filing date: 2020-11-13
Publication date: 2021-05-27
Also published as: CN110942006A; CN110942006B

Abstract

本申请适用于图像识别技术领域，提供了一种运动姿态识别方法、运动姿态识别装置、终端设备及介质，其中，一种运动姿态识别方法，通过训练好的双流长短时视频姿态估计模型，对目标时段包含运动体的待识别视频图像进行运动姿态识别，通过训练好的双流长短时视频姿态估计模型中的双流3D卷积神经网络对待识别视频图像进行运动体综合特征提取，再通过递归神经网络基于第一时段内运动体的第一姿态预估信息与运动体综合特征，得到运动体在目标时段内的目标预估姿态信息，令得到的运动体在目标时段内的目标预估姿态信息表征的预估姿态具有时序连贯性，使得出的预估姿态与预设参考姿态之间的欧几里得距离更加准确，提高了对运动体的运动姿态识别效率。

Description

运动姿态识别方法、运动姿态识别装置、终端设备及介质

技术领域

本申请属于图像识别技术领域，尤其涉及一种运动姿态识别方法、运动姿态识别装置、终端设备及计算机可读存储介质。

背景技术

随着人们的生活水平越来越高，越来越多的智能家电也备受消费者们喜爱。例如，搭配了穿戴设备的智能健身系统，可以通过穿戴设备采集用户的运动数据，并基于运动数据对用户进行运动姿态进行识别，以实现对用户在无人指导的情况下指导用户运动健身。

技术问题

然而，在现有的运动姿态识别方案中，由于根据采集到的运动数据进行姿态预估时，是基于穿戴设备采集到的运动数据进行姿态预估或者姿态还原，而某一组运动数据可以同时表征多个运动姿态，也即根据运动数据进行姿态预估存在相当高的容错率，可见现有的运动姿态识别方案中存在识别效率较低的问题。

技术解决方案

有鉴于此，本申请实施例提供了一种运动姿态识别方法、运动姿态识别装置、终端设备及计算机可读存储介质，以解决现有的运动姿态识别方案中存在识别效率较低的问题。

本申请实施例的第一方面提供了一种运动姿态识别方法，包括：

获取目标时段包含运动体的待识别视频图像，并将所述待识别视频图像输入训练好的双流长短时视频姿态估计模型；所述训练好的双流长短时视频姿态估计模型包括双流3D卷积神经网络和递归神经网络；

通过所述双流3D卷积神经网络对所述待识别视频图像进行运动体的特征提取，得到目标时段的运动体综合特征；

通过递归神经网络基于第一时段内所述运动体的第一姿态预估信息与所述运动体综合特征，得到所述运动体在目标时段内的目标预估姿态信息；所述第一时段为所述目标时段的前一单位时段；所述目标预估姿态信息用于表征所述运动体在所述目标时段的预估姿态；

基于所述目标预估姿态信息与预设参考姿态信息，确定所述预估姿态与预设参考姿态之间的欧几里得距离；所述欧几里得距离用于描述所述预估姿态与所述预设参考姿态之间的差别大小。

进一步的，所述获取目标时段包含运动体的待识别视频图像，并将所述待识别视频图像输入训练好的双流长短时视频姿态估计模型，包括：

提取所述待识别视频图像的RGB图片集合和运动光流图片集合；

将所述RGB图片集合和所述运动光流图片集合输入训练好的双流长短时视频姿态估计模型的双流3D卷积神经网络。

进一步的，所述通过所述双流3D卷积神经网络对所述待识别视频图像进行运动体的特征提取，得到目标时段的运动体综合特征，包括：

通过所述双流3D卷积神经网络基于所述RGB图片集合和所述运动光流图片集合，抽取所述待识别视频图像中运动体在所述目标时段内的外观特征和运动特征；

将所述外观特征与所述运动特征进行特征拼接，得到所述目标时段的运动体综合特征。

进一步的，所述通过递归神经网络基于第一时段内所述运动体的第一姿态预估信息与所述运动体综合特征，得到所述运动体在目标时段内的目标预估姿态信息，包括：

若所述目标时段存在前一单位时段，则将所述目标时段的前一单位时段识别为第一时段，并将所述第一时段对应的第一姿态预估信息与所述运动体综合特征输入递归神经网络，通过所述递归神经网络根据所述第一姿态预估信息与所述运动体综合特征进行状态向量计算，以得到所述运动体在目标时段内的目标预估姿态信息；

若所述目标时段不存在前一单位时段，则令第一姿态预估信息为空，并将所述运动体综合特征输入递归神经网络，通过所述递归神经网络根据所述运动体综合特征进行状态向量计算，以得到所述运动体在目标时段内的目标预估姿态信息。

进一步的，所述基于所述目标预估姿态信息与预设参考姿态信息，确定所述预估姿态与预设参考姿态之间的欧几里得距离的步骤之后，还包括：

若所述欧几里得距离等于或大于预设阈值，则输出用于纠正所述运动体的运动姿态纠正信息；

若所述欧几里得距离小于预设阈值，则从所述待识别视频图像中确定出与所述预估姿态对应的目标图像。

进一步的，所述方法还包括：

获取包含运动体的样本视频文件；

基于所述样本视频文件生成训练样本集合；

利用所述训练样本集合对双流长短时视频姿态估计模型进行训练，以得到训练好的双流长短时视频姿态估计模型。

进一步的，所述基于所述样本视频文件生成训练样本集合，包括：

对所述样本视频文件进行分段，得到T个视频片段；其中，T为大于0的整数，每个所述视频片段对应配置有所述运动体的三维关键点信息；

将T个所述视频片段和每个所述视频片段对应的三维关键点信息作为训练样本集合。

本申请实施例的第二方面提供了一种运动姿态识别装置，包括：

获取与输入单元，用于获取目标时段包含运动体的待识别视频图像，并将所述待识别视频图像输入训练好的双流长短时视频姿态估计模型；所述训练好的双流长短时视频姿态估计模型包括双流3D卷积神经网络和递归神经网络；

第一执行单元，用于通过所述双流3D卷积神经网络对所述待识别视频图像进行运动体的特征提取，得到目标时段的运动体综合特征；

第二执行单元，用于通过递归神经网络基于第一时段内所述运动体的第一姿态预估信息与所述运动体综合特征，得到所述运动体在目标时段内的目标预估姿态信息；所述第一时段为所述目标时段的前一单位时段；所述目标预估姿态信息用于表征所述运动体在所述目标时段的预估姿态；

确定单元，用于基于所述目标预估姿态信息与预设参考姿态信息，确定所述预估姿态与预设参考姿态之间的欧几里得距离；所述欧几里得距离用于描述所述预估姿态与所述预设参考姿态之间的差别大小。

本申请实施例的第三方面提供了一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述终端设备上运行的计算机程序，所述处理器执行所述计算机程序时实现第一方案提供的运动姿态识别方法的各步骤。

本申请实施例的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现第一方案提供的运动姿态识别方法的各步骤。

本申请实施例的第五方面提供了一种计算机程序产品，当计算机程序产品在终端设备上运行时，使得终端设备执行上述第一方面中任一项所述的运动姿态识别方法的各步骤。

有益效果

实施本申请实施例提供的一种运动姿态识别方法、运动姿态识别装置、终端设备及计算机可读存储介质具有以下有益效果：

本申请实施例提供的一种运动姿态识别方法，通过训练好的双流长短时视频姿态估计模型，对目标时段包含运动体的待识别视频图像进行运动姿态识别，通过训练好的双流长短时视频姿态估计模型中的双流3D卷积神经网络对待识别视频图像进行运动体综合特征提取，再通过递归神经网络基于第一时段内运动体的第一姿态预估信息与运动体综合特征，得到运动体在目标时段内的目标预估姿态信息，由于第一时段为目标时段的前一单位时段，实现了姿态预估的递归预测，因此令得到的运动体在目标时段内的目标预估姿态信息所表征的预估姿态具有时序连贯性，使得确定出的预估姿态与预设参考姿态之间的欧几里得距离更加准确，提高了对运动体的运动姿态识别效率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种运动姿态识别方法的实现流程图；

图2是本申请另一实施例提供的一种运动姿态识别方法的实现流程图；

图3是本申请再一实施例提供的一种运动姿态识别方法的实现流程图；

图4是本申请实施例提供的一种运动姿态识别装置结构框图；

图5是本申请另一实施例提供的一种终端设备的结构框图。

本发明的实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

请参阅图1，图1是本申请实施例提供的一种运动姿态识别方法的实现流程图。本实施例中，运动姿态识别方法用于对视频图像中的运动体进行运动姿态识别，其执行主体为计算机终端，例如，用于进行视频图像采集和视频图像分析的计算机或服务器等。

如图1所示的运动姿态识别方法包括以下步骤：

S11：获取目标时段包含运动体的待识别视频图像，并将所述待识别视频图像输入训练好的双流长短时视频姿态估计模型；所述训练好的双流长短时视频姿态估计模型包括双流3D卷积神经网络和递归神经网络。

在步骤S11中，待识别视频图像可以是运动体实时的运动图像，或者是对运动体在运动时，进行视频录制得到的视频文件。目标时段用于描述待识别视频图像的内容时长。

需要说明的是，训练好的双流长短时视频姿态估计模型是对构建好的双流长短时视频姿态估计模型进行训练后得到的模型，由于训练好的双流长短时视频姿态估计模型中搭建有双流3D卷积神经网络和递归神经网络，因此可以通过模型中的双流3D卷积神经网络对待识别视频图像进行特征提取，并且通过递归神经网络基于3D卷积神经网络提取到的特征进行姿态预估。由于递归神经网络在进行姿态预估时，是基于3D卷积神经网络提取到的当前特征与前一次的姿态预估结果完成姿态预估的，因此利用递归神经网络进行姿态预估得到的姿态预估结果具有时序连续性，也即具有连续性的姿态预估方案能够得到准确性更高的姿态预估结果。

在实际应用中，可以通过选定单位时间段作为目标时间段的选取标准，也即目标时间段可以是由一个或多个单位时间段组成。由于待识别视频图像中包含有运动体，且一帧视频图像无法描述运动体的运动轨迹或者运动姿态，因此为了能够对待识别视频图像中的运动体进行运动状态识别，待识别视频图像中包括多帧且连续的视频图像，也即待识别视频图像在目标时段所表征的内容时长中，能够连续显示多帧且连续的视频图像。

置于何时获取目标时段包含运动体的待识别视频图像，可以包括但不仅限于以下两个场景。

场景1：在播放预设视频文件的过程中，获取目标时段包含运动体的待识别视频图像。

例如，预设视频文件可以包括运动健身视频文件，在播放该运动健身视频文件的过程中，通过调用视频图像采集设备对目标区域的运动体进行视频图像采集，得到视频文件，从视频文件中获取到目标时段包含运动体的待识别视频图像。具体地，可以通过手机终端播放播放运动健身视频文件，同时调用手机终端上的摄像头，对目标区域的运动体进行视频图像采集，从而得到视频文件，通过视频图像选取视窗从视频文件中选取目标时段包含运动体的待识别视频图像。

场景2：若检测到用于对待识别视频图像进行运动姿态识别的预设指令，则获取目标时段包含运动体的待识别视频图像。

例如，对体育竞技进行实况视频录制，得到事实的视频文件。当检测到用于对待识别视频图像进行运动姿态识别的预设指令时，通过视频图像选取视窗从视频文件中选取目标时段包含运动员的待识别视频图像。

作为本实施例一种可能实现的方式，步骤S11具体可以包括：

提取所述待识别视频图像的RGB图片集合和运动光流图片集合；将所述RGB图片集合和所述运动光流图片集合输入训练好的双流长短时视频姿态估计模型的双流3D卷积神经网络。

在本实施例中，可以通过对待识别视频图像中的每一帧图像进行RGB图片提取和运动光流图片提取，进而得到整个待识别视频图像的RGB图片集合和运动光流图片集合。运动光流图用于表达图像中运动体的变化，由于光流图片包含了运动体的运动信息，因此可被用来确定运动体的运动情况。光流图片中包含了运动体的运动信息，而且还包含有运动体的三维结构信息，使得双流3D卷积神经网络对RGB图片和运动光流图片进行特征卷积得到的特征更准确，也即基于RGB图片和运动光流图片进行运动体运动姿态的识别效率更高。

S12：通过所述双流3D卷积神经网络对所述待识别视频图像进行运动体的特征提取，得到目标时段的运动体综合特征。

在步骤S12中，双流3D卷积神经网络是以双图像流作为输入，运动体综合特征为输出的卷积神经网络。

在本实施例中，双流3D卷积神经网络的输入可以为待识别视频图像的RGB图像和运动光流图像，通过在双流3D卷积神经网络中搭建卷积层、池化层以及特征串联层，在将RGB图像和运动光流图像输入双流3D卷积神经网络后，由卷积层和池化层相结合，分别对RGB图像和运动光流图像进行不同维度的特征卷积，从而实现对待识别视频图像进行运动体的特征提取，再由特征串联层对提取得到的特征进行特征融合，最后得到运动体综合特征，也即目标时段的运动体综合特征。

作为本实施例一种可能实现的方式，步骤S12具体可以包括：

通过所述双流3D卷积神经网络基于所述RGB图片集合和所述运动光流图片集合，抽取所述待识别视频图像中运动体在所述目标时段内的外观特征和运动特征；将所述外观特征与所述运动特征进行特征拼接，得到所述目标时段的运动体综合特征。

在本实施例中，双流3D卷积神经网络(CNN_a、CNN_m)中配置有多个图像特征卷积层、多个池化层以及至少一个特征拼接层，通过图像特征卷积层能够对RGB图片集合中的每一帧RGB图片和运动光流图片集合中的每一帧运动光流图片进行不同层次的图像特征卷积，其中，由池化层对每次卷积后得到的特征进行数据选取，再进行下一次图像特征卷积，进而得出用于描述运动体的外观轮廓特征A(t)=CNN_a(V(t))和运动特征M(t)=CNN_m(V(t))，通过特征拼接层将外观轮廓特征和运动特征进行拼接，即可得到运动体综合特征C(t)=[A(t)，M(t)]，其中，t用于表征目标时段。

S13：通过递归神经网络基于第一时段内所述运动体的第一姿态预估信息与所述运动体综合特征，得到所述运动体在目标时段内的目标预估姿态信息；所述第一时段为所述目标时段的前一单位时段；所述目标预估姿态信息用于表征所述运动体在所述目标时段的预估姿态。

在步骤S13中，第一时段为所述目标时段的前一单位时段，第一姿态预估信息用于描述在第一时段下进行姿态预估得到的运动体的运动状态。

在本实施例中，由于递归神经网络输出运动体在目标时段内的目标预估姿态信息时，需要先确定和获取目标时段的前一单位时间段内运动体的预估姿态信息，也即确定和获取第一时段内运动体的第一姿态预估信息，因此在根据第一姿态预估信息与运动体在目标时段内的运动体综合特征，确定运动体在目标时段内的目标预估姿态信息，该目标预估姿态信息所表征的运动体在目标时段的预估姿态，与前一单位时间段内运动体的预估姿态之间具有连续性，使得每次在对运动体目标时段内的姿态预估都是基于目标时段前一单位时段的姿态预估结果所进行，保证了每次姿态预估之间的时序连贯性。

作为本实施例一种可能实现的方式，步骤S13可以包括：

若所述目标时段存在前一单位时段，则将所述目标时段的前一单位时段识别为第一时段，并将所述第一时段对应的第一姿态预估信息与所述运动体综合特征输入递归神经网络，通过所述递归神经网络根据所述第一姿态预估信息与所述运动体综合特征进行状态向量计算，以得到所述运动体在目标时段内的目标预估姿态信息；若所述目标时段不存在前一单位时段，则令第一姿态预估信息为空，并将所述运动体综合特征输入递归神经网络，通过所述递归神经网络根据所述运动体综合特征进行状态向量计算，以得到所述运动体在目标时段内的目标预估姿态信息。

需要说明的是，若目标时段不存在前一单位时段，则令第一姿态预估信息为空，是在状态向量计算时不将第一姿态预估信息作为计算因子进行计算，仅考虑运动体综合特征。

在本实施例中，由于目标时段用于描述待识别视频图像的内容时长，因此目标时段的选取或确定与待识别视频图像所在视频文件的时长有关。当目标时段为待识别视频图像所在视频文件的首个单位时段，也即目标时段之前没有单位时段，故无法确定目标时段前一单位时段中运动体的姿态预估信息，故仅通过递归神经网络根据运动体综合特征进行状态向量计算，以得到运动体在目标时段内的目标预估姿态信息。当目标时段为待识别视频图像所在视频文件的中间单位时段，也即目标时段之前有单位时段，故可以先确定目标时段前一单位时段中运动体的姿态预估信息，也即第一姿态预估信息，通过递归神经网络根据第一姿态预估信息和运动体综合特征进行状态向量计算，从而得到运动体在目标时段内的目标预估姿态信息。

可以理解的是，外观轮廓特征的表达方程可以为A(t)=CNN_a(V(t))，t表征目标时段，运动特征的表达方程可以为M(t)=CNN_m(V(t))，t表征目标时段，通过特征拼接层将外观轮廓特征和运动特征进行拼接，即可得到运动体综合特征，运动体综合特征的表达方程可以为C(t)=[A(t)，M(t)]，t表征目标时段。通过递归神经网络基于第一时段内运动体的第一姿态预估信息与运动体综合特征，得到运动体在目标时段内的目标预估姿态信息，该目标预估姿态信息的表达方程可以为P(t)=LSTM(P(t-1),C(t))；其中，P(t)为目标预估姿态信息，t表征目标时段；P(t-1)为第一姿态预估信息，t-1表征第一时段，也即目标时段的前一单位时段；C(t)为运动体综合特征。

S14：基于所述目标预估姿态信息与预设参考姿态信息，确定所述预估姿态与预设参考姿态之间的欧几里得距离。

在步骤S14中，目标预估姿态信息用于表征运动体在目标时段的预估姿态。预设参考姿态信息用于表征预设参考视频图像中运动体的参考姿态。欧几里得距离用于描述预估姿态与参考姿态之间的差别大小。

需要说明的是，目标预估姿态信息可以包括待识别视频图像中的运动体上各关键点的三维坐标值集合。预设参考姿态信息可以包括预设参考视频图像中的运动体上各关键点的三维坐标值集合。

在本申请的所有实施例中，预设参考视频图像中运动体的关键点为预先定义的关键点，运动体可以包含多个运动部位，每个运动部位可以由一个或多个关键点组成。预设参考姿态信息包含运动体上各关键点的三维坐标值集合，即可用于描述运动体整体的运动姿态。在对待识别视频图像进行运动状态识别时，预设参考视频图像中运动体的关键点以及各关键点在每个时刻的运动坐标均为已确定的信息，也即确定了预设参考视频图像中运动体在每个时段中的运动姿态，且以预设参考视频图像中运动体在每个时段中的运动姿态为参考姿态，对待识别视频图像中的运动体进行运动姿态识别和比较。

以待识别视频图像中的运动体是人体为例，相应的，预设参考视频图像中运动体也为人体，运动体的关键点可以为人体的各个活动关节。目标预估姿态信息用于表征待识别视频图像中人体在目标时段下的运动姿态，可以是人体的各个活动关节（关键点）在目标时段中不同运动姿态所对应的坐标值集合。基于目标预估姿态信息与预设参考姿态信息，能够确定目标时段下待识别视频图像中人体的预估姿态与预设参考姿态之间的欧几里得距离，也即人体的预估姿态与与预设参考姿态之间的差别大小，也即实现对目标时段下待识别视频图像中的运动体运功姿态的识别。

以预设参考视频图像为播放运动健身视频文件所展示的图像为例，待识别视频图像是通过调用视频图像采集设备对目标区域的运动体进行视频图像采集，得到视频文件后，从视频文件中确定出的目标时段包含运动体的视频图像。目标预估姿态信息用于描述播放运动健身视频文件的过程中，对待识别视频图像进行姿态预估得到的运动体在目标时段的姿态。

例如，在用户学习健身教学视频中动作的场景中，利用终端播放健身教学的视频文件，同时通过调用终端的摄像头对目标区域的用户的肢体动作，也即运动体进行视频图像采集，再从摄像头拍摄到的视频文件中获取到目标时段包含运动体的待识别视频图像，由于用户在学习健身教学视频中动作时所做的肢体动作与健身教学视频中的动作相关，也即两组动作应当为同步动作，时间差忽略不计，因此可以将健身教学视频的图像内容作为预设参考视频图像，将待识别视频图像中运动体在目标时段的目标预估姿态信息，与预设参考视频图像的预设参考姿态信息进行比较，即可确定预估姿态与预设参考姿态之间的欧几里得距离，也即确定用户在学习健身教学视频中动作时所做的肢体动作，与健身教学视频中的动作之间的差距大小。

以预设参考视频图像为体育竞技时的犯规动作的图像为例，待识别视频图像是通过调用视频图像采集设备，在体育竞技过程中对目标区域的运动员进行视频图像采集，得到视频文件后，从视频文件中确定出的目标时段包含运动员的视频图像。目标预估姿态信息用于描述体育竞技过程中实况拍摄到的运动员的姿态。

例如，在体育竞技的场景中，利用比赛场地所处环境中配置的多方位摄像头实况采集运动员在比赛过程中的图像，得到视频文件，当检测到用于对待识别视频图像进行运动姿态识别的预设指令时，通过视频图像选取视窗从视频文件中选取目标时段包含运动员的待识别视频图像。由于预设参考视频图像为体育竞技时的犯规动作的图像，因此将待识别视频图像中运动员在目标时段的目标预估姿态信息，与预设参考视频图像的预设参考姿态信息进行比较，即可确定预估姿态与预设参考姿态之间的欧几里得距离，也即确定运动员在比赛过程中所做出的肢体动作，与体育竞技时的犯规动作之间的差距大小。

以上可以看出，本实施例提供的一种运动姿态识别方法，通过训练好的双流长短时视频姿态估计模型，对目标时段包含运动体的待识别视频图像进行运动姿态识别，通过训练好的双流长短时视频姿态估计模型中的双流3D卷积神经网络对待识别视频图像进行运动体综合特征提取，再通过递归神经网络基于第一时段内运动体的第一姿态预估信息与运动体综合特征，得到运动体在目标时段内的目标预估姿态信息，由于第一时段为目标时段的前一单位时段，实现了姿态预估的递归预测，因此令得到的运动体在目标时段内的目标预估姿态信息所表征的预估姿态具有时序连贯性，使得确定出的预估姿态与预设参考姿态之间的欧几里得距离更加准确，提高了对运动体的运动姿态识别效率。

请参阅图2，图2是本申请另一实施例提供的一种运动姿态识别方法的实现流程图。相对于图1对应的实施例，本实施例提供的运动姿态识别方法在步骤S14之后还包括S21~S22。详述如下：

S21：若所述欧几里得距离等于或大于预设阈值，则输出提示信息。

S22：若所述欧几里得距离小于预设阈值，则从所述待识别视频图像中确定出与所述预估姿态对应的目标图像。

需要说明的是，本实施例中的步骤S21与步骤S22为并列步骤，两者执行不分现有，且当执行了步骤S21便不再执行步骤S22，当执行了步骤S22便不再执行步骤S21，直到重新确定欧几里得距离。

在本实施例中，由于欧几里得距离用于描述预估姿态与参考姿态之间的差别大小，也即欧几里得距离的值越大，则表示预估姿态与参考姿态之间的差别越大，预估姿态与参考姿态相差的就越远；欧几里得距离的值越小，则表示预估姿态与参考姿态之间的差别越小，预估姿态与参考姿态就越相似。

在实际应用中，当待识别视频图像的内容不同时，欧几里得距离所表示的实际含义也有所不同。

需要说明的是，本申请所有实施例提供的运动姿态识别方法，可以用于但不仅限于视频教学纠错和犯规动作识别领域。

以待识别视频图像为人体运动健身的视频图像为例，当欧几里得距离等于或大于预设阈值，则表示人体的运动姿态与教学视频中的预设参考姿态相差较大，故输出的提示信息用于纠正运动体的运动姿态。当欧几里得距离小于预设阈值，则表示人体的运动姿态与教学视频中的预设参考姿态相差较小，则从待识别视频图像中确定出与预估姿态对应的目标图像，便于观看用户自己根据教学视频所学习的动作。

例如，在用户学习健身教学视频中动作的场景中，利用终端播放健身教学的视频文件，同时通过调用终端的摄像头对目标区域的用户的肢体动作，也即运动体进行视频图像采集，再从摄像头拍摄到的视频文件中获取到目标时段包含人体运动健身的待识别视频图像。将待识别视频图像中人体运动健身在目标时段的目标预估姿态信息，与预设参考视频图像的预设参考姿态信息进行比较，即可确定预估姿态与预设参考姿态之间的欧几里得距离。当欧几里得距离等于或大于预设阈值，则表示人体的运动姿态与教学视频中的预设参考姿态相差较大，故输出的提示信息用于纠正运动体的运动姿态。当欧几里得距离小于预设阈值，则表示人体的运动姿态与教学视频中的预设参考姿态相差较小，则从待识别视频图像中确定出与预估姿态对应的目标图像，便于观看用户自己根据教学视频所学习的动作。

以待识别视频图像为体育竞技的实况视频图像为例，当欧几里得距离等于或大于预设阈值，则表示运动员的运动姿态与犯规动作的预设参考姿态相差较大，故输出的提示信息为运动员未犯规的动作图像信息。当欧几里得距离小于预设阈值，则表示运动员的运动姿态与犯规动作相差较小，即确定运动员的犯规行为，则从实况视频图像中确定出与预估姿态对应的目标图像，也即犯规行为的图像，作为判定运动员犯规的证据。

例如，在体育竞技的场景中，利用比赛场地所处环境中配置的多方位摄像头实况采集运动员在比赛过程中的图像，得到视频文件，当检测到用于对待识别视频图像进行运动姿态识别的预设指令时，通过视频图像选取视窗从视频文件中选取目标时段包含运动员的待识别视频图像。将待识别视频图像中运动员在目标时段的目标预估姿态信息，与预设参考视频图像的预设参考姿态信息进行比较，即可确定预估姿态与预设参考姿态之间的欧几里得距离。当欧几里得距离等于或大于预设阈值，则表示运动员的运动姿态与犯规动作的预设参考姿态相差较大，故输出的提示信息为运动员未犯规的动作图像信息。当欧几里得距离小于预设阈值，则表示运动员的运动姿态与犯规动作相差较小，即确定运动员的犯规行为，则从实况视频图像中确定出与预估姿态对应的目标图像，也即犯规行为的图像，作为判定运动员犯规的证据。

以上可以看出，通过比较欧几里得距离与预设阈值的大小，使得运动姿态识别的方案能够被应用于更多的领域中，提高了运动体运动姿态识别技术的适用范围。

请参阅图3，图3是本申请再一实施例提供的一种运动姿态识别方法的实现流程图。相对于图1或图2对应的实施例，本实施例提供的运动姿态识别方法在步骤S11之前还包括S31~S33。详述如下：

S31：获取包含运动体的样本视频文件。

S32：基于所述样本视频文件生成训练样本集合。

S33：利用所述训练样本集合对双流长短时视频姿态估计模型进行训练，以得到训练好的双流长短时视频姿态估计模型。

在本实施例中，样本视频文件中包含运动体，运动体可以是人体，也可以是模拟人体的机器人等。运动体可以包括多个运动部位，每个运动部位由至少一个关键点组成，在对双流长短时视频姿态估计模型进行训练时，需要确定样本视频文件中，每个包含运动体的画面帧中，各个关键点的坐标信息。同一个关键点在连续的画面帧中的坐标不同，则表示该关键点存在运动轨迹，通过确定每个关键点在连续画面帧中的坐标集合，即可确定运动体运动姿态。

作为本实施例一种可能实现的方式，步骤S32包括：

对所述样本视频文件进行分段，得到T个视频片段；其中，T为大于0的整数，每个所述视频片段对应配置有所述运动体的三维关键点信息；将T个所述视频片段和每个所述视频片段对应的三维关键点信息作为训练样本集合。

在本实施例中，三维关键点信息用于表征运动体上各个关键点的三维坐标，运动体上所有关键点的坐标变化情况，能够用于表征运动体的姿态变化。

需要说明的是，在利用训练样本集合对双流长短时视频姿态估计模型进行训练时，将视频片段作为双流长短时视频姿态估计模的输入，由双流长短时视频姿态估计模根据视频片段输出相应的姿态预估信息，再将该姿态预估信息与三维关键点信息进行比较，其中，姿态预估信息用于描述预估姿态，三维关键点信息用于描述视频片段中运动体的实际姿态。将该姿态预估信息与三维关键点信息进行比较，也即计算预估姿态与实际姿态之间的欧几里得距离，并基于该欧几里得距离生成相应的损失函数，通过模型参数的梯度回传，实现对双流长短时视频姿态估计模型的训练。

在实际应用中，对双流长短时视频姿态估计模型进行训练时，向双流长短时视频姿态估计模型进输入的是已确定运动体姿态信息的视频图像，由双流长短时视频姿态估计模基于该视频图像进行运动体的运动姿态预估，并与已确定运动体姿态信息进行比较，进而对调整双流长短时视频姿态估计模型进行调整，使其得到的结果能够与已确定运动体姿态信息更加接近和收敛。对双流长短时视频姿态估计模型训练完成后，得到训练好的双流长短时视频姿态估计模型，利用训练好的双流长短时视频姿态估计模型进行移动姿态识别时，预设的视频文件中运动体的姿态信息已经确定，基于待识别视频图像进行姿态预估，得到的预估信息能够很好地表征运动体的运动状态。将其与视频文件中运动体的姿态信息进行比较，即可确定待识别视频图像中的运动体的运动姿态，与视频文件中运动体的姿态之间的差别大小。

请参阅图4，图4是本申请实施例提供的一种运动姿态识别装置的结构框图。本实施例中该运动姿态识别装置包括的各单元用于执行图1至图3对应的实施例中的各步骤。具体请参阅图1至图3以及图1至图3所对应的实施例中的相关描述。为了便于说明，仅示出了与本实施例相关的部分。参见图4，运动姿态识别装置400包括：获取与输入单元41、第一执行单元42、第二执行单元43以及确定单元44。其中：

获取与输入单元41，用于获取目标时段包含运动体的待识别视频图像，并将所述待识别视频图像输入训练好的双流长短时视频姿态估计模型；所述训练好的双流长短时视频姿态估计模型包括双流3D卷积神经网络和递归神经网络。

第一执行单元42，用于通过所述双流3D卷积神经网络对所述待识别视频图像进行运动体的特征提取，得到目标时段的运动体综合特征。

第二执行单元43，用于通过递归神经网络基于第一时段内所述运动体的第一姿态预估信息与所述运动体综合特征，得到所述运动体在目标时段内的目标预估姿态信息；所述第一时段为所述目标时段的前一单位时段；所述目标预估姿态信息用于表征所述运动体在所述目标时段的预估姿态。

确定单元44，用于基于所述目标预估姿态信息与预设参考姿态信息，确定所述预估姿态与预设参考姿态之间的欧几里得距离；所述欧几里得距离用于描述所述预估姿态与所述预设参考姿态之间的差别大小。

作为本申请一实施例，获取与输入单元41具体用于，提取所述待识别视频图像的RGB图片集合和运动光流图片集合；将所述RGB图片集合和所述运动光流图片集合输入训练好的双流长短时视频姿态估计模型的双流3D卷积神经网络。

作为本申请一实施例，第一执行单元42具体用于，通过所述双流3D卷积神经网络基于所述RGB图片集合和所述运动光流图片集合，抽取所述待识别视频图像中运动体在所述目标时段内的外观特征和运动特征；将所述外观特征与所述运动特征进行特征拼接，得到所述目标时段的运动体综合特征。

作为本申请一实施例，第二执行单元43具体用于，若所述目标时段存在前一单位时段，则将所述目标时段的前一单位时段识别为第一时段，并将所述第一时段对应的第一姿态预估信息与所述运动体综合特征输入递归神经网络，通过所述递归神经网络根据所述第一姿态预估信息与所述运动体综合特征进行状态向量计算，以得到所述运动体在目标时段内的目标预估姿态信息；若所述目标时段不存在前一单位时段，则令第一姿态预估信息为空，并将所述运动体综合特征输入递归神经网络，通过所述递归神经网络根据所述运动体综合特征进行状态向量计算，以得到所述运动体在目标时段内的目标预估姿态信息。

作为本申请一实施例，运动姿态识别装置400，还包括：

第三执行单元45，用于若所述欧几里得距离等于或大于预设阈值，则输出用于纠正所述运动体的运动姿态纠正信息。

第四执行单元46，用于若所述欧几里得距离小于预设阈值，则从所述待识别视频图像中确定出与所述预估姿态对应的目标图像。

作为本申请一实施例，运动姿态识别装置400，还包括：

获取单元47，用于获取包含运动体的样本视频文件。

样本生成单元48，用于基于所述样本视频文件生成训练样本集合。

训练单元49，用于利用所述训练样本集合对双流长短时视频姿态估计模型进行训练，以得到训练好的双流长短时视频姿态估计模型。

作为本申请一实施例，样本生成单元48具体用于，对所述样本视频文件进行分段，得到T个视频片段；其中，T为大于0的整数，每个所述视频片段对应配置有所述运动体的三维关键点信息；将T个所述视频片段和每个所述视频片段对应的三维关键点信息作为训练样本集合。

此外，通过比较欧几里得距离与预设阈值的大小，使得运动姿态识别的方案能够被应用于更多的领域中，提高了运动体运动姿态识别技术的适用范围。

图5是本申请另一实施例提供的一种终端设备的结构框图。如图5所示，该实施例的终端设备5包括：处理器50、存储器51以及存储在所述存储器51中并可在所述处理器50上运行的计算机程序52，例如运动姿态识别方法的程序。处理器50执行所述计算机程序52时实现上述各个运动姿态识别方法各实施例中的步骤，例如图1所示的S11至S14。或者，所述处理器50执行所述计算机程序52时实现上述图4对应的实施例中各单元的功能，例如，图4所示的单元41至44的功能，具体请参阅图5对应的实施例中的相关描述，此处不赘述。

示例性的，所述计算机程序52可以被分割成一个或多个单元，所述一个或者多个单元被存储在所述存储器51中，并由所述处理器50执行，以完成本申请。所述一个或多个单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序52在所述终端设备5中的执行过程。例如，所述计算机程序52可以被分割成获取与输入单元、第一执行单元、第二执行单元以及确定单元，各单元具体功能如上所述。

所述终端设备可包括，但不仅限于，处理器50、存储器51。本领域技术人员可以理解，图5仅仅是终端设备5的示例，并不构成对终端设备5的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述终端设备还可以包括输入输出设备、网络接入设备、总线等。

所称处理器50可以是中央处理单元（Central Processing Unit，CPU），还可以是其他通用处理器、数字信号处理器（Digital Signal Processor，DSP）、专用集成电路（Application Specific Integrated Circuit，ASIC）、现成可编程门阵列（Field-Programmable Gate Array，FPGA）或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器51可以是所述终端设备5的内部存储单元，例如终端设备5的硬盘或内存。所述存储器51也可以是所述终端设备5的外部存储设备，例如所述终端设备5上配备的插接式硬盘，智能存储卡（Smart Media Card，SMC），安全数字（Secure Digital，SD）卡，闪存卡（Flash Card）等。进一步地，所述存储器51还可以既包括所述终端设备5的内部存储单元也包括外部存储设备。所述存储器51用于存储所述计算机程序以及所述终端设备所需的其他程序和数据。所述存储器51还可以用于暂时地存储已经输出或者将要输出的数据。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

一种运动姿态识别方法，其特征在于，包括：

获取目标时段包含运动体的待识别视频图像，并将所述待识别视频图像输入训练好的双流长短时视频姿态估计模型；所述训练好的双流长短时视频姿态估计模型包括双流3D卷积神经网络和递归神经网络；

通过所述双流3D卷积神经网络对所述待识别视频图像进行运动体的特征提取，得到目标时段的运动体综合特征；

通过递归神经网络基于第一时段内所述运动体的第一姿态预估信息与所述运动体综合特征，得到所述运动体在目标时段内的目标预估姿态信息；所述第一时段为所述目标时段的前一单位时段；所述目标预估姿态信息用于表征所述运动体在所述目标时段的预估姿态；

基于所述目标预估姿态信息与预设参考姿态信息，确定所述预估姿态与预设参考姿态之间的欧几里得距离；所述欧几里得距离用于描述所述预估姿态与所述预设参考姿态之间的差别大小。
根据权利要求1所述的运动姿态识别方法，其特征在于，所述获取目标时段包含运动体的待识别视频图像，并将所述待识别视频图像输入训练好的双流长短时视频姿态估计模型，包括：

提取所述待识别视频图像的RGB图片集合和运动光流图片集合；

将所述RGB图片集合和所述运动光流图片集合输入训练好的双流长短时视频姿态估计模型的双流3D卷积神经网络。
根据权利要求2所述的运动姿态识别方法，其特征在于，所述通过所述双流3D卷积神经网络对所述待识别视频图像进行运动体的特征提取，得到目标时段的运动体综合特征，包括：

通过所述双流3D卷积神经网络基于所述RGB图片集合和所述运动光流图片集合，抽取所述待识别视频图像中运动体在所述目标时段内的外观特征和运动特征；

将所述外观特征与所述运动特征进行特征拼接，得到所述目标时段的运动体综合特征。
根据权利要求1所述的运动姿态识别方法，其特征在于，所述通过递归神经网络基于第一时段内所述运动体的第一姿态预估信息与所述运动体综合特征，得到所述运动体在目标时段内的目标预估姿态信息，包括：

若所述目标时段存在前一单位时段，则将所述目标时段的前一单位时段识别为第一时段，并将所述第一时段对应的第一姿态预估信息与所述运动体综合特征输入递归神经网络，通过所述递归神经网络根据所述第一姿态预估信息与所述运动体综合特征进行状态向量计算，以得到所述运动体在目标时段内的目标预估姿态信息；

若所述目标时段不存在前一单位时段，则令第一姿态预估信息为空，并将所述运动体综合特征输入递归神经网络，通过所述递归神经网络根据所述运动体综合特征进行状态向量计算，以得到所述运动体在目标时段内的目标预估姿态信息。
根据权利要求1至4任一项所述的运动姿态识别方法，其特征在于，所述基于所述目标预估姿态信息与预设参考姿态信息，确定所述预估姿态与预设参考姿态之间的欧几里得距离的步骤之后，还包括：

若所述欧几里得距离等于或大于预设阈值，则输出提示信息；

若所述欧几里得距离小于预设阈值，则从所述待识别视频图像中确定出与所述预估姿态对应的目标图像。
根据权利要求1至4任一项所述的运动姿态识别方法，其特征在于，所述方法还包括：

获取包含运动体的样本视频文件；

基于所述样本视频文件生成训练样本集合；

利用所述训练样本集合对双流长短时视频姿态估计模型进行训练，以得到训练好的双流长短时视频姿态估计模型。
根据权利要求6所述的运动姿态识别方法，其特征在于，所述基于所述样本视频文件生成训练样本集合，包括：

对所述样本视频文件进行分段，得到T个视频片段；其中，T为大于0的整数，每个所述视频片段对应配置有所述运动体的三维关键点信息；

将T个所述视频片段和每个所述视频片段对应的三维关键点信息作为训练样本集合。
一种运动姿态识别装置，其特征在于，包括：

获取与输入单元，用于获取目标时段包含运动体的待识别视频图像，并将所述待识别视频图像输入训练好的双流长短时视频姿态估计模型；所述训练好的双流长短时视频姿态估计模型包括双流3D卷积神经网络和递归神经网络；

第一执行单元，用于通过所述双流3D卷积神经网络对所述待识别视频图像进行运动体的特征提取，得到目标时段的运动体综合特征；

第二执行单元，用于通过递归神经网络基于第一时段内所述运动体的第一姿态预估信息与所述运动体综合特征，得到所述运动体在目标时段内的目标预估姿态信息；所述第一时段为所述目标时段的前一单位时段；所述目标预估姿态信息用于表征所述运动体在所述目标时段的预估姿态；

确定单元，用于基于所述目标预估姿态信息与预设参考姿态信息，确定所述预估姿态与预设参考姿态之间的欧几里得距离；所述欧几里得距离用于描述所述预估姿态与所述预设参考姿态之间的差别大小。
一种终端设备，其特征在于，所述终端设备包括存储器、处理器以及存储在所述存储器中并可在所述终端设备上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述运动姿态识别方法的步骤。
一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述运动姿态识别方法的步骤。