WO2021097750A1

WO2021097750A1 - 人体姿态的识别方法、装置、存储介质及电子设备

Info

Publication number: WO2021097750A1
Application number: PCT/CN2019/119926
Authority: WO
Inventors: 郭子亮
Original assignee: 深圳市欢太科技有限公司; Oppo广东移动通信有限公司
Priority date: 2019-11-21
Filing date: 2019-11-21
Publication date: 2021-05-27
Also published as: CN114402369A

Abstract

本申请公开了一种人体姿态的识别方法、装置、存储介质及电子设备，该方法包括：获取第一人体图像；根据第一人体图像，确定至少一个人体框图；确定每个人体框图中的人体的多个关键点坐标；根据预设的姿态识别模型和每个人体框图中的人体的多个关键点坐标，得到所述第一人体图像中的人体的姿态。

Description

人体姿态的识别方法、装置、存储介质及电子设备

技术领域

本申请属于电子技术领域，尤其涉及一种人体姿态的识别方法、装置、存储介质及电子设备。

背景技术

随着计算机技术与人工智能的发展和应用，视频分析技术迅速兴起并得到了广泛关注。视频分析中的一个核心就是人体姿态识别。人体姿态识别，即识别视频帧中的人体的姿态。人体姿态识别的准确性和快速性将直接影响视频分析系统后续工作的结果。

发明内容

本申请实施例提供一种人体姿态的识别方法、装置、存储介质及电子设备，可以提高对人体姿态进行识别的准确性。

第一方面，本申请实施例提供一种人体姿态的识别方法，包括：

获取第一人体图像，所述第一人体图像中包括至少一个人体；

根据所述第一人体图像，确定至少一个人体框图，每个人体框图中仅包含一个人体；

确定每个人体框图中的人体的多个关键点坐标；

根据预设的姿态识别模型和每个人体框图中的人体的多个关键点坐标，确定每个人体框图中的人体的姿态，得到所述第一人体图像中的人体的姿态。

第二方面，本申请实施例提供一种人体姿态的识别装置，包括：

获取模块，用于获取第一人体图像，所述第一人体图像中包括至少一个人体；

第一确定模块，用于根据所述第一人体图像，确定至少一个人体框图，每个人体框图中仅包含一个人体；

第二确定模块，用于确定每个人体框图中的人体的多个关键点坐标；

第三确定模块，用于根据预设的姿态识别模型和每个人体框图中的人体的多个关键点坐标，确定每个人体框图中的人体的姿态，得到所述第一人体图像中的人体的姿态。

第三方面，本申请实施例提供一种存储介质，其上存储有计算机程序，其中，当所述计算机程序在计算机上执行时，使得所述计算机执行本实施例提供的人体姿态的识别方法。

第四方面，本申请实施例提供一种电子设备，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器通过调用所述存储器中存储的所述计算机程序，用于执行：

确定每个人体框图中的人体的多个关键点坐标；

附图说明

下面结合附图，通过对本申请的具体实施方式详细描述，将使本申请的技术方案及其有益效果显而易见。

图1是本申请实施例提供的人体姿态的识别方法的第一种流程示意图。

图2是本申请实施例提供的人体姿态的识别方法的第一种场景示意图。

图3是本申请实施例提供的人体姿态的识别方法的第二种流程示意图。

图4是本申请实施例提供的人体姿态的识别方法的第二种场景示意图。

图5是本申请实施例提供的人体姿态的识别装置的结构示意图。

图6是本申请实施例提供的电子设备的第一种结构示意图。

图7是本申请实施例提供的电子设备的第二种结构示意图。

具体实施方式

请参照图示，其中相同的组件符号代表相同的组件，本申请的原理是以实施在一适当的运算环境中来举例说明。以下的说明是基于所例示的本申请具体实施例，其不应被视为限制本申请未在此详述的其它具体实施例。

请参阅图1，图1是本申请实施例提供的人体姿态的识别方法的第一种流程示意图。该人体姿态的识别方法的流程可以包括：

101、获取第一人体图像，该第一人体图像中包括至少一个人体。

其中，第一人体图像指包含人体的图像。该第一人体图像中可包括至少一个人体。该第一人体图像的格式可以为jpg、png或bmp等。

在本申请实施例中，在需要确定某视频的类别时，电子设备可先从该视频中提取出人体图像。该人体图像可为第一人体图像。

102、根据第一人体图像，确定至少一个人体框图，每个人体框图中仅包含一个人体。

比如，在得到第一人体图像之后，电子设备可将该第一人体图像输入预设的目标检测网络模型中，以得到至少一个人体框图。其中，每个人体框图中仅包含一个人体。

例如，如图2所示，电子设备根据第一人体图像G1可得到3个人体框图，分别为人体框图B1、人体框图B2和人体框图B3。

103、确定每个人体框图中的人体的多个关键点坐标。

比如，在得到至少一个人体框图之后，电子设备可以确定每个人体框图中的人体的多个关键点坐标。其中，关键点可包括：头部、颈部、胸部、肘部、左手腕、右手腕、左膝或右膝等。关键点的数量可以为14、17或21等，此处不做具体限制。关键点坐标包括x坐标和y坐标，也就是说，每个关键点坐标可以用一组(x，y)坐标表示。比如，可以人体框图的左上角为原点，在左上角相交的两条边分别为x轴和y轴，建立一平面直角坐标系。人体框图中的人体的关键点坐标可用该平面直角坐标系中的某一点的坐标表示。

104、根据预设的姿态识别模型和每个人体框图中的人体的多个关键点坐标，确定每个人体框图中的人体的姿态，得到第一人体图像中的人体的姿态。

比如，在确定出每个人体框图中的人体的多个关键点坐标之后，电子设备可将每个人体框图中的多个关键点坐标输入预设的姿态识别模型中，以识别出每个人体框图中的人体的姿态，从而得到第一人体图像中的人体的姿态。其中，该预设的姿态识别模型是一经过训练的模型。

可以理解的是，本申请实施例中，获取第一人体图像；根据所述第一人体图像，确定至少一个人体框图；确定每个人体框图中的人体的多个关键点坐标；根据预设的姿态识别模型和每个人体框图中的人体的多个关键点坐标，确定每个人体框图中的人体的姿态，得到所述第一人体图像中的人体的姿态。由上可知，本申请实施例所提供的人体姿态识别方法，可以利用预设的姿态识别模型智能地识别出人体图像中的人体姿态，该预设的姿态识别模型是一经过训练的模型，可以提高人体姿态识别的准确性。

请参阅图3，图3为本申请实施例提供的人体姿态的识别方法的第二种流程示意图。该人体姿态的识别方法可以包括：

201、电子设备获取第一人体图像，该第一人体图像中包括至少一个人体。

其中，第一人体图像指包含人体的图像。该第一人体图像可为彩色图像或灰度图像。该第一人体图像中可包括至少一个人体。该第一人体图像的格式可以为jpg、png或bmp等。

例如，如图4所示，该第一人体图像可为G2。

202、电子设备根据第一人体图像，确定至少一个人体框图，每个人体框图中仅包含一个人体。

例如，如图4所示，在得到第一人体图像G2(该第一人体图像G2中包括两个人体)之后，电子设备可将该第一人体图像G2输入预设的目标检测网络模型中，以得到两个人体框图。其中一个人体框图为B4。

203、电子设备将每个人体框图输入预设的关键点检测模型中，得到每个人体框图对应的多个热力图。

204、电子设备根据每个人体框图对应的多个热力图，得到每个人体框图中的人体的多个关键点坐标，其中，一个热力图对应一个关键点坐标。

比如，电子设备可预先对预设的级联金字塔网络(Cascaded Pyramid Network，CPN)模型进行训练，将训练好的级联金字塔网络模型作为预设的关键点检测模型。在得到至少一个人体框图之后，电子设备可将每个人体框图输入预设的关键点检测模型中，得到每个人体框图对应的多个热力图。

在得到每个人体框图对应的多个热力图之后，电子设备可在每个人体框图对应的每个热力图上寻找最大概率像素所在的位置，每个人体框图对应的每个热力图上的最大概率像素所在的位置即为每个人体框图对应的每个热力图对应的关键点坐标，从而可得到每个人体框图中的人体的多个关键点坐标。

其中，关键点可包括：头部、颈部、胸部、左肘部、右肘部、左手腕、右手腕、左膝或右膝等。关键点的数量可以为14、17或21等，此处不做具体限制。其中，关键点坐标包括x坐标和y坐标，也就是说，每个关键点坐标可以用一组(x，y)坐标表示。

例如，如图4所示，当得到人体框图B4之后，电子设备可确定人体框图B4中的人体的关键点坐标。比如，电子设备可确定人体框图B4中的人体的头部坐标、左肩坐标和左肘部坐标等。需要说明的是，该人体框图B4中所标示的关键点的位置和数量仅仅只是本申请实施例所提供一种示例，并不用于限制本申请。

可以理解的是，在本申请实施例中，热力图和关键点坐标是一一对应的。例如，若有17个热力图，便能对应得到17个关键点坐标；若有21个热力图，便能对应得到21个关键点坐标。

205、电子设备根据预设的姿态识别模型和每个人体框图中的人体的多个关键点坐标，确定每个人体框图中的人体的姿态，得到第一人体图像中的人体的姿态。

比如，在确定出每个人体框图中的人体的多个关键点坐标之后，电子设备可将每个人体框图中的多个关键点坐标输入预设的姿态识别模型中，以识别出每个人体框图中的人体的姿态，从而得到第一人体图像中的人体的姿态。其中，该预设的姿态识别模型为一经过训练的模型。

例如，如图4所示，在确定出人体框图B4中的人体的多个关键点坐标之后，电子设备可将人体框图B4中的人体的多个关键点坐标输入预设的姿态识别模型中，从而识别出该人体框图B4中的人体的姿态。比如，该人体框图B4中的人体的姿态可为“双手叉腰站立”。

在一些实施例中，流程203，可以包括：

电子设备将每个人体框图输入预设的关键点检测模型中，得到每个人体框图对应的多组特征图，其中，每组特征图包括多个不同尺寸的特征图；

电子设备对每个人体框图对应的每组特征图中的特征图进行融合处理，得到每个人体框图对应的多个热力图，其中，一组特征图对应一个热力图。

比如，当得到至少一个人体框图之后，电子设备可将每个人体框图输入预设的关键点检测模型中，得到每个人体框图对应的多组特征图。其中每组特征图包括多个不同尺寸的特征图。

然后，电子设备可对每个人体框图对应的每组特征图中的多个不同尺寸的特征图进行融合处理，以融合不同感受野的信息，得到每个人体框图对应的多个热力图。其中，一组特征图对应得到一个热力图。

例如，电子设备可将每组特征图中的多个不同尺度的特征图按照从大到小的顺序排列。然后，电子设备确定出每组特征图中排列在中间的特征图，作为第一特征图。接着，电子设备可以以该第一特征图为标准，对每组特征图中的其他特征图进行上采样或者下采样处理，以使经上采样或者下采样处理后的其他特征图的尺寸与该第一特征图的尺寸相同。随后，电子设备可对该第一特征图、经过上采样或者下采样处理的其他特征图进行融合处理，得到每个人体框图对应的热力图。

可以理解的是，上采样处理即放大特征图的尺寸，下采样处理即缩小特征图的尺寸。在本申请实施例中，可对每组特征图中小于第一特征图的特征图进行上采样处理，并对每组特征图中大于第二特征图的特征图进行下采样处理。

在一些实施例中，电子设备可将每个人体框图输入预设的关键点检测模型中，通过该预设的关键点检测模型的多个卷积层(如卷积层c2、c3、c4和c5)的残差块得到每个人体框图对应的多组第二特征图。其中，每组第二特征图包括多个第二特征图，每个卷积层对应每组第二特征图中的其中一个第二特征图。卷积层c2的深度小于卷积层c3的深度，卷积层c3的深度小于卷积层c4的深度，卷积层c4的深度小于卷积层c5的深度。然后，电子设备可将每个人体框图对应的每组第二特征图中的多个第二特征图连接不同数目的瓶颈块，以得到每个人体框图对应的多组特征图。每组特征图包括多个不同尺寸的特征图。其中，深度越深的卷积层对应的特征图所连接的瓶颈块的数目越多。接着，电子设备可将每组特征图中的特征图进行上采样统一维度后进行融合处理，如对经过上采样统一维度后的特征图进行逐像素相加，得到每个人体框图对应的多个热力图。

在一些实施例中，在流程203之后，还可以包括：

电子设备对每个人体框图对应的每个热力图进行高斯滤波处理，得到每个人体框图对应的多个目标热力图；

流程204可以包括：

电子设备根据每个人体框图对应的多个目标热力图，得到每个人体框图中的人体的多个关键点坐标，其中，一个目标热力图对应一个关键点坐标。

比如，由于电子设备所得到每个人体框图对应的多个热力图中的每个热力图都或多或少存在一些噪点，因此，当得到每个人体框图对应的多个热力图之后，电子设备可对每个人体框图对应的每个热力图进行高斯滤波处理，以滤除每个人体框图对应的每个热力图的噪点，得到每个人体框图对应的多个目标热力图。随后，电子设备可根据每个人体框图对应的多个目标热力图，得到每个人体框图中的人体的多个关键点坐标。其中，一个目标热力图对应一个关键点坐标。

需要说明的是，噪点是指对得到关键点有干扰的点，即有噪点的存在可能导致关键点确定不准确。

可以理解的是，根据目标热力图确定关键点坐标的准确性高于根据热力图确定关键点坐标的准确性，但得到目标热力图的过程也需要消耗一定的处理器资源，因此，可在处理器资源充足的情况下，根据目标热力图确定关键点坐标；在处理器资源不足的情况下，根据热力图确定关键点坐标。

在一些实施例中，在流程201之前，还可以包括：

电子设备获取多个样本人体框图；

电子设备获取每个样本人体框图中的人体对应的多个关键点坐标；

电子设备利用多个样本人体框图和每个样本人体框图中的人体对应的多个关键点坐标对预设的神经网络模型进行训练；

电子设备将训练后的神经网络模型作为预设的关键点检测模型。

比如，电子设备可从数据库或其他设备获取存储于其中的多个样本人体框图。并且，每个样本人体框图均标记有多个关键点坐标。其中，每个样本人体框图标记有的多个关键点坐标对应每个样本人体框图中的人体。在本申请实施例中，电子设备可获取每个样本人体框图标记有的多个关键点坐标，即每个样本人体框图中的人体对应的多个关键点坐标。

在得到多个样本人体框图和每个样本人体框图中的人体对应的多个关键点坐标之后，电子设备可利用该多个样本人体框图和每个样本人体框图中的人体对应的多个关键点坐标对预设的神经网络模型进行训练。训练后的神经网络模型即为预设的关键点检测模型。

在一些实施例中，电子设备还可利用该多个样本人体框图、每个样本人体框图中的人体对应的多个关键点坐标和预设的损失函数对预设的神经网络模型进行训练。训练后的神经网络模型即为预设的关键点检测模型。

需要说明的是，损失函数通常是用来估量模型的预测值(如模型所预测的关键点坐标)与真实值(如实际标记的关键点坐标)的不一致程度。它是一个非负实值函数。一般情况下，损失函数越小，模型的鲁棒性就越好。损失函数可以根据实际需求来设置。

其中，预设的神经网络模型可以为级联金字塔网络模型。该级联金字塔网络模型可包括GlobalNet网络和RefineNet网络。该GlobalNet网络可用于对人体的所有关键点进行粗训练。该RefineNet网络可对该GlobalNet网络反映的难以训练的关键点进行精炼。

在一些实施例中，该预设的神经网络模型可包括inception-v4网络或attention resnet网络和RefineNet网络。该inception-v4网络或attention resnet网络可用于对人体的所有关键点进行粗训练。该RefineNet网络可对该GlobalNet网络反映的难以训练的关键点进行精炼。

在一些实施例中，在流程201之前，还可以包括：

电子设备获取多组关键点坐标，其中，每组关键点坐标包括多个关键点坐标；

电子设备获取每组关键点坐标对应的人体姿态；

电子设备利用多组关键点坐标和每组关键点坐标对应的人体姿态对预设的浅层神经网络模型进行训练；

电子设备将训练后的浅层神经网络模型作为预设的姿态识别模型。

比如，电子设备可获取多组关键点坐标以及每组关键点坐标对应的人体姿态。其中，每组关键点坐标包括多个关键点坐标。

在得到多组关键点坐标以及每组关键点坐标对应的人体姿态，电子设备可利用多组关键点坐标和每组关键点坐标对应的人体姿态对预设的浅层神经网络模型进行训练。训练后的浅层神经网络模型可作为预设的姿态识别模型。

在一些实施例中，电子设备还可利用多组关键点坐标、每组关键点坐标对应的人体姿态(真实人体姿态)和预设的损失函数对预设的浅层神经网络模型进行训练。训练后的浅层神经网络模型可作为预设的姿态识别模型。。

需要说明的是，损失函数通常是用来估量模型的预测值(如模型所预测的人体姿态)与真实值(如真实人体姿态)的不一致程度。它是一个非负实值函数。一般情况下，损失函数越小，模型的鲁棒性就越好。损失函数可以根据实际需求来设置。

其中，该预设的浅层神经网络模型可以为resnet 18网络模型。

在一些实施例中，由于相同姿态的两个人在图片的不同位置，其坐标表现是非常不同的，为了对这一变量进行控制，电子设备可在获取多组关键点坐标之后，对多组关键点坐标中的关键点坐标进行归一化。例如，可采用下述公式对关键点坐标进行归一化：

在该公式中，N2表示归一化后的x坐标或y坐标。N1表示归一化前的x坐标或y坐标。N _min表示多组关键点坐标中值最小的x坐标或y坐标。N _max表示多组关键点坐标中值最大的x坐标或y坐标。A为一常数，A的取值可以为240、264、293、320、335、370等等。

在另一些实施例中，为了体现同一关键点的x坐标和y坐标的关联性，可将同一关键点的x坐标和y坐标放在不同通道的同一位置进行训练。例如，假设一组关键点包括5个关键点，这5个关键点的坐标分别为(x1，y1)、(x2，y2)，(x3，y3)，(x4，y4)和(x5，y5)，这组关键点对应的人体姿态为“站立”。需输入预设的浅层神经网络模型中的待训练数据为(a，b)，那么，[x1，x2，x3，x4，x5]和[y1，y2，y3，y4，y5]可作为a，人体姿态“站立”可作为b。

在一些实施例中，第一人体图像为待分类视频中的一帧人体图像，该人体姿态的识别方法还可以包括：

电子设备从待分类视频中提取出至少一帧第二人体图像；

电子设备确定每帧第二人体图像中的人体的姿态；

电子设备根据第一人体图像中的人体的姿态和每帧第二人体图像中的人体的姿态，确定待分类视频的类别。

可以理解的是，第一人体图像可为待分类视频中的一帧人体图像。该待分类视频中还可能存在其他人体图像，即第二人体图像。比如，电子设备可将该待分类视频分解为多个视频帧，即多帧图像。然后，电子设备可检测该多帧图像中是否存在包含人体的图像。若该多帧图像中存在包含人体的图像，电子设备可从该多帧图像中选取出包含人体的图像，并将包含人体的图像中除第一图像之外的图像确定为至少一帧第二人体图像。

当得到至少一帧第二人体图像之后，电子设备可确定每帧第二人体图像中的人体的姿态。比如，电子设备可采用本申请实施例所提供的人体姿态的识别方法来确定每帧第二人体图像中的人体的姿态。

当确定出每帧第二人体图像中的人体的姿态之后，电子设备可根据第一人体图像中的人体的姿态和每帧第二人体图像中的人体的姿态，确定待分类视频的类别。

例如，假设第一人体图像和至少一帧人体图像中，存在大部分人体图像中的人体的姿态为舞蹈动作，那么，电子设备可将待分类视频确定为舞蹈类视频。

在一些实施例中，电子设备根据第一人体图像中的人体的姿态和每帧第二人体图像中的人体的姿态，确定待分类视频的类别，可以包括：

电子设备根据第一人体图像中的人体的姿态，确定第一人体图像对应的类别，并根据每帧第二人体图像中的人体的姿态，确定每帧第二人体图像对应的类别，得到多个类别；

电子设备从多个类别中确定出相同类别的数量；

电子设备将数量最多的相同类别确定为待分类视频的类别。

比如，当确定出第一人体图像中的人体的姿态和每帧第二人体图像中的人体的姿态之后，电子设备可根据第一人体图像中的人体的姿态，确定第一人体图像对应的类别。并且，电子设备可根据每帧第二人体图像中的人体的姿态，确定每帧第二人体图像对应的类别，从而得到多个类别。例如，当第一人体图像或某第二图像中的人体的姿态为舞蹈动作时，电子设备可将第一人体图像或该第二人体图像确定为舞蹈类图像。

当得到多个类别之后，电子设备可从多个类别中确定出相同类别的数量，并将数量最多的相同类别确定为待分类视频的类别。例如，假设得到10个类别，存在5个舞蹈类、3个唱歌类和2个打篮球类。那么，电子设备可将待分类视频确定为舞蹈类视频。

在一些实施例中，待分类视频的类别可以为多个。比如，待分类视频既可以属于舞蹈类视频、又可以属于唱歌类视频，还可以属于打篮球类视频。比如，当确定出某段视频所包括的多个人体图像分别对应的类别之后，只要存在至少两个图像对应的类别相同，该类别相同的至少两个图像对应的类别即可为该段视频的类别。例如，假设一段视频所包括的10个人体图像中，存在5个舞蹈类图像、3个唱歌类图像、2个打篮球类图像，那么，该段视频既可以属于舞蹈类视频、又可以属于唱歌类视频，还可以属于打篮球类视频。

在一些实施例中，电子设备从待分类视频中提取出至少一帧第二人体图像，可以包括：

电子设备将待分类视频分解为多帧图像；

电子设备从多帧图像中选取出存在人体的图像；

电子设备将存在人体的图像中除第一人体图像之外的图像确定为第二人体图像，得到至少一帧第二人体图像。

比如，当得到待分类视频之后，电子设备可将该待分类视频分解为多个视频帧，即多帧图像。然后，电子设备可从该多帧图像中选取出存在人体的图像，并将存在人体的图像中除第一人体图像之外的图像确定为第二人体图像，得到至少一帧第二人体图像。

在一些实施例中，该人体姿态的识别方法还可以包括：

电子设备获取用户的用户画像；

电子设备根据用户画像和待分类视频的类别，判断是否将待分类视频推送给用户；

若根据用户画像和待分类视频的类别，判定将待分类视频推送给用户，则电子设备将待分类视频推送给所述用户。

比如，当确定出待分类视频的类别之后，电子设备可获取用户的用户画像。其中，用户画像是指将用户的每个具体信息抽象成标签，利用这些标签将用户形象具体化，从而为用户提供有针对性的服务。通俗来讲，某个用户的用户画像可描述某个用户经常浏览的文章为哪些类别的文章、该用户经常观看的视频为哪些类别的视频、该用户经常购买的物品为哪些类别的物品，等等。因此，当获取到某用户的用户画像之后，电子设备可确定该用户经常观看的视频为哪些类别的视频。然后，电子设备可判断该待分类视频的类别是否属于该用户经常观看的视频所对应的类别中的其中一个类别。若该待分类视频的类别属于该用户经常观看的视频所对应的类别中的其中一个类别，电子设备可将该待分类视频推送给用户，以供用户观看。

请参阅图5，图5为本申请实施例提供的人体姿态的识别装置的结构示意图。该人体姿态的识别装置可以包括：获取模块301、第一确定模块302、第二确定模块303和第三确定模块304。

获取模块301，用于获取第一人体图像，所述第一人体图像中包括至少一个人体。

第一确定模块302，用于根据所述第一人体图像，确定至少一个人体框图，每个人体框图中仅包含一个人体。

第二确定模块303，用于确定每个人体框图中的人体的多个关键点坐标。

第三确定模块304，用于根据预设的姿态识别模型和每个人体框图中的人体的多个关键点坐标，确定每个人体框图中的人体的姿态，得到所述第一人体图像中的人体的姿态。

在一些实施例中，第二确定模块303，可以包括：将每个人体框图输入预设的关键点检测模型中，得到每个人体框图对应的多个热力图；根据每个人体框图对应的多个热力图，得到每个人体框图中的人体的多个关键点坐标，其中，一个热力图对应一个关键点坐标。

在一些实施例中，第二确定模块303，可以包括：将每个人体框图输入预设的关键点检测模型中，得到每个人体框图对应的多组特征图，其中，每组特征图包括多个不同尺寸的特征图；对每个人体框图对应的每组特征图中的特征图进行融合处理，得到每个人体框图对应的多个热力图，其中，一组特征图对应一个热力图。

在一些实施例中，第二确定模块303，可以包括：对每个人体框图对应的每个热力图进行高斯滤波处理，得到每个人体框图对应的多个目标热力图；根据每个人体框图对应的多个目标热力图，得到每个人体框图中的人体的多个关键点坐标，其中，一个目标热力图对应一个关键点坐标。

在一些实施例中，获取模块301，可以包括：获取多个样本人体框图；获取每个样本人体框图中的人体对应的多个关键点坐标；利用所述多个样本人体框图和每个样本人体框图中的人体对应的多个关键点坐标对预设的神经网络模型进行训练；将训练后的神经网络模型作为预设的关键点检测模型。

在一些实施例中，获取模块301，可以包括：获取多组关键点坐标，其中，每组关键点坐标包括多个关键点坐标；获取每组关键点坐标对应的人体姿态；利用所述多组关键点坐标和每组关键点坐标对应的人体姿态对预设的浅层神经网络模型进行训练；将训练后的浅层神经网络模型作为预设的姿态识别模型。

在一些实施例中，第三确定模块304，可以用于：从所述待分类视频中提取出至少一帧第二人体图像；确定每帧第二人体图像中的人体的姿态；根据所述第一人体图像中的人体的姿态和每帧第二人体图像中的人体的姿态，确定所述待分类视频的类别。

在一些实施例中，第三确定模块304，可以用于：根据所述第一人体图像中的人体的姿态，确定所述第一人体图像对应的类别，并根据每帧第二人体图像中的人体的姿态，确定每帧第二人体图像对应的类别，得到多个类别；从所述多个类别中确定出相同类别的数量；将数量最多的相同类别确定为所述待分类视频的类别。

在一些实施例中，第三确定模块304，可以用于：将所述待分类视频分解为多帧图像；从所述多帧图像中选取出存在人体的图像；将存在人体的图像中除所述第一人体图像之外的图像确定为第二人体图像，得到至少一帧第二人体图像。

在一些实施例中，第三确定模块304，可以用于：获取用户的用户画像；根据所述用户画像和所述待分类视频的类别，判断是否将所述待分类视频推送给所述用户；若是，则将所述待分类视频推送给所述用户。

本申请实施例提供一种计算机可读的存储介质，其上存储有计算机程序，当所述计算机程序在计算机上执行时，使得所述计算机执行如本实施例提供的人体姿态的识别方法中的流程。

本申请实施例还提供一种电子设备，包括存储器，处理器，所述存储器中存储有计算机程序，所述处理器通过调用所述存储器中存储的所述计算机程序，用于执行本实施例提供的人体姿态的识别方法中的流程。

例如，上述电子设备可以是诸如平板电脑或者智能手机等移动终端。请参阅图6，图6为本申请实施例提供的电子设备的第一种结构示意图。

该电子设备400可以包括存储器401、处理器402等部件。本领域技术人员可以理解，图6中示出的电子设备结构并不构成对电子设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

存储器401可用于存储应用程序和数据。存储器401存储的应用程序中包含有可执行代码。应用程序可以组成各种功能模块。处理器402通过运行存储在存储器401的应用程序，从而执行各种功能应用以及数据处理。

处理器402是电子设备的控制中心，利用各种接口和线路连接整个电子设备的各个部分，通过运行或执行存储在存储器401内的应用程序，以及调用存储在存储器401内的数据，执行电子设备的各种功能和处理数据，从而对电子设备进行整体监控。

在本实施例中，电子设备中的处理器402会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行代码加载到存储器401中，并由处理器401来运行存储在存储器401中的应用程序，从而实现流程：

确定每个人体框图中的人体的多个关键点坐标；

请参阅图7，图7为本申请实施例提供的电子设备的第二种结构示意图。

该电子设备400可以包括存储器401、处理器402、输入单元403、输出单元404、显示屏405等部件。

存储器401可用于存储应用程序和数据。存储器401存储的应用程序中包含有可执行代码。应用程序可以组成各种功能模块。处理器402通过运行存储在存储401的应用程序，从而执行各种功能应用以及数据处理。

输入单元403可用于接收输入的数字、字符信息或用户特征信息(比如指纹)，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

输出单元404可用于显示由用户输入的信息或提供给用户的信息以及电子设备的各种图形用户接口，这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。输出单元可包括显示面板。

显示屏405可以用于显示文字、图片等信息。

在本实施例中，电子设备中的处理器402会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行代码加载到存储器401中，并由处理器402来运行存储在存储器401中的应用程序，从而实现流程：

确定每个人体框图中的人体的多个关键点坐标；

在一些实施方式中，处理器402执行所述确定每个人体框图中的人体的多个关键点坐标时，可以执行：将每个人体框图输入预设的关键点检测模型中，得到每个人体框图对应的多个热力图；根据每个人体框图对应的多个热力图，得到每个人体框图中的人体的多个关键点坐标，其中，一个热力图对应一个关键点坐标。

在一些实施方式中，处理器402执行所述将每个人体框图输入预设的关键点检测模型中，得到每个人体框图对应的多个热力图时，可以执行：将每个人体框图输入预设的关键点检测模型中，得到每个人体框图对应的多组特征图，其中，每组特征图包括多个不同尺寸的特征图；对每个人体框图对应的每组特征图中的特征图进行融合处理，得到每个人体框图对应的多个热力图，其中，一组特征图对应一个热力图。

在一些实施方式中，处理器402执行所述对每个人体框图对应的每组特征图中的特征图进行融合处理，得到每个人体框图对应的多个热力图之后，还可以执行：对每个人体框图对应的每个热力图进行高斯滤波处理，得到每个人体框图对应的多个目标热力图；则处理器402执行所述根据每个人体框图对应的多个热力图，得到每个人体框图中的人体的多个关键点坐标，其中，一个热力图对应一个关键点坐标时，可以执行：根据每个人体框图对应的多个目标热力图，得到每个人体框图中的人体的多个关键点坐标，其中，一个目标热力图对应一个关键点坐标。

在一些实施方式中，处理器402执行所述获取第一人体图像之前，还可以执行：获取多个样本人体框图；获取每个样本人体框图中的人体对应的多个关键点坐标；利用所述多个样本人体框图和每个样本人体框图中的人体对应的多个关键点坐标对预设的神经网络模型进行训练；将训练后的神经网络模型作为预设的关键点检测模型。

在一些实施方式中，处理器402执行所述获取第一人体图像之前，还可以执行：获取多组关键点坐标，其中，每组关键点坐标包括多个关键点坐标；获取每组关键点坐标对应的人体姿态；利用所述多组关键点坐标和每组关键点坐标对应的人体姿态对预设的浅层神经网络模型进行训练；将训练后的浅层神经网络模型作为预设的姿态识别模型。

在一些实施方式中，所述第一人体图像为待分类视频中的一帧人体图像，处理器402还可以执行：从所述待分类视频中提取出至少一帧第二人体图像；确定每帧第二人体图像中的人体的姿态；根据所述第一人体图像中的人体的姿态和每帧第二人体图像中的人体的姿态，确定所述待分类视频的类别。

在一些实施方式中，处理器402执行所述根据所述第一人体图像中的人体的姿态和每帧第二人体图像中的人体的姿态，确定所述待分类视频的类别时，可以执行：根据所述第一人体图像中的人体的姿态，确定所述第一人体图像对应的类别，并根据每帧第二人体图像中的人体的姿态，确定每帧第二人体图像对应的类别，得到多个类别；从所述多个类别中确定出相同类别的数量；将数量最多的相同类别确定为所述待分类视频的类别。

在一些实施方式中，处理器402执行所述从所述待分类视频中提取出至少一帧第二人体图像时，可以执行：将所述待分类视频分解为多帧图像；从所述多帧图像中选取出存在人体的图像；将存在人体的图像中除所述第一人体图像之外的图像确定为第二人体图像，得到至少一帧第二人体图像。

在一些实施方式中，处理器402还可以执行：获取用户的用户画像；根据所述用户画像和所述待分类视频的类别，判断是否将所述待分类视频推送给所述用户；若是，则将所述待分类视频推送给所述用户。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见上文针对人体姿态的识别方法的详细描述，此处不再赘述。

本申请实施例提供的所述人体姿态的识别装置与上文实施例中的人体姿态的识别方法属于同一构思，在所述人体姿态的识别装置上可以运行所述人体姿态的识别方法实施例中提供的任一方法，其具体实现过程详见所述人体姿态的识别方法实施例，此处不再赘述。

需要说明的是，对本申请实施例所述人体姿态的识别方法而言，本领域普通技术人员可以理解实现本申请实施例所述人体姿态的识别方法的全部或部分流程，是可以通过计算机程序来控制相关的硬件来完成，所述计算机程序可存储于一计算机可读取存储介质中，如存储在存储器中，并被至少一个处理器执行，在执行过程中可包括如所述人体姿态的识别方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)等。

对本申请实施例的所述人体姿态的识别装置而言，其各功能模块可以集成在一个处理芯片中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中，所述存储介质譬如为只读存储器，磁盘或光盘等。

以上对本申请实施例所提供的一种人体姿态的识别方法、装置、存储介质以及电子设备进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

一种人体姿态的识别方法，其中，包括：

获取第一人体图像，所述第一人体图像中包括至少一个人体；

根据所述第一人体图像，确定至少一个人体框图，每个人体框图中仅包含一个人体；

确定每个人体框图中的人体的多个关键点坐标；

根据预设的姿态识别模型和每个人体框图中的人体的多个关键点坐标，确定每个人体框图中的人体的姿态，得到所述第一人体图像中的人体的姿态。
根据权利要求1所述的人体姿态的识别方法，其中，所述确定每个人体框图中的人体的多个关键点坐标，包括：

将每个人体框图输入预设的关键点检测模型中，得到每个人体框图对应的多个热力图；

根据每个人体框图对应的多个热力图，得到每个人体框图中的人体的多个关键点坐标，其中，一个热力图对应一个关键点坐标。
根据权利要求2所述的人体姿态的识别方法，其中，所述将每个人体框图输入预设的关键点检测模型中，得到每个人体框图对应的多个热力图，包括：

将每个人体框图输入预设的关键点检测模型中，得到每个人体框图对应的多组特征图，其中，每组特征图包括多个不同尺寸的特征图；

对每个人体框图对应的每组特征图中的特征图进行融合处理，得到每个人体框图对应的多个热力图，其中，一组特征图对应一个热力图。
根据权利要求3所述的人体姿态的识别方法，其中，在所述对每个人体框图对应的每组特征图中的特征图进行融合处理，得到每个人体框图对应的多个热力图之后，还包括：

对每个人体框图对应的每个热力图进行高斯滤波处理，得到每个人体框图对应的多个目标热力图；

所述根据每个人体框图对应的多个热力图，得到每个人体框图中的人体的多个关键点坐标，其中，一个热力图对应一个关键点坐标，包括：

根据每个人体框图对应的多个目标热力图，得到每个人体框图中的人体的多个关键点坐标，其中，一个目标热力图对应一个关键点坐标。
根据权利要求2所述的人体姿态的识别方法，其中，在所述获取第一人体图像之前，还包括：

获取多个样本人体框图；

获取每个样本人体框图中的人体对应的多个关键点坐标；

利用所述多个样本人体框图和每个样本人体框图中的人体对应的多个关键点坐标对预设的神经网络模型进行训练；

将训练后的神经网络模型作为预设的关键点检测模型。
根据权利要求1所述的人体姿态的识别方法，其中，在所述获取第一人体图像之前，还包括：

获取多组关键点坐标，其中，每组关键点坐标包括多个关键点坐标；

获取每组关键点坐标对应的人体姿态；

利用所述多组关键点坐标和每组关键点坐标对应的人体姿态对预设的浅层神经网络模型进行训练；

将训练后的浅层神经网络模型作为预设的姿态识别模型。
根据权利要求1所述的人体姿态的识别方法，其中，所述第一人体图像为待分类视频中的一帧人体图像，所述方法还包括：

从所述待分类视频中提取出至少一帧第二人体图像；

确定每帧第二人体图像中的人体的姿态；

根据所述第一人体图像中的人体的姿态和每帧第二人体图像中的人体的姿态，确定所述待分类视频的类别。
根据权利要求7所述的人体姿态的识别方法，其中，所述根据所述第一人体图像中的人体的姿态和每帧第二人体图像中的人体的姿态，确定所述待分类视频的类别，包括：

根据所述第一人体图像中的人体的姿态，确定所述第一人体图像对应的类别，并根据每帧第二人体图像中的人体的姿态，确定每帧第二人体图像对应的类别，得到多个类别；

从所述多个类别中确定出相同类别的数量；

将数量最多的相同类别确定为所述待分类视频的类别。
根据权利要求7所述的人体姿态的识别方法，其中，所述从所述待分类视频中提取出至少一帧第二人体图像，包括：

将所述待分类视频分解为多帧图像；

从所述多帧图像中选取出存在人体的图像；

将存在人体的图像中除所述第一人体图像之外的图像确定为第二人体图像，得到至少一帧第二人体图像。
根据权利要求7所述的人体姿态的识别方法，其中，所述方法还包括：

获取用户的用户画像；

根据所述用户画像和所述待分类视频的类别，判断是否将所述待分类视频推送给所述用户；

若是，则将所述待分类视频推送给所述用户。
一种人体姿态的识别装置，其中，包括：

获取模块，用于获取第一人体图像，所述第一人体图像中包括至少一个人体；

第一确定模块，用于根据所述第一人体图像，确定至少一个人体框图，每个人体框图中仅包含一个人体；

第二确定模块，用于确定每个人体框图中的人体的多个关键点坐标；

第三确定模块，用于根据预设的姿态识别模型和每个人体框图中的人体的多个关键点坐标，确定每个人体框图中的人体的姿态，得到所述第一人体图像中的人体的姿态。
一种存储介质，其中，所述存储介质中存储有计算机程序，当所述计算机程序在计算机上运行时，使得所述计算机执行权利要求1至10任一项所述的人体姿态的识别方法。
一种电子设备，其中，所述电子设备包括处理器和存储器，所述存储器中存储有计算机程序，所述处理器通过调用所述存储器中存储的所述计算机程序，用于执行：

获取第一人体图像，所述第一人体图像中包括至少一个人体；

根据所述第一人体图像，确定至少一个人体框图，每个人体框图中仅包含一个人体；

确定每个人体框图中的人体的多个关键点坐标；

根据预设的姿态识别模型和每个人体框图中的人体的多个关键点坐标，确定每个人体框图中的人体的姿态，得到所述第一人体图像中的人体的姿态。
根据权利要求13所述的电子设备，其中，所述处理器用于执行：

将每个人体框图输入预设的关键点检测模型中，得到每个人体框图对应的多个热力图；

根据每个人体框图对应的多个热力图，得到每个人体框图中的人体的多个关键点坐标，其中，一个热力图对应一个关键点坐标。
根据权利要求14所述的电子设备，其中，所述处理器用于执行：

将每个人体框图输入预设的关键点检测模型中，得到每个人体框图对应的多组特征图，其中，每组特征图包括多个不同尺寸的特征图；

对每个人体框图对应的每组特征图中的特征图进行融合处理，得到每个人体框图对应的多个热力图，其中，一组特征图对应一个热力图。
根据权利要求15所述的电子设备，其中，所述处理器用于执行：

对每个人体框图对应的每个热力图进行高斯滤波处理，得到每个人体框图对应的多个目标热力图；

根据每个人体框图对应的多个目标热力图，得到每个人体框图中的人体的多个关键点坐标，其中，一个目标热力图对应一个关键点坐标。
根据权利要求14所述的电子设备，其中，所述处理器用于执行：

获取多个样本人体框图；

获取每个样本人体框图中的人体对应的多个关键点坐标；

利用所述多个样本人体框图和每个样本人体框图中的人体对应的多个关键点坐标对预设的神经网络模型进行训练；

将训练后的神经网络模型作为预设的关键点检测模型。
根据权利要求13所述的电子设备，其中，所述处理器用于执行：

获取多组关键点坐标，其中，每组关键点坐标包括多个关键点坐标；

获取每组关键点坐标对应的人体姿态；

利用所述多组关键点坐标和每组关键点坐标对应的人体姿态对预设的浅层神经网络模型进行训练；

将训练后的浅层神经网络模型作为预设的姿态识别模型。
根据权利要求13所述的电子设备，其中，所述处理器用于执行：

从所述待分类视频中提取出至少一帧第二人体图像；

确定每帧第二人体图像中的人体的姿态；

根据所述第一人体图像中的人体的姿态和每帧第二人体图像中的人体的姿态，确定所述待分类视频的类别。
根据权利要求19所述的电子设备，其中，所述处理器用于执行：

根据所述第一人体图像中的人体的姿态，确定所述第一人体图像对应的类别，并根据每帧第二人体图像中的人体的姿态，确定每帧第二人体图像对应的类别，得到多个类别；

从所述多个类别中确定出相同类别的数量；

将数量最多的相同类别确定为所述待分类视频的类别。