WO2022006784A1

WO2022006784A1 - 人体骨架检测方法、装置、系统、设备及存储介质

Info

Publication number: WO2022006784A1
Application number: PCT/CN2020/100900
Authority: WO
Inventors: 韩晓光; 邱陵腾; 张轩烨; 崔曙光
Original assignee: 香港中文大学（深圳）; 深圳市大数据研究院
Priority date: 2020-07-08
Filing date: 2020-07-08
Publication date: 2022-01-13

Abstract

一种人体骨架检测方法、装置、系统、设备及存储介质，所述方法包括：处理待识别图片，获取目标人体骨架的初始姿态（S101）；获取处理所述待识别图片过程中不同解码层输出的特征图（S102）；处理所述特征图得到特征图数据，并从所述特征图数据中提取与所述初始姿态对应的位置数据作为输入数据（S103）；输入所述初始姿态以及所述输入数据至经过训练的图卷积神经网络，获取所述目标人体骨架的最终姿态；其中，所述图卷积神经网络的矩阵表示根据人体骨架结构的约束关系确定（S104）。通过结合人体关节结构之间的基本约束信息以及挖掘出的特征图中包含的被遮挡关键点的相关数据，能够精确地调整被遮挡关键点的位置，对于人体骨架的检测有较高的正确率。

Description

人体骨架检测方法、装置、系统、设备及存储介质

相关申请的交叉引用

无。

技术领域

本公开涉及图像处理技术领域，具体涉及一种人体骨架检测方法、装置、系统、设备及存储介质。

背景技术

人体的骨架估计长期都是计算视觉领域中的主要内容，通过骨架分析得到人体的关键点，可以简化动作估计的过程，尤其对于一些3d人体重建任务，骨架估计是先验任务之一。现有技术中，骨架检测主要分为自顶而下和自下而上的方法。自顶而下的方法首先检测场景中的所有人，定位出人体的检测框，每个检测框包含人体骨架的关键点，然后对每个人进行姿势估计。而自下而上的做法是通过检测整张图片的关键点，再通过聚类对各个关键点分组从而得到每个人的关键点骨架。人体骨架估计在拥挤的场景下更具挑战性，因为该场景下人体骨架存在着被遮挡的情况，使得关键点的检测不够准确。

发明内容

为了解决相关技术中的问题，本公开实施例提供一种人体骨架检测方法、装置、系统、设备以及存储介质。

第一方面，本公开实施例中提供了一种人体骨架检测方法。

具体地，所述人体骨架检测方法，包括：

处理待识别图片，获取目标人体骨架的初始姿态；

获取处理所述待识别图片过程中不同解码层输出的特征图；

处理所述特征图得到特征图数据，并从所述特征图数据中提取与所述初始姿态对应的位置数据作为输入数据；

输入所述初始姿态以及所述输入数据至经过训练的图卷积神经网络，获取所述目标人体骨架的最终姿态；其中，所述图卷积神经网络的矩阵表示根据人体骨架结构的约束关系确定。

结合第一方面，本公开在第一方面的第一种实现方式中，所述处理待识别图片，获取目标人体骨架的初始姿态，被实施为：

利用骨架检测网络处理待识别图片，生成目标人体骨架的热度图；

将所述热度图转化为坐标数据，作为目标人体骨架的初始姿态。

结合第一方面的第一种实现方式，本公开在第一方面的第二种实现方式中，所述获取处理所述待识别图片过程中不同解码层输出的特征图，被实施为：

利用骨架检测网络处理待识别图片，从中提取至少三个解码层的特征图记为

以及

其中，所述特征图

以及

的分辨率递增以及通道数递减。

结合第一方面的第二种实现方式，本公开在第一方面的第三种实现方式中，所述处理所述特征图得到特征图数据，并从所述特征图数据中提取与所述初始姿态对应的位置数据作为输入数据，被实施为：

将所述特征图

转化为特征图数据

并从所述特征图数据

中提取位置数据

融合所述特征图

并从融合后的特征图数据

中提取位置数据

融合所述特征图

并从融合后的特征图数据

中提取位置数据

结合第一方面的第三种实现方式，本公开在第一方面的第四种实现方式中，所述融合所述特征图

的部分，包括：

S11：处理所述特征图

至相同的分辨率以及通道数；

S12：利用自注意力网络融合步骤S11中处理得到的特征，并进行归一化处理；

S13：融合步骤S2中处理得到的特征与步骤S1处理得到的特征获取特征图数据

结合第一方面的第三种实现方式、第一方面的第四种实现方式，本公开在第一方面的第五种实现方式中，训练所述图卷积神经网络的方式，被实施为：

分别将位置数据

输入图卷积神经网络的注意力模块，其中，第一个所述注意力模块获取所述初始姿态以及所述位置数据

作为输入特征；第二个所述注意力模块获取所述第一个注意力模块的输出特征以及所述位置数据

作为输入特征；第三个所述注意力模块获取所述第二个注意力模块的输出特征以及所述位置数据

作为输入特征。

第二方面，本公开实施例中提供了一种人体骨架检测装置。

具体地，所述人体骨架检测装置，包括：

第一获取模块，被配置为处理待识别图片，获取目标人体骨架的初始姿态；

第二获取模块，被配置为获取处理所述待识别图片过程中不同解码层输出的特征图；

提取模块，被配置为处理所述特征图得到特征图数据，并从所述特征图数据中提取与所述初始姿态对应的位置数据作为输入数据；

第三获取模块，被配置为输入所述初始姿态以及所述输入数据至经过训练的图卷积神经网络，获取所述目标人体骨架的最终姿态；其中，所述图卷积神经网络的矩阵表示根据人体骨架结构的约束关系确定。

第三方面，本公开实施例提供了一种电子设备，包括存储器和处理器，其中，所述存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器执行以实现如第一方面任一项所述的方法。

第四方面，本公开实施例中提供了一种计算机可读存储介质，其上存储有计算机指令，该计算机指令被处理器执行时实现如第一方面任一项所述的方法。

本公开实施例提供的技术方案可以包括以下有益效果：

根据本公开实施例提供的技术方案，首先处理待识别图片，获取目标人体骨架的初始姿态，然后获取处理所述待识别图片过程中不同解码层输出的特征图，之后处理所述特征图得到特征图数据，并从所述特征图数据中提取与所述初始姿态对应的位置数据作为输入数据，最后输入所述初始姿态以及所述输入数据至经过训练的图卷积神经网络，获取所述目标人体骨架的最终姿态，其中，所述图卷积神经网络的矩阵表示根据人体骨架结构的约束关系确定。该技术方案通过结合人体关节结构之间的基本约束信息以及挖掘出的特征图中包含的被遮挡关键点的相关数据，能够精确地调整被遮挡关键点的位置，因此对于人体骨架的检测具有较高的正确率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

本公开的这些方面或其他方面在以下实施例的描述中会更加简明易懂。应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

为了更清楚地说明本公开实施例或相关技术中的技术方案，下面将对示例性实施例或相关技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本公开的一些示例性实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出根据本公开的实施例的人体骨架检测系统的网络构架；

图2示出根据本公开的实施例的人体骨架检测方法的流程图；

图3a、图3b示出现有技术与本公开的实施例的人体骨架检测方法检测人体骨架的对比效果示意图；

图4示出根据本公开实施例的特征图融合的流程图；

图5示出了根据本公开实施例的特征融合的具体流程图；

图6示出根据本公开实施例的特征图融合的流程图；

图7示出根据本公开的实施例的人体骨架检测装置的结构框图；

图8示出根据本公开的实施例的电子设备的结构框图；

图9示出适于用来实现根据本公开实施例的方法的计算机系统的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本公开方案，下面将结合本公开示例性实施例中的附图，对本公开示例性实施例中的技术方案进行清楚、完整地描述。

在本公开的说明书和权利要求书及上述附图中的描述的一些流程中，包含了按照特定顺序出现的多个操作，但是应该清楚了解，这些操作可以不按照其在本文中出现的顺序来执行或并行执行，操作的序号如101、102等，仅仅是用于区分开各个不同的操作，序号本身不代表任何的执行顺序。另外，这些流程可以包括更多或更少的操作，并且这些操作可以按顺序执行或并行执行。需要说明的是，本文中的“第一”、“第二”等描述，是用于区分不同的消息、设备、模块等，不代表先后顺序，也不限定“第一”和“第二”是不同的类型。

下面将结合本公开示例性实施例中的附图，对本公开示例性实施例中的技术方案进行清楚、完整地描述，显然，所描述的示例性实施例仅仅是本公开一部分实施例，而不是全部的实施例。基于本公开中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。

上文提及，人体的骨架估计长期都是计算视觉领域中的主要内容，通过骨架分析得到人体的关键点，可以简化动作估计的过程，尤其对于一些3d人体重建任务，骨架估计是先验任务之一。现有技术中，骨架检测主要分为自顶而下和自下而上的方法。自顶而下的方法首先检测场景中的所有人，定位出人体的检测框，每个检测框包含人体骨架的关键点，然后对每个人进行姿势估计。而自下而上的做法是通过检测整张图片的关键点，再通过聚类对各个关键点分组从而得到每个人的关键点骨架。人体骨架估计在拥挤的场景下更具挑战性，因为该场景下人体骨架存在着被遮挡的情况，使得关键点的检测不够准确。

本公开提出的人体骨架检测方法，通过结合人体关节结构之间的基本约束信息以及挖掘出的特征图中包含的被遮挡关键点的相关数据，能够精确地调整被遮挡关键点的位置，因此对于人体骨架的检测具有较高的正确率。

图1示出根据本公开的实施例的人体骨架检测系统的网络构架。如图1所示，所述人体骨架检测系统100包括：初始姿势估计模块110、级联自适应模块120和图卷积神经网络130。

所述初始姿势估计模块110用于处理待识别图片，获取目标人体骨架的初始姿态。首先从待识别图片中获取目标人体骨架关键点的热度图(heat map)，然后将热度图转化为坐标表示的目标人体骨架的初始姿态。

所述级联自适应模块120用于获取处理所述待识别图片过程中不同解码层输出的特征图，并处理所述特征图得到特征图数据。比如，从所述初始姿势估计模块110处理待识别图片得到热度图的后三层解码层中依次提取出特征图1、2、3，然后通过特征融合生成特征图数据。其中，三个解码层提取出的特征图1、2、3的分辨率递增以及通道数递减。不同分辨率以及通道数的特征图1、2、3表示人体骨架被遮挡关键点的不同精确程度的细节特征。

所述级联自适应模块120包括转换子模块121以及融合子模块122，其中，转换子模块121用于将待融合的两个特征图数据转换为相同通道数的特征，融合子模块122用于融合经过转换的特征图数据，生成特征图数据

所述级联自适应模块120和所述图卷积神经网络130联合用于调整人体骨架初始姿态，精确地调整待识别图片中被遮挡关键点的位置。其中，所述级联自适应模块120在处理特征图的过程中，特征图1、2、3按照分辨率从低至高的顺序被融合，从而能够利用特征图上下文信息，挖掘出不同特征图之间人体骨架被遮挡关键点的细节特征，相应的得到三个特征图数据

三个特征图数据

分别提取与所述初始姿态对应的位置数据

作为输入数据，分别输入到所述图卷积神经网络130中残差图卷积模块131训练权重，并相应输出目标人体骨架的姿势1、姿势2和最终姿势。联合姿势1、姿势2以及最终姿势的误差确定目标函数训练所述图卷积神经网络130。

所述图卷积神经网络130根据所述初始姿态以及输入数据

输出目标人体骨架的最终姿态，其中，所述输入数据为从所述特征图数据中提取的与所述初始姿态对应的位置数据。其中，所述图卷积神经网络130中的拉普拉斯矩阵提供人体结构关节之间的基本约束信息。

本公开提供的人体骨架检测系统可以适应于拥挤场景下被遮挡的人体骨架的检测，通过结合人体关节结构之间的基本约束信息以及挖掘出的不同分辨率、通道数的特征图中包含的被遮挡关键点的相关数据，能够精确地调整被遮挡关键点的位置，因此对于人体骨架的检测具有较高的正确率。

图2示出根据本公开的实施例的人体骨架检测方法的流程图。如图2所示，所述人体骨架检测方法包括以下步骤S101-S104：

在步骤S101中，处理待识别图片，获取目标人体骨架的初始姿态；

在步骤S102中，获取处理所述待识别图片过程中不同解码层输出的特征图；

在步骤S103中，处理所述特征图得到特征图数据，并从所述特征图数据中提取与所述初始姿态对应的位置数据作为输入数据；

在步骤S104中，输入所述初始姿态以及所述输入数据至经过训练的图卷积神经网络，获取所述目标人体骨架的最终姿态；其中，所述图卷积神经网络的矩阵表示根据人体骨架结构的约束关系确定。

现有的人体骨架检测方法很大程度上依赖于热图表示法进行关节位置估计，对于被遮挡关键点的位置估计往往不够准确。如图3a以及图3b所示，图中人体关节存在遮挡，与左侧图相比较，右侧图为采用本公开的方法正确识别出的骨架位置。从右侧图可以看出，图3a中女生的可见骨架关键点被错误的识别为男生骨架这一错误被纠正，图3b中被桌椅上图书遮挡的不可见骨架关键点被正确识别。可见，本公开的人体骨架检测方法用于识别被遮挡关键点能够得到较好的结果。

根据本公开的实施例，步骤S101中所述处理待识别图片，获取目标人体骨架的初始姿态，被实施为：

在本公开方式中，所述骨架检测网络可以是AlphaPose系统，具体参见现有技术，本公开对此不予赘述。利用AlphaPose系统处理待识别图片输出热度图H，从热度图H中估计人体骨架的初始姿态记为：

{<x ¹，y ¹，c ¹>，<x ²，y ²，c ²>，...，<x ^j，y ^j，c ^j>，...，<x ^k，y ^k，c ^k>，}

其中，x ^j和y ^j是第j个关节的位置，c ^j为置信度得分，k为人体骨架中关节的数量。

考虑到热图表示的人体骨架的初始姿态会导致关节估计的量化误差，因此，将热度图H表示的人体骨架的初始姿态转换为坐标表示的初始姿态，作为目标人体骨架的初始物理位置数据。具体地，将热度图H通过Softmax函数进行归一化处理为似然值[0，1]，之后应用积分运算估算关节位置记为：

其中，

是第k个关节的估计位置，A表示似然区域，H _k(p)表示p点的似然值。

根据本公开的实施例，步骤S102中所述获取处理所述待识别图片过程中不同解码层输出的特征图，被实施为：

以及

其中，所述特征图

以及

的分辨率递增以及通道数递减。

在本公开方式中，利用AlphaPose系统处理待识别图片，从得到热度图的后三层解码层提取特征图，记为粗略特征图

中间特征图

以及精细特征图

上述特征图

的分辨率递增以及通道数递减。比如，

的的特征记为conv_1、

的特征记为conv_2以及

的特征记为conv_3；其中，conv_1的分辨率以及通道数表示为21*21*512，conv_2的分辨率以及通道数表示为42*42*256，conv_3的分辨率以及通道数表示为84*84*128。

根据本公开的实施例，步骤S103中处理所述特征图得到特征图数据，并从所述特征图数据中提取与所述初始姿态对应的位置数据作为输入数据，被实施为：

将所述特征图

转化为特征图数据

并从所述特征图数据

中提取位置数据

融合所述特征图

并从融合后的特征图数据

中提取位置数据

融合所述特征图

并从融合后的特征图数据

中提取位置数据

在本公开方式中，卷积处理特征图

至相同通道数，比如，将conv_1、conv_2以及conv_3的通道数卷积至256。对于特征图

来说，卷积处理后的特征即为特征图数据

然后基于热度图H得到的坐标表示的初始姿态，从

中提取相应位置的位置数据

其中，卷积处理的模块中使用的卷积核的大小为3、步长为1，使用RELU作为激活函数。

在本公开方式中，图4示出根据本公开实施例的特征图融合的流程图。如图4所示，所述融合所述特征图

的部分，包括：

S11：处理所述特征图

至相同的分辨率以及通道数。

S12：利用自注意力网络融合步骤S11中处理得到的特征，并进行归一化处理。

下面以具体的实例来说明融合过程，具体可参见图5，图5示出了根据本公开实施例的特征融合的具体流程图。

以

的的特征conv_1、

的特征conv_2为例进行说明：

首先将conv_1、conv_2的通道数卷积至256，分别标记为特征图数据

(21*21*256)以及特征图数据

(42*42*256)；之后，将特征图数据

(21*21*256)上采样到

(42*42*256)。

之后利用自注意力机制网络融合特征

(42*42*256)以及特征

(42*42*256)，得到注意力图H2(42*42*512)，并通过softmax函数对H2进行归一化处理。

最后将处理后的注意力图H2和

点乘并卷积处理通道数至256，并将处理后的特征与

相加后，得到特征图数据

在本公开方式中，图6示出根据本公开实施例的特征图融合的流程图。如图6所示，所述融合所述特征图

的部分，包括：

S21：融合所述特征图

得到特征图数据

S22：融合所述特征图数据

以及所述特征图

得到特征图数据

其中，步骤S21、步骤S22中得到特征图数据

的具体技术内容参见步骤S11-S13的说明，在此不予赘述。

根据本公开的实施例，所述训练所述图卷积神经网络的方式，被实施为：

分别将位置数据

作为输入特征。

根据本公开的实施例，所述图卷积神经网络使用的是Deep-GCN的网络结构，其中图卷积神经网络的拉普拉斯矩阵根据人体骨架结构自动给出。

根据本公开的实施例，通过结合位置数据

能够挖掘存储在特征图

但可能在初始姿态中丢失的信息，进而来调整目标人体骨架的初始姿态，可以改善姿态估计结果。

图7示出根据本公开的实施例的人体骨架检测装置的结构框图。其中，该装置可以通过软件、硬件或者两者的结合实现成为电子设备的部分或者全部。

如图7所示，所述人体骨架检测装置700包括第一获取模块710、第二获取模块720、提取模块730和第三获取模块740。

所述第一获取模块710被配置为处理待识别图片，获取目标人体骨架的初始姿态；

所述第二获取模块720被配置为获取处理所述待识别图片过程中不同解码层输出的特征图；

所述提取模块730被配置为处理所述特征图得到特征图数据，并从所述特征图数据中提取与所述初始姿态对应的位置数据作为输入数据；

所述第三获取模块740被配置为输入所述初始姿态以及所述输入数据至经过训练的图卷积神经网络，获取所述目标人体骨架的最终姿态；其中，所述图卷积神经网络的矩阵表示根据人体骨架结构的约束关系确定。

本公开提供的人体骨架检测装置可以适应于拥挤场景下被遮挡的人体骨架的检测，通过结合人体关节结构之间的基本约束信息以及挖掘出的不同分辨率、通道数的特征图中包含的被遮挡关键点的相关数据，能够精确地调整被遮挡关键点的位置，因此对于人体骨架的检测具有较高的正确率。

本公开还公开了一种电子设备，图8示出根据本公开的实施例的电子设备的结构框图。

如图8所示，所述电子设备800包括存储器801和处理器802，其中，存储器801用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器802执行以实现以下方法步骤：

处理待识别图片，获取目标人体骨架的初始姿态；

获取处理所述待识别图片过程中不同解码层输出的特征图；

如图9所示，计算机系统900包括处理单元901，其可以根据存储在只读存储器(ROM) 902中的程序或者从存储部分908加载到随机访问存储器(RAM)903中的程序而执行上述实施例中的各种方法。在RAM 903中，还存储有系统900操作所需的各种程序和数据。处理单元901、ROM 902以及RAM 903通过总线904彼此相连。输入/输出(I/O)接口905也连接至总线904。

以下部件连接至I/O接口905：包括键盘、鼠标等的输入部分906；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分907；包括硬盘等的存储部分908；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分909。通信部分909经由诸如因特网的网络执行通信过程。驱动器910也根据需要连接至I/O接口905。可拆卸介质911，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器910上，以便于从其上读出的计算机程序根据需要被安装入存储部分908。其中，所述处理单元901可实现为CPU、GPU、TPU、FPGA、NPU等处理单元。

特别地，根据本公开的实施例，上文描述的方法可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括有形地包含在机器可读介质上的计算机程序，所述计算机程序包含用于执行上述方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分909从网络上被下载和安装，和/或从可拆卸介质911被安装。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的单元或模块可以通过软件的方式实现，也可以通过可编程硬件的方式来实现。所描述的单元或模块也可以设置在处理器中，这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定。

作为另一方面，本公开还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中电子设备或计算机系统中所包含的计算机可读存储介质；也可以是单独存在，未装配入设备中的计算机可读存储介质。计算机可读存储介质存储有一个或者一个以上程序，所述程序被一个或者一个以上的处理器用来执行描述于本公开的方法。

以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本公开中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离所述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

一种人体骨架检测方法，其特征在于，包括：

处理待识别图片，获取目标人体骨架的初始姿态；

获取处理所述待识别图片过程中不同解码层输出的特征图；

处理所述特征图得到特征图数据，并从所述特征图数据中提取与所述初始姿态对应的位置数据作为输入数据；

输入所述初始姿态以及所述输入数据至经过训练的图卷积神经网络，获取所述目标人体骨架的最终姿态；其中，所述图卷积神经网络的矩阵表示根据人体骨架结构的约束关系确定。
根据权利要求1所述的方法，其特征在于，所述处理待识别图片，获取目标人体骨架的初始姿态，被实施为：

利用骨架检测网络处理待识别图片，生成目标人体骨架的热度图；

将所述热度图转化为坐标数据，作为目标人体骨架的初始姿态。
根据权利要求2所述的方法，其特征在于，所述获取处理所述待识别图片过程中不同解码层输出的特征图，被实施为：

利用骨架检测网络处理待识别图片，从中提取至少三个解码层的特征图记为
以及
其中，所述特征图
以及
的分辨率递增以及通道数递减。
根据权利要求3所述的方法，其特征在于，所述处理所述特征图得到特征图数据，并从所述特征图数据中提取与所述初始姿态对应的位置数据作为输入数据，被实施为：

将所述特征图
转化为特征图数据
并从所述特征图数据
中提取位置数据

融合所述特征图
并从融合后的特征图数据
中提取位置数据

融合所述特征图
并从融合后的特征图数据
中提取位置数据
根据权利要求4所述的方法，其特征在于，所述融合所述特征图
的部分，包括：

S11：处理所述特征图
至相同的分辨率以及通道数；

S12：利用自注意力网络融合步骤S11中处理得到的特征，并进行归一化处理；

S13：融合步骤S2中处理得到的特征与步骤S1处理得到的特征获取特征图数据
根据权利要求4或5所述的方法，其特征在于，训练所述图卷积神经网络的方式，被实施为：

分别将位置数据
输入图卷积神经网络的注意力模块，其中，第一个所述注意力模块获取所述初始姿态以及所述位置数据
作为输入特征；第二个所述注意力模块获取所述第一个注意力模块的输出特征以及所述位置数据
作为输入特征；第三个所述注意力模块获取所述第二个注意力模块的输出特征以及所述位置数据
作为输入特征。
一种人体骨架检测装置，其特征在于，包括：

第一获取模块，被配置为处理待识别图片，获取目标人体骨架的初始姿态；

第二获取模块，被配置为获取处理所述待识别图片过程中不同解码层输出的特征图；

提取模块，被配置为处理所述特征图得到特征图数据，并从所述特征图数据中提取与所述初始姿态对应的位置数据作为输入数据；

第三获取模块，被配置为输入所述初始姿态以及所述输入数据至经过训练的图卷积神经网络，获取所述目标人体骨架的最终姿态；其中，所述图卷积神经网络的矩阵表示根据人体骨架结构的约束关系确定。
一种人体骨架检测系统，其特征在于，包括：

初始姿势估计模块，用于处理待识别图片，获取目标人体骨架的初始姿态；

级联自适应模块，用于获取处理所述待识别图片过程中不同解码层输出的特征图，并处理所述特征图得到特征图数据；

级联图卷积神经网络，用于根据所述初始姿态以及输入数据，输出目标人体骨架的最终姿态，其中，所述输入数据为从所述特征图数据中提取的与所述初始姿态对应的位置数据。
一种电子设备，其特征在于，包括存储器和处理器；其中，所述存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器执行以实现权利要求1-6中任一项所述的方法步骤。
一种可读存储介质，其上存储有计算机指令，其特征在于，该计算机指令被处理器执行时实现权利要求1-6中任一项所述的方法步骤。