WO2020088433A1

WO2020088433A1 - 多人姿态识别方法、装置、电子设备及存储介质

Info

Publication number: WO2020088433A1
Application number: PCT/CN2019/113899
Authority: WO
Inventors: 黄浩智; 龚新宇; 罗镜民; 朱晓龙; 刘威
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2018-10-30
Filing date: 2019-10-29
Publication date: 2020-05-07
Also published as: EP3876140B1; CN110163059A; EP3876140A4; CN110163059B; US20210073527A1; EP3876140A1; US11501574B2

Abstract

本申请公开了一种多人姿态识别方法、装置、电子设备及存储介质，多人姿态识别方法包括：获取待识别图像；构建迂回式金字塔网络，所述迂回式金字塔网络包括并联的若干阶段，每一个阶段包括下采样网络各层、上采样网络各层、以及连接于上下采样网络各层之间的第一残差连接层，不同阶段之间通过第二残差连接层连接；遍历所述迂回式金字塔网络的各阶段，包括执行如下处理：在当前阶段进行的特征图提取中，通过第一残差连接层在所述当前阶段中下采样网络各层与上采样网络各层之间进行特征传播，得到所述当前阶段的输出特征图；经由第二残差连接层，在所述当前阶段中上采样网络各层与后一个阶段中下采样网络各层之间进行特征传播，以进行所述后一个阶段对应特征图的提取；直至完成所述迂回式金字塔网络中各阶段的遍历，以最后一个阶段的输出特征图作为所述待识别图像对应的特征图；根据所述待识别图像对应的特征图进行多人姿态识别，得到所述待识别图像的姿态识别结果。

Description

多人姿态识别方法、装置、电子设备及存储介质

本申请要求于2018年10月30日提交中国专利局、申请号为201811275350.3、申请名称为“多人姿态识别方法、装置及电子设备”的中国专利申请的优先权。

技术领域

本申请涉及计算机技术领域，尤其涉及一种姿态识别方法、装置、电子设备及存储介质。

发明背景

目前，多人姿态识别技术包括两种方案：自上而下方案和自下而上方案。其中，自上而下方案需要先以包围盒的形式检测出待识别图像中的每一个人，然后再对每一个包围盒中的人进行人体关键点检测。自下而上方案则是一次性检测出待识别图像中所有人的人体关键点，并同时判断每个人体关键点所属的人。由此可知，自下而上方案相较于自上而下方案，虽然处理效率较高，但是精度不足。

为此，提出了一种基于堆叠式沙漏网络的多人姿态识别方法，来弥补自下而上方案所存在的精度不足的问题。然而，该种堆叠式沙漏网络中，特征传播依赖于卷积操作，形成了特征传播的瓶颈。

发明内容

为了解决相关技术中存在的特征传播瓶颈的问题，本申请各实施例提供一种多人姿态识别方法、装置、电子设备及存储介质。

其中，本申请所采用的技术方案为：

第一方面，一种多人姿态识别方法，包括：

获取待识别图像；

构建迂回式金字塔网络，所述迂回式金字塔网络包括并联的若干阶段，每一个阶段包括下采样网络各层、上采样网络各层、以及连接于上下采样网络各层之间的第一残差连接层，不同阶段之间通过第二残差连接层连接；

遍历所述迂回式金字塔网络的各阶段，包括执行如下处理：

在当前阶段进行的特征图提取中，通过第一残差连接层在所述当前阶段中下采样网络各层与上采样网络各层之间进行特征传播，得到所述当前阶段的输出特征图；

经由第二残差连接层，在所述当前阶段中上采样网络各层与后一个阶段中下采样网络各层之间进行特征传播，以进行所述后一个阶段对应特征图的提取；

直至完成所述迂回式金字塔网络中各阶段的遍历，以最后一个阶段的输出特征图作为所述待识别图像对应的特征图；

根据所述待识别图像对应的特征图进行多人姿态识别，得到所述待识别图像的姿态识别结果。

第二方面，一种多人姿态识别装置，包括：

图像获取模块，用于获取待识别图像；

遍历模块，用于构建迂回式金字塔网络，所述迂回式金字塔网络包括并联的若干阶段，每一个阶段包括下采样网络各层、上采样网络各层、以及连接于上下采样网络各层之间的第一残差连接层，不同阶段之间通过第二残差连接层连接；

所述遍历模块，还用于遍历所述迂回式金字塔网络的各阶段，包括执行如下处理：在当前阶段进行的特征图提取中，通过第一残差连接层在所述当前阶段中下采样网络各层与上采样网络各层之间进行特征传播，得到所述当前阶段的输出特征图；经由第二残差连接层，在所述当前阶段中上采样网络各层与后一个阶段中下采样网络各层之间进行特征传播，以进行所述后一个阶段对应特征图的提取；

所述遍历模块，还用于直至完成所述迂回式金字塔网络中各阶段的遍历，以最后一个阶段的输出特征图作为所述待识别图像对应的特征图；

姿态识别模块，用于根据所述待识别图像对应的特征图进行多人姿态识别，得到所述待识别图像的姿态识别结果。

第三方面，一种电子设备，包括处理器及存储器，所述存储器上存储有计算机可读指令，所述计算机可读指令被所述处理器执行时实现如上所述的多人姿态识别方法。

第四方面，一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的多人姿态识别方法。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图简要说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并于说明书一起用于解释本申请的原理。

图1是根据本申请所涉及的实施环境的示意图。

图2是根据一示例性实施例示出的一种电子设备的硬件结构框图。

图3是根据一示例性实施例示出的一种多人姿态识别方法的流程图。

图4是图3对应实施例所涉及的迂回式金字塔网络的结构示意图。

图5是图3对应实施例中步骤340在一个实施例的流程图。

图6为图5对应实施例所涉及的迂回式金字塔网络中当前阶段的结构示意图。

图7是根据一示例性实施例示出的另一种多人姿态识别方法的流程图。

图8为图7对应实施例所涉及的为迂回式金字塔网络构建的传播路径的结构示意图。

图9是图3对应实施例中步骤360在一个实施例的流程图。

图10为图9对应实施例所涉及的标识鼻子关键点位置的热力图的示意图。

图11为图9对应实施例所涉及的标识手腕关键点位置的热力图的示意图。

图12为图9对应实施例所涉及的标识鼻子关键点分组的分组图的示意图。

图13为图9对应实施例所涉及的标识手腕关键点分组的分组图的示意图。

图14为图9对应实施例所涉及的待识别图像的姿态识别结果的示意图。

图15是根据一示例性实施例示出的另一种多人姿态识别方法的流程图。

图16是根据一示例性实施例示出的一种多人姿态识别装置的框图。

图17是根据一示例性实施例示出的一种电子设备的框图。

通过上述附图，已示出本申请明确的实施例，后文中将有更详细的描述，这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围，而是通过参考特定实施例为本领域技术人员说明本申请的概念。

实施方式

这里将详细地对示例性实施例执行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

本申请实施例提出了一种多人姿态识别方法，解决了特征传播瓶颈的问题，进而有效地提升了姿态识别精度，相应地，该种多人姿态识别方法适用于多人姿态识别装置，此多人姿态识别装置部署于具备冯诺依曼体系结构的电子设备中，例如，电子设备可以是用户终端、服务器端等等。

图1为一种姿态识别方法所涉及的实施环境的示意图。该实施环境包括识别端110和交互端130。

其中，识别端110可以是台式电脑、笔记本电脑、平板电脑、智能手机、掌上电脑、个人数字助理或者其他可部署姿态识别装置的电子设备，例如，为用户提供姿态识别服务的服务器，在此不进行限定。

交互端130则是指体感设备、智能家居设备等可与用户实现体感交互的电子设备。此交互端130通过2G/3G/4G/5G、Wi-Fi等通信方式，与识别端110部署于同一网关，以便于实现用户与交互端130之间的体感交互。

对于识别端110而言，在获取到待识别图像之后，便可借助迂回式金字塔网络对待识别图像进行姿态识别，得到待识别图像的姿态识别结果。

值得一提的是，对于识别端110为服务器时，服务器所获取到的待识别图像可以来源于布设在用户执行动作所在环境的摄像设备，该摄像设备可实时采集用户执行动作时的图像或者视频，进而上传至服务器。

进一步地，通过待识别图像的姿态识别结果，识别待识别图像中的动作，以生成对应的交互指令，进而通过交互指令控制指定事件的执行。

例如，交互端130为一智能音箱，那么，随着识别端110与智能音箱之间的交互，智能音箱便可接收到交互指令，进而根据交互指令执行指定事件。比如指定事件为启动事件，则当用户所执行的动作符合指定姿态，便为用户启动智能音箱。

当然，根据应用场景的实际需要，在另一实施环境中，姿态识别装置还可以直接部署于交互端130，也即是，交互端130同时作为识别端。

具体而言，交互端130在获取到待识别图像之后，对待识别图像进行姿态识别，进而通过待识别图像的姿态识别结果执行指定事件。例如，交互端130为跳舞机，则通过识别用户所执行的一系列动作是否与指定舞蹈动作匹配，由此识别出用户是否按照顺序执行了一系列指定舞蹈动作，进而生成交互指令，并根据交互指令执行评分事件，即对用户所执行的动作评分。

图2是根据一示例性实施例示出的一种电子设备的硬件结构框图。该种电子设备适用于图1所示出实施环境中的识别端110，可以是台式电脑、笔记本电脑、平板电脑、掌上电脑、个人数字助理、智能手机、可穿戴设备等用户终端，或者服务器等服务端。

需要说明的是，该种电子设备只是一个适配于本申请的示例，不能认为是提供了对本申请的使用范围的任何限制。该种电子设备也不能解释为需要依赖于或者必须具有图2中示出的示例性的电子设备200中的一个或者多个组件。

电子设备200的硬件结构可因配置或者性能的不同而产生较大的差异，如图2所示，电子设备200包括：电源210、接口230、至少一存储器250、、至少一中央处理器(CPU,Central Processing Units)270、以及摄像组件290。

具体地，电源210用于为电子设备200上的各组件提供工作电压。

接口230包括至少一有线或无线网络接口231、至少一串并转换接口233、至少一输入输出接口235以及至少一USB接口237等，用于与外部设备通信。例如，与图1所示出实施环境中的交互端130交互。

存储器250作为资源存储的载体，可以是只读存储器、随机存储器、磁盘或者光盘等，其上所存储的资源包括操作系统251、应用程序253及数据255等，存储方式可以是短暂存储或者永久存储。

其中，操作系统251用于管理与控制电子设备200上的各组件以及应用程序253，以实现中央处理器270对海量数据255的计算与处理，其可以是Windows ServerTM、Mac OS XTM、UnixTM、LinuxTM、FreeBSDTM等。

应用程序253是基于操作系统251之上完成至少一项特定工作的计算机程序，其可以包括至少一模块(图2中未示出)，每个模块都可以分别包含有对电子设备200的一系列计算机可读指令。例如，多人姿态识别装置可视为部署于电子设备200的应用程序253，以实现多人姿态识别方法。

数据255可以是照片、图片，还可以是待识别图像，存储于存储器250中。

中央处理器270可以包括一个或多个以上的处理器，并设置为通过通信总线与存储器250通信，以读取存储器250中存储的计算机可读指令，进而实现对存储器250中海量数据255的运算与处理。例如，通过中央处理器270读取存储器250中存储的一系列计算机可读指令的形式来完成多人姿态识别方法。

摄像组件290，例如摄像头，用于拍摄图像或者视频。拍摄的图像或者视频可以存储至存储器250内，还可以通过接口230与外部设备通信。例如，对用户执行动作时的图像或者视频进行实时采集。

此外，通过硬件电路或者硬件电路结合软件也能同样实现本申请，因此，实现本申请并不限于任何特定硬件电路、软件以及两者的组合。

请参阅图3，在一示例性实施例中，一种多人姿态识别方法应用于电子设备，例如，用于图1所示实施环境的识别端，该识别端的结构可以如图2所示。

该种多人姿态识别方法可以由识别端执行，也可以理解为是由识别端中部署的多人姿态识别装置执行。在下述方法实施例中，为了便于描述，以各步骤的执行主体为多人姿态识别装置加以说明，但是并不对此不构成具体限定。

该种多人姿态识别方法可以包括以下步骤：

步骤310，获取待识别图像。

其中，待识别图像是对多个人进行拍摄生成的，以便于后续针对包含多个人的待识别图像进行多人姿态识别。

待识别图像，可以来源于识别端实时采集的图像，例如，识别端为智能手机，该智能手机配置了摄像头，也可以是识别端预先存储的图像，例如，识别端为服务器，进而通过本地读取或者网络传输的方式获取。

换句话说，对于部署于识别端的多人姿态识别装置而言，可以获取实时采集的待识别图像，以便于实时地对待识别图像进行多人姿态识别，还可以获取一历史时间段内采集的待识别图像，以便于在处理任务较少的时候对待识别图像进行多人姿态识别，或者，在操作人员的指示下对待识别图像进行多人姿态识别，本实施例并未对此作出具体限定。

进一步地，针对识别端所配置的摄像组件，如果该摄像组件可作为独立设备，例如，摄像机、录像机等，则可以布设于多个人所在环境的四周，以便于从不同角度拍摄该多个人，由此获得反映不同角度的多个人的待识别图像，从而有利于保障后续姿态识别的精度。

应当说明的是，拍摄可以是单次拍摄，还可以是连续性拍摄，相应地，就单次拍摄来说，得到的即为待识别图像，也即是一张图片，而对于连续性拍摄而言，得到的则是包含若干待识别图像的一段视频。由此，本申请各实施例中，进行多人姿态识别的待识别图像可以是单次拍摄的一张图片，还可以是连续性拍摄的一段视频中的某个待识别图像，本申请对此并未作出具体限定。

步骤320，构建迂回式金字塔网络，迂回式金字塔网络包括并联的若干阶段，每一个阶段包括下采样网络各层、上采样网络各层、以及连接于上下采样网络各层之间的第一残差连接层，不同阶段之间通过第二残差连接层连接。

迂回式金字塔网络包括以“迂回”形式并联的若干阶段，用于提取各阶段对应的特征图。

具体而言，每一个阶段包括下采样网络各层和上采样网络各层。其中，下采样网络各层用于进行下采样处理，以获取分辨率较低的特征，同时降低姿态识别的计算复杂度。上采样网络各层用于进行上采样处理，以逐步提高特征的分辨率，进而有利于保证姿态识别的精度。

在每一个阶段中，下采样网络各层与上采样网络各层之间建立了第一残差连接层，以便于每一个阶段中下采样网络各层与上采样网络各层之间能够进行特征传播，也即是，下采样网络各层提取得到的特征，将通过第一残差连接层传输至上采样网络各层，进一步进行特征融合，以得到各阶段对应的特征图。

如图4所示，迂回式金字塔网络包括阶段0、阶段1、阶段2、……。

以阶段0进行说明，在阶段0中，包括下采样网络401各层和上采样网络402各层，按照网络层次从低往高的顺序，分别是网络层4051、4052、4053、4054。

对于不同阶段而言，在当前阶段中上采样网络各层与后一个阶段中下采样网络各层之间建立了第二残差连接层，以便于在不同阶段之间进行特征传播。那么，后一个阶段便可基于特征传播，进行对应特征图的提取。

如图4所示，阶段0中上采样网络402各层与阶段1中下采样网络409各层之间，分别通过多个第二残差连接层404进行特征传播。

步骤330，遍历迂回式金字塔网络中的各阶段，包括执行如下步骤340和步骤350所述的处理：

步骤340，在当前阶段进行的特征图提取中，通过第一残差连接层在所述当前阶段中下采样网络各层与上采样网络各层之间进行特征传播，得到当前阶段的输出特征图。

如图4所示，在下采样网络401各层与上采样网络402各层之间，分别通过第一残差连接层403中的多层进行相应的特征传播。

由此，经由迂回式金字塔网络的阶段0，即可输出阶段0的输出特征图406。

步骤350，经由第二残差连接层，在当前阶段中上采样网络各层与后一个阶段中下采样网络各层之间进行特征传播，以进行后一个阶段对应特征图的提取。

在阶段1中，便可通过下采样网络409各层进行的特征提取、第一残差连接层411进行特征传播、以及上采样网络410各层进行的特征融合，得到阶段1的输出特征图412。

对迂回式金字塔网络中各阶段进行遍历，将相应地获得各阶段对应的特征图。

直至完成所述迂回式金字塔网络中各阶段的遍历，以最后一个阶段的输出特征图作为所述待识别图像对应的特征图。

由上可知，基于迂回式金字塔网络，特征传播依赖于第一残差连接层和第二残差连接层，避免使用卷积操作，以此避免存在特征传播瓶颈的问题。

此外，同一阶段中，通过上采样网络所进行的特征融合，以及不同阶段之间，当前阶段的输出特征图作为后一个阶段的输入，意味着在迂回式金字塔网络中不同分辨率不同尺度的特征被相互关联，而并非孤立的，从而能够有效地提升姿态识别的精度。

步骤360，根据所述待识别图像对应的特征图进行多人姿态识别，得到所述待识别图像的姿态识别结果。

通过如上所述的过程，基于迂回式金字塔网络实现的姿态识别，不仅满足姿态识别的精度要求，而且特征传播通过形成的便捷的跳转捷径进行，有效地解决了特征传播的瓶颈问题，进而有利于提升特征在迂回式金字塔网络中的传播有效性。

请参阅图5，在一示例性实施例中，对于遍历到的阶段作为当前阶段，步骤340可以包括以下步骤：

步骤331，通过下采样网络各层对当前阶段的输入特征图进行特征提取。

其中，所述下采样网络包括若干网络高层和若干网络低层。

结合图6，对当前阶段中进行的特征提取过程加以说明。输入到当前阶段的是输入特征图，当前阶段处理完毕后后获得输出特征图。

如图6所示，在所述当前阶段中，包括下采样网络501和上采样网络501’。其中，下采样网络501包括网络低层5011、5012和网络高层5013、5014。

通过所述下采样网络501中的网络低层5011、5012，提取得到输入特征图的若干局部特征，每一个局部特征对应一网络低层。

通过所述下采样网络501中的若干网络高层5013、5014，提取得到输入特征图的全局特征，每一个全局特征对应一网络高层。

也就是说，在当前阶段中，随着网络层次的加深，对待识别图像进行的特征提取中，逐渐由局部特征描述抽象为全局特征描述，进而更加准确地对待识别图像进行描述，以利于提升姿态识别的精度。

以待识别图像包含多个人为例进行说明，局部特征，也理解为语义特征，是对眼睛、鼻子、耳朵、嘴巴、肩膀、肘部、手腕、胯关节、膝盖、脚腕等人体关键部位的准确描述，而全局特征则是对人体轮廓的准确描述。

步骤333，通过第一残差连接层，将提取得到的特征从下采样网络各层传输至上采样网络各层，并在上采样网络各层进行特征融合，得到输出特征图。

在下采样网络各层完成特征提取之后，便需要通过上采样网络各层完成特征融合。具体而言，在所述上采样网络各层中，按照网络层次从高至低的顺序，对于每一层执行如下处理：将从所述第一残差连接层接收到的特征与上一层传递下来的特征进行融合，对融合后的特征进行上采样处理，将处理后的融合特征传递给下一层；将最后一层得到的处理后的融合特征作为所述输出特征图。

结合图6所示，对当前阶段中特征融合过程进行如下说明。

分别经由第一残差连接层5021、5023、5025、5027，在所述当前阶段中下采样网络501各层与上采样网络501’各层之间进行特征传播。

在所述上采样网络501’各层中，对网络最高一层5014对应的特征进行上采样处理，得到待融合特征5022。

网络次高一层5013对应的特征经由第一残差连接层5023传输到上采样网络层5031后，与待融合特征5022相融合，得到的融合后特征进行上采样处理，完成对融合后特征的更新处理，然后将融合处理后的特征5024传递给下一层5032。

同理，针对更新的融合特征5032，进行上采样处理后得到特征5026，将其与网络层5011对应的特征经由第一残差连接层5027传输到上采样网络层5033后进行融合，然后进行上采样处理。

直至完成网络其余层对应特征的遍历，以最后一层5034得到的处理后的融合特征作为所述当前阶段的输出特征图。

值得一提的是，经由上述处理获得的当前阶段的输出特征图的分辨率仅为待识别图像的分辨率的1/2。根据不同应用场景的实际需要，为了方便于后续的姿态识别，还需要对当前阶段对应的特征图进行插值，以使当前阶段的输出特征图的分辨率能够达到与待识别图像的分辨率一致。

通过上述实施例，通过反复进行的上采样处理和下采样处理，在降低姿态识别的计算复杂度的前提下，还扩大了网络感受野，充分地保障了姿态识别的精度。

请参阅图7，在一示例性实施例中，步骤340之后，如上所述的方法还可以包括以下步骤：

步骤510，对当前阶段对应的特征图进行姿态预识别，得到中间识别结果。

步骤530，将中间识别结果与输出特征图进行融合处理，将处理后的特征图经由第二残差连接层传输给后一个阶段。

为了促使迂回式金字塔网络能够尽早地学习更高层次的语义特征，本实施例中，将针对每一个阶段对应的特征图进行中间监督，以此修正姿态识别过程中间阶段的偏差。

中间监督，实质是对当前阶段对应的特征图进行姿态预识别，以使所获得的中间识别结果贴近设定的中间监督信号。其中，中间监督信号，是在迂回式金字塔网络进行网络训练过程中设定的，例如，中间监督信号可以是指损失函数的损失值。

回请参阅图4，以当前阶段为阶段0举例说明中间预测过程。

如图4所示，假设上采样网络402各层经过特征融合之后，初步得到阶段0对应的特征图4071。

通过姿态预识别，进一步获得中间识别结果4072，通过与中间监督信号4074比较，约束中间识别结果4072贴近给定的中间监督信号4074，进而将中间识别结果4072与阶段0对应的特征图4071融合，即如图4中4073所示，最终形成阶段0的输出特征图406，并以此作为阶段1的输入特征图。

在上述实施例的作用下，配合中间监督，使得迂回式金字塔网络能够尽早地学习更高层次的语义特征，并随着阶段的遍历，中间识别结果不断融合至迂回式金字塔网络，以对迂回式金字塔网络进行反复地优化，以此弥补中间识别结果的不足，进而弥补姿态识别过程中间阶段的偏差，进一步地充分保障了姿态识别的精度。

在一示例性实施例中，应当理解，经由第一残差连接层、第二残差连接层所进行的特征传播过程，方式是相同的，区别仅在于二者所连接的两侧处理层不同。为此，将针对第一残差连接层、第二残差连接层进行如下定义说明，以便于下文更好地描述特征传播过程中的共性。

相应地，如上所述的方法还可以包括以下步骤：为迂回式金字塔网络构建传播路径。其中，传播路径包括经由第一残差连接层和/或第二残差连接层中各层进行特征传播时每层所对应的路径。

结合图8所示，对经由传播路径进行特征传播过程加以说明。

具体地，通过特征压缩单元601，对待传播的特征进行维度压缩，也即是，将输入特征图的维度由H×W×C_in压缩成H×W×C_out/e，以降低传播路径上的计算复杂度，减少特征传播过程中的计算量。其中，所述特征压缩单元601包括：依次连接的归一化层(BN)、激活层(ReLU)和卷积层(Conv 1×1)。

将压缩的特征输入至多路(例如4路)并行的空洞卷积金字塔单元602，并通过拼接单元603进行特征拼接，使得在网络感受野得以扩大的同时，能够避免特征传播过程中的特征损失，有效地保障了特征在特征传播过程中的传播有效性，避免存在特征传播瓶颈的问题。其中，每一路空洞卷积金字塔单元602包括：归一化层(BN)、激活层(ReLU)、以及卷积层(Conv 1×1)或者空洞卷积层(Atrous 3×3)。

经由特征扩张单元604对拼接的特征进行维度扩张，由维度H×W×C_out/e恢复至压缩前的特征维度H×W×C_out。其中，所述特征扩张单元604包括：依次连接的归一化层(BN)、激活层(ReLU)和卷积层(Conv 1×1)。

值得一提的是，迂回式金字塔网络中，无论是第一残差连接层，还是第二残差连接层，均引入了预激活技术，进一步有利于提升姿态识别的精度。

通过上述过程，经由传播路径实现了特征在迂回式金字塔网络中同一阶段内、不同阶段间的快速传播，有利于各阶段所对应特征图的提取，既降低了自下而上方案中姿态识别时学习相同尺度特征的难度，还有效提高了姿态识别的精度，使得本申请各实施例中姿态识别的精度达到70.2％以上，优于现有技术所提出的堆叠式沙漏网络所能够达到的65.6％的精度。

进一步地，如图8所示，传播路径还包括阶段间跳转路径605。

具体地，在所述迂回式金字塔网络中的各阶段之间建立阶段间跳转路径，并将所述阶段间跳转路径添加至所述传播路径。

回请参阅图4，在阶段0中，通过阶段间跳转路径408，待识别图像也可以不经过任何的操作，或者，仅经过原尺度的卷积操作，而融合至迂回式金字塔网络中的阶段0。

换句话说，阶段间跳转路径，可视为恒等映射路径，从而保证迂回式金字塔网络在网络训练过程中达到易于训练的目的，降低了网络训练过程的难度。

请参阅图9，在一示例性实施例中，步骤360可以包括以下步骤：

步骤371，根据所述待识别图像对应的特征图进行人体关键点定位，得到标识人体关键点位置的若干热力图，每一热力图对应一种类别的人体关键点。

人体关键点，指的是人体关键位置，包括鼻子、肩膀、手腕、肘部、胯关节、膝盖、脚腕等人体关键位置，相应地，类别是指人体关键点的种类，例如，手腕关键点、鼻子关键点视为属于不同类别。那么，对于不同类别而言，存在于待识别图像中的若干人体关键点及其位置有所区别。

由此，对应于类别的热力图，用于标识该类别的人体关键点在待识别图像中的位置，通过对待识别图像对应的特征图进行人体关键点定位得到。

以待识别图像包含两个人为例，如图10所示，对应于鼻子关键点类别的热力图701，用于标识不同两个人的鼻子关键点7011在待识别图像中的位置。

如图11所示，对于手腕关键点类别的热力图702，则标识了不同两个人的手腕关键点7021在待识别图像中的位置。

在一实施例中，人体关键点定位，基于迂回金字塔网络所实现的分类器实现，即采用分类器计算人体关键点在待识别图像中不同位置出现的概率。

具体地，针对一种类别，根据所述待识别图像对应的特征图，计算所述类别的人体关键点在所述待识别图像中不同位置出现的概率。以计算得到的概率作为热力值，生成所述类别对应的热力图。

也就是说，某个位置在热力图中的热力值越大，表示在待识别图像中对应该位置出现该类别的人体关键点的概率越大。

步骤373，根据所述待识别图像对应的特征图进行人体关键点分组，得到标识人体关键点分组的若干分组图，每一分组图对应一种类别的人体关键点。

其中，对应于类别的分组图，用于标识该类别的人体关键点所属分组。

在一实施例中，人体关键点分组，也是由迂回金字塔网络所实现的分类器实现的，即采用分类器计算人体关键点属于不同分组的概率。

具体地，针对一种类别，根据所述待识别图像对应的特征图，计算所述类别的人体关键点属于不同分组的概率。

根据计算得到的概率确定所述类别的人体关键点所属分组。也即是，计算得到的概率越大，表示该类别的人体关键点属于该分组的可能性越大。例如，类别A的人体关键点属于分组B1的概率为P1，类别A的人体关键点属于分组B2的概率为P2，如果P1>P2，表示类别A的人体关键点属于分组B1，反之，如果P1<P2，表示类别A的人体关键点属于分组B2。

在所述待识别图像中按照所确定分组进行标记，生成所述类别对应的分组图。也就是说，在对应于类别的分组图中，通过不同标记表示人体关键点所属不同分组，也即是，不同标记表示人体关键点在分组图中属于不同的人。其中，标记可以是指颜色、线的形式(例如虚线、实线)等，本实施例在此并未作出具体限定。

仍以待识别图像包含两个人(即存在两个分组：女孩和男孩)为例，如图12所示，鼻子关键点7011在分组图701中属于女孩，由灰色标记，鼻子关键点7011在分组图701中则属于男孩，由黑色标记。

如图13所示，手腕关键点7021在分组图702中属于女孩，由灰色标记，手腕关键点7021在分组图702中则属于男孩，由黑色标记。

应当说明的是，步骤371和步骤373并无执行先后顺序，对于迂回式金字塔网络而言，热力图和分组图是同时输出的。

步骤375，根据若干热力图和若干分组图分别标识的人体关键点的位置和分组，在所述待识别图像中将同一分组、不同类别的人体关键点位置之间建立连接，得到所述待识别图像的姿态识别结果。

在获得热力图和分组图之后，属于同一分组，也即是属于同一个人，不同类别的人体关键点便可按照设定的连接关系，在待识别图像中将对应的人体关键点位置之间建立连接，由此即得到待识别图像的姿态识别结果。

例如，如图14所示，针对每一个人，鼻子关键点、肩膀关键点、手腕关键点、肘部关键点、胯关节关键点、膝盖关键点、脚腕关键点等人体关键点在待识别图像中的位置之间建立了连接，由此即得到待识别图像的姿态识别结果。

也可以理解为，姿态识别结果，反映了待识别图像中每一个人所包含各人体关键点之间的连接关系，通过该连接关系来表示对应人体的姿态。

通过上述过程，结合热力图和分组图，基于迂回式金字塔网络的多人姿态识别，不仅能够确定不同个人的人体关键点在待识别图像中的位置，还同时确定了不同个人的人体关键点在待识别图像中所属的不同分组，极大地提高了姿态识别的处理效率，尤其是多人姿态识别时的处理效率。

在此补充说明的是，迂回式金字塔网络，在网络训练过程中，以人体关键点定位信息和人体关键点分组信息作为监督信号，参与网络训练，以此保证完成网络训练之后，迂回式金字塔网络便可实现同时对人体关键点进行定位和分组，以此确保姿态识别的处理效率。

其中，人体关键点定位信息，与标注了不同类别的人体关键点位置的待识别图像样本有关；人体关键点分组信息，则与标注了不同类别的人体关键点所属分组的待识别图像样本有关。

请参阅图15，在一示例性实施例中，步骤360之后，如上所述的方法还可以包括以下步骤：

步骤810，通过对待识别图像的姿态识别结果与指定姿态之间进行匹配，对待识别图像中的动作进行识别。

步骤830，根据识别得到的动作生成对应的交互指令，通过所述交互指令控制指定事件执行。

在一应用场景中，识别端为智能电视，交互端为一体感设备。

交互式应用，例如双人网球体感游戏客户端，也即是姿态识别装置，部署于智能电视，随着交互式应用在智能电视上运行，通过智能电视所配置的显示屏幕向用户展示网球游戏场景。

假设用户借由网球拍体感设备执行了挥拍动作，对于运行于智能电视的交互式应用而言，将针对采集到的待识别图像进行多人姿态识别，如果姿态识别结果所表示的用户姿态与指定挥拍姿态相匹配，则识别到用户执行了挥拍动作。

进一步地，交互式应用便可通过上述识别生成指示用户已执行挥拍动作的交互指令，从而控制智能电视执行显示事件。

具体而言，在显示屏幕所展示的网球游戏场景中，根据交互指令控制网球游戏场景中的虚拟用户角色执行相应的挥拍动作，从而实现了用户与体感设备之间的体感交互。

上述应用场景中，姿态识别服务为基于人体姿态的交互式应用提供了基础，极大地丰富了用户的娱乐体验。

下述为本申请装置实施例，可以用于执行本申请所涉及的多人姿态识别方法。对于本申请装置实施例中未披露的细节，请参照本申请所涉及的多人姿态识别方法的方法实施例。

请参阅图16，在一示例性实施例中，一种多人姿态识别装置900包括但不限于：图像获取模块910、遍历模块930和姿态识别模块950。

其中，图像获取模块910，用于获取待识别图像。

遍历模块930，用于构建迂回式金字塔网络，所述迂回式金字塔网络包括并联的若干阶段，每一个阶段包括下采样网络各层、上采样网络各层、以及连接于上下采样网络各层之间的第一残差连接层，不同阶段之间通过第二残差连接层连接。

所述遍历模块930，还用于遍历所述迂回式金字塔网络的各阶段，包括执行如下处理：在当前阶段进行的特征图提取中，通过第一残差连接层在所述当前阶段中下采样网络各层与上采样网络各层之间进行特征传播，得到所述当前阶段的输出特征图；经由第二残差连接层，在所述当前阶段中上采样网络各层与后一个阶段中下采样网络各层之间进行特征传播，以进行所述后一个阶段对应特征图的提取。

所述遍历模块930，还用于直至完成所述迂回式金字塔网络中各阶段的遍历，以最后一个阶段的输出特征图作为所述待识别图像对应的特征图。

姿态识别模块950，用于根据所述待识别图像对应的特征图进行姿态识别，得到所述待识别图像的姿态识别结果。

在一示例性实施例中，所述遍历模块930包括但不限于：特征提取单元和特征融合单元。

其中，特征提取单元，用于通过所述下采样网络各层对所述当前阶段的输入特征图进行特征提取。

特征融合单元，用于通过所述第一残差连接层，将提取得到的特征从所述下采样网络各层传输至所述上采样网络各层，并在所述上采样网络各层进行特征融合，得到所述输出特征图。

在一示例性实施例中，所述下采样网络包括若干网络高层和若干网络低层。

所述特征提取单元包括但不限于：局部特征提取子单元和全局特征提取子单元。

其中，局部特征提取子单元，用于通过所述若干网络低层，提取得到所述输入特征图的若干局部特征，每一个局部特征对应一网络低层。

全局特征提取子单元，用于通过所述若干网络高层，提取得到所述输入特征图的若干全局特征，每一个全局特征对应一网络高层。

在一示例性实施例中，所述特征融合单元包括但不限于：融合子单元和特征图获取子单元。

其中，融合子单元，用于在所述上采样网络各层中，按照网络层次从高至低的顺序，对于每一层执行如下处理：将从所述第一残差连接层接收到的特征与上一层传递下来的特征进行融合，对融合后的特征进行上采样处理，将处理后的融合特征传递给下一层。

特征图获取子单元，用于将最后一层得到的处理后的融合特征作为所述输出特征图。

在一示例性实施例中，所述装置900还包括但不限于：预识别模块和结果融合模块。

其中，预识别模块，用于对所述输出特征图进行姿态预识别，得到中间识别结果。

结果融合模块，用于将所述中间识别结果与所述输出特征图进行融合处理，将处理后的特征图经由所述第二残差连接层传输给所述后一个阶段。

在一示例性实施例中，所述装置900还包括但不限于：传播路径构建模块，用于为所述迂回式金字塔网络构建传播路径，所述传播路径包括经由所述第一残差连接层和/或所述第二残差连接层中各层进行特征传播时每层所对应的路径。

具体地，所述传播路径构建模块包括但不限于：特征压缩单元、空洞卷积单元和特征扩张单元。

其中，特征压缩单元，用于通过特征压缩单元，对待传播的特征进行维度压缩。

空洞卷积单元，用于将压缩的特征输入至多路并行的空洞卷积金字塔单元，并通过拼接单元进行特征拼接。

特征扩张单元，用于经由特征扩张单元，对拼接的特征进行维度扩张，恢复至进行传播时的特征维度。

进一步地，所述特征压缩单元和所述特征扩张单元均包括：依次连接的归一化层、激活层和卷积层。

在一示例性实施例中，所述传播路径构建模块还包括但不限于：跳转路径建立单元。

其中，跳转路径建立单元，用于在所述迂回式金字塔网络中的各阶段之间建立阶段间跳转路径，并将所述阶段间跳转路径添加至所述传播路径。

在一示例性实施例中，所述姿态识别模块950包括但不限于：热力图获取单元、分组图获取单元和关键点位置连接单元。

其中，热力图获取单元，用于根据所述待识别图像对应的特征图进行人体关键点定位，得到标识人体关键点位置的若干热力图，每一热力图对应一种类别的人体关键点。

分组图获取单元，用于根据所述待识别图像对应的特征图进行人体关键点分组，得到标识人体关键点分组的若干分组图，每一分组图对应一种类别的人体关键点。

关键点位置连接单元，用于根据若干热力图和若干分组图分别标识的人体关键点位置和分组，在所述待识别图像中将同一分组、不同类别的人体关键点位置之间建立连接，得到所述待识别图像的姿态识别结果。

在一示例性实施例中，所述热力图获取单元包括但不限于：位置概率计算子单元和热力图生成子单元。

其中，位置概率计算子单元，用于针对一种类别，根据所述待识别图像对应的特征图，计算所述类别的人体关键点在所述待识别图像中不同位置出现的概率。

热力图生成子单元，用于以计算得到的概率作为热力值，生成所述类别对应的热力图。

在一示例性实施例中，所述分组图获取单元包括但不限于：分组概率计算子单元、分组确定子单元和分组图生成子单元。

其中，分组概率计算子单元，用于针对一种类别，根据所述待识别图像对应的特征图，计算所述类别的人体关键点属于不同分组的概率。

分组确定子单元，用于根据计算得到的概率确定所述类别的人体关键点所属分组。

分组图生成子单元，用于在所述待识别图像中按照所确定分组进行标记，生成所述类别对应的分组图。

在一示例性实施例中，所述装置900还包括但不限于：动作识别模块和控制交互模块。

其中，动作识别模块，用于通过对所述待识别图像的姿态识别结果与指定姿态之间进行匹配，对所述待识别图像中的动作进行识别。

控制交互模块，用于根据识别得到的动作生成对应的交互指令，通过所述交互指令控制指定事件执行。

需要说明的是，上述实施例所提供的多人姿态识别装置在进行多人姿态识别处理时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即多人姿态识别装置的内部结构将划分为不同的功能模块，以完成以上描述的全部或者部分功能。

另外，上述实施例所提供的多人姿态识别装置与多人姿态识别方法的实施例属于同一构思，其中各个模块执行操作的具体方式已经在方法实施例中进行了详细描述，此处不再赘述。

请参阅图17，在一示例性实施例中，一种电子设备1000，包括至少一处理器1001、至少一存储器1002、以及至少一通信总线1003。

其中，存储器1002上存储有计算机可读指令，处理器1001通过通信总线1003读取存储器1002中存储的计算机可读指令。

该计算机可读指令被处理器1001执行时实现上述各实施例中的多人姿态识别方法。

在一示例性实施例中，一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述各实施例中的多人姿态识别方法。

上述内容，仅为本申请的较佳示例性实施例，并非用于限制本申请的实施方案，本领域普通技术人员根据本申请的主要构思和精神，可以十分方便地进行相应的变通或修改，故本申请的保护范围应以权利要求书所要求的保护范围为准。

Claims

一种多人姿态识别方法，其特征在于，由电子设备执行，包括：

获取待识别图像；

构建迂回式金字塔网络，所述迂回式金字塔网络包括并联的若干阶段，每一个阶段包括下采样网络各层、上采样网络各层、以及连接于上下采样网络各层之间的第一残差连接层，不同阶段之间通过第二残差连接层连接；

遍历所述迂回式金字塔网络的各阶段，包括执行如下处理：

在当前阶段进行的特征图提取中，通过第一残差连接层在所述当前阶段中下采样网络各层与上采样网络各层之间进行特征传播，得到所述当前阶段的输出特征图；

经由第二残差连接层，在所述当前阶段中上采样网络各层与后一个阶段中下采样网络各层之间进行特征传播，以进行所述后一个阶段对应特征图的提取；

直至完成所述迂回式金字塔网络中各阶段的遍历，以最后一个阶段的输出特征图作为所述待识别图像对应的特征图；

根据所述待识别图像对应的特征图进行多人姿态识别，得到所述待识别图像的姿态识别结果。
如权利要求1所述的方法，其中，所述在当前阶段进行的特征图提取中，通过第一残差连接层在所述当前阶段中下采样网络各层与上采样网络各层之间进行特征传播，得到所述当前阶段的输出特征图，包括：

通过所述下采样网络各层对所述当前阶段的输入特征图进行特征提取；

通过所述第一残差连接层，将提取得到的特征从所述下采样网络各层传输至所述上采样网络各层，并在所述上采样网络各层进行特征融合，得到所述输出特征图。
如权利要求2所述的方法，其中，所述下采样网络包括若干网络高层和若干网络低层；

所述通过所述下采样网络各层对所述当前阶段的输入特征图进行特征提取，包括：

通过所述若干网络低层，提取得到所述输入特征图的若干局部特征，每一个局部特征对应一网络低层；

通过所述若干网络高层，提取得到所述输入特征图的若干全局特征，每一个全局特征对应一网络高层。
如权利要求2所述的方法，其中，所述在所述上采样网络各层进行特征融合，得到所述输出特征图，包括：

在所述上采样网络各层中，按照网络层次从高至低的顺序，对于每一层执行如下处理：将从所述第一残差连接层接收到的特征与上一层传递下来的特征进行融合，对融合后的特征进行上采样处理，将处理后的融合特征传递给下一层；

将最后一层得到的处理后的融合特征作为所述输出特征图。
如权利要求1所述的方法，其中，所述在当前阶段进行的特征图提取中，通过第一残差连接层在所述当前阶段中下采样网络各层与上采样网络各层之间进行特征传播，得到所述当前阶段的输出特征图之后，所述方法还包括：

对所述输出特征图进行姿态预识别，得到中间识别结果；

将所述中间识别结果与所述输出特征图进行融合处理，将处理后的特征图经由所述第二残差连接层传输给所述后一个阶段。
如权利要求1至5中任一项所述的方法，还包括：

为所述迂回式金字塔网络构建传播路径，所述传播路径包括经由所述第一残差连接层和/或所述第二残差连接层中各层进行特征传播时每层所对应的路径。
如权利要求6所述的方法，其中，所述为所述迂回式金字塔网络构建传播路径，包括：

通过特征压缩单元，对待传播的特征进行维度压缩；

将压缩的特征输入至多路并行的空洞卷积金字塔单元，并通过拼接单元进行特征拼接；

经由特征扩张单元，对拼接的特征进行维度扩张，恢复至压缩前的特征维度。
如权利要求7所述的方法，其中，所述特征压缩单元和所述特征扩张单元均包括依次连接的归一化层、激活层和卷积层。
如权利要求6所述的方法，还包括：

在所述迂回式金字塔网络中的各阶段之间建立阶段间跳转路径，并将所述阶段间跳转路径添加至所述传播路径。
如权利要求1所述的方法，其中，所述根据所述待识别图像对应的特征图进行多人姿态识别，得到所述待识别图像的姿态识别结果，包括：

根据所述待识别图像对应的特征图进行人体关键点定位，得到标识人体关键点位置的若干热力图，每一热力图对应一种类别的人体关键点；

根据所述待识别图像对应的特征图进行人体关键点分组，得到标识人体关键点分组的若干分组图，每一分组图对应一种类别的人体关键点；

根据若干热力图和若干分组图分别标识的人体关键点位置和分组，在所述待识别图像中将同一分组、不同类别的人体关键点位置之间建立连接，得到所述待识别图像的姿态识别结果。
如权利要求10所述的方法，其中，所述根据所述待识别图像对应的特征图进行人体关键点定位，得到标识人体关键点位置的若干热力图，包括：

针对一种类别，根据所述待识别图像对应的特征图，计算所述类别的人体关键点在所述待识别图像中不同位置出现的概率；

以计算得到的概率作为热力值，生成所述类别对应的热力图。
如权利要求10所述的方法，其中，所述根据所述待识别图像对应的特征图进行人体关键点分组，得到标识人体关键点分组的若干分组图，包括：

针对一种类别，根据所述待识别图像对应的特征图，计算所述类别的人体关键点属于不同分组的概率；

根据计算得到的概率确定所述类别的人体关键点所属分组；

在所述待识别图像中按照所确定分组进行标记，生成所述类别对应的分组图。
如权利要求1、10、11或12任一项所述的方法，其中，所述根据所述待识别图像对应的特征图进行姿态识别，得到所述待识别图像的姿态识别结果之后，所述方法还包括：

通过对所述待识别图像的姿态识别结果与指定姿态之间进行匹配，对所述待识别图像中的动作进行识别；

根据识别得到的动作生成对应的交互指令，通过所述交互指令控制指定事件执行。
一种多人姿态识别装置，其特征在于，包括：

图像获取模块，用于获取待识别图像；

遍历模块，用于构建迂回式金字塔网络，所述迂回式金字塔网络包括并联的若干阶段，每一个阶段包括下采样网络各层、上采样网络各层、以及连接于上下采样网络各层之间的第一残差连接层，不同阶段之间通过第二残差连接层连接；

所述遍历模块，还用于遍历所述迂回式金字塔网络的各阶段，包括执行如下处理：在当前阶段进行的特征图提取中，通过第一残差连接层在所述当前阶段中下采样网络各层与上采样网络各层之间进行特征传播，得到所述当前阶段的输出特征图；经由第二残差连接层，在所述当前阶段中上采样网络各层与后一个阶段中下采样网络各层之间进行特征传播，以进行所述后一个阶段对应特征图的提取；

所述遍历模块，还用于直至完成所述迂回式金字塔网络中各阶段的遍历，以最后一个阶段的输出特征图作为所述待识别图像对应的特征图；

姿态识别模块，用于根据所述待识别图像对应的特征图进行多人姿态识别，得到所述待识别图像的姿态识别结果。
一种电子设备，其特征在于，包括：

处理器；及

存储器，所述存储器上存储有计算机可读指令，所述计算机可读指令被所述处理器执行时实现如权利要求1至13中任一项所述的多人姿态识别方法。
一种计算机可读存储介质，其特征在于，存储有计算机可读指令，可以使至少一个处理器执行如权利要求1至13中任一项所述的多人姿态识别方法。