WO2021098441A1

WO2021098441A1 - 手部姿态估计方法、装置、设备以及计算机存储介质

Info

Publication number: WO2021098441A1
Application number: PCT/CN2020/122933
Authority: WO
Inventors: 周扬
Original assignee: Oppo广东移动通信有限公司
Priority date: 2019-11-20
Filing date: 2020-10-22
Publication date: 2021-05-27
Also published as: US20220358326A1

Abstract

本申请实施例公开了一种手部姿态估计方法、装置、设备以及计算机存储介质，该方法包括：确定多个关键点各自对应的分类逻辑图；其中，所述多个关键点表示目标手部的骨架关键节点，第一关键点为所述多个关键点中任意一关键点；基于所述第一关键点对应的分类逻辑图，确定预设分类图中每一网格的三元组信息；根据所述预设分类图中每一网格的三元组信息，确定所述第一关键点的坐标信息；在确定出所述多个关键点各自的坐标信息后，得到所述目标手部的姿态估计结果。

Description

手部姿态估计方法、装置、设备以及计算机存储介质

相关申请的交叉引用

本申请基于申请号为62/938,190、申请日为2019年11月20日、申请名称为“COMPACT SEGMENTATION HEAD FOR EFFICIENT 3D HAND POSE ESTIMATION FOR A MOBILE TOF CAMERA”的在先美国临时专利申请提出，并要求该在先美国临时专利申请的优先权，该在先美国临时专利申请的全部内容在此以全文引入的方式引入本申请作为参考。

技术领域

本申请实施例涉及图像识别技术领域，尤其涉及一种手部姿态估计方法、装置、设备以及计算机存储介质。

背景技术

从图像中准确有效地重建人手运动的能力，在沉浸式虚拟现实和增强现实、机器人控制和手语识别等领域有着令人兴奋的新应用。近年来，尤其是随着消费者深度相机的到来，重建手部的运动也取得了很大的进步。然而，由于不受约束的全局和局部姿态变化、频繁的遮挡、局部自相似性和高清晰度等特点，导致手部姿态估计结果并不准确。

发明内容

本申请提供一种手部姿态估计方法、装置、设备以及计算机存储介质，可以提高手部姿态估计的准确度，用以得到高精度的手部姿态估计结果。

本申请的技术方案可以如下实现：

第一方面，本申请实施例提供了一种手部姿态估计方法，所述方法包括：

获取待处理图像中手部区域对应的初始特征图；

对所述初始特征图进行特征融合处理，得到融合后特征图；所述特征融合处理用于对多个关键点周围的特征进行融合；所述多个关键点表示所述手部区域的骨架关键节点；

对所述融合后特征图进行反卷积处理，得到目标特征图；所述反卷积处理用于调整所述融合后特征图的分辨率；

基于所述目标特征图，得到所述多个关键点的坐标信息，以确定所述待处理图像中手部区域的姿态估计结果。

第二方面，提供一种手部姿态估计装置，所述装置包括：

获取单元，用于获取待处理图像中手部区域对应的初始特征图；

第一处理单元，对所述初始特征图进行特征融合处理，得到融合后特征图；所述特征融合处理用于对多个关键点周围的特征进行融合；所述多个关键点表示所述手部区域的骨架关键节点；

第二处理单元，用于对所述融合后特征图进行反卷积处理，得到目标特征图；所述反卷积处理用于调整所述融合后特征图的分辨率；

姿态估计单元，用于基于所述目标特征图，得到所述多个关键点的坐标信息，以确定所述待处理图像中手部区域的姿态估计结果。

第三方面，提供一种电子设备，所述电子设备包括存储器和处理器；其中，

所述存储器，用于存储能够在所述处理器上运行的可执行指令；

所述处理器，用于在运行所述可执行指令时，执行如第一方面所述的方法。

第四方面，本申请实施例提供了一种计算机存储介质，所述计算机存储介质存储有手部姿态估计程序，所述手部姿态估计程序被处理器执行时实现如第一方面所述的方法。

本申请实施例提供了一种手部姿态估计方法、装置、设备以及计算机存储介质，首先获取待处理图像中手部区域对应的初始特征图；对所述初始特征图进行特征融合处理，得到融合后特征图；所述特征融合处理用于对多个关键点周围的特征进行融合；所述多个关键点表示所述手部区域的骨架关键节点；对所述融合后特征图进行反卷积处理，得到目标特征图；所述反卷积处理用于调整所述融合后特征图的分辨率；基于所述目标特征图，得到所述多个关键点的坐标信息，以确定所述待处理图像中手部区域的姿态估计结果，这样，通过对待处理图像中手部区域的特征图进行特征融合和反卷积处理，能够充分融合不同关键点的信息，提高手部姿态估计的准确性，得到高精度的手部姿态估计结果。

附图说明

图1为相关技术方案提供的一种TOF相机所拍摄的图像示意图；

图2为相关技术方案提供的一种手部包围盒的检测结果示意图；

图3为相关技术方案提供的一种手部骨架的关键点位置示意图；

图4为相关技术方案提供的一种二维手部的姿态估计结果示意图；

图5为相关技术方案提供的一种传统手部姿态检测的流程示意图；

图6为相关技术方案提供的一种RoIAlign双线性差值效果示意图；

图7为相关技术方案提供的一种非最大值抑制的结构示意图；

图8为相关技术方案提供的一种并集与交集的结构示意图；

图9为本申请实施例提供的一种手部姿态估计方法的流程示意图；

图10为本申请实施例提供的一种示例性的手部姿态估计方法的网络架构示意图；

图11为本申请实施例提供的一种手部姿态估计头对应的架构示意图；

图12为本申请实施例提供的一种第一卷积网络结构组成示意图；

图13为本申请实施例提供的一种掩膜区域卷积神经网络架构图；

图14为本申请实施例提供的另一种手部姿态估计方法的网络架构示意图；

图15为本申请实施例提供的一种示例性的手部姿态估计期间的沙漏网络特征图；

图16为本申请实施例提供的一种手部姿态估计装置的组成结构示意图；

图17为本申请实施例提供的一种电子设备的具体硬件结构示意图。

具体实施方式

为了能够更加详尽地了解本申请实施例的特点与技术内容，下面结合附图对本申请实施例的实现进行详细阐述，所附附图仅供参考说明之用，并非用来限定本申请实施例。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。

实际应用中，由于手部姿估计别具有能够从图像中准确估计出人手骨架节点的三维坐标位置，以从图像中准确有效地重建人手运动的能力，因此广泛应用于沉浸式虚拟现实和增强现实、机器人控制以及手语识别等领域，成为了计算机视觉和人机交互领域的一个关键问题，随着商用、低廉的深度相机的兴起和发展，手部姿态识别取得了巨大的进步。

尤其是近年来深度相机的成功研发，使得手部姿态估计的技术取得了更大的进步。其中，深度相机包括有结构光、激光扫描和飞行时间(Time of Fight，TOF)相机等几种，大多数情况下深度相机是指TOF相机。所谓飞行时间法的三维(Three Dimension，3D)成像，是通过向目标对象连续发送光脉冲，然后利用传感器接收从目标对象返回的光，通过探测光脉冲的飞行(往返)时间来得到与目标对象的距离。也就是说，TOF相机是一种距离成像相机系统，它利用飞行时间法，通过测量由激光或发光二极管(Light Emitting Diode，LED)提供的人工光信号的往返时间，从而计算出TOF相机和被摄对象之间在图像上每个点之间的距离。

具体的，TOF相机输出一个尺寸为H×W的图像，这个二维(Two Dimension，2D)图像上的每一个像素值可以代表该像素的深度值；其中，像素值的范围为0～3000毫米(millimeter，mm)。图1示出了相关技术方案提供的一种TOF相机所拍摄的图像示意图。在本申请实施例中，可以将TOF相机所拍摄的图像称为深度图像。

进一步的，可以对TOF相机所拍摄的深度图像进行目标检测，假定目标为人体的手部，那么手部检测的输入为图1所示的深度图像，然后输出可以为深度图中手部存在的概率(如0到1之间的数字，较大的值表示手部存在的置信度较大)和手部包围盒(即表示手的位置和大小的包围盒)。其中，包围盒(bounding box)即边界框。这里，包围盒可以表示为(xmin，ymin，xmax，ymax)，其中，(xmin，ymin)表示包围盒的左上角位置，(xmax，ymax)是包围盒的右下角。

示例性的，图2为相关技术中手部包围盒的检测结果示意图。如图2所示，黑色矩形框即为手部包围盒，而且该手部包围盒的分数高达0.999884，即深度图中存在手部的置信度高达0.999884。

进一步的，一方面，可以基于目标检测结果继续进行二维手部姿态估计。具体的，输出为手部骨架的二维关键点位置。图3为相关技术中手部骨架的关键点位置示例图，如图3所示，手部骨架设置有20个关键点，每一个关键点位置如图3中的0～19所示。其中，每一个关键点位置可以用2D坐标信息(x，y)表示。在确定出这20个关键点的坐标信息之后，便可以生成二维手部姿态估计结果。示例性的，基于图3所示的手部关键点二维坐标，图4为相关技术中二维手部姿态估计结果。

另一方面，也可以基于目标检测结果继续进行三维手部姿态估计。具体的，输出为手部骨架的三维关键点位置，其手部骨架的关键点位置示例仍如图3所示。这其中，每一个关键点位置可以用3D坐标信息(x，y，z)，z为深度方向的坐标信息。

目前，典型的手部姿态检测流程可以包括手部检测部分和手部姿态估计部分，其中，手部检测部分可以包括主干特征提取器和包围盒检测头部模块，手部姿态估计部分可以包括主干特征提取器和姿态估计头部模块。示例性地，图5为相关技术中手部姿态检测的流程示意图，如图5所示，在得到一张包括有手部的原始深度图像后，首先可以进行手部检测，即利用手部检测部分中所包括的主干特征提取器和包围盒检测头部模块进行检测处理；这时候还可以通过调整包围盒边界，然后利用调整后的包围盒进行图像裁剪，并对裁剪后的图像进行手部姿态估计，即利用手部姿态估计部分中所包括的主干特征提取器和姿态估计头部模块进行姿态估计处理。

需要注意的是，相关技术中的手部姿态检测过程中，手部检测和手部姿势估计这两个部分的任务是完全分开的。为了连接这两个任务，可以将输出包围盒的位置调整为包围盒内像素的质心，并将包围盒的大小稍微放大以包含所有的手部像素。进一步的，调整后的包围盒用于裁剪原始深度图像，将裁剪后的图像输入到手部姿态估计这个任务中。需注意，图5所示的手部姿态检测过程中，两次使用主干特征提取器提取图像特征，将会存在重复计算的问题，增加了计算量。

为了解决上述计算量较大的问题，我们可以引入感兴趣区域匹配(RoIAlign)算法。具体的，RoIAlign是一种区域特征聚集方式，可以很好地解决ROI Pooling操作中两次量化造成的区域不匹配的问题。在检测任务中，将ROI Pooling替换为RoIAlign可以提升检测结果的准确性。也就是说，RoIAlign层消除了RoI Pooling的严格量化，将提取的特征与输入进行正确对齐。

可见，RoIAlign可以避免RoI边界或区域的任何量化，(如，使用x/16代替[x/16]。另外，还可以使用双线性插值的方式来计算每一个RoI区域中四个定期采样位置的输入特征的精确值，并汇总结果(使用最大值或平均值)，图6为相关技术中RoIAlign双线性插值效果示意图，如图6所示，虚线网格表示一个特征图，加粗实线表示一个RoI(如2×2个区域)，每个区域中有4个采样点。RoIAlign可以利用特征图上相邻网格点进行双线性插值计算，以得到每个采样点的值，且针对RoI、RoI区域或多个采样点，也不会对所涉及的任何坐标执行量化。这里，需要注意的是，只要不执行量化，检测结果对采样位置的准确度或采样点的数量均不敏感。

另外，在利用手部包围盒的目标检测方面，非最大值抑制(Non-Maximum Suppression，NMS)得到了广泛的应用，是边缘、角点或目标检测等多种检测方法的组成部分，能够克服原有检测检测算法对感兴趣概念的定位能力不完善，导致多个检测组出现在实际位置附近的缺陷。

具体的，在目标检测的背景下，基于滑动窗口的方法通常会产生多个得分较高的窗口，这些窗口靠近目标的正确位置，然而由于目标检测器的泛化能力、响应函数的光滑性和近窗视觉相关性的结果，导致这种相对密集的输出对于理解图像的内容通常是不令人满意的。也就是说，在这一步中，窗口假设的数量与图像中对象的实际数量不相关。因此，NMS的目标是每个检测组只保留一个窗口，对应于响应函数的精确局部最大值，理想情况下每个对象只获得一个检测。图7为相关技术中NMS的效果示意图，如图7所示，NMS的目的只是保留一个窗口(如图7中的加粗灰色矩形框)。

进一步的，图8为相关技术中并集与交集的示意图，如图8所示，给定了两个边界框，分别用BB1和BB2表示。这里，(a)中的黑色区域为BB1和BB2的交集，用BB1∩BB2表示，即BB1和BB2的重叠区域；(b)中的黑色区域为BB1和BB2的并集，用BB1∪BB2表示，即BB1和BB2的合并区域。具体地，交并比(用IoU表示)的计算公式如下所示，

另外，手部姿态估计中，图像中每一个像素坐标可以用XYZ坐标系表示，也可以用UVD坐标系表示。这里，(x，y，z)是XYZ坐标系下的像素坐标，(u，v，d)是UVD坐标系下的像素坐标。假定C _x和C _y表示主点坐标，理想情况下应该位于图像的中心；f _x和f _y分别是x方向和y方向上的焦距，具体的，UVD坐标系与XYZ坐标系之间的换算关系如下式所示，

目前，手部姿态估计方案要么是利用全连接层回归手部的关键点坐标，要么是采用基于分类的方法预测关键点的空间位置。具体的，基于回归的方法是以全局的方式计算手部姿态，即利用关键点特征的所有信息来预测每个关键点；相比之下，基于分类的方法则偏向于更局部的方式，即逐步获取相邻关键点的特征。由于手部不受约束的全局和局部姿态变化、频繁的遮挡、局部自相似性以及高清晰度等特点，因此，如何更准确的进行手部姿态估计是一项具有挑战性的任务。

为了解决相关技术中手部姿态估计存在的问题，本申请实施例提供了一种手部姿态估计方法、装置、设备、及计算机存储介质。具体的，手部姿态估计装置在获取手部区域的特征图之后，可以通过对图像特征图进行特征融合处理，对手部区域的特征图进行更深层次图像信息获取，以充分融合手部区域不同关键点的信息，接着对特征融合后的特征图进行反卷积处理，来扩大图像的分辨率，以进一步实现手部姿态估计；如此，本申请手部姿态估计装置能够充分融合不同关键点的信息，从而提高手部姿态估计的效率和准确度。

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。

本申请一实施例提供了一种手部姿态估计方法，该手部姿态估计的可以应用于手部姿态估计装置，或者集成有该装置的电子设备。其中，电子设备可以是智能手机、平板电脑、笔记本电脑、掌上电脑、个人数字助理(Personal Digital Assistant，PDA)、导航装置、可穿戴设备、台式计算机等，本申请实施例不作任何限定。

图9为本申请实施例提供的一种手部姿态估计方法的流程示意图。如图9所示，本申请实施例提供的手部姿态估计方法可以包括以下步骤：

步骤910、获取待处理图像中手部区域对应的初始特征图。

在本申请提供的实施例中，手部姿态估计装置可以先获取待处理图像中手部区域对应的初始特征图。

具体的，在本申请提供的实施例中，手部姿态估计装置可以预先获取包含手部的待处理图像，并对该待处理图像的图像内容进行检测和识别，确定待处理图像中的手部区域，进一步通过特定的特征提取方法对待处理图像中手部区域进行特征提取，得到待处理图像中手部区域对应的初始特征图，这里，初始特征图可以是进行浅层次特征提取的特征图，例如RoIAlign特征图，RoI Pooling特征图等。

在一可能的实现方式中，初始特征图为RoIAlign特征图；即手部姿态估计装置在获取到待处理图像的手部区域之后，使用如图6对应的基于RoIAlign特征提取方法构建的RoIAlign特征提取器，对待处理图像的手部区域进行浅层次的特征提取，包括手的大概轮廓、边缘位置，从而获取手部这一目标对象对应的RoIAlign特征图。

进一步地，在本申请的实施例中，手部姿态估计装置在获取待处理图像对应的RoIAlign特征图之后，可以进一步基于RoIAlign特征图进行更深层次图像信息地提取。

步骤920、对初始特征图进行特征融合处理，得到融合后特征图；特征融合处理用于对多个关键点周围的特征进行融合；多个关键点表示手部区域的骨架关键节点。

可以理解的是，针对人的手部来说，手部的骨架关键节点即关键点可以有多个，通常情况下手部至少包括有20个关键点，在本申请的实施例中，20个关键点在手部的具体位置如图3所示。

在本申请提供的实施例中，手部姿态估计装置可以在初始特征图的基础上，对初始特征图进一步进行深层次的图像特征提取，融合手部区域中多个关键点周围的特征，得到融合后的特征图。

可以理解的是，特征融合处理是对初始特征图进行一步步抽象的过程，本申请提供的实施例中，手部姿态估计装置可以对初始特征图进行多层的卷积处理，一步步提取初始特征图中的特征信息，这样，在对初始特征图进行卷积处理过程中，可以对逐层对手部区域关键点的细节信息(即局部特征)，以及关键点的上下文信息(全局特征)进行融合，实现对初始特征图的深层次特征提取。

步骤930、对融合后特征图进行反卷积处理，得到目标特征图；反卷积处理用于调整融合后特征图的分辨率。

在本申请提供的实施例中，得到融合后特征图之后，可以进一步对融合后特征图进行反卷积处理，调整融合后特征图的分辨率。具体地，通过反卷积处理，提高融合后特征图的分辨率，以便基于较高分辨率的图像进行手部姿态预测，提高手部姿态估计的准确性。

步骤940、基于目标特征图，得到多个关键点的坐标信息，以确定待处理图像中手部区域的姿态估计结果。

可以理解的是，目标特征图是经过特征融合处理和反卷积处理后的特征图，也就是说，该目标特征图能够充分融合原始待处理图像的手部区域中各个关键点的局部细节信息以及上下文信息，那么，基于该目标特征图进行手部姿态的估计，能够提高手部姿态估计的准确性。

在本申请提供的实施例中，首先获取待处理图像中手部区域对应的初始特征图；对所述初始特征图进行特征融合处理，得到融合后特征图；所述特征融合处理用于对多个关键点周围的特征进行融合；所述多个关键点表示所述手部区域的骨架关键节点；对所述融合后特征图进行反卷积处理，得到目标特征图；所述反卷积处理用于调整所述融合后特征图的分辨率；基于所述目标特征图，得到所述多个关键点的坐标信息，以确定所述待处理图像中手部区域的姿态估计结果；这样，通过对待处理图像中手部区域的特征图进行特征融合和反卷积处理，能够充分融合不同关键点的信息，提高手部姿态估计的准确性，得到高精度的手部姿态估计结果。

在一种可能的实现方式中，步骤910获取待处理图像中手部区域对应的初始特征图，包括：

对待处理图像的图像内容进行识别处理，确定待处理图像中的手部区域；

对待处理图像中的手部区域进行RoIAlign特征提取，得到初始特征图。

具体地，手部姿态估计装置可以先获取包含手部的待处理图像(例如图1)，然后通过包围盒检测方式对待处理图像的手部区域进行识别和定位，也就是确定手部区域对应的位置及大小，进而可以得到仅有手部区域的图像(例如图2)；进一步地，手部姿态估计装置使用如图6对应的基于RoIAlign特征提取方法构建的RoIAlign特征提取器，来对上述手部区域进行浅层次的特征提取，包括手的大概轮廓、边缘位置，从而获取手部这一目标对象对应的RoIAlign特征图。

参考图10所示的一种示例性的手部姿态估计方法的网络架构示意图，如图10所示，该网络架构主要包括手部区域检测模块(101)和手部姿态估计模块(102)。其中，手部区域检测模块101包括：骨干特征提取器1011、包围盒检测头1012、包围盒选择头 1013、以及RoIAlign特征提取器1014。手部姿态估计模块102包括手部姿态估计头1021。具体的，可以先通过骨干特征提取器1011以及包围盒检测头1012，对包含手部区域的待处理图像进行手部区域检测；然后通过包围盒选择头1013进行包围盒选择处理，在挑选出置信度最高的包围盒，也就是置信度最高的手部区域图像之后，可以通过RoIAlign特征提取器1014对置信度最高的手部区域图像进行RoIAlign特征提取，从而获得RoIAlign特征图(即初始特征图)，最后，通过手部姿态估计头1021对RoIAlign特征图进一步进行手部姿态估计。

进一步地，在本申请的实施例中，手部姿态估计头1021在获取到待处理图像的手部区域对应的RoIAlign特征图之后，可以进一步基于RoIAlign特征图进行更深层次图像信息地提取，以得到目标特征图，并基于目标特征图得到手部姿态估计结果。

在一种可能的实现方式中，步骤920对初始特征图进行特征融合处理，得到融合后特征图，可以通过以下步骤来实现：

步骤9201、通过第一卷积网络，对初始特征图进行第一卷积处理，得到第一特征图；第一卷积处理用于提取所述多个关键点的局部细节信息。

在本申请提供的实施例中，初始特征图可以具有特定的分辨率和大小，例如，初始特征图的大小可以是8×8×256。

这里，手部姿态估计装置可以将初始特征图直接输入至第一卷积网络中，进行第一卷积处理。

在本申请提供的实施例中，第一卷积网络可以由两个或者两个以上，且输入输出相互叠加的子卷积网络构成，子卷积网络可以是深度卷积神经网络。通过多层卷积处理，可以对关键点的特征进行一步一步的抽象，得到最终第一特征图。

值得注意的是，通过第一卷积网络对初始特征图进行处理后，得到的第一特征图与初始特征图的大小相同。

可以理解的是，初始特征图的分辨率较高，那么初始特征图中关键点的细节信息比较丰富，通过对初始特征图进行第一卷积处理，可以提取初始特征图中关键点的局部细节信息，得到第一特征图。也就是说，第一特征图是融合了关键点局部细节信息的特征图。

步骤9202、对第一特征图进行第一下采样处理，得到第一下采样特征图。

可以理解的是，通过第一下采样处理，可以将第一特征图的分辨进一步缩小。这里，第一下采样处理可以是2倍的下采样，也可以是4倍的下采样。本申请实施例这里不做限定。

在本申请提供的实施例中，可以通过卷积网络实现第一下采样处理，也就是，将第一特征图输入至卷积网络中进行卷积处理，来实现第一特征图分辨率的缩小。

例如，第一特征图的尺寸为8x8x128，采用卷积核为3x3x128(步长为2)的卷积网络对第一特征图进行处理，得到4x4x128的第一下采样特征图。

步骤9203、通过第二卷积网络，对第一下采样特征图进行第二卷积处理，得到第二特征图；第二卷积处理用于提取所述多个关键点的上下文信息。

这里，手部姿态估计装置在得到第一下采样特征图后，可以将第一下采样特征图输入至第二卷积网络中进行卷积处理，提取所述多个关键点的上下文信息，来得到第二特征图。

这里，第一下采样特征图是分辨率缩小后的特征图，当图像的分辨率较低时，图像中的上下文信息居多，通过对分辨率缩小后的第一下采样特征图进行第二卷积处理，可以充分第一下采样特征图中关键点的上下文信息。也就是说，第二特征图是融合了关键点的局部细节信息以及上下文信息的特征图。

步骤9204、对第二特征图进行第二下采样处理，得到融合后特征图。

进一步，在得到第二特征图后，继续对第二特征图进行下采样处理，充分融合第二特征图中关键点的全局信息，得到融合后特征图。

需要说明的是，第二下采样处理和步骤9202中的第一下采样处理可以是相同的处理，也可以是不同的处理，本申请实施例这里不做限定。

这样，融合后特征图能够包含关键点的局部细节信息，可以包含了关键点的上下文相关的全局信息。也就是说，融合后特征图能够充分融合不同关键点的信息，进而基于融合后特征图进行手部姿势估计，可以提高手部姿势估计的准确性，得到高精度的手部姿势估计结果。

在另一可能的实现方式中，步骤9201通过第一卷积网络，对所述初始特征图进行第一卷积处理之前，还可以对初始特征图进行以下处理：

对初始特征图进行降维处理，得到降维后特征图；降维处理用于降低所述初始特征图的通道数；

通过第一卷积网络，对降维后特征图进行特征第一卷积处理，得到第一特征图，以采用第一特征图确定所述融合后特征图。

可以理解的是，在对初始特征图进行融合的过程中，可以对初始特征图进行降维处理，以降低初始特征图的通道数，这样，通过对降维后特征图进行第一卷积处理、第一下采样处理、第二卷积处理、以及第二下采样处理，来得到融合后的特征图。如此，通过对降维后特征图进行处理，可以降低处理过程中的计算量。

下面，结合图11所示的手部姿态估计头对应的架构示意图，对上述特征融合的处理过程进行详细描述。

在本申请提供的实施例中，参考图11所示一种手部姿态估计头网络架构示意图，手部姿态估计头具体可以包括特征融合模块111(也可以称为下采样模块)和反卷积模块(也可以称为上采样模块)112。其中，特征融合模块111可以包括：第一卷积网络1111、第一下采样网络1112、第二卷积网络1113、第二下采样网络1114。

上述步骤920中对初始特征图进行特征融合处理的过程可以应用到图11所示的网络架构中；具体地，在得到初始特征图后，通过第一卷积网络1111，对初始特征图进行第一卷积处理，得到第一特征图；接着通过第一下采样网络1112对第一特征图进行第一下采样处理，得到第一下采样特征图；然后，通过第二卷积网络1113，对第一下采样特征图进行第二卷积处理，得到第二特征图；最后，通过第二下采样网络1114对第二特征图进行第二下采样处理，得到融合后特征图。

在一种可能的实现方式中，参考图12所示的一种第一卷积网络结构组成示意图，第一卷积网络可以包括N个子卷积网络；其中，N为大于1的整数。

其中，第1子卷积网络的输出，与第2子卷积网络的输入连接，第2个子卷积网络的输出与第3子卷积网络的输入连接，以此类推，第N-1子卷积网络的输出，与第N子卷积网络的输入连接。

基于此，本申请提供的实施例中，步骤9201通过第一卷积网络，对初始特征图进行第一卷积处理，得到第一特征图，可以通过以下方式实现：

在i＝1的情况下，通过第i子卷积网络对初始特征图进行第i卷积处理，输出第i特征图，并将初始特征图与第i输出特征图进行加权和处理，得到第i加权和特征图；其中，i为大于等于1且小于N的整数；

在i不等于1的情况下，通过第i子卷积网络对第i-1加权和特征图进行第i卷积处理，输出第i特征图，并将第i-1加权和特征图与第i特征图进行加权和处理，得到第i加权和特征图；

继续通过第i+1子卷积网络对所述第i加权和特征图进行第i+1卷积处理，直至通过第N子卷积网络对第N-1加权和特征图进行第N卷积处理，输出第N加权和特征图；

将第N加权和特征图与所述第N-1特征图进行加权和处理，得到第一特征图。

也就是说，手部姿态估计装置获取到初始特征图之后，首先通过第1子卷积网络对初始特征图进行第1卷积处理，输出第1特征图。并且将初始特征图与第1特征图进行加权和处理，得到第1加权和特征图；也就是，跳过连接，将第1子卷积网络的输入，与第1子卷积网络的输出相加，得到第1加权和特征图，使得得到的第1加权和特征图与输入的初始特征图的尺寸大小一致。这样，通过第1子卷积网络对初始特征图进行认识和抽象，融合各个关键点周围像素之间的特征信息，得到第1加权和特征图。

接着，第2子卷积网络对第1加权和特征图进行进一步处理；具体地，通过第2子卷积网络对第1加权和特征图进行第2卷积处理，输出第2特征图，跳过连接将第2子卷积网络的输入(即第1加权和特征图)，以及第2子卷积网络的输出(即第2特征图)进行加权和处理，得到第2加权和特征图。这样，通过第2子卷积网络对第1子卷积网络输出的第1加权和特征图进行进一步的认识和抽象，能够进一步融合各个关键点周围像素的特征信息。

以此类推，第3子卷积网络继续对第2加权和特征图进行处理，得到第3加权和特征图，直到第N子卷积网络对第N-1加权和特征图进行处理，得到第N加权和特征图，并将该第N加权和特征图作为最终的第一特征图。

如此，通过多层次的子卷积网络对初始特征图进行多层卷积处理，能够在当前分辨率下，一步步融合关键点周围的特征信息。

在一种可能的实现方式中，步骤9203中通过第二卷积网络，对第一下采样特征图进行第二卷积处理，得到第二特征图，可以通过以下方式实现：

步骤9203a、通过第二卷积网络，对第一下采样特征图进行第二卷积处理，输出第二卷积特征图；

步骤9203b、将第二卷积特征图和第一下采样特征图进行加权和处理，得到第二特征图。

在本申请提供的实施例中，可以通过第二卷积网络对第一下采样特征图进行第二卷积处理，可以进一步融合第一下采样特征图中关键点的上下文信息(即全局特征信息)。

进一步，可以跳过连接，将第二卷积网络的输入(即第一下采样特征图)和第二卷积网络的输出(即第二卷积特征图)相加，得到第二特征图。如此，可以保证得到的第二特征图与输入的第一下采样特征图的尺寸大小相同，以便进行下一步的处理。

在一种可能的实现方式中，步骤930对融合后特征图进行反卷积处理，得到目标特征图，可以通过以下步骤来实现：

步骤9301、对融合后特征图进行第一上采样处理，得到第一上采样特征图；

步骤9302、通过第三卷积网络，对第一上采样特征图进行第三卷积处理，得到第三特征图；

步骤9303、对第三特征图进行第二上采样处理，得到第二上采样特征图；

步骤9304、通过第四卷积网络，对第二上采样特征图进行第四卷积处理，得到第四特征图；

步骤9305、对第四特征图进行第三上采样处理，得到目标特征图。

在本申请提供的实施例中，融合后特征图的分辨率较小，需要恢复融合后特征图的分辨率，以便在高分辨率的特征图上进行手部姿态估计，提高手部姿态估计的准确度。

这里，对融合后特征图的分辨率恢复的过程，可以与对初始特征图进行特征融合的过程相对应。具体地，第一上采样处理过程与第二下采样处理过程对应，例如，若尺寸大小为4x4x128的特征图经过第二下采样处理后，得到的特征图尺寸大小为2x2x256；则第一上采样可以将2x2x256的特征图映射至4x4x128。另外，第三卷积网络与第二卷积网络相对应，也就是，第三卷积网络使用的卷积核与第二卷积网络的卷积核相同；第二上采样与第一下采样相对应。

下面，结合图11所示的手部姿态估计头对应的架构示意图，对上述反卷积的处理过程进行详细描述。

具体地，参考图11所示的手部姿态估计头对应的架构示意图，反卷积模块112可以包括第一上采样网络1121，第三卷积网络1122，第二上采样网络1123，第四卷积网络1124，以及第三上采样网络1125。

步骤930对融合后特征图进行反卷积处理，得到目标特征图可以应用到图11所示的网络架构中，具体地，通过第一上采样网络1121对融合后特征图进行第一上采样处理；其中，第一上采样网络1121与第二下采样网络1114对应。

接着，通过第三卷积网络1122对第一上采样特征图进行第三卷积处理，得到第三特征图，其中，第三卷积网络1122与第二卷积网络1113相对应。进一步，通过第二上采样网络1123对第三特征图进行第二上采样处理，得到第二上采样特征图；其中，第二上采样网络1123与第一下采样1112对应。接着，通过第四卷积网络1124，对第二上采样特征图进行第四卷积处理，得到第四特征图；其中，第四卷积网络1124与第一卷积网络1111相对应。最后，通过第二上采样网络1125，对第四特征图进行第三上采样处理，得到目标特征图。

在一种可能的实现方式中，步骤9302通过第三卷积网络，对第一上采样特征图进行第三卷积处理，得到第三特征图，可以通过以下方式实现：

步骤9302a、通过第三卷积网络，对第一上采样特征图进行第三卷积处理，输出第三卷积特征图；

步骤9302b、将第三卷积特征图和第二特征图进行加权和处理，得到第三特征图。

在本申请提供的实施例中，可以通过第三卷积网络对第一上采样特征图进行第三卷积处理，输出第三卷积特征图。

应注意，第三卷积网络与第二卷积网络对应，因此，在本申请提供的实施例中，手部姿态估计装置可以将第二卷积网络得到的第二特征图，与第三卷积网络输出的第三卷积特征图进行加权和处理，得到第三特征图。如此，可以保证得到的第三特征图与第二特征图的尺寸大小一致，以便进行下一步的处理。

在一种可能的实现方式中，步骤9304通过第四卷积网络，对第二上采样特征图进行第四卷积处理，得到第四特征图，包括：

步骤9304a、通过第四卷积网络，对第二上采样特征图进行第四卷积处理，输出第四卷积特征图；

步骤9304b、将第四卷积特征图和第一特征图进行加权和处理，得到第四特征图。

在本申请提供的实施例中，可以通过第三卷积网络对第二上采样特征图进行第四卷积处理，输出第四卷积特征图。

应注意，第四卷积网络与第一卷积网络对应，因此，在本申请提供的实施例中，手部姿态估计装置可以将第一卷积网络得到的第一特征图，与第四卷积网络输出的第四卷积特征图进行加权和处理，得到第四特征图。如此，可以保证得到的第四特征图与第一特征图的尺寸大小一致，以便进行下一步的处理，

下面，结合实际应用场景对上述方案进行详细描述。

参考图13所示的一种掩膜区域卷积神经网络(Mask R-CNN)架构图，其中，与现有的用于分类和边界盒回归的分支并行，Mask R-CNN可以在选择的每个RoI上添加一个掩膜分割头来扩展R-CNN。掩膜分割头可以理解为是应用于每个RoI的一个小的全卷积神经网络(Fully Convolutional Networks，FCN)，以像素到像素的方式进行估计和预测。Mask R-CNN易于实现和训练，提供了更快的R-CNN框架，这有助于广泛灵活的体系结构设计。此外，掩膜分割头只增加了一个小的计算开销，从而实现了一个快速的识别系统。

基于Mask R-CNN架构，参考图10所示的一种示例性的手部姿态估计方法的网络架构示意图，本申请实施例提供的手部姿态估计方法，可以针对RoIAlign特征提取器提取的RoIAlign特征图进行手部姿态估计。

值得注意的是，本申请实施例能够复用从手部区域检测任务中计算出的RoIAlign特征图，而不是从原始图像开始。因此，本申请实施例提供的手部姿态估计方法计算量小，可以部署在移动设备上进行用户的手部姿态估计。并且本申请实施例提供的手部姿态估计方法采用沙漏网络结构，能够充分融合不同关键点的信息，从而实现更精确的手部姿态估计。

参考图14所示的一种示例性的手部姿态估计方法的网络架构示意图，该网络架构图包括下采样块141(即特征融合模块)和上采样块142(即反卷积模块)。其中，下采样块141包括Conv1至Conv5；上采样块142包括Conv5至Conv10。

一并参考图15所示的一种示例性的手部姿态估计期间的沙漏网络特征图。本申请实施例提供的手部姿态估计方法包括以下步骤：

步骤a、通过卷积核为3x3x128的Conv1(即降维处理对应的卷积层)对尺寸大小为8x8x256的RoIAlign特征图1501(即初始特征图)进行卷积处理，得到尺寸大小为8x8x128的降维后特征图1502。

在本申请提供的实施例中，Conv1的卷积核(3x3x128)为预先设置的，通过Conv1可以将RoIAlign特征图1501的通道数缩小到128，得到尺寸大小为8x8x128的降维后特征图1520。如此，降低RoIAlign特征图1501的维度进行处理，从而缩小手部姿态估计过程中的计算量。

步骤b、通过两个首尾相连的Conv2(对应上文中的第一卷积网络)对尺寸为8x8x128的降维后特征图1502进行卷积处理，并将每个Conv2输入的特征图与Conv2输出的特征图相加，得到与降维后特征图尺寸相同(即8x8x128)的第一特征图1503。

也就是说，可以通过Conv2对降维后特征图重复处理两次，来得到尺寸相同的第一特征图1503。

步骤c、通过卷积核为3x3x128，且步长为2的Conv3(即上文提到的第一下采样网络)，对尺寸大小为8x8x128的第一特征图1503进行下采样，得到尺寸大小为4x4x128的第一下采样特征图1504。

步骤d、通过卷积核为3x3x128的Conv4(即上文提到的第二卷积网络)，对尺寸大小为4x4x128的第一下采样特征图1504进行卷积处理，并将输入Conv4的第一下采样特征图1504和Conv4输出的特征图相加，得到与第一下采样特征图尺寸相同的第二特征图1505，即第二特征图1505的尺寸大小为4x4x128。

步骤e、通过卷积核为3x3x256，且步长为2的Conv5(即上文提到的第二下采样网络)对第二特征图1505进行下采样，得到尺寸为2x2x256的融合后特征图1506。

步骤f、通过卷积核为2x2x128的Conv6(即上文提到的第一上采样网络)对融合后特征图1506进行上采样，得到尺寸4x4x128的第一上采样特征图1507。

步骤g、通过卷积核为3x3x128的Conv7(即上文提到的第三卷积网络)对第一上采样特征图1507进行处理，并将通过Conv4处理得到的第二特征图1505与Conv7输出的特征图相加，得到尺寸大小为4x4x128第三特征图1508。

如此，保证得到的第三特征图1508的尺寸大小与第二特征图1505的尺寸大小一致。

步骤h、通过卷积核为2x2x128的Conv8(即上文提到的第二上采样网络)对第三特征图1508进行上采样处理，得到尺寸大小为8x8x128的第二上采样特征图1509。

步骤i、通过卷积核为3x3x128的Conv9(即上文提到的第四卷积网络)对第二上采样特征图1509进行处理，并将通过Conv1处理得到的第一特征图1503与Conv9输出的特征图相加，得到尺寸大小为8x8x128的第四特征图1510。

步骤j、通过卷积核为2x2x128的Conv10(即上文提到的第三上采样网络)对第四特征图1510进行处理，得到尺寸大小为16x16x128目标特征图1511。

如此，目标特征图1511是经过特征融合处理和反卷积处理后的特征图，可见，该目标特征图1511能够充分融合原始待处理图像的手部区域中各个关键点的细节信息以及上下文信息，那么，基于该目标特征图1511进行手部姿态的估计，能够提高手部姿态估计的准确性。

本申请提供的实施例中，基于前述实施例相同的发明构思，参见图16，其示出了本申请实施例提供的一种手部姿态估计装置160的组成结构示意图。如图16所示，该手部姿态估计装置160可以包括：

获取单元1601，配置为获取待处理图像中手部区域对应的初始特征图；

第一处理单元1602，配置为对所述初始特征图进行特征融合处理，得到融合后特征图；所述特征融合处理用于对多个关键点周围的特征进行融合；所述多个关键点表示所述手部区域的骨架关键节点；

第二处理单元1603，配置为对所述融合后特征图进行反卷积处理，得到目标特征图；所述反卷积处理用于调整所述融合后特征图的分辨率；

姿态估计单元1604，配置为基于所述目标特征图，得到所述多个关键点的坐标信息，以确定所述待处理图像中手部区域的姿态估计结果。

在一些实施例中，所述初始特征图为感兴趣区域匹配RoIAlign特征图。

在一些实施例中，获取单元1601，具体配置为对所述待处理图像的图像内容进行识别处理，确定所述待处理图像中的手部区域；对所述待处理图像中的手部区域进行感兴趣区域匹配RoIAlign特征提取，得到所述初始特征图

在一些实施例中，第一处理单元1602，具体用于通过第一卷积网络，对所述初始特征图进行第一卷积处理，得到第一特征图；所述第一卷积处理用于提取所述多个关键点的局部细节信息；对所述第一特征图进行第一下采样处理，得到第一下采样特征图；通过第二卷积网络，对所述第一下采样特征图进行第二卷积处理，得到第二特征图；所述第二卷积处理用于提取所述多个关键点的上下文信息；对所述第二特征图进行第二下采样处理，得到所述融合后特征图。

在一些实施例中，第一处理单元1602，还配置为对所述初始特征图进行降维处理，得到降维后特征图；所述降维处理用于降低所述初始特征图的通道数；通过所述第一卷积网络，对所述降维后特征图进行特征第一卷积处理，得到所述第一特征图，以采用所述第一特征图确定所述融合后特征图。

在一些实施例中，所述第一卷积网络包括N个子卷积网络；N为大于1的整数；

所述第一处理单元1602，还被配置为在i＝1的情况下，通过第i子卷积网络对所述初始特征图进行第i卷积处理，输出第i特征图，并将所述初始特征图与所述第i特征图进行加权和处理，得到第i加权和特征图；其中，i为大于等于1且小于N的整数；在i不等于1的情况下，通过第i子卷积网络对第i-1加权和特征图进行第i卷积处理，输出第i特征图，并将所述第i-1加权和特征图与所述第i特征图进行加权和处理，得到第i加权和特征图；继续通过第i+1子卷积网络对所述第i加权和特征图进行第i+1卷积处理，直至通过第N子卷积网络对第N-1加权和特征图进行第N卷积处理，输出第N加权和特征图；将所述第N加权和特征图与所述第N-1特征图进行加权和处理，得到所述第一特征图。

在一些实施例中，所述第一处理单元1602，配置为通过所述第二卷积网络，对所述第一下采样特征图进行第二卷积处理，输出第二卷积特征图；将所述第二卷积特征图和所述第一下采样特征图进行加权和处理，得到所述第二特征图。

在一些实施例中，所述第二处理单元1603，配置为对所述融合后特征图进行第一上采样处理，得到第一上采样特征图；通过第三卷积网络，对所述第一上采样特征图进行第三卷积处理，得到第三特征图；对所述第三特征图进行第二上采样处理，得到第二上采样特征图；通过第四卷积网络，对所述第二上采样特征图进行第四卷积处理，得到第四特征图；对所述第四特征图进行第三上采样处理，得到所述目标特征图。

在一些实施例中，所述第二处理单元1603，配置为通过所述第三卷积网络，对所述第一上采样特征图进行第三卷积处理，输出第三卷积特征图；将所述第三卷积特征图和所述第二特征图进行加权和处理，得到所述第三特征图。

在一些实施例中，所述第二处理单元1603，还配置为通过所述第四卷积网络，对所述第二上采样特征图进行第四卷积处理，输出第四卷积特征图；

将所述第四卷积特征图和所述第一特征图进行加权和处理，得到所述第四特征图。

可以理解地，在本实施例中，“单元”可以是部分电路、部分处理器、部分程序或软件等等，当然也可以是模块，还可以是非模块化的。而且在本实施例中的各组成部分可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

所述集成的单元如果以软件功能模块的形式实现并非作为独立的产品进行销售或使用时，可以存储在一个计算机可读取存储介质中，基于这样的理解，本实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或processor(处理器)执行本实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

因此，本实施例提供了一种计算机存储介质，该计算机存储介质存储有手部姿态估计程序，所述手部姿态估计程序被至少一个处理器执行时实现前述实施例中任一项所述的方法的步骤。

基于上述手部姿态估计装置160的组成以及计算机存储介质，参见图17，其示出了本申请实施例提供的电子设备170的具体硬件结构示意图。如图17所示，可以包括：通信接口1701、存储器1702和处理器1703；各个组件通过总线系统1704耦合在一起。可理解，总线系统1704用于实现这些组件之间的连接通信。总线系统1704除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图17中将各种总线都标为总线系统1704。其中，

通信接口1701，配置为在与其他外部网元之间进行收发信息过程中，信号的接收和发送；

存储器1702，配置为存储能够在处理器1703上运行的可执行指令；

处理器1703，配置为在运行所述可执行指令时，执行：

获取待处理图像中手部区域对应的初始特征图；

可以理解，本申请实施例中的存储器1702可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(Read-Only Memory，ROM)、可编程只读存储器(Programmable ROM，PROM)、可擦除可编程只读存储器(Erasable PROM，EPROM)、电可擦除可编程只读存储器(Electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(Static RAM，SRAM)、动态随机存取存储器(Dynamic RAM，DRAM)、同步动态随机存取存储器(Synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data Rate SDRAM，DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM，ESDRAM)、同步链动态随机存取存储器(Synchronous link DRAM，SLDRAM)和直接内存总线随机存取存储器(Direct Rambus RAM，DRRAM)。本文描述的系统和方法的存储器1702旨在包括但不限于这些和任意其它适合类型的存储器。

而处理器1703可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器1703中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器1703可以是通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器1702，处理器1703读取存储器1702中的信息，结合其硬件完成上述方法的步骤。

可以理解的是，本文描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现，处理单元可以实现在一个或多个专用集成电路(Application Specific Integrated Circuits，ASIC)、数字信号处理器(Digital Signal Processing，DSP)、数字信号处理设备(DSP Device，DSPD)、可编程逻辑设备(Programmable Logic Device，PLD)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)、通用处理器、控制器、微控制器、微处理器、用于执行本申请所述功能的其它电子单元或其组合中。

对于软件实现，可通过执行本文所述功能的模块(例如过程、函数等)来实现本文所述的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。

可选地，作为另一个实施例，处理器1703还配置为在运行所述计算机程序时，执行前述实施例中任一项所述的方法的步骤。

需要说明的是，在本申请中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

本申请所提供的几个方法实施例中所揭露的方法，在不冲突的情况下可以任意组合，得到新的方法实施例。

本申请所提供的几个产品实施例中所揭露的特征，在不冲突的情况下可以任意组合，得到新的产品实施例。

本申请所提供的几个方法或设备实施例中所揭露的特征，在不冲突的情况下可以任意组合，得到新的方法实施例或设备实施例。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

工业实用性

本申请实施例中，首先获取待处理图像中手部区域对应的初始特征图；对所述初始特征图进行特征融合处理，得到融合后特征图；所述特征融合处理用于对多个关键点周围的特征进行融合；所述多个关键点表示所述手部区域的骨架关键节点；对所述融合后特征图进行反卷积处理，得到目标特征图；所述反卷积处理用于调整所述融合后特征图的分辨率；基于所述目标特征图，得到所述多个关键点的坐标信息，以确定所述待处理图像中手部区域的姿态估计结果，这样，通过对待处理图像中手部区域的特征图进行特征融合和反卷积处理，能够充分融合不同关键点的信息，提高手部姿态估计的准确性，得到高精度的手部姿态估计结果。

Claims

一种手部姿态估计方法，所述方法包括：

获取待处理图像中手部区域对应的初始特征图；

对所述初始特征图进行特征融合处理，得到融合后特征图；所述特征融合处理用于对多个关键点周围的特征进行融合；所述多个关键点表示所述手部区域的骨架关键节点；

对所述融合后特征图进行反卷积处理，得到目标特征图；所述反卷积处理用于调整所述融合后特征图的分辨率；

基于所述目标特征图，得到所述多个关键点的坐标信息，以确定所述待处理图像中手部区域的姿态估计结果。
根据权利要求1所述的方法，其中，所述初始特征图为感兴趣区域匹配RoIAlign特征图。
根据权利要求1或2所述的方法，其中，所述获取待处理图像中手部区域对应的初始特征图，包括：

对所述待处理图像的图像内容进行识别处理，确定所述待处理图像中的手部区域；

对所述待处理图像中的手部区域进行感兴趣区域匹配RoIAlign特征提取，得到所述初始特征图。
根据权利要求1-3任一项所述的方法，其中，所述对所述初始特征图进行特征融合处理，得到融合后特征图，包括：

通过第一卷积网络，对所述初始特征图进行第一卷积处理，得到第一特征图；所述第一卷积处理用于提取所述多个关键点的局部细节信息；

对所述第一特征图进行第一下采样处理，得到第一下采样特征图；

通过第二卷积网络，对所述第一下采样特征图进行第二卷积处理，得到第二特征图；所述第二卷积处理用于提取所述多个关键点的上下文信息；

对所述第二特征图进行第二下采样处理，得到所述融合后特征图。
根据权利要求4所述的方法，其中，所述通过第一卷积网络，对所述初始特征图进行第一卷积处理之前，还包括：

对所述初始特征图进行降维处理，得到降维后特征图；所述降维处理用于降低所述初始特征图的通道数；

通过所述第一卷积网络，对所述降维后特征图进行特征第一卷积处理，得到所述第一特征图，以采用所述第一特征图确定所述融合后特征图。
根据权利要求4或5所述的方法，其中，所述第一卷积网络包括N个子卷积网络；N为大于1的整数；

所述通过第一卷积网络，对所述初始特征图进行第一卷积处理，得到第一特征图，包括：

在i＝1的情况下，通过第i子卷积网络对所述初始特征图进行第i卷积处理，输出第i特征图，并将所述初始特征图与所述第i特征图进行加权和处理，得到第i加权和特征图；其中，i为大于等于1且小于N的整数；

在i不等于1的情况下，通过第i子卷积网络对第i-1加权和特征图进行第i卷积处理，输出第i特征图，并将所述第i-1加权和特征图与所述第i特征图进行加权和处理，得到第i加权和特征图；

继续通过第i+1子卷积网络对所述第i加权和特征图进行第i+1卷积处理，直至通过第N子卷积网络对第N-1加权和特征图进行第N卷积处理，输出第N加权和特征图；

将所述第N加权和特征图与所述第N-1特征图进行加权和处理，得到所述第一特征图。
根据权利要求4或5所述的方法，其中，所述通过第二卷积网络，对所述第一下采样特征图进行第二卷积处理，得到第二特征图，包括：

通过所述第二卷积网络，对所述第一下采样特征图进行第二卷积处理，输出第二卷积特征图；

将所述第二卷积特征图和所述第一下采样特征图进行加权和处理，得到所述第二特征图。
根据权利要求4或5所述的方法，其中，所述对所述融合后特征图进行反卷积处理，得到目标特征图，包括：

对所述融合后特征图进行第一上采样处理，得到第一上采样特征图；

通过第三卷积网络，对所述第一上采样特征图进行第三卷积处理，得到第三特征图；

对所述第三特征图进行第二上采样处理，得到第二上采样特征图；

通过第四卷积网络，对所述第二上采样特征图进行第四卷积处理，得到第四特征图；

对所述第四特征图进行第三上采样处理，得到所述目标特征图。
根据权利要求8所述的方法，其中，所述通过第三卷积网络，对所述第一上采样特征图进行第三卷积处理，得到第三特征图，包括：

通过所述第三卷积网络，对所述第一上采样特征图进行第三卷积处理，输出第三卷积特征图；

将所述第三卷积特征图和所述第二特征图进行加权和处理，得到所述第三特征图。
根据权利要求8所述的方法，其中，所述通过第四卷积网络，对所述第二上采样特征图进行第四卷积处理，得到第四特征图，包括：

通过所述第四卷积网络，对所述第二上采样特征图进行第四卷积处理，输出第四卷积特征图；

将所述第四卷积特征图和所述第一特征图进行加权和处理，得到所述第四特征图。
一种手部姿态估计装置，所述装置包括：

获取单元，配置为获取待处理图像中手部区域对应的初始特征图；

第一处理单元，配置为对所述初始特征图进行特征融合处理，得到融合后特征图；所述特征融合处理用于对多个关键点周围的特征进行融合；所述多个关键点表示所述手部区域的骨架关键节点；

第二处理单元，配置为对所述融合后特征图进行反卷积处理，得到目标特征图；所述反卷积处理用于调整所述融合后特征图的分辨率；

姿态估计单元，配置为基于所述目标特征图，得到所述多个关键点的坐标信息，以确定所述待处理图像中手部区域的姿态估计结果。
一种电子设备，所述电子设备包括存储器和处理器；其中，

所述存储器，配置为存储能够在所述处理器上运行的可执行指令；

所述处理器，配置为在运行所述可执行指令时，执行如权利要求1至10任一项所述的方法。
一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被第一处理器执行实现权利要求1至10任一项所述方法的步骤。