WO2021098587A1

WO2021098587A1 - 手势分析方法、装置、设备及计算机可读存储介质

Info

Publication number: WO2021098587A1
Application number: PCT/CN2020/128469
Authority: WO
Inventors: 周扬
Original assignee: Oppo广东移动通信有限公司
Priority date: 2019-11-20
Filing date: 2020-11-12
Publication date: 2021-05-27
Also published as: US20220351547A1

Abstract

本申请实施例提供一种目标对象跟踪方法、装置、设备及计算机可读存储介质，其中方法包括：对获取的待分析图像进行特征提取，得到第一数量的第一关键点特征和第二数量的第二关键点特征；分别对每一所述第一关键点特征和每一所述第二关键点特征进行UV坐标回归处理，对应得到每一手指关键点的第一UV坐标和每一手掌关键点的第二UV坐标；分别对每一所述第一关键点特征和每一所述第二关键点特征进行深度回归处理，对应得到每一手指关键点的第一深度坐标和每一手掌关键点的第二深度坐标；根据所述第一UV坐标、所述第一深度坐标、所述第二UV坐标和所述第二深度坐标，对所述待分析图像进行手势分析，得到手势分析结果。

Description

手势分析方法、装置、设备及计算机可读存储介质

相关申请的交叉引用

本申请基于申请号为62/938,189、申请日为2019年11月20日、申请名称为“SEPARATE FINGER AND PALM PROCESSES FOR EFFICIENT 3D HAND POSE ESTIMATION FOR A MOBILE TOF CAMERA”的在先美国临时专利申请提出，并要求该在先美国临时专利申请的优先权，该在先美国临时专利申请的全部内容在此以全文引入的方式引入本申请作为参考。

技术领域

本申请实施例涉及互联网技术领域，涉及但不限于一种手势分析方法、装置、设备及计算机可读存储介质。

背景技术

手势识别和手势分析技术应用于诸多领域，其目的是通过对图像进行分析，以估计出手部若干个关节点的坐标。由于基于图像能够准确、有效地重建人手的运动，因此有望在沉浸式虚拟现实和增强现实、机器人控制和手语识别中获得令人兴奋的新应用。

近年来，尤其是随着消费者深度相机的到来，这些应用取得了长足的进步。但是，由于不受约束的全局和局部姿势变化、频繁的遮挡、局部自相似性以及高度的关节运动，使得手势分析仍然是一项艰巨的任务，相关技术中手势分析方法的准确性有待提高。

发明内容

本申请实施例提供一种手势分析方法、装置、设备及计算机可读存储介质，将手指和手掌的手势估计任务分离开，在这种分离的架构中，分别针对于手指关键点和手掌关键点进行处理，以实现对整个手部的手势分析，如此，能够极大的提高手势分析的准确率。

本申请实施例的技术方案是这样实现的：

本申请实施例提供一种手势分析方法，包括：

对获取的待分析图像进行特征提取，得到第一数量的第一关键点特征和第二数量的第二关键点特征；

分别对每一所述第一关键点特征和每一所述第二关键点特征进行UV坐标回归处理，对应得到每一手指关键点的第一UV坐标和每一手掌关键点的第二UV坐标；

分别对每一所述第一关键点特征和每一所述第二关键点特征进行深度回归处理，对应得到每一手指关键点的第一深度坐标和每一手掌关键点的第二深度坐标；

根据所述第一UV坐标、所述第一深度坐标、所述第二UV坐标和所述第二深度坐标，对所述待分析图像进行手势分析，得到手势分析结果。

本申请实施例提供一种手势分析装置，包括：

特征提取模块，用于对获取的待分析图像进行特征提取，得到第一数量的第一关键点特征和第二数量的第二关键点特征；

UV坐标回归处理模块，用于分别对每一所述第一关键点特征和每一所述第二关键点特征进行UV坐标回归处理，对应得到每一手指关键点的第一UV坐标和每一手掌关键点的第二UV坐标；

深度回归处理模块，用于分别对每一所述第一关键点特征和每一所述第二关键点特征进行深度回归处理，对应得到每一手指关键点的第一深度坐标和每一手掌关键点的第二深度坐标；

手势分析模块，用于根据所述第一UV坐标、所述第一深度坐标、所述第二UV坐标和所述第二深度坐标，对所述待分析图像进行手势分析，得到手势分析结果。

本申请实施例提供一种手势分析设备，包括：

存储器，用于存储可执行指令；处理器，用于执行所述存储器中存储的可执行指令时，实现上述的手势分析方法。

本申请实施例提供一种计算机可读存储介质，存储有可执行指令，用于引起处理器执行所述可执行指令时，实现上述的手势分析方法。

本申请实施例具有以下有益效果：将手指和手掌的手势估计任务分离开，在这种分离的架构中，对获取的待分析图像进行特征提取，得到第一数量的第一关键点特征和第二数量的第二关键点特征；然后分别对每一第一关键点特征和每一第二关键点特征进行UV坐标回归处理和深度回归处理，并根据UV坐标回归处理和深度回归处理之后的结果对待分析图像进行手势分析，得到手势分析结果，如此，能够极大的提高手势分析的准确率。

附图说明

图1是本申请实施例提供的手势分析系统的一个可选的架构示意图；

图2是本申请实施例提供的手势分析方法的一个可选的流程示意图；

图3是本申请实施例提供的手势分析方法的一个可选的流程示意图；

图4是本申请实施例提供的手势分析方法的一个可选的流程示意图；

图5是本申请实施例提供的手势分析方法的一个可选的流程示意图；

图6是本申请实施例提供的手势分析方法的一个可选的流程示意图；

图7是本申请实施例提供的手势分析方法的一个可选的流程示意图；

图8是本申请实施例提供的手势分析模型训练方法的一个可选的流程示意图；

图9是本申请实施例提供的由TOF摄像机捕获的一个示例图像；

图10是本申请实施例提供的包括预测范围和手存在概率的手检测结果；

图11是本申请实施例提供的手部关键点位置示例图；

图12是本申请实施例提供的二维手部姿态估计结果示例图；

图13是本申请实施例提供的手部检测和手部姿态估计过程示意图；

图14是本申请实施例提供的RoI Align的原理图；

图15是本申请实施例提供的NMS的结果示意图；

图16是本申请实施例提供的IoU的原理图；

图17是本申请实施例提供的位姿引导结构区域集成网络的框架图；

图18是本申请实施例提供的手势分析方法的流程图；

图19是本申请实施例提供的手势估计模块的网络体系结构图；

图20是本申请实施例提供的手势分析装置的结构示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地详细描述，所描述的实施例不应视为对本申请的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。除非另有定义，本申请实施例所使用的所有的技术和科学术语与属于本申请实施例的技术领域的技术人员通常理解的含义相同。本申请实施例所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

为了更好地理解本申请实施例中提供的目标对象跟踪方法，首先对本申请实施例提供的手势分析系统进行说明：

参见图1，图1是本申请实施例提供的手势分析系统10的一个可选的架构示意图。为实现对待分析图像中的手部进行手势分析，本申请实施例提供的手势分析系统10中包括终端100、网络200和服务器300，其中，终端100上运行有视频播放应用或者具有视频录制单元或者运行有图像显示应用，通过视频播放应用播放视频录制单元实时录制的视频或者预先录制的视频，并通过本申请实施例的方法，将视频中的每一帧视频帧作为待分析图像，对待分析图像中的手部进行手势分析，或者，对图像显示应用所显示的待分析图像进行手势分析。

本申请实施例的方法中，在获取到待分析图像之后，终端100通过网络200向服务器300发送待分析图像；服务器300对待分析图像进行特征提取，得到第一数量的第一关键点特征和第二数量的第二关键点特征；然后分别对每一第一关键点特征和每一第二关键点特征进行UV坐标回归处理，对应得到每一手指关键点的第一UV坐标和每一手掌关键点的第二UV坐标；并分别对每一第一关键点特征和每一第二关键点特征进行深度回归处理，对应得到每一手指关键点的第一深度坐标和每一手掌关键点的第二深度坐标；最后，根据第一UV坐标、第一深度坐标、第二UV坐标和第二深度坐标，对待分析图像进行手势分析，得到手势分析结果。服务器300在得到手势分析结果之后，将手势分析结果发送给终端100，终端100在当前界面100-1上显示标记有手势分析结果的标记图像或直接显示手势分析结果。通过本申请实施例的方法，能够极大的提高手势分析的准确率。

下面说明本申请实施例的手势分析设备的示例性应用，在一种实现方式中，本申请实施例提供的手势分析设备可以实施为笔记本电脑，平板电脑，台式计算机，移动设备(例如，移动电话，便携式音乐播放器，个人数字助理，专用消息设备，便携式游戏设备)、智能机器人、智能视频监控等任意的终端，在另一种实现方式中，本申请实施例提供的手势分析设备还可以实施为服务器。下面，将说明手势分析设备实施为服务器时的示例性应用。

图2是本申请实施例提供的手势分析方法的一个可选的流程示意图，如图2所示，方法包括以下步骤：

步骤S201，对获取的待分析图像进行特征提取，得到第一数量的第一关键点特征和第二数量的第二关键点特征。

这里，待分析图像中具有手部图像，对获取的待分析图像进行特征提取可以是进行手部特征提取。在对待分析图像进行手部特征提取之前，首先进行手部位置识别，以确定手部所在的区域，从而对该区域的图像进行分析和识别，以确定该区域的手部的手势。

在一些实施例中，在进行手部位置识别时，可以采用预先训练好的手部检测模型来实现，通过手部检测模型检测并输出手部在每一位置(可以是待分析图像的整个区域中的任一子区域，也称包围盒或边界框)存在的概率值，并将具有最大概率值的子区域确定为手部所在的区域。

本申请实施例中，在识别出手部所在的子区域之后，对该子区域进行手部特征提取，以得到第一数量的第一关键点特征和第二数量的第二关键点特征，其中，第一关键点特征可以是手指关键点特征，第二关键点特征可以是手掌关键点特征，其中，第一数量和第二数量可以是任意的正整数。手部特征提取可以采用预先训练好的手部特征提取模型来实现，其中，手部特征提取模型在使用过程中，可以将具有手部的深度图像输入至手部特征提取模型中，模型内部对深度图像进行识别，以确定出深度图像中的手部的至少一个关键点，且这些关键点不仅包括手指关键点，还包括手掌关键点。

在一些实施例中，还可以采用人工智能技术实现本申请实施例的方法，即采用人工智能技术识别手部所在的子区域，以及采用人工智能技术识别手指关键点和手掌关键点。

手指关键点特征是对手指关键点进行图像特征提取所得到的图像特征，手掌关键点特征是对手掌关键点进行图像特征提取所得到的图像特征。

步骤S202，分别对每一所述第一关键点特征和每一所述第二关键点特征进行UV坐标回归处理，对应得到每一手指关键点的第一UV坐标和每一手掌关键点的第二UV坐标。

这里，UV坐标回归处理用于确定手指关键点和手掌关键点的UV坐标，UV坐标是相对于XYZ坐标的坐标。

步骤S203，分别对每一所述第一关键点特征和每一所述第二关键点特征进行深度回归处理，对应得到每一手指关键点的第一深度坐标和每一手掌关键点的第二深度坐标。

这里，深度回归处理用于确定手指关键点和手掌关键点的深度坐标，深度坐标也是相对于XYZ坐标的坐标，UV坐标与深度坐标共同形成手指关键点和手掌关键点的UVD坐标。

步骤S204，根据所述第一UV坐标、所述第一深度坐标、所述第二UV坐标和所述第二深度坐标，对所述待分析图像进行手势分析，得到手势分析结果。

这里，第一UV坐标和第一深度坐标形成手指关键点的UVD坐标，第二UV坐标和第二深度坐标形成手掌关键点的UVD坐标，本申请实施例采用UVD坐标来表征手指和手掌的位置，以实现对手部进行手势识别和分析。

在一些实施例中，手势分析结果包括每一手指关键点的UVD坐标和每一手掌关键点UVD坐标，或者，手势分析结果中还包括根据每一手指关键点的UVD坐标和每一手掌关键点UVD坐标所确定出的手部的手势结构图。

本申请实施例提供的手势分析方法，将手指和手掌的手势估计任务分离开，在这种分离的架构中，对获取的待分析图像进行特征提取，得到第一数量的第一关键点特征和第二数量的第二关键点特征；然后分别对每一第一关键点特征和每一第二关键点特征进行UV坐标回归处理和深度回归处理，并根据UV坐标回归处理和深度回归处理之后的结果对待分析图像进行手势分析，得到手势分析结果，如此，能够极大的提高手势分析的准确率。

在一些实施例中，手势分析系统中至少包括终端和服务器，终端上运行有视频播放应用，可以采用本申请实施例的方法，对视频播放应用所播放的视频中的每一视频帧中的手部进行手势分析，或者，终端上具有视频录制单元，通过视频录制单元实时录制视频，并采用本申请实施例的方法对实时录制的视频中的每一视频帧中的手部进行手势分析，或者，终端上具有图像拍摄单元，通过图像拍摄单元拍摄图像，并采用本申请实施例的方法，对拍摄的图像中的手部进行手势分析，或者，终端上运行有图像显示应用，可以采用本申请实施例的方法对图像显示应用所显示的图像中的手部进行手势分析。

下面以对终端上的图像进行手势分析，且以手势分析时的特征提取过程为手势特征提取，手势特征提取得到第一数量的手指关键点特征和第二数量的手掌关键点特征为例，对本申请实施例的方法进行说明，图3是本申请实施例提供的手势分析方法的一个可选的流程示意图，如图3所示，方法包括以下步骤：

步骤S301，终端获取待分析图像。

这里，终端可以在网络上下载待分析图像，也可以采用图像拍摄单元实时拍摄待分析图像，或者还可以将接收到的图像作为待分析图像。

步骤S302，判断待分析图像上是否具有手部。

这里，可以采用预先训练好的手部识别模型对待分析图像进行识别。当识别结果显示待分析图像上的任一子区域中具有手部的概率值大于阈值时，表明该子区域中具有手部，从而确定出待分析图像上具有手部；当识别结果显示待分析图像上的每一子区域中具有手部的概率值均小于阈值时，表明待分析图像上不具有手部。

如果判断结果为是，则执行步骤S303，如果判断结果为否，则返回继续执行步骤S301。

步骤S303，终端将待分析图像发送给服务器。

步骤S304，服务器对待分析图像进行手部特征提取，得到第一数量的手指关键点特征和第二数量的手掌关键点特征。

步骤S305，服务器分别对每一手指关键点特征和每一手掌关键点特征进行UV坐标回归处理，对应得到每一手指关键点的第一UV坐标和每一手掌关键点的第二UV坐标。

步骤S306，服务器分别对每一手指关键点特征和每一手掌关键点特征进行深度回归处理，对应得到每一手指关键点的第一深度坐标和每一手掌关键点的第二深度坐标。

步骤S307，服务器根据第一UV坐标、第一深度坐标、第二UV坐标和第二深度坐标，对待分析图像进行手势分析，得到手势分析结果。

需要说明的是，步骤S304至步骤S307与上述的步骤S201至步骤S204相同，本申请实施例不再赘述。

步骤S308，服务器将手势分析结果发送给终端。

步骤S309，终端在当前界面上显示手势分析结果。

本申请实施例提供的手势分析方法，终端获取待分析图像，并将待分析图像发送给服务器进行分析和识别，当分析出待分析图像中手部的手势后，将手势分析结果反馈给终端，并在终端的当前界面上显示，如此，通过终端与服务器之间的交互，能够实现对终端实时获取的图像进行实时的手势分析，提高了用户的使用体验，并且，由于服务器在进行手势分析是，是将手指和手掌的手势估计任务分离开，在这种分离的架构中，分别针对于手指关键点和手掌关键点进行处理，以实现对整个手部的手势分析，如此，能够极大的提高手势分析的准确率。

基于图2，图4是本申请实施例提供的手势分析方法的一个可选的流程示意图，如图4所示，步骤S202可以通过以下步骤实现：

步骤S401，分别对每一所述手指关键点特征和每一所述手掌关键点特征，进行UV编码处理，对应得到每一所述手指关键点的第一UV编码特征和每一所述手掌关键点的第二UV编码特征。

需要说明的是，本申请实施例的UV编码处理是分别针对于手指关键点特征和手掌关键点特征进行的，且对手指关键点特征进行UV编码处理的处理过程与对手掌关键点特征进行UV编码处理的处理过程相同。

在一些实施例中，步骤S401中对每一所述手指关键点特征进行UV编码处理，得到每一所述手指关键点的第一UV编码特征，可以通过以下步骤实现：

步骤S4011，采用第一卷积层对每一所述手指关键点特征进行卷积处理，得到第一卷积特征。

这里，第一卷积层具有特定卷积核，第一卷积层卷积核的数量可以是预设值，也可以是通过训练得到的。

步骤S4012，通过所述第一卷积层对所述第一卷积特征依次进行第一预设次数的跳跃连接处理，得到第一跳跃连接特征。

这里，跳跃连接处理可以解决网络层数较深的情况下梯度消失的问题，同时有助于梯度的反向传播，加快图像处理过程。

在一些实施例中，步骤S4012可以通过以下步骤实现：

步骤S4012a，将所述第一卷积特征确定为所述第一卷积层在第一次跳跃连接处理时的输入特征。

这里，将第一卷积层对手指关键点特征进行卷积处理所得到第一卷积特征确定为第一次跳跃连接处理时的输入特征，即跳跃连接处理连接在第一卷积层之后，在第一卷积层进行卷积处理之后，即进行跳跃连接处理。

步骤S4012b，将所述第一卷积层在第N次的输出特征，确定为所述第一卷积层在第N次跳跃连接处理的输入特征，其中，N为大于1的整数。

在跳跃连接处理过程中，是将第一卷积层的输出跳跃连接至第一卷积层的输入位置，那么，在第N次跳跃连接处理时，输入特征即第一卷积层在第N次的输出特征。

步骤S4012c，将所确定出的每一次的所述输入特征，输入至所述第一卷积层中，依次进行所述第一预设次数的所述跳跃连接处理，得到所述第一跳跃连接特征。

整个跳跃连接处理过程是：在第一卷积层对手指关键点特征进行卷积处理得到第一卷积特征之后，将第一卷积特征输入至第一卷积层中进行第一次跳跃连接处理，得到第一次跳跃连接处理的输出特征，然后，将第一次跳跃连接处理的输出特征作为第二次跳跃连接处理的输入特征，输入至第一卷积层中进行第二次跳跃连接处理，得到第二次跳跃连接处理的输出特征，然后，将第二次跳跃连接处理的输出特征，作为第三次跳跃连接处理的输入特征输入至第一卷积层中进行第三次跳跃连接处理……以此类推，直至完成第一预设次数的跳跃连接处理，得到第一跳跃连接特征。

步骤S4013，对所述第一跳跃连接特征进行池化处理，以降低所述第一跳跃连接特征的空间尺寸，得到每一所述手指关键点的所述第一UV编码特征。

这里，可以通过预设的第一池化层对所述第一跳跃连接特征进行池化处理。池化处理即下采样处理，池化处理用于降低第一跳跃连接特征的空间尺寸。

在一些实施例中，步骤S401中对每一所述手掌关键点特征，进行UV编码处理，得到每一所述手掌关键点的第二UV编码特征，可以通过以下步骤实现：

步骤S4014，采用第二卷积层对每一所述手掌关键点特征进行卷积处理，得到第二卷积特征。

这里，第二卷积层具有特定卷积核，第二卷积层卷积核的数量可以是预设值，也可以是通过训练得到的。

步骤S4015，通过所述第二卷积层对所述第二卷积特征依次进行第二预设次数的跳跃连接处理，得到第二跳跃连接特征。

在一些实施例中，步骤S4015可以通过以下步骤实现：

步骤S4015a，将所述第二卷积特征确定为所述第二卷积层在第一次跳跃连接处理时的输入特征。

步骤S4015b，将所述第二卷积层在第K次的输出特征，确定为所述第二卷积层在第K次跳跃连接处理的输入特征，其中，K为大于1的整数。

步骤S4015c，将所确定出的每一次的所述输入特征，输入至所述第二卷积层中，依次进行所述第二预设次数的所述跳跃连接处理，得到所述第二跳跃连接特征。

需要说明的是，步骤S4015a至步骤S4015c中的第二预设次数的跳跃连接处理的处理过程，与上述第一预设次数的跳跃连接处理的处理过程相同，请参照上述步骤S4012a至步骤S4012c的解释，本申请实施例不再赘述。第一预设次数与第二预设次数可以相同也可以不同，第一预设次数和第二预设次数可以根据数据处理需求和数据处理量来确定。

步骤S4016，对所述第二跳跃连接特征进行池化处理，以降低所述第二跳跃连接特征的空间尺寸，得到每一所述手掌关键点的所述第二UV编码特征。

这里，可以通过预设的第二池化层对所述第二跳跃连接特征进行池化处理。

步骤S402，分别对每一所述第一UV编码特征和每一所述第二UV编码特征，进行全连接处理，对应得到每一所述手指关键点的第一UV坐标和每一所述手掌关键点的第二UV坐标。

请继续参照图4，步骤S203可以通过以下步骤实现：

步骤S403，分别对每一所述手指关键点特征和每一所述手掌关键点特征，进行深度编码处理，对应得到每一所述手指关键点的第一深度编码特征和每一所述手掌关键点的第二深度编码特征。

需要说明的是，本申请实施例的深度编码处理是分别针对于手指关键点特征和手掌关键点特征进行的，且对手指关键点特征进行深度编码处理的处理过程与对手掌关键点特征进行深度编码处理的处理过程相同。

在一些实施例中，步骤S403中对每一所述手指关键点特征进行深度编码处理，对应得到每一所述手指关键点的第一深度编码特征，可以通过以下步骤实现：

步骤S4031，采用第三卷积层对每一所述手指关键点特征进行卷积处理，得到第三卷积特征。

这里，第三卷积层具有特定卷积核，第三卷积层卷积核的数量可以是预设值，也可以是通过训练得到的。

步骤S4032，通过所述第三卷积层对所述第三卷积特征依次进行第三预设次数的跳跃连接处理，得到第三跳跃连接特征。

在一些实施例中，步骤S4032可以通过以下步骤实现：

步骤S4032a，将所述第三卷积特征确定为所述第三卷积层在第一次跳跃连接处理时的输入特征。

步骤S4032b，将所述第三卷积层在第M次的输出特征，确定为所述第三卷积层在第M次跳跃连接处理的输入特征，其中，M为大于1的整数。

步骤S4032c，将所确定出的每一次的所述输入特征，输入至所述第三卷积层中，依次进行所述第三预设次数的所述跳跃连接处理，得到所述第三跳跃连接特征。

需要说明的是，步骤S4032a至步骤S4032c中的第三预设次数的跳跃连接处理的处理过程，与上述第一预设次数的跳跃连接处理的处理过程和第二预设次数的跳跃连接处理的处理过程均相同，请参照上述步骤S4012a至步骤S4012c的解释，本申请实施例不再赘述。

步骤S4033，对所述第三跳跃连接特征进行池化处理，以降低所述第三跳跃连接特征的空间尺寸，得到每一所述手指关键点的所述第一深度编码特征。

这里，可以通过预设的第三池化层对所述第三跳跃连接特征进行池化处理。

在一些实施例中，步骤S403中对每一所述手掌关键点特征进行深度编码处理，对应得到每一所述手掌关键点的第二深度编码特征，可以通过以下步骤实现：

步骤S4034，采用第四卷积层对每一所述手掌关键点特征进行卷积处理，得到第四卷积特征。其中，第四卷积层具有特定卷积核。

步骤S4035，通过所述第四卷积层对所述第四卷积特征依次进行第四预设次数的跳跃连接处理，得到第四跳跃连接特征。

在一些实施例中，步骤S4035可以通过以下步骤实现：

步骤S4035a，将所述第四卷积特征确定为所述第四卷积层在第一次跳跃连接处理时的输入特征。

步骤S4035b，将所述第四卷积层在第L次的输出特征，确定为所述第四卷积层在第L次跳跃连接处理的输入特征，其中，L为大于1的整数。

步骤S4035c，将所确定出的每一次的所述输入特征，输入至所述第四卷积层中，依次进行所述第四预设次数的所述跳跃连接处理，得到所述第四跳跃连接特征。

需要说明的是，步骤S4035a至步骤S4035c中的第四预设次数的跳跃连接处理的处理过程，与上述第一预设次数的跳跃连接处理的处理过程和第二预设次数的跳跃连接处理的处理过程和第三预设次数的跳跃连接处理的处理过程均相同，请参照上述步骤S4012a至步骤S4012c的解释，本申请实施例不再赘述。第三预设次数与第四预设次数可以相同也可以不同，第三预设次数和第四预设次数可以根据数据处理需求和数据处理量来确定。

步骤S4036，对所述第四跳跃连接特征进行池化处理，以降低所述第四跳跃连接特征的空间尺寸，得到每一所述手掌关键点的所述第二深度编码特征。

这里，可以通过预设的第四池化层对所述第四跳跃连接特征进行池化处理。

步骤S404，分别对每一所述第一深度编码特征和每一所述第二深度编码特征，进行全连接处理，对应得到每一所述手指关键点的第一深度坐标和每一所述手掌关键点的第二深度坐标。

基于图2，图5是本申请实施例提供的手势分析方法的一个可选的流程示意图，如图5所示，步骤S204可以通过以下步骤实现：

步骤S501，对每一所述手指关键点的所述第一UV坐标和所述第一深度坐标进行坐标转换，得到对应手指关键点的第一空间坐标。

这里，坐标转换是指将UVD坐标转换为XYZ坐标，其中，手指关键点的UVD坐标是由第一UV坐标和第一深度坐标确定的，即，第一UV坐标和第一深度坐标共同形成手指关键点的UVD坐标。第一空间坐标是手指关键点在XYZ坐标的表示。

本申请实施例中，将UVD坐标转换为XYZ坐标，可以通过以下公式(1-1)实现：

其中，(x，y，z)是XYZ格式的坐标，(u，v，d)是UVD格式的坐标，其中，u和v对应的是二维图像的像素值，d表示深度值(depth)，即该坐标点距离相机的深度值。Cx和Cy代表主点，理想情况下应该位于图像的中心，其中主点是相机的光心，一般位于图像的中心，是在图像坐标系下。fx和fy分别是x方向和y方向上的焦距。

步骤S502，对每一所述手掌关键点的所述第二UV坐标和所述第二深度坐标进行坐标转换，得到对应手掌关键点的第二空间坐标。

这里，手掌关键点的UVD坐标是由第二UV坐标和第二深度坐标确定的，即，第二UV坐标和第二深度坐标共同形成手掌关键点的UVD坐标。本申请实施例中，可以通过上述公式(1-1)实现对每一手掌关键点的第二UV坐标和第二深度坐标进行坐标转换。第二空间坐标是手掌关键点在XYZ坐标的表示。

步骤S503，根据所述第一空间坐标和所述第二空间坐标，对所述待分析图像进行手势分析，得到手势分析结果。

这里，采用XYZ坐标表示来进行手势分析，能够得到手部各个关键点在三维坐标上的位置，从而得到准确的手势分析结果。

在一些实施例中，步骤S503可以通过以下步骤实现：

步骤S5031，确定每两个手指关键点之间的第一相对位置关系、和每两个手掌关键点之间的第二相对位置关系。

这里，第一相对位置关系是每两个手指关键点之间的相对位置关系，例如，同一手指上相邻的两个手指关键点之间的第一相对位置关系是这两个手指关键点相邻且可以直接连接；分别位于两个手指上的两个手指关键点之间的第一相对位置关系是这两个手指关键点不可以直接连接。

第二手掌关键点之间的第二相对位置关系是每两个手掌关键点之间的相对位置关系，例如，手掌上相邻的两个位置的手掌关键点可以直接连接，手掌上不相邻的两个位置的手掌关键点不可以直接连接。

步骤S5032，根据所述第一相对位置关系和所述第二相对位置关系，依次连接所述第一数量的手指关键点和所述第二数量的手掌关键点，形成手部关键点连接图。

这里，手部关键点连接图中包括每一关键点的XYZ坐标。

步骤S5033，根据所述手部关键点连接图对所述待分析图像进行手势分析，得到手势分析结果。

这里，通过手部关键点连接图可以确定出每一手指的形状和手掌的形状，从而确定出手部的手势分析结果。

基于图2，图6是本申请实施例提供的手势分析方法的一个可选的流程示意图，如图6所示，步骤S201可以通过以下步骤实现：

步骤S601，对所述待分析图像进行目标识别，以实现在所述待分析图像的至少两个子区域中识别出具有目标对象的目标子区域。

在一些实施例中，步骤S601可以通过以下步骤实现：

步骤S6011，获取具有预设尺寸的扫描框，所述待分析图像的尺寸大于所述预设尺寸。

这里，待分析图像对应的区域包括多个子区域，子区域的尺寸与扫描框的尺寸相同，即扫描框每扫描到一个位置，该位置对应一个子区域。

步骤S6012，通过在所述待分析图像的区域上滑动所述扫描框，以确定出每一所述子区域中具有所述目标对象的概率值。

这里，对于扫描框滑动到的子区域，确定该子区域中是否具有目标对象，本申请实施例中，目标对象可以是手部。可以通过预先训练好的目标识别模型对子区域进行目标识别，以确定出每一子区域具有目标对象的概率值。

步骤S6013，将具有最高概率值的子区域确定为所述目标子区域。

步骤S602，对所述目标子区域进行截取，得到截取后的图像。

这里，将目标子区域截取到，以剔除不包含手部的其他区域，从而能够减小后续手势分析过程的数据处理量。

步骤S603，对所述截取后的图像进行所述手部特征提取，得到所述第一数量的所述手指关键点特征和所述第二数量的所述手掌关键点特征。

在一些实施例中，步骤S603可以通过以下步骤实现：

步骤S6031，对所述截取后的图像进行RoI匹配特征提取，以获得坐标为浮点数的像素点上的至少两个图像RoI匹配特征。

步骤S6032，根据所述至少两个图像RoI匹配特征，确定RoI匹配特征图。

这里，根据所提取到的图像RoI匹配特征确定RoI匹配特征图，即将提取到的图像RoI匹配特征嵌入至一特征图中，形成RoI匹配特征图，如此，在后续的手势分析过程中，可以从RoI匹配特征图开始进行手指和手掌的特征提取，而无需从原始图像开始。

步骤S6033，对所述RoI匹配特征图进行二维手部姿态估计，以确定出所述第一数量的所述手指关键点特征和所述第二数量的所述手掌关键点特征。

图7是本申请实施例提供的手势分析方法的一个可选的流程示意图，如图7所示，步骤S6033可以通过以下步骤实现：

步骤S701，采用第五卷积层，对所述RoI匹配特征图中的所述图像RoI匹配特征进行卷积处理，得到RoI匹配卷积特征。其中，第五卷积层具有特定卷积核。

步骤S702，采用第六卷积层，对所述RoI匹配卷积特征进行第五预设次数的跳跃连接处理，得到第五跳跃连接特征。其中，第六卷积层具有特定卷积核。

步骤S703，对所述第五跳跃连接特征进行池化处理，以降低所述第五跳跃连接特征的空间尺寸，确定出所述第一数量的所述手指关键点特征和所述第二数量的所述手掌关键点特征。这里，可以通过预设的第五池化层对所述第五跳跃连接特征进行池化处理。

在一些实施例中，本申请实施例提供的手势分析方法还可以采用手势分析模型来实现，即，采用手势分析模型进行所述手部特征提取、所述UV坐标回归处理、所述深度回归处理和所述手势分析，以得到所述手势分析结果。

图8是本申请实施例提供的手势分析模型训练方法的一个可选的流程示意图，如图8所示，训练方法包括以下步骤：

步骤S801，将样本图像输入至所述手势分析模型中。

步骤S802，通过所述手势分析模型中的手部特征提取网络，对所述样本图像进行特征提取，得到第三数量的样本第一关键点特征和第四数量的样本第二关键点特征。

这里，样本第一关键点特征可以是样本手指关键点特征，样本第二关键点特征可以是样本手掌关键点特征。手部特征提取网络中可以包括两个分支，一个为手指特征提取分支，一个为手掌特征提取分支，通过手指特征提取分支对样本图像进行手指特征提取，得到第三数量的样本手指关键点特征，通过手掌特征提取分支对样本图像进行手掌特征提取，得到第四数量的样本手掌关键点特征。

步骤S803，通过所述手势分析模型中的UV坐标回归网络，分别对每一所述样本第一关键点特征和每一所述样本第二关键点特征进行UV坐标回归处理，对应得到每一样本手指关键点的第一样本UV坐标和每一样本手掌关键点的第二样本UV坐标。

UV坐标回归网络用于对样本手指关键点特征和样本手指关键点特征进行UV坐标回归处理，以确定出每一样本关键点(包括样本手指关键点和样本手掌关键点)的UV坐标。

步骤S804，通过所述手势分析模型中的深度回归网络，分别对每一所述样本第一关键点特征和每一所述样本第二关键点特征进行深度回归处理，对应得到每一样本手指关键点的第一样本深度坐标和每一样本手掌关键点的第二样本深度坐标。

深度回归网络用于对样本手指关键点特征和样本手指关键点特征进行深度回归处理，以确定出每一样本关键点的深度坐标。

步骤S805，通过所述手势分析模型中的手势分析网络，对所述第一样本UV坐标、所述第二样本UV坐标、所述第一样本深度坐标和所述第二样本深度坐标进行手势分析，得到样本手势分析结果。

步骤S806，将样本手势分析结果输入至预设损失模型中，得到损失结果。

这里，预设损失模型用于将样本手势分析结果与预设的手势分析结果进行比较，得到损失结果，其中，预设的手势分析结果可以是用户预先设置的与样本图像对应的手势分析结果。

本申请实施例中，预设损失模型中包括损失函数，通过损失函数可以计算样本手势分析结果与预设的手势分析结果之间的相似度，在计算过程中，可以通过计算样本手势分析结果与预设的手势分析结果之间的距离，并根据距离确定上述损失结果。当样本手势分析结果与预设的手势分析结果之间的距离越大时，表明模型的训练结果与真实值的差距较大，需要进行进一步的训练；当样本手势分析结果与预设的手势分析结果之间的距离越小时，表明模型的训练结果更加接近真实值。

步骤S807，根据所述损失结果，对所述手部特征提取网络、所述UV坐标回归网络、所述深度回归网络和所述手势分析网络中的参数进行修正，得到修正后的手势分析模型。

这里，当上述距离大于预设距离阈值时，则损失结果表明当前的手势分析模型中的手部特征提取网络，不能准确的对样本图像进行手部特征提取，得到样本图像的准确的样本手指关键点特征和样本手掌关键点特征，和/或，UV坐标回归网络不能准确的对样本手指关键点特征和样本手掌关键点特征进行UV坐标回归处理，得到准确的手指关键点的第一样本UV坐标和样本手掌关键点的第二样本UV坐标，和/或，深度回归网络不能准确的对样本手指关键点特征和样本手掌关键点特征进行深度回归处理，得到准确的样本手指关键点的第一样本深度坐标和样本手掌关键点的第二样本深度坐标，和/或，手势分析网络不能准确的对第一样本UV坐标、第二样本UV坐标、第一样本深度坐标和第二样本深度坐标进行手势分析，得到样本图像对应的准确的样本手势分析结果。因此，需要对当前的手势分析模型进行修正。那么，可以根据上述距离，对手部特征提取网络、UV坐标回归网络、深度回归网络和手势分析网络中的至少一个中的参数进行修正，直至手势分析模型输出的样本手势分析结果与预设的手势分析结果之间的距离满足预设条件时，将对应的手势分析模型确定为训练好的手势分析模型。

本申请实施例提供的手势分析模型的训练方法，由于将样本图像输入至手势分析模型中，依次通过手部特征提取网络、UV坐标回归网络、深度回归网络和手势分析网络对样本图像进行处理，得到样本手势分析结果，并将样本手势分析结果输入至预设损失模型中，得到损失结果。因此，能够根据损失结果对手部特征提取网络、UV坐标回归网络、深度回归网络和手势分析网络中的至少一个中的参数进行修正，所得到的手势分析模型能够准确的确定出待分析图像的手势，提高用户的使用体验。

下面，将说明本申请实施例在一个实际的应用场景中的示例性应用。

本申请实施例提供一种手势分析方法，由于手指的姿态估计比手掌的姿态估计困难，因为手指在移动过程中高度变形，而手掌通常保持一个刚性表面。通过这样的发现，本申请实施例将手指和手掌的姿态估计任务分离开来。在这种分离的架构中，专门针对手指或手掌提取了手指特征或手掌特征，从而获得了更好的手势估计性能。

在解释本申请实施例的方法之前，首先对本申请实施例所涉及的技术进行说明。

1)飞行时间(TOF，Time-of-Flight)相机：TOF相机是一种范围成像摄像机系统，采用飞行时间技术，通过测量激光器或者LED发出的人造光信号的往返时间，从而解析得到图像上拍摄主体的每一点与相机之间的距离。TOF相机输出一帧大小为HxW的图像，二维图像上的每个像素值代表对象的深度值(即像素值范围为0mm～3000mm)。图9是本申请实施例提供的由TOF摄像机捕获的一个示例图像901。下面，将TOF相机捕捉到的图像901作为深度图像(即待分析图像)。

2)手的检测：手的检测是这样一个过程：输入深度图像，然后输出手存在的概率(例如，概率可以是一个数值从0到1的数字，数值越大表示手存在的概率越大，即置信度越大)，和一个手的预测范围(bounding box)(例如，该预测范围表示了手的位置和大小)。图10是本申请实施例提供的包括预测范围1001和手存在概率1002(即置信度)的手检测结果。本申请实施例中，手的预测范围表示为(x _min，y _min，x _max，y _max)，其中(x _min，y _min)为预测范围的左上角，(x _max，y _max)为预测范围的右下角。

3)二维手势估计：输入深度图像，然后输出手部骨架的二维关键点位置，手部关键点位置示例图如图11所示，其中，位置0、1、2、4、5、6、8、9、10、12、13、14、16、17表示手指的关键点，位置3、7、11、15、18、19表示手掌的关键点。每个关键点都是一个表示位置的二维坐标(例如x、y，其中x在水平图像轴上，y在垂直图像轴上)。二维手部姿态估计结果如图12所示，图中包括估计出的多个手部关键点121。

4)三维手势估计：输入深度图像，输出手部骨架的3D关键点位置，手部关键点位置示例图像如图11所示。每个关键点位置都是一个三维坐标(如x、y、z，其中x在水平图像轴上，y在垂直图像轴上，z在深度方向上)。本申请实施例即研究三维手位姿估计问题。

5)手势检测流程：典型的手部姿态检测流程包括：手部检测和手部姿态估计过程，如图13所示，手部检测131包括骨干特征提取器1311和预测范围检测头1312，手部姿态估计132包括骨干特征提取器1321和姿态估计头1322。需要说明的是，手部检测131和手部姿态估计132的任务是完全分离的。为了连接两个任务，将输出的预测范围位置调整为预测范围内像素的质心，并将预测范围的大小稍微放大，以包含所有的手像素，即通过边界框调整模块133对预测范围的大小进行调整。调整后的预测范围用于裁剪原始深度图像，即通过图像裁剪模块134对调整后的预测范围进行裁剪。将裁剪后的图像135输入到手部姿态估计132任务中。需要说明的是，当使用骨干特征提取器提取初始图像130的图像特征时，会出现重复计算现象。

6)注意力区域匹配(RoI Align，Rage of Interesting Alignment)：RoI Align层消除了RoIPool的苛刻量化，正确地将提取的特征与输入对齐。本申请实施例提议的改进很简单：避免了对RoI边界或箱子(bins)进行任何量化(例如，可以使用x/16而不是[x/16]，这里的x/16表示浮点数，[x/16]表示取整)。使用双线性插值计算法来计算每个RoI bin中四个定期采样位置的输入特征的精确值，并汇总结果(使用最大值或平均值)，如图14所示，是本申请实施例提供的RoI Align的原理图，虚线网格表示一个特征图，实线表示一个ROI(在本例中有2×2个箱子)，图中的点表示每个箱子中的4个采样点141，RoI Align从特征图上邻近的网格点通过双线性插值计算每个采样点的值，对RoI、它的容器或采样点所涉及的任何坐标都不执行量化。需要说明的是，只要不执行量化，结果对精确的采样位置或采样的点数不敏感。

7)非极大值抑制(NMS，Non-maximum suppression)：NMS在计算机视觉的几个关键方面得到了广泛的应用，它是许多被提出的检测方法的一个组成部分，可能是边缘、角或目标检测。它的必要性是由于检测算法对感兴趣的概念进行定位的能力不强，导致在真实位置附近出现多组检测结果。

在目标检测中，基于滑动窗口的方法通常会产生多个靠近目标正确位置的高分窗口。这是物体探测器的泛化能力、响应函数的平滑性和近处窗口的视觉相关性的结果。这种相对密集的输出对于理解图像的内容通常不能令人满意。事实上，这一步中窗口假设的数量与图像中物体的真实数量是不相关的。因此，NMS的目标是每个组只保留一个窗口，对应于响应函数的精确局部最大值，理想情况下每个对象只获得一次检测。图15是本申请实施例提供的NMS的结果示意图，图15显示了NMS的一个示例，其中，左图中是不采用NMS技术进行检测的结果，会导致在真实位置(即人脸位置)附近出现多组检测结果151(即图中的检测框)；右图是采用NMS技术进行检测的结果，在真实位置只保留一个检测结果152。

8)预测范围操作：本申请实施例定义了两个简单的预测范围操作，如图16所示，给定两个预测范围BB1和BB2，其中，BB1和BB2的交集表示为BB1∩BB2，被定义为BB1和BB2的重叠区域161；BB1∪BB2被定义为BB1和BB2的统一区域162，交并比(IoU，Intersection over Union)在图16中表示，即图16中深色区域的重叠区域161与统一区域162之间的比值

9)UVD坐标和XYZ坐标之间的关系：UVD坐标和XYZ坐标之间的关系采用以下公式(2-1)进行UVD到XYZ的转换：

其中，(x，y，z)是XYZ格式的坐标，(u，v，d)是UVD格式的坐标，其中，u和v对应的是二维图像的像素值，d表示深度值(depth)，即该坐标点距离相机的深度值。Cx和Cy代表主点，理想情况下应该位于图像的中心，其中主点是相机的光心，一般位于图像的中心，是在图像坐标系下。fx和fy分别是x方向和y方向上的焦距

10)分类和回归：分类预测建模问题不同于回归预测建模问题。分类是预测一个离散类标签的任务；回归是预测连续数量的任务。

分类和回归算法之间有一些重叠，例如，分类算法可以预测连续值，但连续值是以类标签概率的形式出现的；回归算法可以预测一个离散值，但离散值以整数形式存在。

11)卷积神经网络(CNN，Convolutional neural network)：卷积神经网络由输入层、输出层和多个隐藏层组成。CNN的隐藏层通常由一系列卷积层组成，这些层通过乘法或其他点积进行卷积。激活函数通常是一个RELU层，在激活函数层之后是附加的卷积层，如池化层、全连接层和归一化层，由于它们的输入和输出都被激活函数和最终的卷积掩盖了，所以称为隐藏层。最后的卷积反过来，通常包括反向传播，以便更准确地计算最终产物的权重。尽管这些层通常被称为卷积，但这只是惯例。从数学上讲，它是一个滑动点积或交叉相关。这对矩阵中的指数有重要意义，因为它影响在一个特定的指数点如何确定权重。

卷积层：在对CNN进行设计时，神经网络中的每个卷积层都应该具备以下属性：输入是一个张量，其形状为(图像数量)×(图像宽度)×(图像高度)×(图像深度)。宽度和高度为超参数，深度必须等于图像深度的卷积核。卷积层对输入进行卷积，并将结果传递给下一层。这类似于视觉皮层中的神经元对特定刺激的反应。

每个卷积神经元仅为其接收域处理数据。虽然全连接前馈神经网络可以用于特征学习和数据分类，但将这种结构应用于图像是不实际的。即使在浅层(与深层相对)结构中，也需要非常多的神经元，因为与图像相关的输入尺寸非常大，其中每个像素都是一个相关变量。例如，对于大小为100x100的(小)图像，一个完全连接的层对第二层的每个神经元有10000个权重。卷积操作解决了这个问题，因为它减少了自由参数的数量，使得网络可以用更少的参数更深入。例如，不管图像大小如何，大小为5x5的平摊区域，每个区域具有相同的共享权值，只需要25个可学习的参数。通过这种方法，利用反向传播的方法，解决了传统多层神经网络训练中梯度消失或爆炸的问题。

池化层：卷积神经网络可以包括本地或全局池化层来简化底层的计算。池化层通过将一层神经元簇的输出合并为下一层的单个神经元来减少数据的维数。本地池结合了小的集群，通常是2x2。全局池作用于卷积层的所有神经元。此外，池可以计算最大值或平均值。最大池使用前一层的每个神经元簇的最大值。平均池使用前一层每个神经元簇的平均值。

全连接层：全连接层将一层的每个神经元连接到另一层的每个神经元。它在原理上与传统的多层感知器神经网络(MLP，Multi-Layer Perceptron)相同。扁平矩阵通过一个全连通层对图像进行分类。

本申请实施例提供的手势分析方法类似于Pose-REN的工作，位姿引导结构区域集成网络(Pose-REN，Pose guided structured Region Ensemble Network)的框架如图17所示。用一个简单的CNN网络(图中用Init-CNN来表示)预测一个初始的手部姿态pose0(用来作为级联结构的初始化)。在pose _t-1的指导下，从CNN生成的特征图谱171中提取特征区域，并采用树状结构进行分层融合。Pose _t是由Pose-REN获得的精制的手姿态，将作为下一阶段的指导。其中，图中的fc表示全连接层(Fully Connected)，图中的concate表示合并数组，用于连接两个或多个数组

本申请实施例的方法属于使用完全连接层作为Pose-REN的最后一层来回归坐标的范畴。但是，首先是从RoI特征出发，而不是从原始图像出发，其次，回归头的架构是不同的(即除了最终的回归层，主要使用卷积层，而不是全连接层)。最后，返回UVD坐标，而不是XYZ坐标。

本申请实施例的主要发明点被置于RoiAlign特征提取器之后，它是用于三维手部姿态估计任务的回归模块。所提出的回归模块复用了从手部检测任务中得到的特征图，它从RoiAlign特征图开始，而不是从原始图像开始。本申请实施例方法的位置如图18所示，用于实现手势分析的手势估计模块181位于RoiAlign特征提取器182之后，其中，骨干特征提取器183用于对输入的初始图像180进行骨干特征提取，边界框检测模块184用于对初始图像进行边界框检测，边界框选择模块185用于对边界框进行选择，在对边界框选择之后，采用RoiAlign特征提取器182进行RoiAlign特征提取。

基于图18所示的手势估计模块181在整个框架中的位置，图19是本申请实施例提供的手势估计模块181的网络体系结构图，如图19所示，整个网络体系包括基础特征提取器191、第一UV编码器192、第一深度编码器193、第二UV编码器194、第二深度编码器195。

基础特征提取器191提取7x7x256(高*宽*通道)的图像特征图上的关键点特征，图像特征图首先应用3x3x128的卷积层Conv1将通道从256缩小到128(即节省计算)。将7x7x128的特征图与卷积层Conv2(3x3x128)卷积，进一步提取基本关键点特征，且Conv2有跳跃连接，将Conv2的输入与Conv2的输出相加，这个Conv2和它的跳跃连接重复4次。之后，对7x7x128的关键点特征映射，使用3x3内核的池化层，即Pool1，向下采样2次，大小为3x3x128。

本申请实施例中，手势估计模块181部分分为手指和手掌两个分支。手指分支有14个关键点，而手掌有6个关键点。如图11所示的手势关键点和手掌关键点，其中，手指关键点为0、1、2、4、5、6、8、9、10、12、13、14、16、17，手掌关键点为3、7、11、15、18、19。

在手指分支中，第一UV编码器192提取关键点特征，用于UV坐标回归。第一UV编码器192输入3x3x128的关键点特征图，卷积层Conv3输出相同大小的关键点特征图，并通过跳跃连接将Conv3的输入与Conv3的输出相加，这个Conv3与对应的跳跃连接重复4次。之后，通过内核为3x3的池化层，即Pool2，将3x3x128的关键点特征映射向下采样2次，大小为1x1x128。

在手指分支中，使用全连接层FC1来还原14个关键点的UV坐标。

在手指分支中，第一深度编码器193提取关键点特征用于深度回归。第一深度编码器193输入3x3x128的关键点特征图，卷积层Conv4输出相同大小的关键点特征图，并通过跳转连接将Conv4的输入与Conv4的输出相加，这个Conv4与对应的跳跃连接重复4次。之后，通过内核为3x3的池化层，即Pool3，将3x3x128的关键点特征映射向下采样2次，大小为1x1x128。

在手指分支中，使用完全连接的层FC2来返回14个关键点的深度坐标。

在手掌分支中，第二UV编码器194提取关键点特征，用于UV坐标回归。第二UV编码器194输入3x3x128的关键点特征图，卷积层Conv5输出相同大小的关键点特征图，并通过跳转连接将Conv5的输入与Conv5的输出相加，这个Conv5与对应的跳跃连接重复4次。之后，利用内核为3x3的池化层，即Pool4，将3x3x128的关键点特征映射向下采样2次，大小为1x1x128。

在手掌分支中，使用全连接层FC3来对6个关键点的UV坐标进行回归。

在手掌分支中，第二深度编码器195提取关键点特性，用于深度回归。第二深度编码器195输入3x3x128的关键点特征图，卷积层Conv6输出相同大小的关键点特征图，并通过跳转连接将Conv6的输入与Conv6的输出相加。此Conv6与相应的跳跃连接重复4次。之后，利用内核为3x3的池化层，即Pool5，将3x3x128的关键点特征映射向下采样2次，大小为1x1x128。

在手掌分支中，使用完全连接的层FC4来返回6个关键点的深度坐标。

通过上述计算，分别得到每一手指关键点的UVD坐标和每一手掌关键点的UVD坐标，然后，UV坐标加上深度，被用来计算XYZ坐标，即将UVD坐标转化为XYZ坐标，即完成对手势的估计。

基于前述的实施例，本申请实施例提供一种手势分析装置，该装置包括所包括的各模块、以及各模块所包括的各单元，可以通过接收端中的处理器来实现；当然也可通过具体的逻辑电路实现；在实施的过程中，处理器可以为中央处理器(CPU)、微处理器(MPU)、数字信号处理器(DSP)或现场可编程门阵列(FPGA)等。

图20是本申请实施例提供的手势分析装置的结构示意图，如图20所示，所述手势分析装置200包括：

特征提取模块201，用于对获取的待分析图像进行特征提取，得到第一数量的第一关键点特征和第二数量的第二关键点特征；

UV坐标回归处理模块202，用于分别对每一所述第一关键点特征和每一所述第二关键点特征进行UV坐标回归处理，对应得到每一手指关键点的第一UV坐标和每一手掌关键点的第二UV坐标；

深度回归处理模块203，用于分别对每一所述第一关键点特征和每一所述第二关键点特征进行深度回归处理，对应得到每一手指关键点的第一深度坐标和每一手掌关键点的第二深度坐标；

手势分析模块204，用于根据所述第一UV坐标、所述第一深度坐标、所述第二UV坐标和所述第二深度坐标，对所述待分析图像进行手势分析，得到手势分析结果。

在一些实施例中，所述UV坐标回归处理模块还用于：分别对每一所述第一关键点特征和每一所述第二关键点特征，进行UV编码处理，对应得到每一所述手指关键点的第一UV编码特征和每一所述手掌关键点的第二UV编码特征；分别对每一所述第一UV编码特征和每一所述第二UV编码特征，进行全连接处理，对应得到每一所述手指关键点的第一UV坐标和每一所述手掌关键点的第二UV坐标。

在一些实施例中，所述UV坐标回归处理模块还用于：采用第一卷积层对每一所述第一关键点特征进行卷积处理，得到第一卷积特征；通过所述第一卷积层对所述第一卷积特征依次进行第一预设次数的跳跃连接处理，得到第一跳跃连接特征；对所述第一跳跃连接特征进行池化处理，以降低所述第一跳跃连接特征的空间尺寸，得到每一所述手指关键点的所述第一UV编码特征。

在一些实施例中，所述UV坐标回归处理模块还用于：将所述第一卷积特征确定为所述第一卷积层在第一次跳跃连接处理时的输入特征；并且，将所述第一卷积层在第N次的输出特征，确定为所述第一卷积层在第N次跳跃连接处理的输入特征，其中，N为大于1的整数；将所确定出的每一次的所述输入特征，输入至所述第一卷积层中，依次进行所述第一预设次数的所述跳跃连接处理，得到所述第一跳跃连接特征。

在一些实施例中，所述UV坐标回归处理模块还用于：采用第二卷积层对每一所述手掌关键点特征进行卷积处理，得到第二卷积特征；通过所述第二卷积层对所述第二卷积特征依次进行第二预设次数的跳跃连接处理，得到第二跳跃连接特征；对所述第二跳跃连接特征进行池化处理，以降低所述第二跳跃连接特征的空间尺寸，得到每一所述手掌关键点的所述第二UV编码特征。

在一些实施例中，所述深度回归处理模块还用于：分别对每一所述第一关键点特征和每一所述第二关键点特征，进行深度编码处理，对应得到每一所述手指关键点的第一深度编码特征和每一所述手掌关键点的第二深度编码特征；分别对每一所述第一深度编码特征和每一所述第二深度编码特征，进行全连接处理，对应得到每一所述手指关键点的第一深度坐标和每一所述手掌关键点的第二深度坐标。

在一些实施例中，所述深度回归处理模块还用于：采用第三卷积层对每一所述手指关键点特征进行卷积处理，得到第三卷积特征；通过所述第三卷积层对所述第三卷积特征依次进行第三预设次数的跳跃连接处理，得到第三跳跃连接特征；对所述第三跳跃连接特征进行池化处理，以降低所述第三跳跃连接特征的空间尺寸，得到每一所述手指关键点的所述第一深度编码特征。

在一些实施例中，所述深度回归处理模块还用于：将所述第三卷积特征确定为所述第三卷积层在第一次跳跃连接处理时的输入特征；并且，将所述第三卷积层在第M次的输出特征，确定为所述第三卷积层在第M次跳跃连接处理的输入特征，其中，M为大于1的整数；将所确定出的每一次的所述输入特征，输入至所述第三卷积层中，依次进行所述第三预设次数的所述跳跃连接处理，得到所述第三跳跃连接特征。

在一些实施例中，所述深度回归处理模块还用于：采用第四卷积层对每一所述手掌关键点特征进行卷积处理，得到第四卷积特征；通过所述第四卷积层对所述第四卷积特征依次进行第四预设次数的跳跃连接处理，得到第四跳跃连接特征；对所述第四跳跃连接特征进行池化处理，以降低所述第四跳跃连接特征的空间尺寸，得到每一所述手掌关键点的所述第二深度编码特征。

在一些实施例中，所述手势分析模块还用于：对每一所述手指关键点的所述第一UV坐标和所述第一深度坐标进行坐标转换，得到对应手指关键点的第一空间坐标；对每一所述手掌关键点的所述第二UV坐标和所述第二深度坐标进行坐标转换，得到对应手掌关键点的第二空间坐标；根据所述第一空间坐标和所述第二空间坐标，对所述待分析图像进行手势分析，得到手势分析结果。

在一些实施例中，所述手势分析模块还用于：确定每两个手指关键点之间的第一相对位置关系、和每两个手掌关键点之间的第二相对位置关系；根据所述第一相对位置关系和所述第二相对位置关系，依次连接所述第一数量的手指关键点和所述第二数量的手掌关键点，形成手部关键点连接图；根据所述手部关键点连接图对所述待分析图像进行手势分析，得到手势分析结果。

在一些实施例中，所述特征提取模块还用于：对所述待分析图像进行目标识别，以实现在所述待分析图像的至少两个子区域中识别出具有目标对象的目标子区域；对所述目标子区域进行截取，得到截取后的图像；对所述截取后的图像进行所述特征提取，得到所述第一数量的所述第一关键点特征和所述第二数量的所述第二关键点特征。

在一些实施例中，所述特征提取模块还用于：获取具有预设尺寸的扫描框，所述待分析图像的尺寸大于所述预设尺寸；通过在所述待分析图像的区域上滑动所述扫描框，以确定出每一所述子区域中具有所述目标对象的概率值；将具有最高概率值的子区域确定为所述目标子区域。

在一些实施例中，所述特征提取模块还用于：对所述截取后的图像进行RoI匹配特征提取，以获得坐标为浮点数的像素点上的至少两个图像RoI匹配特征；根据所述至少两个图像RoI匹配特征，确定RoI匹配特征图；对所述RoI匹配特征图进行二维手部姿态估计，以确定出所述第一数量的所述第一关键点特征和所述第二数量的所述第二关键点特征。

在一些实施例中，所述特征提取模块还用于：采用第五卷积层对所述RoI匹配特征图中的所述图像RoI匹配特征进行卷积处理，得到RoI匹配卷积特征；采用第六卷积层对所述RoI匹配卷积特征进行第五预设次数的跳跃连接处理，得到第五跳跃连接特征；对所述第五跳跃连接特征进行池化处理，以降低所述第五跳跃连接特征的空间尺寸，确定出所述第一数量的所述手指关键点特征和所述第二数量的所述手掌关键点特征。

在一些实施例中，所述装置还包括：处理模块，用于采用手势分析模型进行所述特征提取、所述UV坐标回归处理、所述深度回归处理和所述手势分析，以得到所述手势分析结果。

在一些实施例中，所述手势分析模型通过以下步骤进行训练：将样本图像输入至所述手势分析模型中；通过所述手势分析模型中的手部特征提取网络，对所述样本图像进行特征提取，得到第三数量的样本第一关键点特征和第四数量的样本第二关键点特征；通过所述手势分析模型中的UV坐标回归网络，分别对每一所述样本第一关键点特征和每一所述样本第二关键点特征进行UV坐标回归处理，对应得到每一样本手指关键点的第一样本UV坐标和每一样本手掌关键点的第二样本UV坐标；通过所述手势分析模型中的深度回归网络，分别对每一所述样本第一关键点特征和每一所述样本第二关键点特征进行深度回归处理，对应得到每一样本手指关键点的第一样本深度坐标和每一样本手掌关键点的第二样本深度坐标；通过所述手势分析模型中的手势分析网络，对所述第一样本UV坐标、所述第二样本UV坐标、所述第一样本深度坐标和所述第二样本深度坐标进行手势分析，得到样本手势分析结果；将所述样本手势分析结果输入至预设损失模型中，得到损失结果；根据所述损失结果，对所述手部特征提取网络、所述UV坐标回归网络、所述深度回归网络和所述手势分析网络中的参数进行修正，得到修正后的手势分析模型。

需要说明的是，本申请实施例装置的描述，与上述方法实施例的描述是类似的，具有同方法实施例相似的有益效果，因此不做赘述。对于本装置实施例中未披露的技术细节，请参照本申请方法实施例的描述而理解。

本申请实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行本申请实施例上述的方法。

本申请实施例提供一种存储有可执行指令的存储介质，其中存储有可执行指令，当可执行指令被处理器执行时，将引起处理器执行本申请实施例提供的方法，例如，如图2示出的方法。

在一些实施例中，存储介质可以是计算机可读存储介质，例如，铁电存储器(FRAM，Ferromagnetic Random Access Memory)、只读存储器(ROM，Read Only Memory)、可编程只读存储器(PROM，Programmable Read Only Memory)、可擦除可编程只读存储器(EPROM，Erasable Programmable Read Only Memory)、带电可擦可编程只读存储器(EEPROM，Electrically Erasable Programmable Read Only Memory)、闪存、磁表面存储器、光盘、或光盘只读存储器(CD-ROM，Compact Disk-Read Only Memory)等存储器；也可以是包括上述存储器之一或任意组合的各种设备。

在一些实施例中，可执行指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言(包括编译或解释语言，或者声明性或过程性语言)来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例，可执行指令可以但不一定对应于文件系统中的文件，可以可被存储在保存其它程序或数据的文件的一部分，例如，存储在超文本标记语言(HTML，Hyper Text Markup Language)文档中的一个或多个脚本中，存储在专用于所讨论的程序的单个文件中，或者，存储在多个协同文件(例如，存储一个或多个模块、子程序或代码部分的文件)中。作为示例，可执行指令可被部署为在一个计算设备上执行，或者在位于一个地点的多个计算设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算设备上执行。

以上所述，仅为本申请的实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等，均包含在本申请的保护范围之内。

工业实用性

本申请实施例中，首先对获取的待分析图像进行特征提取，得到第一数量的第一关键点特征和第二数量的第二关键点特征；然后分别对每一所述第一关键点特征和每一所述第二关键点特征进行UV坐标回归处理，对应得到每一手指关键点的第一UV坐标和每一手掌关键点的第二UV坐标；分别对每一所述第一关键点特征和每一所述第二关键点特征进行深度回归处理，对应得到每一手指关键点的第一深度坐标和每一手掌关键点的第二深度坐标；最后根据所述第一UV坐标、所述第一深度坐标、所述第二UV坐标和所述第二深度坐标，对所述待分析图像进行手势分析，得到手势分析结果。如此，能够能够极大的提高手势分析的准确率，具有一定的工业实用性。

Claims

一种手势分析方法，所述方法包括：

对获取的待分析图像进行特征提取，得到第一数量的第一关键点特征和第二数量的第二关键点特征；

分别对每一所述第一关键点特征和每一所述第二关键点特征进行UV坐标回归处理，对应得到每一手指关键点的第一UV坐标和每一手掌关键点的第二UV坐标；

分别对每一所述第一关键点特征和每一所述第二关键点特征进行深度回归处理，对应得到每一手指关键点的第一深度坐标和每一手掌关键点的第二深度坐标；

根据所述第一UV坐标、所述第一深度坐标、所述第二UV坐标和所述第二深度坐标，对所述待分析图像进行手势分析，得到手势分析结果。
根据权利要求1所述的方法，其中，所述分别对每一所述第一关键点特征和每一所述第二关键点特征进行UV坐标回归处理，对应得到每一手指关键点的第一UV坐标和每一手掌关键点的第二UV坐标，包括：

分别对每一所述第一关键点特征和每一所述第二关键点特征，进行UV编码处理，对应得到每一所述手指关键点的第一UV编码特征和每一所述手掌关键点的第二UV编码特征；

分别对每一所述第一UV编码特征和每一所述第二UV编码特征，进行全连接处理，对应得到每一所述手指关键点的第一UV坐标和每一所述手掌关键点的第二UV坐标。
根据权利要求2所述的方法，其中，对每一所述第一关键点特征进行UV编码处理，得到每一所述手指关键点的第一UV编码特征，包括：

采用第一卷积层对每一所述第一关键点特征进行卷积处理，得到第一卷积特征；

通过所述第一卷积层对所述第一卷积特征依次进行第一预设次数的跳跃连接处理，得到第一跳跃连接特征；

对所述第一跳跃连接特征进行池化处理，以降低所述第一跳跃连接特征的空间尺寸，得到每一所述手指关键点的所述第一UV编码特征。
根据权利要求3所述的方法，其中，所述通过所述第一卷积层对所述第一卷积特征依次进行第一预设次数的跳跃连接处理，得到第一跳跃连接特征，包括：

将所述第一卷积特征确定为所述第一卷积层在第一次跳跃连接处理时的输入特征；并且，

将所述第一卷积层在第N次的输出特征，确定为所述第一卷积层在第N次跳跃连接处理的输入特征，其中，N为大于1的整数；

将所确定出的每一次的所述输入特征，输入至所述第一卷积层中，依次进行所述第一预设次数的所述跳跃连接处理，得到所述第一跳跃连接特征。
根据权利要求2所述的方法，其中，对每一所述第二关键点特征，进行UV编码处理，得到每一所述手掌关键点的第二UV编码特征，包括：

采用第二卷积层对每一所述手掌关键点特征进行卷积处理，得到第二卷积特征；

通过所述第二卷积层对所述第二卷积特征依次进行第二预设次数的跳跃连接处理，得到第二跳跃连接特征；

对所述第二跳跃连接特征进行池化处理，以降低所述第二跳跃连接特征的空间尺寸，得到每一所述手掌关键点的所述第二UV编码特征。
根据权利要求1所述的方法，其中，所述分别对每一所述第一关键点特征和每一所述第二关键点特征进行深度回归处理，对应得到每一手指关键点的第一深度坐标和每一手掌关键点的第二深度坐标，包括：

分别对每一所述第一关键点特征和每一所述第二关键点特征，进行深度编码处理，对应得到每一所述手指关键点的第一深度编码特征和每一所述手掌关键点的第二深度编码特征；

分别对每一所述第一深度编码特征和每一所述第二深度编码特征，进行全连接处理，对应得到每一所述手指关键点的第一深度坐标和每一所述手掌关键点的第二深度坐标。
根据权利要求6所述的方法，其中，对每一所述第一关键点特征进行深度编码处理，对应得到每一所述手指关键点的第一深度编码特征，包括：

采用第三卷积层对每一所述手指关键点特征进行卷积处理，得到第三卷积特征；

通过所述第三卷积层对所述第三卷积特征依次进行第三预设次数的跳跃连接处理，得到第三跳跃连接特征；

对所述第三跳跃连接特征进行池化处理，以降低所述第三跳跃连接特征的空间尺寸，得到每一所述手指关键点的所述第一深度编码特征。
根据权利要求7所述的方法，其中，所述通过所述第三卷积层对所述第三卷积特征依次进行第三预设次数的跳跃连接处理，得到第三跳跃连接特征，包括：

将所述第三卷积特征确定为所述第三卷积层在第一次跳跃连接处理时的输入特征；并且，

将所述第三卷积层在第M次的输出特征，确定为所述第三卷积层在第M次跳跃连接处理的输入特征，其中，M为大于1的整数；

将所确定出的每一次的所述输入特征，输入至所述第三卷积层中，依次进行所述第三预设次数的所述跳跃连接处理，得到所述第三跳跃连接特征。
根据权利要求6所述的方法，其中，对每一所述第二关键点特征进行深度编码处理，对应得到每一所述手掌关键点的第二深度编码特征，包括：

采用第四卷积层对每一所述手掌关键点特征进行卷积处理，得到第四卷积特征；

通过所述第四卷积层对所述第四卷积特征依次进行第四预设次数的跳跃连接处理，得到第四跳跃连接特征；

对所述第四跳跃连接特征进行池化处理，以降低所述第四跳跃连接特征的空间尺寸，得到每一所述手掌关键点的所述第二深度编码特征。
根据权利要求1所述的方法，其中，所述根据所述第一UV坐标、所述第一深度坐标、所述第二UV坐标和所述第二深度坐标对所述待分析图像进行手势分析，得到手势分析结果，包括：

对每一所述手指关键点的所述第一UV坐标和所述第一深度坐标进行坐标转换，得到对应手指关键点的第一空间坐标；

对每一所述手掌关键点的所述第二UV坐标和所述第二深度坐标进行坐标转换，得到对应手掌关键点的第二空间坐标；

根据所述第一空间坐标和所述第二空间坐标，对所述待分析图像进行手势分析，得到手势分析结果。
根据权利要求10所述的方法，其中，所述根据所述第一空间坐标和所述第二空间坐标，对所述待分析图像进行手势分析，得到手势分析结果，包括：

确定每两个手指关键点之间的第一相对位置关系、和每两个手掌关键点之间的第二相对位置关系；

根据所述第一相对位置关系和所述第二相对位置关系，依次连接所述第一数量的手指关键点和所述第二数量的手掌关键点，形成手部关键点连接图；

根据所述手部关键点连接图对所述待分析图像进行手势分析，得到手势分析结果。
根据权利要求1所述的方法，其中，所述对获取的待分析图像进行特征提取，得到第一数量的第一关键点特征和第二数量的第二关键点特征，包括：

对所述待分析图像进行目标识别，以实现在所述待分析图像的至少两个子区域中识别出具有目标对象的目标子区域；

对所述目标子区域进行截取，得到截取后的图像；

对所述截取后的图像进行所述特征提取，得到所述第一数量的所述第一关键点特征和所述第二数量的所述第二关键点特征。
根据权利要求12所述的方法，其中，所述对所述待分析图像进行目标识别，以实现在所述待分析图像的至少两个子区域中识别出具有目标对象的目标子区域，包括：

获取具有预设尺寸的扫描框，所述待分析图像的尺寸大于所述预设尺寸；

通过在所述待分析图像的区域上滑动所述扫描框，以确定出每一所述子区域中具有所述目标对象的概率值；

将具有最高概率值的子区域确定为所述目标子区域。
根据权利要求12所述的方法，其中，所述对所述截取后的图像进行所述特征提取，得到所述第一数量的所述第一关键点特征和所述第二数量的所述第二关键点特征，包括：

对所述截取后的图像进行RoI匹配特征提取，以获得坐标为浮点数的像素点上的至少两个图像RoI匹配特征；

根据所述至少两个图像RoI匹配特征，确定RoI匹配特征图；

对所述RoI匹配特征图进行二维手部姿态估计，以确定出所述第一数量的所述第一关键点特征和所述第二数量的所述第二关键点特征。
根据权利要求14所述的方法，其中，所述对所述RoI匹配特征图进行二维手部姿态估计，以确定出所述第一数量的所述第一关键点特征和所述第二数量的所述第二关键点特征，包括：

采用第五卷积层对所述RoI匹配特征图中的所述图像RoI匹配特征进行卷积处理，得到RoI匹配卷积特征；

采用第六卷积层对所述RoI匹配卷积特征进行第五预设次数的跳跃连接处理，得到第五跳跃连接特征；

对所述第五跳跃连接特征进行池化处理，以降低所述第五跳跃连接特征的空间尺寸，确定出所述第一数量的所述手指关键点特征和所述第二数量的所述手掌关键点特征。
根据权利要求1至15任一项所述的方法，其中，所述方法还包括：

采用手势分析模型进行所述特征提取、所述UV坐标回归处理、所述深度回归处理和所述手势分析，以得到所述手势分析结果。
根据权利要求16所述的方法，其中，所述手势分析模型通过以下步骤进行训练：

将样本图像输入至所述手势分析模型中；

通过所述手势分析模型中的手部特征提取网络，对所述样本图像进行特征提取，得到第三数量的样本第一关键点特征和第四数量的样本第二关键点特征；

通过所述手势分析模型中的UV坐标回归网络，分别对每一所述样本第一关键点特征和每一所述样本第二关键点特征进行UV坐标回归处理，对应得到每一样本手指关键点的第一样本UV坐标和每一样本手掌关键点的第二样本UV坐标；

通过所述手势分析模型中的深度回归网络，分别对每一所述样本第一关键点特征和每一所述样本第二关键点特征进行深度回归处理，对应得到每一样本手指关键点的第一样本深度坐标和每一样本手掌关键点的第二样本深度坐标；

通过所述手势分析模型中的手势分析网络，对所述第一样本UV坐标、所述第二样本UV坐标、所述第一样本深度坐标和所述第二样本深度坐标进行手势分析，得到样本手势分析结果；

将所述样本手势分析结果输入至预设损失模型中，得到损失结果；

根据所述损失结果，对所述手部特征提取网络、所述UV坐标回归网络、所述深度回归网络和所述手势分析网络中的参数进行修正，得到修正后的手势分析模型。
一种手势分析装置，所述装置包括：

特征提取模块，配置为对获取的待分析图像进行特征提取，得到第一数量的第一关键点特征和第二数量的第二关键点特征；

UV坐标回归处理模块，配置为分别对每一所述第一关键点特征和每一所述第二关键点特征进行UV坐标回归处理，对应得到每一手指关键点的第一UV坐标和每一手掌关键点的第二UV坐标；

深度回归处理模块，配置为分别对每一所述第一关键点特征和每一所述第二关键点特征进行深度回归处理，对应得到每一手指关键点的第一深度坐标和每一手掌关键点的第二深度坐标；

手势分析模块，配置为根据所述第一UV坐标、所述第一深度坐标、所述第二UV坐标和所述第二深度坐标，对所述待分析图像进行手势分析，得到手势分析结果。
一种手势分析设备，包括：

存储器，用于存储可执行指令；处理器，用于执行所述存储器中存储的可执行指令时，实现权利要求1至17任一项所述的手势分析方法。
一种计算机可读存储介质，存储有可执行指令，用于引起处理器执行所述可执行指令时，实现权利要求1至17任一项所述的手势分析方法。