WO2023273071A1

WO2023273071A1 - 一种图像处理方法、装置及电子设备

Info

Publication number: WO2023273071A1
Application number: PCT/CN2021/127474
Authority: WO
Inventors: 刘昕; 刘文韬; 钱晨; 谢符宝
Original assignee: 北京市商汤科技开发有限公司
Priority date: 2021-06-29
Filing date: 2021-10-29
Publication date: 2023-01-05
Also published as: CN113469017A

Abstract

一种图像处理方法、装置及电子设备。所述方法包括：获得包含有目标对象的多帧二维图像（101）；检测所述多帧二维图像中的第一二维图像的手部，得到所述第一二维图像中的所述目标对象的手部的初始检测框（102）；基于所述初始检测框在所述第一二维图像中的区域确定第二二维图像中的第一区域，基于所述第二二维图像中的所述第一区域内的像素点获得所述第二二维图像中所述手部的检测框、所述手部的关键点信息和所述手部对应的状态类别信息中的至少一种信息（103）；所述第二二维图像为所述第一二维图像后的一帧图像。

Description

一种图像处理方法、装置及电子设备

相关申请的交叉引用

本公开基于申请号为202110725463.4、申请日为2021年06月29日的中国专利申请提出，并要求该中国专利申请的优先权，该中国专利申请的全部内容在此以引入方式并入本公开。

技术领域

本公开涉及图像处理技术，具体涉及一种图像处理方法、装置及电子设备。

背景技术

近些年来，触摸交互方式在手机、平板电脑等移动终端中有大量应用和交互设计，交互体验有极大的提升。近年来，手势交互方式(手势凭空操作)成为了各厂家探索和追捧的新技术方式。目前，手势交互方式通过深度相机或红外相机采集数据，成本高，稳定性不高。

发明内容

为解决现有存在的技术问题，本公开实施例提供一种图像处理方法、装置及电子设备。

为达到上述目的，本公开实施例的技术方案是这样实现的：

本公开实施例提供了一种图像处理方法，所述方法包括：

获得包含有目标对象的多帧二维图像；

检测所述多帧二维图像中的第一二维图像的手部，得到所述第一二维图像中的所述目标对象的手部的初始检测框；

基于所述初始检测框在所述第一二维图像中的区域确定第二二维图像中的第一区域，基于所述第二二维图像中的所述第一区域内的像素点获得所述第二二维图像中所述手部的检测框、所述手部的关键点信息和所述手部对应的状态类别信息中的至少一种信息；所述第二二维图像为所述第一二维图像后的一帧图像。

在本公开的一些可选实施方式中，所述基于所述第二二维图像中的所述第一区域内的像素点获得所述第二二维图像中所述手部的检测框、所述手部的关键点信息和所述手部对应的状态类别信息中的至少一种信息，包括：

按照所述第一区域对所述第二三维图像进行剪切，得到剪切图像；

对所述剪切图像进行特征识别，基于识别出的特征确定所述手部的检测框、所述手部的关键点信息和所述手部对应的状态类别信息中的至少一种信息。

在本公开的一些可选实施方式中，所述方法还包括：基于识别出的特征对所述剪切图像进行手部检测，得到所述剪切图像中是否包括手部的判别信息。

在本公开的一些可选实施方式中，所述对所述剪切图像进行特征识别，基于识别出的特征确定所述手部的检测框、所述手部的关键点信息和所述手部对应的状态类别信息中的至少一种信息，包括：通过第一网络的特征提取部分对所述剪切图像进行特征识别，获得特征图像集合，所述特征图像集合中包括多个具有不同感受野的特征图像；

将所述特征图像集合中的至少部分特征图像输入至所述第一网络，以通过所述第一网络执行以下至少之一：

基于所述第一网络中的第一分支对输入至所述第一网络的特征图像进行手部检测，得到所述手部的检测框；

基于所述第一网络中的第二分支对输入至所述第一网络的特征图像进行手部关键点检测，得到所述手部的关键点信息；

基于所述第一网络中的第三分支对输入至所述第一网络的特征图像进行手部状态识别，得到手部状态对应的状态类别信息；

其中，所述输入至所述第一网络的特征图像，在所述第一分支、所述第二分支和所述第三分支中分别对应的多个权重参数中、至少部分权重参数不同。

在本公开的一些可选实施方式中，所述方法还包括：基于所述第一网络中的第四分支对输入至所述第一网络的特征图像进行手部检测，得到所述剪切图像中是否包括手部的判别信息；其中，所述输入至所述第一网络的特征图像，在所述第四分支中对应的多个权重参数，与所述多个特征图像在所述第一分支、所述第二分支和所述第三分支中分别对应的多个权重参数中、至少部分权重参数不同。

在本公开的一些可选实施方式中，所述方法还包括：响应于所述判别信息表示所述剪切图像中不包括手部的情况，重新检测所述第二二维图像的手部，得到所述第二二维图像中所述目标对象的手部的检测框。

在本公开的一些可选实施方式中，所述基于所述初始检测框在所述第一二维图像中的区域确定第二二维图像中的第一区域，包括：

对所述初始检测框在所述第一二维图像中的区域进行等幅度放大处理得到第二区域；

根据所述第二区域，确定所述第二二维图像中与所述第二区域的位置范围对应的第一区域。

在本公开的一些可选实施方式中，在所述基于所述初始检测框在所述第一二维图像中的区域确定第二二维图像中的第一区域之前，所述方法还包括：

检测所述多帧二维图像中的第三二维图像的手部，确定所述第三二维图像中的手部的位置；所述第三二维图像为所述第二二维图像前的一帧图像；

基于所述第三二维图像中的手部的位置和所述第一二维图像中的手部的位置确定所述手部的移动趋势。

基于所述手部的移动趋势对所述初始检测框在所述第一二维图像中的区域进行放大处理得到第二区域；所述初始检测框在所述第一二维图像中的区域中，对应于所述移动趋势的子区域的放大幅度，大于除所述子区域以外的其他子区域的放大幅度；

本公开实施例还提供了一种图像处理装置，所述装置包括：获取单元、检测单元、确定单元和处理单元；其中，

所述获取单元，配置为获得包含有目标对象的多帧二维图像；

所述检测单元，配置为检测所述多帧二维图像中的第一二维图像的手部，得到所述第一二维图像中的所述目标对象的手部的初始检测框；

所述确定单元，配置为基于所述初始检测框在所述第一二维图像中的区域确定第二二维图像中的第一区域；

所述处理单元，配置为基于所述第二二维图像中的所述第一区域内的像素点获得所述第二二维图像中所述手部的检测框、所述手部的关键点信息和所述手部对应的状态类别信息中的至少一种信息；所述第二二维图像为所述第一二维图像后的一帧图像。

在本公开的一些可选实施例中，所述处理单元，配置为按照所述第一区域对所述第二三维图像进行剪切，得到剪切图像，对所述剪切图像进行特征识别，基于识别出的特征确定所述手部的检测框、所述手部的关键点信息和所述手部对应的状态类别信息中的至少一种信息。

在本公开的一些可选实施例中，所述处理单元，还配置为基于识别出的特征对所述剪切图像进行手部检测，得到所述剪切图像中是否包括手部的判别信息。

在本公开的一些可选实施例中，所述处理单元，配置为通过第一网络的特征提取部分对所述剪切图像进行特征识别，获得特征图像集合，所述特征图像集合中包括多个具有不同感受野的特征图像；将所述特征图像集合中的至少部分特征图像输入至所述第一网络，以通过所述第一网络执行以下至少之一：

在本公开的一些可选实施例中，所述处理单元，还配置为基于所述第一网络中的第四分支对输入至所述第一网络的特征图像进行手部检测，得到所述剪切图像中是否包括手部的判别信息；其中，所述输入至所述第一网络的特征图像，在所述第四分支中对应的多个权重参数，与所述多个特征图像在所述第一分支、所述第二分支和所述第三分支中分别对应的多个权重参数中、至少部分权重参数不同。

在本公开的一些可选实施例中，所述检测单元，还配置为响应于所述处理单元得到的所述判别信息表示所述剪切图像中不包括手部的情况，重新检测所述第二二维图像的手部，得到所述第二二维图像中所述目标对象的手部的初始检测框。

在本公开的一些可选实施例中，所述确定单元，配置为对所述初始检测框在所述第一二维图像中的区域进行等幅度放大处理得到第二区域；根据所述第二区域，确定所述第二二维图像中与所述第二区域的位置范围对应的第一区域。

在本公开的一些可选实施例中，所述装置还包括趋势检测单元，配置为检测所述多帧二维图像中的第三二维图像的手部，确定所述第三二维图像中的手部的位置；所述第三二维图像为所述第二二维图像前的一帧图像；基于所述第三二维图像中的手部的位置和所述第一二维图像中的手部的位置确定所述手部的移动趋势。

在本公开的一些可选实施例中，所述确定单元，配置为基于所述手部的移动趋势对所述初始检测框在所述第一二维图像中的区域进行放大处理得到第二区域；所述初始检测框在所述第一二维图像中的区域中，对应于所述移动趋势的子区域的放大幅度，大于除所述子区域以外的其他子区域的放大幅度；根据所述第二区域，确定所述第二二维图像中与所述第二区域的位置范围对应的第一区域。

本公开实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现本公开实施例所述方法的步骤。

本公开实施例还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现本公开实施例所述方法的步骤。

本公开实施例还提供了一种计算机程序，所述计算机程序使得计算机执行本公开实施例所述的图像处理方法。

本公开实施例提供的图像处理方法、装置及电子设备，通过对第一二维图像中的手部进行检测得到手部的初始检测框，再基于该初始检测框确定出在后图像(第二二维图像)的第一区域内的像素点获得第二二维图像中手部的检测框、手部的关键点信息和手部对应的状态类别信息中的至少一种信息。一方面无需采用深度图像的深度摄像头或红外摄像头等深度图像采集组件，大大降低了实现成本；另一方面通过多任务处理的方式实现了手部的检测框、所述手部的关键点信息和所述手部对应的状态类别信息的获得，识别信息丰富，为后续的手势交互功能提供了支持，且缩短了信息获取的时长。

附图说明

图1为本公开实施例的图像处理方法的流程示意图一；

图2为本公开实施例的图像处理方法的流程示意图二；

图3为本公开实施例的图像处理方法中的步骤1032的方法流程示意图；

图4为本公开实施例的图像处理方法中的手部的关键点示意图；

图5为本公开实施例的图像处理方法中的第一网络的结构示意图；

图6为本公开实施例的图像处理装置的组成结构示意图；

图7为本公开实施例的电子设备的硬件组成结构示意图。

具体实施方式

下面结合附图及具体实施例对本公开作进一步详细的说明。

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、接口、技术之类的具体细节，以便透彻理解本申请。

本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。此外，本文中的“多”表示两个或者多于两个。

本公开实施例提供了一种图像处理方法。图1为本公开实施例的图像处理方法的流程示意图一；如图1所示，所述方法包括：

步骤101：获得包含有目标对象的多帧二维图像；

步骤102：检测所述多帧二维图像中的第一二维图像的手部，得到所述第一二维图像中的所述目标对象的手部的初始检测框；

步骤103：基于所述初始检测框在所述第一二维图像中的区域确定第二二维图像中的第一区域，基于所述第二二维图像中的所述第一区域内的像素点获得所述第二二维图像中所述手部的检测框、所述手部的关键点信息和所述手部对应的状态类别信息中的至少一种信息；所述第二二维图像为所述第一二维图像后的一帧图像。

本实施例的图像处理方法可应用于图像处理装置中，图像处理装置可设置于个人计算机、服务器等具有处理功能的电子设备内，其中，电子设备还可以是智能电视、投影仪、智慧屏、户外展示机等显示设备，或者由处理器或芯片执行计算机程序实现。

本实施例中，上述多帧二维图像可以为由电子设备内置或外接的图像采集设备采集的连续的视频，或者也可以是接收的由其它电子设备传输的视频等。在一些可选实施例中，电子设备中可包括图像采集组件(例如摄像头)，通过图像采集组件获得包含有目标对象的多帧二维图像。在另一些可选实施例中，电子设备中可包括通信组件，通过通信组件获得其他摄像头(例如独立设置在图像采集区域的摄像头，或者其他电子设备中的摄像头)采集的包含有目标对象的多帧二维图像。示例性的，以电子设备为手机为例，则可通过手机的前置摄像头采集包含有目标对象的多帧二维图像。在另一些可选实施例中，上述多帧二维图像也可以是本地或其他视频库中存储的视频。

示例性的，图像采集设备(或图像采集组件)可以是普通的摄像头，而无需是深度摄像头或红外摄像头等具有深度数据采集的摄像头。示例性的，上述多帧二维图像例如可以是RGB图像。本申请实施例可采用普通图像采集设备(或图像采集组件)获得普通的二维图像，基于普通的二维图像进行手部的相关信息的识别，无需采用深度图像的深度摄像头或红外摄像头等深度图像采集组件，大大降低了实现成本。

需要说明的是，本实施例中的二维图像可简称为图像。

本实施例中，目标对象具体可以是目标人物；目标人物具体可以是图像中位于前景的人物；或者，目标人物可以是图像中指定人物。

本实施例中，多帧二维图像中的每一帧二维图像可称为帧图像，是组成视频(即待处理图像)的最小单位，可以理解，多帧二维图像为一组时间连续的帧图像，按照各个帧图像的采集时间形成上述多帧二维图像，各个帧图像对应的时间参数是连续的。示例性的，以目标对象为真实人物为例，在多帧二维图像中包括目标对象的情况下，上述多帧二维图像对应的时间范围内可包括一个或多个目标对象，也可以是上述多帧二维图像的时间范围内的部分时间范围内包括一个或多个目标对象，本实施例中对此不作限定。

本实施例中，上述第一二维图像为多帧二维图像中的任意一帧图像，可选地，第一二维图像可以是多帧二维图像中的首帧图像；第二图像为第一二维图像后的一帧二维图像。其中，第二二维图像可以是与第一二维图像时间连续的、在后的一帧图像。例如，多帧二维图像包括10帧图像，上述第一二维图像为10帧图像中的第2帧图像，则上述第二二维图像为第3帧图像。或者，第二二维图像也可以是第一二维图像后的、与第一二维图像相距预设数量帧图像的一帧图像。例如，多帧二维图像包括20帧图像，上述第一二维图像为20帧图像中的第2帧图像，假设预设数量帧图像为3帧图像，则上述第二二维图像可以为20帧图像中的第6帧图像。其中，上述预设数量可依据实际情况预先设定，例如预设数量可依据目标对象的移动速度预先设定。这种实施方式能够有效的减小数据处理量，从而减轻图像处理装置的消耗。

本实施例中，可通过目标检测网络检测第一二维图像中的手部，得到第一二维图像中目标对象的手部的初始检测框。上述目标检测网络可通过标注有手部的检测框的样本图像训练获得，可检测到图像中的手部从而得到手部的初始检测框。其中，上述目标检测网络可采用任意一种能够检测目标对象的手部的网络结构，本实施例中对此不做限定。

示例性的，可通过目标检测网络对第一二维图像进行特征提取，基于提取到的特征图确定目标对象的手部所在区域的处于对角位置的两个坐标，或是手部所在区域的四个角的坐标。以处于对角位置的两个坐标为例，可以是左上角和右下角的坐标，进而根据确定的左上角和右下角的坐标得到手部的初始检测框。

在一些可选实施例中，所述基于所述初始检测框在所述第一二维图像中的区域确定第二二维图像中的第一区域，包括：对所述初始检测框在所述第一二维图像中的区域进行等幅度放大处理得到第二区域；根据所述第二区域，确定所述第二二维图像中与所述第二区域的位置范围对应的第一区域。

示例性的，若初始检测框的高度为H，宽度为W，则可以这个区域的中心点为中心，以该区域的四边朝向远离中心点的方向延伸，例如在高度方向上，分别向远离中心点的方向延伸H/4，在宽度方向上，分别向远离中心点的方向延伸W/4，得到第二区域。当然，本实施例中对初始检测框所在的区域进行放大处理的程度不限于上述所述，其他放大处理的程度参数也可在本实施例的保护范围内。

在另一些可选实施例中，在所述基于所述初始检测框在所述第一二维图像中的区域确定第二二维图像中的第一区域之前，所述方法还包括：检测所述多帧二维图像中的第三二维图像的手部，确定所述第三二维图像中的手部的位置；所述第三二维图像为所述第二二维图像前的一帧图像；基于所述第三二维图像中的手部的位置和所述第一二维图像中的手部的位置确定所述手部的移动趋势。

则所述基于所述初始检测框在所述第一二维图像中的区域确定第二二维图像中的第一区域，包括：基于所述手部的移动趋势对所述初始检测框在所述第一二维图像中的区域进行放大处理得到第二区域；所述初始检测框在所述第一二维图像中的区域中，对应于所述移动趋势的子区域的放大幅度，大于除所述子区域以外的其他子区域的放大幅度；根据所述第二区域，确定所述第二二维图像中与所述第二区域的位置范围对应的第一区域。

本实施例中，由于手部可能是处于快速移动状态，例如在第一二维图像中的A区域检测到手部的初始检测框，在第二二维图像中的A区域可能只能检测到部分手部甚至检测不到手部。基于此，本实施例中先根据第三二维图像中的手部的位置和第一二维图像中的手部的位置确定手部的移动趋势，进而根据手部的移动趋势对所述初始检测框在所述第一二维图像中的区域进行非等幅度的放大处理得到第二区域。

示例性的，若所述第三二维图像为所述第一二维图像后、所述第二二维图像前的一帧图像，则可根据手部在第三二维图像中的位置和手部在所述第一二维图像中的位置，确定两个位置之间的位移，位移的方向表示手部的移动方向，位移的大小表示手部在第三二维图像和第一二维图像之间对应的时长范围内移动的距离。进一步可根据该位移对所述初始检测框在所述第一二维图像中的区域进行放大处理得到第二区域。

示例性的，位移的方向对应于所述子区域。例如，以图像的中心点为原点建立平面坐标系，若位移的方向为x轴正方向，则对所述初始检测框在所述第一二维图像中的区域进行放大处理得到第二区域的过程中，若初始检测框的高度为H，宽度为W，则可以这个区域的中心点为中心，以该区域的四边朝向远离中心点的方向延伸，在朝向x轴正方向延伸的幅度大于其他方向延伸的幅度。例如在高度方向上，分别向远离中心点的方向延伸H/4，在宽度方向上，在x轴负方向延伸W/4，在x轴正方向延伸W/2，得到第二区域。当然，本实施例中，针对子区域的扩大参数可根据上述位移的大小确定，若手部的移动速度较大，则子区域的扩大参数可相应较大，若手部的移动速度较小，则子区域的扩大参数也可相应较小。这样降低了在第二二维图像中的第一区域检测不到手部的发生几率。

本实施例中，根据初始检测框所在区域放大处理后得到的第二区域，可确定第二二维图像中、与所述第二区域的位置范围对应的第一区域。可选地，所述第二区域的尺寸需满足条件。由于采用基于第一二维图像中的手部跟踪得到第二二维图像中的手部的技术方案，第一二维图像和第二二维图像是相邻的两帧图像或者是在采集时间上相距较近的图像，则第一二维图像和第二二维图像中、对应于同一目标对象的同一手部的尺寸，在第一二维图像和第二二维图像中通常是相似的；基于此，则上述第二区域的尺寸需满足条件可以是指：第二区域的尺寸相对于初始检测框的尺寸的放大比例不大于第一阈值，即所述第二区域中的目标对象的手部的尺寸占所述第二区域的尺寸的比例需大于等于第二阈值，相应的，第一区域内的手部的尺寸占第一区域的尺寸的比例需大于等于第二阈值。这样，图像中的手部所占的区域的比例较大，有效数据则较多，这样通过第一网络进行处理才能更好的得到与手部相关的信息。

本实施例中，根据初始检测框在所述第一二维图像中的区域确定第二二维图像中的第一区域，进而基于所述第二二维图像中的所述第一区域内的像素点和第一网络获得所述第二二维图像中所述手部的检测框、所述手部的关键点信息和所述手部对应的状态类别信息中的至少一种信息，也即将第二二维图像中的第一区域内的像素点作为第一网络的输入值，通过第一网络的处理可得到所述第二二维图像中所述手部的检测框、所述手部的关键点信息和所述手部对应的状态类别信息中的至少一种信息。

采用本公开实施例的技术方案，通过对第一二维图像中的手部进行检测得到手部的初始检测框，再基于该初始检测框确定出在后图像(第二二维图像)的第一区域内的像素点获得第二二维图像中手部的检测框、手部的关键点信息和手部对应的状态类别信息中的至少一种信息。一方面无需采用深度图像的深度摄像头或红外摄像头等深度图像采集组件，大大降低了实现成本；另一方面通过多任务处理的方式实现了手部的检测框、所述手部的关键点信息和所述手部对应的状态类别信息的获得，识别信息丰富，为后续的手势交互功能提供了支持，且缩短了信息获取的时长。

图2为本公开实施例的图像处理方法的流程示意图二；在图1所示的实施例的基础上，本实施例中，步骤103进一步还可以包括：

步骤1031：按照所述第一区域对所述第二三维图像进行剪切，得到剪切图像；

步骤1032：对所述剪切图像进行特征识别，基于识别出的特征确定所述手部的检测框、所述手部的关键点信息和所述手部对应的状态类别信息中的至少一种信息。

本实施例中，基于第一网络对剪切图像进行特征识别，基于识别出的特征确定所述手部的检测框、所述手部的关键点信息和所述手部对应的状态类别信息中的至少一种信息，因此需要按照第一区域对所述第二三维图像进行剪切，使之得到的剪切图像满足第一网络的输入图像的尺寸。示例性的，所述剪切图像的尺寸可以是80*80。

可选地，如图3所示，步骤1032可包括：

步骤10321：通过第一网络的特征提取部分对所述剪切图像进行特征识别，获得特征图像集合，所述特征图像集合中包括多个具有不同感受野的特征图像；

步骤10322：基于所述第一网络中的第一分支对输入至所述第一网络的特征图像进行手部检测，得到所述手部的检测框；

步骤10323：基于所述第一网络中的第二分支对输入至所述第一网络的特征图像进行手部关键点检测，得到所述手部的关键点信息；

步骤10324：基于所述第一网络中的第三分支对输入至所述第一网络的特征图像进行手部状态识别，得到手部状态对应的状态类别信息。

本实施例中，所述输入至所述第一网络的特征图像，在所述第一分支、所述第二分支和所述第三分支中分别对应的多个权重参数中、至少部分权重参数不同。

本实施例中，上述步骤10322至步骤10324的执行顺序不限于上述所示，可以是并行执行上述步骤10322至步骤10324。

本实施例中，一方面，第一网络中包括特征提取部分，通过特征提取部分对剪切图像进行特征提取，获得多个具有不同感受野的特征图像(即特征图像集合)。示例性的，第一网络的特征提取部分具有多个尺寸的卷积核，通过多个尺寸的卷积核分别对剪切图像进行特征提取，从而得到经不同尺寸的卷积核处理的多个特征图像，特征图像的感受野是与卷积核尺寸对应的，因此，经小尺寸的卷积核处理得到的特征图像，对应的感受野也较小，也即该特征图像更侧重于局部特征；经大尺寸的卷积核处理得到的特征图像，对应的感受野也较大，也即该特征图像更侧重于全局特征。

另一方面，第一网络至少具有三个分支，即：第一分支、第二分支和第三分支；其中，第一分支用于获得手部的检测框，第二分支用于获得手部的关键点信息，第三分支用于对手部的状态进行识别，从而得到手部状态对应的状态类别信息。由于每个分支的任务不同，故输入至每个分支的特征图像，在所述第一分支、所述第二分支和所述第三分支中分别对应的多个权重参数中、至少部分权重参数不同。示例性的，多个具有不同感受野的特征图像分别输入至第一分支、第二分支和第三分支，由于每个分支的任务不同，所需要的特征的侧重点也不同，故各个特征图像在所述第一分支、所述第二分支和所述第三分支中分别对应的多个权重参数中、至少部分权重参数不同。例如对于第一分支，用于检测手部的检测框，侧重点在于手部的形状，注重手部的整体状态，则感受野较大的特征图像对应的权重参数可相对大些，感受野较小的特征图像对应的权重参数可相对小些。又例如对于第二分支，用于检测手部的关键点，侧重点在于手部的局部信息，则感受野较小的特征图像对应的权重参数可相对大写，感受野较大的特征图像对应的权重参数可相对小些。

在一些可选实施例中，手部的关键点可参照图4所示，手部的关键点可包括以下至少之一：手腕(Wrist)关键点、手指的关节关键点、手指的指尖(TIP)关键点等等；其中，手指的关节关键点至少可包括以下至少之一：掌指关节(Metacarpophalangeal Point，MCP)关键点、近侧指间关节(Proximal Interphalangeal Point，PIP)关键点、远侧指间关节(Distal Interphalangeal Point，DIP)关键点。手指可至少包括以下至少之一：拇指(Thumb)、食指(Index)、中指(Middle)、无名指(Ring)、小指(Little)；如图2所示，手腕关键点可包括关键点P1；拇指(Thumb)关键点可包括P2、P3、P4中的至少一个关键点；食指(Index)关键点可包括P5、P6、P7、P8中的至少一个关键点；中指(Middle)关键点可包括P9、P10、P11、P12中的至少一个关键点；无名指(Ring)关键点可包括P13、P14、P15、P16中的至少一个关键点；小指(Little)关键点可包括P17、P18、P19、P20中的至少一个关键点。

在一些可选实施例中，手部状态例如可以是手掌状态、握拳状态等手部经胎形态。示例性的，识别到手部的五指张开、掌心朝向图像采集组件或是手背朝向图像采集组件，均可确定为手部处于手掌状态；或者识别到手部握拳、掌心朝向图像采集组件或是手背朝向图像采集组件，均可确定为手部处于握拳状态。当然，本实施例中的手部状态不限于上述示例，其他手部的状态也可在本实施例的保护范围指内。

本实施例中，状态类别信息可以是预先设置或预先定义的手部状态类别，电子设备若检测到手部的状态对应于某一预先设置或定义的状态类别信息，则可基于该状态类别信息执行对应的指令。可以认为，手部状态对应于N种状态，状态类别信息为M个，N为大于等于M的正整数。

在本公开的一些可选实施例中，上述方法还可以包括：基于识别出的特征对所述剪切图像进行手部检测，得到所述剪切图像中是否包括手部的判别信息。

可选地，如图3所示，步骤10321之后，还可以包括：

步骤10325：基于所述第一网络中的第四分支对输入至所述第一网络的特征图像进行手部检测，得到所述剪切图像中是否包括手部的判别信息；

其中，所述输入至所述第一网络的特征图像，在所述第四分支中对应的多个权重参数，与所述多个特征图像在所述第一分支、所述第二分支和所述第三分支中分别对应的多个权重参数中、至少部分权重参数不同。

其中，响应于所述判别信息表示所述剪切图像中不包括手部的情况，重新检测所述第二二维图像的手部，得到所述第二二维图像中所述目标对象的手部的初始检测框。

本实施例中，上述步骤10325与上述步骤10322至步骤10324的执行顺序不限于上述所示，可以是并行执行上述步骤10322至步骤10325。

本实施例中，通过第四分支对多个特征图像进行处理，得到剪切图像中是否包括手部的判别信息。示例性的，第四分支的输出结果可通过“1”或“0”，“1”表示剪切图像中包括手部的判别结果；“0”表示剪切图像中不包括手部的判别结果。若剪切图像中不包括手部，则可表明第二二维图像中没有追踪到手部，需要重新通过步骤102的检测方式重新检测第二二维图像中目标对象的手部的初始检测框。

示例性的，图5为本公开实施例的图像处理方法中的第一网络的结构示意图；如图5所示，第一网络中至少包括特征提取部分以及第一分支、第二分支、第三分支和第四分支，通过特征提取部分对剪切后的手部图像进行特征提取，得到特征图像集合，特征图像集合中包括多个具有不同感受野的特征图像；进而将特征图像集合分别作为第一分支、第二分支、第三分支和第四分支的输入数据，从而得到各个分支分别输出的手部的检测框、手部的关键点信息、手部的状态类别信息和判丢信息(判丢信息也即表示剪切图像中是否包括手部的判别结果)。

其中，特征提取层以及第一分支网络、第二分支网络、第三分支网络和第四分支网络中均包括多层卷积层，以通过卷积层对图像进行卷积处理。其中，第二分支网络中还设置有热图网络层，以回归手部关键点。第一分支网络、第三分支网络和第四分支网络还设置有全连接层。

本公开实施例还提供了一种图像处理装置。图6为本公开实施例的图像处理装置的组成结构示意图；如图6所示，所述装置包括：获取单元31、检测单元32、确定单元33和处理单元34；其中，

所述获取单元31，配置为获得包含有目标对象的多帧二维图像；

所述检测单元32，配置为检测所述多帧二维图像中的第一二维图像的手部，得到所述第一二维图像中的所述目标对象的手部的初始检测框；

所述确定单元33，配置为基于所述初始检测框在所述第一二维图像中的区域确定第二二维图像中的第一区域；

所述处理单元34，配置为基于所述第二二维图像中的所述第一区域内的像素点获得所述第二二维图像中所述手部的检测框、所述手部的关键点信息和所述手部对应的状态类别信息中的至少一种信息；所述第二二维图像为所述第一二维图像后的一帧图像。

在本公开的一些可选实施例中，所述处理单元34，配置为按照所述第一区域对所述第二三维图像进行剪切，得到剪切图像，对所述剪切图像进行特征识别，基于识别出的特征确定所述手部的检测框、所述手部的关键点信息和所述手部对应的状态类别信息中的至少一种信息。

在本公开的一些可选实施例中，所述处理单元34，还配置为基于识别出的特征对所述剪切图像进行手部检测，得到所述剪切图像中是否包括手部的判别信息。

在本公开的一些可选实施例中，所述处理单元34，配置为通过第一网络的特征提取部分对所述剪切图像进行特征识别，获得特征图像集合，所述特征图像集合中包括多个具有不同感受野的特征图像；将所述特征图像集合中的至少部分特征图像输入至所述第一网络，以通过所述第一网络执行以下至少之一：

在本公开的一些可选实施例中，所述处理单元34，还配置为基于所述第一网络中的第四分支对输入至所述第一网络的特征图像进行手部检测，得到所述剪切图像中是否包括手部的判别信息；其中，所述输入至所述第一网络的特征图像，在所述第四分支中对应的多个权重参数，与所述多个特征图像在所述第一分支、所述第二分支和所述第三分支中分别对应的多个权重参数中、至少部分权重参数不同。

在本公开的一些可选实施例中，所述检测单元32，还配置为响应于所述处理单元34得到的所述判别信息表示所述剪切图像中不包括手部的情况，重新检测所述第二二维图像的手部，得到所述第二二维图像中所述目标对象的手部的初始检测框。

在本公开的一些可选实施例中，所述确定单元33，配置为对所述初始检测框在所述第一二维图像中的区域进行等幅度放大处理得到第二区域；根据所述第二区域，确定所述第二二维图像中与所述第二区域的位置范围对应的第一区域。

在本公开的一些可选实施例中，所述确定单元33，配置为基于所述手部的移动趋势对所述初始检测框在所述第一二维图像中的区域进行放大处理得到第二区域；所述初始检测框在所述第一二维图像中的区域中，对应于所述移动趋势的子区域的放大幅度，大于除所述子区域以外的其他子区域的放大幅度；根据所述第二区域，确定所述第二二维图像中与所述第二区域的位置范围对应的第一区域。

本公开实施例中，所述图像处理装置中的获取单元31、检测单元32、确定单元33、处理单元34和趋势检测单元，在实际应用中均可由中央处理器(Central Processing Unit，CPU)、数字信号处理器(Digital Signal Processor，DSP)、微控制单元(Microcontroller Unit，MCU)或可编程门阵列(Field－Programmable Gate Array，FPGA)实现。

需要说明的是：上述实施例提供的图像处理装置在进行图像处理时，仅以上述各程序模块的划分进行举例说明，实际应用中，可以根据需要而将上述处理分配由不同的程序模块完成，即将装置的内部结构划分成不同的程序模块，以完成以上描述的全部或者部分处理。另外，上述实施例提供的图像处理装置与图像处理方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

本公开实施例还提供了一种电子设备。图7为本公开实施例的电子设备的硬件组成结构示意图，如图7所示，所述电子设备包括存储器42、处理器41及存储在存储器42上并可在处理器41上运行的计算机程序，所述处理器41执行所述程序时实现本公开实施例所述图像处理方法的步骤。

可选地，电子设备中的各个组件通过总线系统43耦合在一起。可理解，总线系统43用于实现这些组件之间的连接通信。总线系统43除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图7中将各种总线都标为总线系统43。

可以理解，存储器42可以是易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(Read Only Memory，ROM)、可编程只读存储器(Programmable Read-Only Memory，PROM)、可擦除可编程只读存储器(Erasable Programmable Read-Only Memory，EPROM)、电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，EEPROM)、磁性随机存取存储器(Ferromagnetic Random Access Memory，FRAM)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(Compact Disc Read-Only Memory，CD-ROM)；磁表面存储器可以是磁盘存储器或磁带存储器。易失性存储器可以是随机存取存储器(Random Access Memory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(Static Random Access Memory，SRAM)、同步静态随机存取存储器(Synchronous Static Random Access Memory，SSRAM)、动态随机存取存储器(Dynamic Random Access Memory，DRAM)、同步动态随机存取存储器(Synchronous Dynamic Random Access Memory，SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data Rate Synchronous Dynamic Random Access Memory，DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced Synchronous Dynamic Random Access Memory，ESDRAM)、同步连接动态随机存取存储器(SyncLink Dynamic Random Access Memory，SLDRAM)、直接内存总线随机存取存储器(Direct Rambus Random Access Memory，DRRAM)。本公开实施例描述的存储器42旨在包括但不限于这些和任意其它适合类型的存储器。

上述本公开实施例揭示的方法可以应用于处理器41中，或者由处理器41实现。处理器41可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器41中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器41可以是通用处理器、DSP，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。处理器41可以实现或者执行本公开实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本公开实施例所公开的方法的步骤，可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于存储介质中，该存储介质位于存储器42，处理器41读取存储器42中的信息，结合其硬件完成前述方法的步骤。

在示例性实施例中，电子设备可以被一个或多个应用专用集成电路(Application Specific Integrated Circuit，ASIC)、DSP、可编程逻辑器件(Programmable Logic Device，PLD)、复杂可编程逻辑器件(Complex Programmable Logic Device，CPLD)、FPGA、通用处理器、控制器、MCU、微处理器(Microprocessor)、或其他电子元件实现，用于执行前述方法。

在示例性实施例中，本公开实施例还提供了一种计算机可读存储介质，例如包括计算机程序的存储器42，上述计算机程序可由电子设备的处理器41执行，以完成前述方法所述步骤。计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、Flash Memory、磁表面存储器、光盘、或CD-ROM等存储器；也可以是包括上述存储器之一或任意组合的各种设备。

本公开实施例提供的计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现本公开实施例所述图像处理方法的步骤。

本申请所提供的几个方法实施例、装置实施例、设备实施例等中所揭露的方法，在不冲突的情况下可以任意组合，得到新的方法实施例、装置实施例、设备实施例等。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元，即可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本公开各实施例中的各功能单元可以全部集成在一个处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

或者，本公开上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本公开实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本公开各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本公开的具体实施方式，但本公开的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本公开揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本公开的保护范围之内。因此，本公开的保护范围应以所述权利要求的保护范围为准。

Claims

一种图像处理方法，所述方法包括：

获得包含有目标对象的多帧二维图像；

检测所述多帧二维图像中的第一二维图像的手部，得到所述第一二维图像中的所述目标对象的手部的初始检测框；

基于所述初始检测框在所述第一二维图像中的区域确定第二二维图像中的第一区域，基于所述第二二维图像中的所述第一区域内的像素点获得所述第二二维图像中所述手部的检测框、所述手部的关键点信息和所述手部对应的状态类别信息中的至少一种信息；所述第二二维图像为所述第一二维图像后的一帧图像。
根据权利要求1所述的方法，其中，所述基于所述第二二维图像中的所述第一区域内的像素点获得所述第二二维图像中所述手部的检测框、所述手部的关键点信息和所述手部对应的状态类别信息中的至少一种信息，包括：

按照所述第一区域对所述第二三维图像进行剪切，得到剪切图像；

对所述剪切图像进行特征识别，基于识别出的特征确定所述手部的检测框、所述手部的关键点信息和所述手部对应的状态类别信息中的至少一种信息。
根据权利要求2所述的方法，其中，所述方法还包括：

基于识别出的特征对所述剪切图像进行手部检测，得到所述剪切图像中是否包括手部的判别信息。
根据权利要求3所述的方法，其中，所述对所述剪切图像进行特征识别，基于识别出的特征确定所述手部的检测框、所述手部的关键点信息和所述手部对应的状态类别信息中的至少一种信息，包括：

通过第一网络的特征提取部分对所述剪切图像进行特征识别，获得特征图像集合，所述特征图像集合中包括多个具有不同感受野的特征图像；

将所述特征图像集合中的至少部分特征图像输入至所述第一网络，以通过所述第一网络执行以下至少之一：

基于所述第一网络中的第一分支对输入至所述第一网络的特征图像进行手部检测，得到所述手部的检测框；

基于所述第一网络中的第二分支对输入至所述第一网络的特征图像进行手部关键点检测，得到所述手部的关键点信息；

基于所述第一网络中的第三分支对输入至所述第一网络的特征图像进行手部状态识别，得到手部状态对应的状态类别信息；

其中，所述输入至所述第一网络的特征图像，在所述第一分支、所述第二分支和所述第三分支中分别对应的多个权重参数中、至少部分权重参数不同。
根据权利要求4所述的方法，其中，所述方法还包括：

基于所述第一网络中的第四分支对输入至所述第一网络的特征图像进行手部检测，得到所述剪切图像中是否包括手部的判别信息；

其中，所述输入至所述第一网络的特征图像，在所述第四分支中对应的多个权重参数，与所述多个特征图像在所述第一分支、所述第二分支和所述第三分支中分别对应的多个权重参数中、至少部分权重参数不同。
根据权利要求3至5任一项所述的方法，其中，所述方法还包括：

响应于所述判别信息表示所述剪切图像中不包括手部的情况，重新检测所述第二二维图像的手部，得到所述第二二维图像中所述目标对象的手部的检测框。
根据权利要求1至6任一项所述的方法，其中，所述基于所述初始检测框在所述第一二维图像中的区域确定第二二维图像中的第一区域，包括：

对所述初始检测框在所述第一二维图像中的区域进行等幅度放大处理得到第二区域；

根据所述第二区域，确定所述第二二维图像中与所述第二区域的位置范围对应的第一区域。
根据权利要求1至6任一项所述的方法，其中，在所述基于所述初始检测框在所述第一二维图像中的区域确定第二二维图像中的第一区域之前，所述方法还包括：

检测所述多帧二维图像中的第三二维图像的手部，确定所述第三二维图像中的手部的位置；所述第三二维图像为所述第二二维图像前的一帧图像；

基于所述第三二维图像中的手部的位置和所述第一二维图像中的手部的位置确定所述手部的移动趋势。
根据权利要求8所述的方法，其中，所述基于所述初始检测框在所述第一二维图像中的区域确定第二二维图像中的第一区域，包括：

基于所述手部的移动趋势对所述初始检测框在所述第一二维图像中的区域进行放大处理得到第二区域；所述初始检测框在所述第一二维图像中的区域中，对应于所述移动趋势的子区域的放大幅度，大于除所述子区域以外的其他子区域的放大幅度；

根据所述第二区域，确定所述第二二维图像中与所述第二区域的位置范围对应的第一区域。
一种图像处理装置，所述装置包括：获取单元、检测单元、确定单元和处理单元；其中，

所述获取单元，配置为获得包含有目标对象的多帧二维图像；

所述检测单元，配置为检测所述多帧二维图像中的第一二维图像的手部，得到所述第一二维图像中的所述目标对象的手部的初始检测框；

所述确定单元，配置为基于所述初始检测框在所述第一二维图像中的区域确定第二二维图像中的第一区域；

所述处理单元，配置为基于所述第二二维图像中的所述第一区域内的像素点获得所述第二二维图像中所述手部的检测框、所述手部的关键点信息和所述手部对应的状态类别信息中的至少一种信息；所述第二二维图像为所述第一二维图像后的一帧图像。
一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现权利要求1至9任一项所述方法的步骤。
一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现权利要求1至9任一项所述方法的步骤。
一种计算机程序，所述计算机程序使得计算机执行如权利要求1至9任一项所述的图像处理方法。