WO2023201512A1

WO2023201512A1 - 手势识别方法、交互方法、手势交互系统、电子设备、存储介质

Info

Publication number: WO2023201512A1
Application number: PCT/CN2022/087576
Authority: WO
Inventors: 王美丽; 吕耀宇; 陈丽莉; 董学; 张�浩; 王佳斌; 李扬冰; 王明东; 王雷
Original assignee: 京东方科技集团股份有限公司; 北京京东方技术开发有限公司
Priority date: 2022-04-19
Filing date: 2022-04-19
Publication date: 2023-10-26
Also published as: CN117255982A

Abstract

一种手势识别方法、交互方法、手势交互系统、电子设备和存储介质。该手势识别方法包括：获取针对手势动作对象的分别在不同拍摄时刻拍摄的多组图像，其中，每组图像包括至少一对对应的深度图和灰度图；根据多组图像，使用每组图像中的深度图来获取空间信息，使用每组图像中的灰度图来获取手势动作对象的姿态信息，以识别手势动作对象的动态手势变化。该手势识别方法整体上降低了处理时长，能够快速得到手势识别结果，减少系统资源占用，保证手势交互的实时性。

Description

手势识别方法、交互方法、手势交互系统、电子设备、存储介质

技术领域

本公开的实施例涉及一种手势识别方法、交互方法、手势交互系统、电子设备和非瞬时性计算机可读存储介质。

背景技术

随着裸眼3D(3-Dimenson，三维)光场显示的不断发展，为了达到立体3D显示的效果，3D显示的物体会有出屏和入屏的需求。人们在观看3D显示时，为了能沉浸式地与3D显示的内容进行交互，需要提供可获得深度信息，且具有高精度、低延时、大视场的交互系统或交互方法来实现用户和3D显示内容之间的互动。

目前，基于手势识别技术实现交互功能是一大研究热点，在裸眼3D显示器、VR/AR/MR、车载、游戏娱乐、智能穿戴、工业设计等多个领域均有应用。基于手势识别技术实现交互功能的核心是通过传感器件，例如相机等采集用户的手势信息，通过相关识别与分类算法识别手势，对不同手势赋予不同的语义信息，实现不同的交互功能。

发明内容

本公开至少一实施例提供一种手势识别方法，包括：获取针对手势动作对象的分别在不同拍摄时刻拍摄的多组图像，其中，每组图像包括至少一对对应的深度图和灰度图；根据所述多组图像，使用每组图像中的深度图来获取空间信息，使用每组图像中的灰度图来获取手势动作对象的姿态信息，以识别所述手势动作对象的动态手势变化。

例如，在本公开至少一实施例提供的手势识别方法中，使用每组图像中的深度图来获取空间信息，包括：根据所述深度图确定所述深度图中的手势区域，其中，所述空间信息包括所述深度图中的手势区域；使用每组图像中的灰度图来获取手势动作对象的姿态信息，包括：根据所述深度图中的手势区域和所述灰度图，确定所述每组图像对应的针对所述手势动作对象的姿态信息；识别所述手势动作对象的动态手势变化，包括：根据所述多组图像分别对应的针对所述手势动作对象的姿态信息，确定所述手势动作对象的动态手势变化。

例如，在本公开至少一实施例提供的手势识别方法中，根据所述深度图确定所述深度图中的手势区域，包括：遍历所述深度图，统计所述深度图中的深度数据以建立深度直方图；选取所述深度图对应的自适应深度阈值，根据所述自适应深度阈值和所述深度直方图，确定所述深度图中的手势区域。

例如，在本公开至少一实施例提供的手势识别方法中，所述每组图像对应的针对所述手势动作对象的姿态信息包括手指状态信息和位置信息，根据所述深度图中的手势区域和所述灰度图，确定所述每组图像对应的针对所述手势动作对象的姿态信息，包括：将所述深度图中的手势区域作用于所述灰度图，得到所述灰度图中的手势分析区域；对所述手势分析区域进行二值化处理，得到手势连通域；对所述手势连通域进行凸包检测，得到所述手指状态信息，其中，所述手指状态信息包括是否存在手指伸出，以及伸出手指的数量；基于所述深度图，确定所述位置信息，其中，所述位置信息包括所述手势动作对象在手势交互空间中的坐标位置。

例如，在本公开至少一实施例提供的手势识别方法中，根据所述多组图像分别对应的针对所述手势动作对象的姿态信息，确定所述手势动作对象的动态手势变化，包括：根据所述多组图像分别对应的手指状态信息和位置信息，确定所述手势动作对象在所述不同拍摄时刻组成的识别时段内的手指伸出状态变化和位置变化；根据所述手指伸出状态变化和所述位置变化，确定所述手势动作对象的动态手势变化。

例如，在本公开至少一实施例提供的手势识别方法中，所述坐标位置包括深度坐标，所述手势动作对象的动态手势变化包括手势动作，根据所述手指伸出状态变化和所述位置变化，确定所述手势动作对象的动态手势变化，包括：响应于所述手指伸出状态变化指示所述手势动作对象中的至少一个手指在所述识别时段内的至少部分时段处于伸出状态，所述位置变化指示所述手势动作对象中的目标识别点在所述至少部分时段内的深度坐标先减小后增大，确定所述手势动作为单击手势。

例如，在本公开至少一实施例提供的手势识别方法中，所述坐标位置包括深度坐标，所述手势动作对象的动态手势变化包括手势动作，根据所述手指伸出状态变化和所述位置变化，确定所述手势动作对象的动态手势变化，包括：响应于所述手指伸出状态变化指示所述手势动作对象中的至少一个手指在所述识别时段内的至少部分时段处于伸出状态，以及所述位置变化指示所述手势动作对象中的目标识别点在所述至少部分时段内的深度坐标先减小后保持，且所述保持动作的时长超过第一阈值，确定所述手势动作为长按手势。

例如，在本公开至少一实施例提供的手势识别方法中，所述手势动作对象的动态手势变化包括手势动作，根据所述手指伸出状态变化和所述位置变化，确定所述手势动作对象的动态手势变化，包括：响应于所述手指伸出状态变化指示所述手势动作对象中的至少一个手指在所述识别时段内的至少部分时段处于伸出状态，以及所述位置变化指示所述手势动作对象中的目标识别点在所述至少部分时段内沿预设方向滑动的距离超过第二阈值，确定所述手势动作为滑动手势，其中，所述滑动的距离基于所述多组图像中所述手势动作对象的目标识别点的位置信息计算得到。

例如，在本公开至少一实施例提供的手势识别方法中，所述手势动作对象的动态手势变化包括手势动作，根据所述手指伸出状态变化和所述位置变化，确定所述手势动作对象的动态手势变化，包括：响应于所述手指伸出状态变化指示所述手势动作对象在所述识别时段内从存在至少一个手指处于伸出状态转换为无手指处于伸出状态，确定所述手势动作为抓取手势。

例如，在本公开至少一实施例提供的手势识别方法中，所述手势动作对象的动态手势变化包括手势动作，根据所述手指伸出状态变化和所述位置变化，确定所述手势动作对象的动态手势变化，包括：响应于所述手指伸出状态变化指示所述手势动作对象在所述识别时段内从无手指处于伸出状态转换为存在至少一个手指处于伸出状态，确定所述手势动作为释放手势。

例如，在本公开至少一实施例提供的手势识别方法中，根据所述手指伸出状态变化和所述位置变化，确定所述手势动作对象的动态手势变化，还包括：在确定所述手势动作前，确定所述手势动作对象是否在发生动作变化前存在超过第三阈值的静止时间，响应于存在超过第三阈值的静止时间，继续确定所述手势动作；响应于不存在超过第三阈值的静止时间，确定未发生手势动作变化。

例如，在本公开至少一实施例提供的手势识别方法中，所述手势动作对象的动态手势变化还包括手势位置，根据所述手指伸出状态变化和所述位置变化，确定所述手势动作对象的动态手势变化，还包括：响应于手势动作为单击手势、长按手势或滑动手势，确定所述手势位置基于所述手势动作对象中的目标识别点的位置信息得到，其中，所述目标识别点包括目标手指的指尖点；响应于手势动作为抓取手势或释放手势，确定所述手势位置基于所述手势动作对象的手势中心的位置信息得到，其中，所述手势中心为所述手势连通域的最大内接圆的圆心。

例如，在本公开至少一实施例提供的手势识别方法中，确定所述手势位置基于所述手势动作对象中的目标识别点的位置信息得到，包括：获取所述目标识别点周围的预设位置处的多个采样点分别对应的多个位置信息；根据所述多个位置信息和所述目标识别点的位置信息，得到所述手势位置；以及确定所述手势位置基于所述手势动作对象的手势中心的位置信息得到，包括：获取所述手势中心周围的预设位置处的多个采样点分别对应的多个位置信息；根据所述多个位置信息和所述手势中心的位置信息，得到所述手势位置。

例如，在本公开至少一实施例提供的手势识别方法中，获取针对手势动作对象的分别在不同拍摄时刻拍摄的多组图像，包括：利用至少一个拍摄装置连续拍摄所述手势动作对象，得到分别对应所述不同拍摄时刻的多组图像，其中，每个拍摄装置配置为在一个拍摄时刻同步输出一对对应的深度图和灰度图。

例如，在本公开至少一实施例提供的手势识别方法中，所述手势动作对象相对于每个图像中的其他对象最靠近所述至少一个拍摄装置。

例如，在本公开至少一实施例提供的手势识别方法中，响应于所述至少一个拍摄装置的数量是多个，每组图像包括多对对应的深度图和灰度图，所述多对深度图和灰度图由所述多个拍摄装置在同一拍摄时刻同步对所述手势动作对象进行拍摄得到，所述多对深度图和灰度图具有不同的拍摄角度。

例如，在本公开至少一实施例提供的手势识别方法中，根据所述多组图像，使用每组图像中的深度图来获取空间信息，使用每组图像中的灰度图来获取手势动作对象的姿态信息，以识别所述手势动作对象的动态手势变化，还包括：基于同一拍摄装置得到的分别属于所述多组图像的、且对应所述不同拍摄时刻的多对深度图和灰度图，确定所述同一拍摄装置对应的所述手势动作对象的中间手势变化；对所述多个拍摄装置分别对应的多个中间手势变化进行加权和滤波处理，得到所述手势动作对象的动态手势变化。

例如，在本公开至少一实施例提供的手势识别方法中，利用至少一个拍摄装置连续拍摄所述手势动作对象，得到分别对应所述不同拍摄时刻的多组图像，包括：利用每个拍摄装置连续拍摄所述手势动作对象，得到所述拍摄装置输出的分别对应所述不同拍摄时刻的多对深度图和灰度图。

例如，在本公开至少一实施例提供的手势识别方法中，每个拍摄装置包括第一获取单元，所述第一获取单元配置为在每个第一帧获取灰度图，以及每N个第一帧获取深度图，其中，所述深度图基于所述每N个连续的第一帧获取的N个灰度图生成，所述N个灰度图分别对应N个不同的相位，所述一个深度图与所述N个灰度图中的一个灰度图同步输出所述拍摄装置，其中，N为正整数且大于1；利用每个拍摄装置连续拍摄所述手势动作对象，得到所述拍摄装置输出的分别对应所述不同拍摄时刻的多对深度图和灰度图，包括：利用所述拍摄装置在每个第一帧输出一对对应的深度图和灰度图，其中，所述输出的深度图根据所述N个灰度图和所述一个深度图，利用平滑轨迹拟合预测得到。

例如，在本公开至少一实施例提供的手势识别方法中，每个拍摄装置包括第一获取单元，所述第一获取单元配置为在每个第一帧获取灰度图，以及每N个第一帧获取深度图，其中，所述深度图基于所述每N个连续的第一帧获取的N个灰度图生成，所述N个灰度图分别对应N个不同的相位，所述一个深度图与所述N个灰度图中的一个灰度图同步输出所述拍摄装置，其中，N为正整数且大于1；利用每个拍摄装置连续拍摄所述手势动作对象，得到所述拍摄装置输出的分别对应所述不同拍摄时刻的多对深度图和灰度图，包括：利用所述拍摄装置在至多每N-1个第一帧输出一对对应的深度图和灰度图，所述输出的深度图通过与所述输出的灰度图相邻的N-1个第一帧的灰度图计算得到，所述输出的灰度图和所述相邻的N-1个第一帧的灰度图对应所述N个不同的相位。

例如，在本公开至少一实施例提供的手势识别方法中，每个拍摄装置包括第一获取单元和第二获取单元，所述第二获取单元配置为在每个第二帧输出一个灰度图，所述第一获取单元配置为每M个第二帧输出一个深度图，M为正整数且大于1，利用每个拍摄装置连续拍摄所述手势动作对象，得到所述拍摄装置输出的分别对应所述不同拍摄时刻的多对深度图和灰度图，包括：利用所述拍摄装置在至多每M-1个第二帧输出一对对应的深度图和灰度图，其中，所述输出的深度图包括基准深度图，或者基于所述基准深度图和所述基准深度图对应的至少一个灰度图、利用平滑轨迹拟合预测得到的深度图，其中，所述基准深度图包括在当前第二帧或在所述当前第二帧之前由所述第一获取单元输出的深度图，所述当前第二帧为输出所述一对对应的深度图和灰度图的第二帧，所述至少一个灰度图包括在所述基准深度图对应的第二帧和所述当前第二帧之间由所述第二获取单元输出的灰度图。

例如，在本公开至少一实施例提供的手势识别方法中，所述第一获取单元还配置为，在每个第一帧得到一对对应的深度图和灰度图，所述得到的深度图通过与所述得到的灰度图相邻的N-1个第一帧的灰度图计算得到，所述得到的灰度图和所述相邻的N-1个第一帧的灰度图对应N个不同的相位，所述第一帧的帧长大于所述第二帧的帧长，N为正整数且大于1。

本公开至少一实施例提供一种交互方法，包括：显示控件；利用本公开任一实施例所述的手势识别方法识别用户执行目标动作时的动态手势变化；根据识别的所述动态手势变化和所述目标动作，触发所述控件。

例如，在本公开至少一实施例提供的交互方法中，所述动态手势变化包括手势动作，根据识别的所述动态手势变化和所述目标动作，触发所述控件，包括：响应于所述用户的手势动作与所述目标动作一致，触发所述控件并显示可视化反馈效果。

例如，在本公开至少一实施例提供的交互方法中，所述动态手势变化包括手势动作和手势位置；根据识别的所述动态手势变化和所述目标动作，触发所述控件，包括：响应于所述用户的手势动作与所述目标动作一致，所述用户的手势位置与所述控件的控件位置匹配，触发所述控件并显示可视化反馈效果，其中，所述用户的手势位置与所述控件的控件位置匹配表示，所述手势位置按映射关系映射至控件所在的坐标系中的位置与所述控件位置一致。

本公开至少一实施例提供一种手势交互系统，包括：至少一个拍摄装置，所述至少一个拍摄装置配置为连续拍摄所述手势动作对象，以获取针对所述手势动作对象的分别在不同拍摄时刻拍摄的多组图像；手势识别单元，配置为接收所述多组图像，执行本公开任一实施例所述的手势识别方法，输出所述手势动作对象的动态手势变化的识别结果；显示单元，配置为接收所述识别结果，根据所述识别结果显示交互效果。

例如，在本公开至少一实施例提供的手势交互系统中，所述手势交互系统包括多个拍摄装置，所述多个拍摄装置配置为从不同角度同步拍摄所述手势动作对象，以在同一拍摄时刻得到对应的多对深度图和灰度图。

例如，在本公开至少一实施例提供的手势交互系统中，每个拍摄装置包括第一获取单元和第二获取单元，所述第一获取单元和所述第二获取单元配置为同步拍摄所述手势动作对象。

例如，在本公开至少一实施例提供的手势交互系统中，所述多个拍摄装置配置为根据所述手势动作对象在手势交互空间中的位置，选择部分或全部拍摄装置拍摄所述手势动作对象。

例如，在本公开至少一实施例提供的手势交互系统中，所述手势识别单元包括数字信号处理器。

本公开至少一实施例提供一种电子设备，包括：存储器，非瞬时性地存储有计算机可执行指令；处理器，配置为运行所述计算机可执行指令，其中，所述计算机可执行指令被所述处理器运行时实现根据本公开任一实施例所述的手势识别方法或者根据本公开任一实施例所述的交互方法。

本公开至少一实施例提供一种非瞬时性计算机可读存储介质，其中，所述非瞬时性计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令被处理器执行时实现根据本公开任一实施例所述的手势识别方法或者根据本公开任一实施例所述的交互方法。

附图说明

为了更清楚地说明本公开实施例的技术方案，下面将对实施例的附图作简单地介绍，显而易见地，下面描述中的附图仅仅涉及本公开的一些实施例，而非对本公开的限制。

图1示出了一种手势识别的示意性流程图；

图2示出了TOF相机的检测过程的示意图；

图3为本公开至少一实施例提供的一种手势识别方法的示意性流程图；

图4为本公开至少一实施例提供的手势交互空间的示意图；

图5A为本公开至少一实施例提供的凸包检测示意图；

图5B为本公开一实施例提供的姿态信息提取过程示意图；

图6示出了TOF相机的深度图和灰度图的关系；

图7A为本公开一实施例提供的深度图和灰度图的对应关系示意图；

图7B为本公开另一实施例提供的深度图和灰度图的对应关系示意图；

图7C为本公开一实施例提供的深度图和灰度图的对应关系示意图；

图8为本公开至少一实施例提供的交互的方法示意性流程图；

图9为本公开至少一实施例提供的一种手势交互系统的示意性框图；

图10为本公开至少一实施例提供的一种手势识别单元的示意性框图；

图11为本公开至少一实施例提供的一种电子设备的示意图；

图12为本公开至少一实施例提供的一种非瞬时性计算机可读存储介质的示意图；

图13为本公开至少一实施例提供的一种硬件环境的示意图。

具体实施方式

为了使得本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例的附图，对本公开实施例的技术方案进行清楚、完整地描述。显然，所描述的实施例是本公开的一部分实施例，而不是全部的实施例。基于所描述的本公开的实施例，本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例，都属于本公开保护的范围。

除非另外定义，本公开使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本公开中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电性的连接，不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系，当被描述对象的绝对位置改变后，则该相对位置关系也可能相应地改变。为了保持本公开实施例的以下说明清楚且简明，本公开省略了部分已知功能和已知部件的详细说明。

手势交互是指利用计算机图形学等技术识别手势动作对象的肢体语言，并转化为命令来操作设备。它是继鼠标、键盘和触屏之后新的人机交互方式。在众多的交互方式中，手势交互符合人类的交流习惯，在日常生活中使用也最为频繁，具有无法替代的天然优势，例如：

1)手势交互的学习成本较低，不需要像传统交互方式那样记住双击和鼠标左右点击的区别；

2)手势交互可以脱离实体接触，实现远距离控制；

3)交互动作更加丰富和自然，可根据场景需求设计多种不同的手势，实现多种不同的交互效果；

4)对用户正常活动影响较少，可以随时随地进行手势操作。

基于这些优势，手势交互是非常热门的研究领域，可以适用于多种应用场景。

通常，采集手势的传感器件采用单目相机、双目相机、结构光相机、TOF(Time of flight，飞行时间)相机等。

单目相机采集的手势图像不包含深度信息，常采用深度学习的方法提取手势抽象特征，完成手势的分类任务，这种方式对系统算力要求非常高，对图像分辨率的要求也比较高(例如分辨率需要达到1920像素*1080像素)，处理速度慢。

双目相机可通过视差信息计算深度，通常也采用深度学习的方法实现手势三维关节点的定位。但双目数据的视差配准本身就需要极大的系统算力，这种方式也对系统算力要求非常高。

结构光相机是采用红外光源向空间中投射图案(pattern)，由于红外相机感光，通过图案的变形程度计算场景的深度信息。这种方式需要处理的数据量非常大，且通常需配有专用的处理芯片来计算深度信息，成本较高。

TOF相机是采用光飞时间技术，通过时间差或相位差信息计算场景的深度信息，所需的算力小。但是在其用来做手势识别时，同样需要采用深度学习的方法提取图像中的手势关节点，对算力的要求也较高，处理速度通常在20ms以上。

因此，现阶段的手势识别方法均是采用深度学习的方法实现，图1示出了一种手势识别的示意性流程图。

如图1所示，首先，对图像进行预处理，提取一些手势特征，手势特征包括全局特征和局部特征，手势特征形式包括颜色直方图、肤色信息、边缘信息、区域信息等，由此实现手势的检测与分割。如图1所示，图像预处理需要花费0.5ms，全局特征提取需要花费18ms，局部特征提取需要花费5ms，手势检测和分割需要花费4.5ms。

之后，提取抽象特征，如LBP(Local Binary Patterns，局部二值模式)、Hu矩(图像矩)、SURF(Speeded-Up Robust Features，加速稳健特征)等，完成手势的分类。例如，若手势中存在关节点，还可以通过建立的手势关节点模型，提取关节点参数，完成3D手势的识别。如图1所示，抽象特征提取需要花费5.3ms，手势分类需要花费4.5ms，关节点参数提取需要花费6.5ms，3D手势识别需要花费3.3ms，加载手势关节点模型需要花费2000ms。

最后，通过设置指定的语义信息，为不同手势赋予不同的功能。如图1所示，语义信息处理需要花费0.2ms。

因此，目前的手势识别方法所需的系统算力高，且延时较大，如图1所示，这种方法识别延时通常要在20ms及以上，难以做到实时交互。

此外，如前所述，现有的手势交互系统中的图像采集通常采用双目相机、结构光相机、TOF相机等实现。在采集单元中，需要将感光元件(sensor)采集的原始信号数据(Raw Data)，在计算机中利用影像处理器(Image Signal Processor，简称ISP)算法进行预处理，预处理包括黑电平补偿、镜头校正、坏点校正、噪声去除、相位校正、深度计算、数据校准等。特别地，结构光相机因为需要处理的数据量非常大，因此一般会配有专用的处理芯片来执行ISP算法。因此，一般深度相机分辨率为840像素*480像素，帧率为30fps(每秒传输帧数，frame per second)。

图2示出了TOF相机的检测过程的示意图。

如图2所示，TOF相机中使用的感光元件为硅基图像传感器，TOF相机至少包括光源、接收阵列、电路三部分，电路包括信号发射机、调制单元、解调单元、计算单元等。在拍摄时，首先光源发出一束调制的红外光，照射到目标后发生反射，经过反射后的调制方波经过镜头后最终被接收阵列接收，然后再通过解调单元和计算单元对信息进行解调和计算，计算出距离信息。

由于深度相机的帧率较低，处理信息占用较多资源，这也进一步增加了手势交互的延时，增加了资源消耗。而手势识别方法目前多采用深度学习方法，如前所述，其执行延时较高，系统资源开销也较大。因此，目前的手势交互系统整体上系统资源消耗大，延时较高，精度也较低，这也是现在手势交互技术难以推广的原因之一。

本公开至少一实施例提供一种手势识别方法、交互方法、手势交互系统、电子设备和非瞬时性计算机可读存储介质。该手势识别方法包括：获取针对手势动作对象的分别在不同拍摄时刻拍摄的多组图像，其中，每组图像包括至少一对对应的深度图和灰度图；根据多组图像，使用每组图像中的深度图来获取空间信息，使用每组图像中的灰度图来获取手势动作对象的姿态信息，以识别手势动作对象的动态手势变化。

该手势识别方法利用同步采集的包含手势动作对象的深度图与灰度图，利用深度图提取空间信息，利用灰度图获取姿态信息，通过简单的图像处理，实现手势的识别与定位，由于不使用复杂的深度学习算法，整体上降低了处理时长，能够快速得到手势识别结果，减少系统资源占用，保证手势交互的实时性。例如，采用本公开至少一实施例提供的手势识别方法，能够将手势识别的处理时长由20ms及降低至5ms。

本公开实施例提供的手势交互方法可以应用在移动终端(例如，手机、平板电脑等)中，需要说明的是，本公开实施例提供的手势识别方法可应用于本公开实施例提供的手势交互系统，该手势交互系统可被配置于电子设备上。该电子设备可以是个人计算机、移动终端等，该移动终端可以是手机、平板电脑等具有各种操作系统的硬件设备。

下面结合附图对本公开的实施例进行详细说明，但是本公开并不限于这些具体的实施例。

图3为本公开至少一实施例提供的一种手势识别方法的示意性流程图。

如图3所示，本公开至少一实施例提供的手势识别方法包括步骤S10至步骤S20。

步骤S10，获取针对手势动作对象的分别在不同拍摄时刻拍摄的多组图像。

例如，每组图像包括至少一对对应的深度图和灰度图，这里，“对应的深度图和灰度图”指深度图和灰度图对应同一拍摄时刻。

例如，手势动作对象可以包括人体的手部，例如用户手部。例如，手势动作对象也可以包括其他具有与人体手部相同形态的手部对象，例如具有人体手部形态的物品，如形态为握拳状态手部的充气球等，本公开对此不做具体限制。

例如，步骤S10可以包括：利用至少一个拍摄装置连续拍摄手势动作对象，得到分别对应所述不同拍摄时刻的多组图像。例如，每个拍摄装置配置为在一个拍摄时刻同步输出一对对应的深度图和灰度图。

例如，手势动作对象在一个或多个拍摄装置的拍摄范围内执行手势动作，该一个或多个拍摄装置在预设识别时段内同步拍摄手势动作对象，每个拍摄装置在一个拍摄时刻同步输出一对对应的深度图和灰度图，该一对对应的深度图和灰度图由该拍摄装置在同一个拍摄时刻拍摄得到。

例如，若拍摄装置的数量是1个，则在一个拍摄时刻得到一组图像，该一组图像包括一对深度图和灰度图，经过预设识别时段的拍摄后，得到多组图像，多组图像分别对应不同的拍摄时刻。

例如，若拍摄装置的数量是T个，则在一个拍摄时刻得到一组图像，该一组图像包括T对深度图和灰度图，该T对深度图和灰度图分别来自该T个拍摄装置，经过预设识别时段的拍摄后，得到多组图像，多组图像分别对应不同的拍摄时刻，并且，每组图像都包括对应同一拍摄时刻的T对深度图和灰度图。这里，T为大于1的正整数。

例如，T个拍摄装置需要同步拍摄手势动作对象。例如，T个拍摄装置同时接收触发指令，在接收到触发指令时同步拍摄手势动作对象，以得到对应同一个拍摄时刻的一组图像，该一组图像包括T对深度图和灰度图。

例如，T个拍摄装置设置有不同的拍摄角度和拍摄位置，以从不同角度拍摄手势动作对象，从而在同一拍摄时刻得到的多对深度图和灰度图具有不同的拍摄角度，这在一定程度上保证了手势的防遮挡，减少或避免由于手势被遮挡导致检测不到手势动作对象的动作以至于识别失败。

例如，在拍摄手势动作对象时，手势动作对象相对于图像中的其他对象最靠近该至少一个拍摄装置。

例如，从交互场景来看，可以将拍摄装置集成于显示单元下边缘的中央位置，相机光轴向前上方倾斜拍摄手势动作对象，所以可以认为手势动作对象是距离拍摄装置最近的物体。

图4为本公开至少一实施例提供的手势交互空间的示意图。

如图4所示，显示单元的宽度为70厘米，高度为40厘米，显示单元用于显示与手势动作对象进行交互的显示内容，例如显示内容包括通用的、易理解的控件，控件会预先设置好触发后的行为或功能，当控件触发时，会显示可视化反馈效果，如材质、颜色、亮度等发生变化，以此提醒用户交互完成。

例如，控件可以包括三维虚拟控件，控件可以以按钮、图标、3D模型等不同方式呈现。例如，显示单元可以实现为三维显示器，例如，该三维显示器可以是裸眼三维显示器，也即用户不借助其他工具，通过双眼即可看到三维显示效果。

如图4所示，假设人体臂长为65厘米，用户在屏幕前方65cm处观看，在手势交互时需要手势动作对象(也即用户手部)距离眼睛30cm以外才不会遮挡视线，因此，手势交互空间为在显示单元和用户之间，尺寸为70cm*40cm*35cm的三维空间。

例如，手势动作对象在手势交互空间中运动，手势动作对象相对于其他对象(如用户其他身体部位)最靠近拍摄装置，拍摄装置连续拍摄手势动作对象以得到多组图像，以基于多组图像进行动态手势变化的识别。

需要说明的是，图4所示的是一种可能的手势交互空间定义方式，根据显示单元的类型、显示单元的形状、显示单元的尺寸、用户臂长不同，手势交互空间的尺寸也可能不同，本公开对此不做具体限制。

例如，在一些实施例中，拍摄装置包括第一获取单元，例如，第一获取单元包括TOF相机。为了获得较高的深度精度，一般TOF相机会采用对应N个不同相位的N个灰度图来计算获得一个深度图(例如N＝1，4或8等)。

例如，第一获取单元配置为在每个第一帧获取灰度图，以及每N个第一帧获取深度图。例如，深度图基于每N个连续的第一帧获取的N个灰度图生成，所述N个灰度图分别对应N个不同的相位，该一个深度图与该N个灰度图中的一个灰度图同步输出拍摄装置。这里，N为正整数且大于1。

这里，第一帧即表示一个差分相关采样(Differential Correlation Sample，简称DCS)相位的时间，例如25ms(毫秒)。每N个第一帧，TOF相机同步输出一对灰度图和深度图，也即深度图和灰度图每N个第一帧实现一次对齐和校准。因此，此时，拍摄装置每N个第一帧输出一对灰度图和深度图，例如，在N＝4时，第一帧的帧长为25ms时，每间隔100ms输出一对灰度图和深度图。

虽然第一获取单元所需的算力较小，但是延时高，帧率低，因此可以设置拍摄装置还包括第二获取单元，第二获取单元例如为高速灰度相机。

例如，第二获取单元配置为在每个第二帧输出一个灰度图，第一获取单元配置为每M个第二帧输出一个深度图，M为正整数且大于1。

例如，第二帧的帧长小于第一帧的帧长，例如，高速灰度相机每间隔8.3ms输出一个灰度图，也即第二帧的帧长为8.3ms。

例如，高速灰度相机和TOF相机每M个第二帧实现一次对齐和校准，此时，结合预测算法等，拍摄装置输出一对灰度图和深度图的时间能够大幅降低，例如拍摄装置最短可以每个第二帧输出一对深度图和灰度图，也即此时拍摄装置能够每间隔8.3ms输出一对深度图和灰度图，相对于每100ms输出一对深度图和灰度图，图像采集的延时大幅降低，帧率大幅提高，满足低延时的实时交互需求，整体实现手势动作和手势位置的快速识别，处理过程的绝对延时(包括图像采集时间和图像处理时间)能够达到小于等于15ms，报点率达到120Hz。

关于拍摄装置提高输出灰度图和深度图的帧率的具体处理过程可以参考后文所述的内容。

当然，需要说明的是，在手势识别过程中，本公开对拍摄装置不做具体限制，并不限制为本公开实施例中所述的结构，只要能够实现同步输出对应一个拍摄时刻的一对深度图和灰度图，以及能够输出对应多个拍摄时刻的多对深度图和灰度图即可。

例如，在步骤S20，根据多组图像，使用每组图像中的深度图来获取空间信息，使用每组图像中的灰度图来获取手势动作对象的姿态信息，以识别手势动作对象的动态手势变化。

例如，空间信息包括深度图中的手势区域、手势动作对象的位置信息等。

例如，动态手势变化的识别以拍摄装置为单位进行，也就是说，若提供有一个拍摄装置，也即每组图像包括一对深度图和灰度图，则基于多组图像识别动态手势变化；若提供有多个拍摄装置，也即每组图像包括多对深度图和灰度图，基于同一拍摄装置得到的分别属于多组图像的、且对应不同拍摄时刻的多对深度图和灰度图，确定该拍摄装置对应的手势动作变化，最终基于多个拍摄装置分别对应的手势动作变化，得到最终的手势动作变化识别结果。

因此，基于每个拍摄装置得到的图像进行处理的过程相同，下面以提供有一个拍摄装置为例，例如此时一组图像包括一对深度图和灰度图，具体说明获得该拍摄装置对应的手势动作变化的识别过程。

例如，不论提供有一个还是多个拍摄装置，也即每组图像包括一对或多对深度图和灰度图，每对深度图和灰度图都进行相同的处理，得到每对深度图和灰度图对应的手势动作对象的姿态信息。

例如，由于手势动作对象是距离拍摄装置最近的物体，因此可以利用深度图提取空间信息，例如提取距离拍摄装置最近的区域作为深度图中的手势区域，并将该深度图中的手势区域作用于对应的灰度图，以得到灰度图中的手势分析区域，进而根据手势分析区域得到手势动作对象的姿态信息。

下面具体说明基于一对深度图和灰度图，得到对应的手势动作对象的姿态信息的过程。

例如，在步骤S20中，使用每组图像中的深度图来获取空间信息，可以包括：根据深度图确定深度图中的手势区域，例如，空间信息包括深度图中的手势区域。

例如，根据深度图确定深度图中的手势区域，可以包括：遍历深度图，统计深度图中的深度数据以建立深度直方图；选取深度图对应的自适应深度阈值，根据自适应深度阈值和深度直方图，确定深度图像中的手势区域。

在深度图中，横坐标和纵坐标对应像素位置，每个位置的像素灰度值对应的是该像素对应的物体距离拍摄装置的距离，所以深度图中的每个像素可以表示手势交互空间中一个点的三维坐标。

例如，统计深度图中的深度数据以建立深度直方图，深度直方图能体现每个深度值在图像中的占有率。根据深度图中不同区域的深度分布，计算局部阈值，所以对于深度图中不同区域，能够自适应计算不同的阈值。例如，计算得到深度图中两个自适应阈值，确定两个自适应阈值范围内的所有像素点作为深度图中的手势区域。

例如，在步骤S20中，使用每组图像中的灰度图来获取手势动作对象的姿态信息，可以包括：根据深度图中的手势区域和灰度图，确定每组图像对应的针对手势动作对象的姿态信息。

例如，每组图像对应的针对手势动作对象的姿态信息包括手指状态信息和位置信息。

例如，根据深度图中的手势区域和灰度图，确定每组图像对应的针对手势动作对象的姿态信息，可以包括：将深度图中的手势区域作用于灰度图，得到灰度图中的手势分析区域；对手势分析区域进行二值化处理，得到手势连通域；对手势连通域进行凸包检测，得到手指状态信息；基于深度图，确定位置信息。

例如，由于深度图和灰度图对应于同一拍摄时刻，因此，将深度图中的手势区域作用于灰度图，包括根据深度图中的手势区域，在灰度图中选择相同位置的区域作为手势分析区域。

例如，拟合手势连通域的最大内接圆，定位最大内接圆的圆心为手势中心，沿该中心向外扩展，对手势连通域进行凸包检测，以得到手指状态信息。例如，凸包检测可以采用任何可行的凸包检测方法实现，本公开对此不做具体限制。

例如，手指状态信息包括手势动作对象中是否存在手指伸出，以及伸出手指的数量。

图5A为本公开至少一实施例提供的凸包检测示意图。例如，如图5A中左侧的(1)所示，若手势动作对象处于手指全展开状态，则凸包检测得到的手指状态信息包括有手指处于伸出状态，伸出手指的数量为5。例如，如图5A中右侧的(2)所示，若手势动作对象处于握拳状态，则凸包检测得到的手指状态信息包括无手指处于伸出状态，伸出手指的数量为0。

例如，位置信息包括手势动作对象在手势交互空间中的坐标位置。如前所述，由于深度图和灰度图是对应同一拍摄时刻，而深度图中每个像素可以表示手势交互空间中一个点的三维坐标，该三维坐标可以包括每个像素在手势交互空间中的横坐标、纵坐标、深度坐标，深度坐标表示该像素对应的对象距离拍摄装置的距离。由于通常拍摄装置设置在显示单元所在平面上，因此深度坐标也表示像素对应的对象距离显示单元的距离。

因此，基于深度图即可得到手势动作对象在手势交互空间中的三维坐标位置。这里，手势动作对象在手势交互空间中的坐标位置，包括手势分析区域中各个像素点的坐标位置。

图5B为本公开一实施例提供的姿态信息提取过程示意图。

如图5B所示，针对对应同一拍摄时刻的一对深度图和灰度图，遍历深度图，统计深度图中的深度数据以建立深度直方图，深度直方图如图5B中所示。

选取深度直方图中两个自适应阈值(如图5B中深度直方图中两条竖线所示)，确定两个自适应阈值范围内的所有像素点作为深度图中的手势区域，将深度图中的手势区域作用于灰度图，得到如图5B中所示的位于灰度图中的手势分析区域。

对手势分析区域进行二值化处理，得到手势连通域，手势连通域如图5B中标记为“手势连通域”的图中灰色区域所示。

对手势连通域进行凸包检测，得到手指状态信息，例如，手指状态信息包括有且仅有1根手指处于伸出状态。

例如，基于深度图，还可以确定手势动作对象的位置信息，具体过程如前所述，这里不再赘述。

在得到一对深度图和灰度图对应的姿态信息后，可以基于该拍摄装置连续拍摄手势动作对象所得到的分别对应不同拍摄时刻的多组图像，确定手势动作对象的动态手势变化。

例如，在步骤S20中，识别手势动作对象的动态手势变化，可以包括：根据多组图像分别对应的针对手势动作对象的姿态信息，确定手势动作对象的动态手势变化。

例如，根据多组图像分别对应的针对手势动作对象的姿态信息，确定手势动作对象的动态手势变化，可以包括：根据多组图像分别对应的手指状态信息和位置信息，确定手势动作对象在不同拍摄时刻组成的识别时段内的手指伸出状态变化和位置变化；根据手指伸出状态变化和位置变化，确定手势动作对象的动态手势变化。

在进行手势交互时，通常的交互场景包括单击图标、长按图标、滑动切换场景、抓取模型以使模型移动、旋转、缩放等。由此，可以提取人类常使用的5种自然的动态手势，即单击手势、长按手势、滑动手势、抓取手势和释放手势。

例如，根据多组图像分别对应的手指状态信息和位置信息，可以得到在不同拍摄时刻组成的识别时段中(也即拍摄动态手势对象的时段)，手势动作对象的手指伸出状态变化和位置变化。

例如，手势动作对象的动态手势变化包括手势动作，手势动作至少包括单击手势、长按手势、滑动手势、抓取手势和释放手势中的任意一个。

例如，根据手指伸出状态变化和位置变化，确定手势动作对象的动态手势变化，包括：响应于手指伸出状态变化指示手势动作对象中的至少一个手指在识别时段内的至少部分时段处于伸出状态，位置变化指示手势动作对象中的目标识别点在至少部分时段内的深度坐标先减小后增大，确定手势动作为单击手势。

例如，目标识别点可以是目标手指的指尖，例如，当有一个手指在识别时段内的至少部分时段处于伸出状态，则目标手指为该手指；当有多个手指在识别时段内的至少部分时段处于伸出状态，则目标手指优先选择食指或者中指。

例如，在识别时段内，识别到一个或多个手指处于伸出状态，目标手指的指尖的深度坐标先减小后增大，确定识别到手势动作对象执行了单击手势。

例如，根据手指伸出状态变化和位置变化，确定手势动作对象的动态手势变化，可以包括：响应于手指伸出状态变化指示手势动作对象中的至少一个手指在识别时段内的至少部分时段处于伸出状态，以及位置变化指示手势动作对象中的目标识别点在至少部分时段内的深度坐标先减小后保持，且保持动作的时长超过第一阈值，确定手势动作为长按手势。

同样的，目标识别点可以是目标手指的指尖，例如，当有一个手指在识别时段内的至少部分时段处于伸出状态，则目标手指为该手指；当有多个手指在识别时段内的至少部分时段处于伸出状态，则目标手指优先选择食指或者中指。

例如，在识别时段内，识别到一个或多个手指处于伸出状态，目标手指的指尖的深度坐标先减小后保持，且保持的时长超过第一阈值，确定识别到手势动作对象执行了长按手势。

例如，根据手指伸出状态变化和位置变化，确定手势动作对象的动态手势变化，包括：响应于手指伸出状态变化指示手势动作对象中的至少一个手指在识别时段内的至少部分时段处于伸出状态，以及位置变化指示手势动作对象中的目标识别点在至少部分时段内沿预设方向滑动的距离超过第二阈值，确定手势动作为滑动手势，其中，滑动的距离通过多组图像中手势动作对象的目标识别点的位置信息计算得到。

例如，预设方向可以是显示单元中显示的提示信息指示的方向，例如预设方向可以是水平方向、竖直方向或者与水平方向呈一定夹角的方向，本公开对此不做具体限制。

例如，第二阈值可以是在手势交互空间中的距离值。

例如，显示单元中的控件所在的坐标系与手势交互空间的坐标系具有预设映射关系，第二阈值可以是控件所在的坐标系中的距离值，此时根据多组图像中手势动作对象的目标识别点的位置信息，按映射关系进行映射，以得到手势动作对象滑动的距离，从而根据该滑动的距离与第二阈值进行比较。

例如，在识别时段内，识别到一个或多个手指处于伸出状态，目标手指的指尖沿预设方向滑动的距离(例如沿水平方向左右滑动的距离，或沿竖直方向上下滑动的距离)超过第二阈值，确定识别到手势动作对象执行了滑动手势。

例如，根据手指伸出状态变化和位置变化，确定手势动作对象的动态手势变化，包括：响应于手指伸出状态变化指示手势动作对象在识别时段内从存在至少一个手指处于伸出状态转换为无手指处于伸出状态，确定手势动作为抓取手势。

例如，根据手指伸出状态变化和所述位置变化，确定手势动作对象的动态手势变化，包括：响应于手指伸出状态变化指示手势动作对象在识别时段内从无手指处于伸出状态转换为存在至少一个手指处于伸出状态，确定手势动作为释放手势。

为降低手势识别的误操作可能性，在动态手势识别时，可以检测手势动作对象是否在执行手势动作前存在悬停操作。

例如，根据手指伸出状态变化和位置变化，确定手势动作对象的动态手势变化，还可以包括：在确定手势动作前，确定手势动作对象是否在发生动作变化前存在超过第三阈值的静止时间，响应于存在超过第三阈值的静止时间，继续确定手势动作；响应于不存在超过第三阈值的静止时间，确定未发生手势动作变化。

也就是说，若检测到手势动作对象在执行单击手势、长按手势等之前，存在超过第三阈值的静止时间，则继续按照上述方式确定手势动作对象具体执行的手势动作；若检测到手势动作对象在执行单击手势、长按手势等之前，不存在超过第三阈值的静止时间，则确定手势动作对象没有发生手势动作变化，不再继续确定具体的手势动作，以降低误识别的可能性。

需要说明的是，在本公开至少一实施例提供的手势识别方法中，确定手势动作对象的动态手势变化时，只需要确定手指是否伸出即可，而不需要确定具体哪些手指处于伸出状态，这减少了凸包检测的工作量，也不需要复杂的深度学习算法支撑，提升了检测速度，降低了对系统算力的需求。

在本公开至少一实施例提供的手势识别方法中，设计手势动作的简化识别算法，即建立深度直方图以提取灰度图中的手势区域，分析手势连通域并进行凸包检测，再结合手指状态变化和位置变化情况识别手势动作，不使用复杂的深度学习算法，整体上实现手势动作的快速识别，手势动作的识别用时小于等于5ms(毫秒)。

例如，控件本身也包含位置信息，当手势交互动作符合预期的目标动作，手势交互的位置也与控件位置也重合时，触发此控件。因此，在本公开至少一实施例提供的手势识别方法中，手势动作对象的动态手势变化还包括手势位置，可以同步识别手势动作和手势位置。

例如，根据手指伸出状态变化和位置变化，确定手势动作对象的动态手势变化，还包括：响应于手势动作为单击手势、长按手势或滑动手势，确定手势位置基于手势动作对象中的目标识别点的位置信息得到，其中，目标识别点包括目标手指的指尖点；响应于手势动作为抓取手势或释放手势，确定手势位置基于所述手势动作对象的手势中心的位置信息得到，其中，所述手势中心为手势连通域的最大内接圆的圆心。

例如，当识别到的手势动作为单击手势、长按手势或滑动手势时，确定手势位置为目标识别点的位置；例如，当识别到的手势动作为抓取手势或释放手势时，确定手势位置为手势中心的位置。

例如，为实现高精度的位置测量，例如深度测量，还可以统计手势位置附近的多个预设采样点的位置，根据面精度定位最终的手势位置，提升手势位置的准确性和精度。

例如，确定手势位置基于手势动作对象中的目标识别点的位置信息得到，可以包括：获取目标识别点周围的预设位置处的多个采样点分别对应的多个位置信息；根据多个位置信息和目标识别点的位置信息，得到手势位置。

例如，确定手势位置基于手势动作对象中的目标识别点的位置信息得到，可以包括：获取手势中心周围的预设位置处的多个采样点分别对应的多个位置信息；根据多个位置信息和手势中心的位置信息，得到手势位置。

例如，选择手势中心或者目标识别点周围的多个采样点，将这些采样点的位置信息以及手势中心或者目标识别点的位置信息进行加权计算，得到加权结果，将加权结果作为最终的手势位置。

当然，由于位置信息包括三维位置，也可以仅选择其中的深度坐标进行计算，减少计算量的同时提高深度位置测量的准确性。

例如，在一些实施例中，在提供有多个拍摄装置时，步骤S20可以包括：基于同一拍摄装置得到的分别属于多组图像的、且对应不同拍摄时刻的多对深度图和灰度图，确定同一拍摄装置对应的手势动作对象的中间手势变化；对多个拍摄装置分别对应的多个中间手势变化进行加权和滤波处理，得到手势动作对象的动态手势变化。

例如，此时使用多个拍摄装置同步定位手势动作和手势位置，每个拍摄装置利用该拍摄装置得到的对应不同拍摄时刻的多对深度图和灰度图，得到拍摄装置对应的手势动作对象的手势变化，具体识别过程如前所述，这里不再赘述。之后，结合多个拍摄装置的识别结果进行加权修正、带通滤波修正等处理，得到最终的识别结果。

例如，在另一些实施例中，可以使用多个拍摄装置的结果定位手势位置，选择其中一个拍摄装置识别的手势动作作为手势动作的识别结果，以提高手势位置定位的精度，降低计算量。

由于多个拍摄装置具有不同的拍摄角度和/或拍摄位置，这种方式可以在一定程度上保证了手势的防遮挡，且提升了最终识别结果的准确性，提升了动态手势识别的鲁棒性，实现高精度测量。

例如，在另一些实施例中，也可以在姿态信息获取阶段，综合多个拍摄装置的手势连通域(例如加权修正或带通滤波等)，得到一个最终的手势连通域，利用这个手势连通域进行后续的动态手势识别，识别过程与上述过程相同，这里不再赘述。这种方式同样也可以提升手势识别结果的准确性和鲁棒性。

由此，通过设置多个拍摄装置，整体上实现手势位置的准确定位和手势动作的准确识别，经过实际测量，手势位置的定位误差小于2mm，手势动作的识别准确率大于95％。

通过上述方法，能够同步实现手势的位置检测以及动作识别。经过实际测量处理用时在5ms以内，仅为目前常用的结合深度学习方法进行手势识别所需时间(20ms及以上)的四分之一，对系统算力需求小；并且，本公开至少一实施例提供的手势识别方法使用算力要求较小的图像处理方法即可实现，有利于算法硬件化；此外，定义的多种动态手势更符合人的自然交互需求，在降低计算量的同时能够保证手势交互的实时性，提升用户体验。

如前所述，目前现有的深度相机(例如双目相机、结构光相机和TOF相机)虽然都可实现深度信息的获取，但其处理成本高、帧率低、延时大，在实时交互中会影响用户的使用体验。

因此，本公开至少一实施例提供的手势识别方法中，为达到高精度、低延时、大视角的实时互动需求，基于深度相机或深度相机和高速灰度相机相结合的结构排布方案，并加以自定义的并行处理流程，通过快慢速结合，轨迹预测等方式实现动态手势变化的快速检测。

例如，利用至少一个拍摄装置连续拍摄手势动作对象，得到分别对应不同拍摄时刻的多组图像，包括：利用每个拍摄装置连续拍摄手势动作对象，得到拍摄装置输出的分别对应不同拍摄时刻的多对深度图和灰度图。

例如，每个拍摄装置包括第一获取单元，例如第一获取单元为TOF相机。

例如，图6示出了TOF相机的深度图和灰度图的关系。参考如前所述的内容，每个第一帧表示一个DCS相位的时间，也即图6中的DCS0、DCS1、DCS2、DCS3等，DCS0、DCS1、DCS2、DCS3分别表示不同的相位，例如，DCS0对应相位0°，DCS1对应相位90°，DCS2对应相位180°，DCS3对应相位270°。这里，“相位”表示第一获取单元发送信号和接收信号之间的相位差，例如，DCS0表示所获取的灰度图像对应于第一获取单元发送信号和接收信号之间的相位差为0°。

例如，在图6中，TOF相机会采用对应4个不同相位的4个灰度图来计算获得一个深度图，也即此时N＝4。当然，需要说明的是，图6仅给出了一种示意，在其他实施例中，N还可以取其他值，例如2或8等。

如图6所示，在包括4个DCS，也即4个第一帧的frame1中，分别在每个DCS获取对应4个不同相位的4个灰度图，表示为灰度图Gray0、灰度图Gray1、灰度图Gray2和灰度图Gray3，基于灰度图Gray0、灰度图Gray1、灰度图Gray2和灰度图Gray3计算得到一个深度图Dep0，深度图Dep0和灰度图Gray3可以同步输出第一获取单元。

如图6所示，在包括4个DCS，也即4个第一帧的frame2中，分别在每个DCS获取对应4个不同相位的4个灰度图，表示为灰度图Gray0、灰度图Gray1、灰度图Gray2和灰度图Gray3，基于灰度图Gray4、灰度图Gray5、灰度图Gray6和灰度图Gray7计算得到一个深度图Dep1，深度图Dep1和灰度图Gray7可以同步输出第一获取单元。

关于深度图Dep2的计算过程与前述过程相同，这里不再赘述。

如前所述，当第一帧的帧长为25ms时，则第一获取单元每间隔100ms输出一对深度图和灰度图，灰度图和深度图具有相同的输出帧率和延时，但此时是无法实现10ms或更低的延时要求。因此，为提高拍摄装置输出灰度图和深度图的帧率，本公开一些实施例提供了如下的多种实施方案。

例如，在一些实施例中，利用每个拍摄装置连续拍摄手势动作对象，得到拍摄装置输出的分别对应不同拍摄时刻的多对深度图和灰度图，可以包括：利用拍摄装置在每个第一帧输出一对对应的深度图和灰度图，其中，输出的深度图根据N个灰度图和一个深度图，利用平滑轨迹拟合预测得到。

也就是说，此时拍摄装置能够在每个第一帧输出一对对应的深度图和灰度图，其中，输出的深度图是根据N个灰度图和该一个深度图，利用平滑轨迹拟合预测得到，也就是该1个深度图是基于该N个灰度图计算得到。

图7A为本公开一实施例提供的深度图和灰度图的对应关系示意图。

结合图6，每四个对应不同相位的灰度图对应一个深度图，即第一获取单元每4个第一帧与深度图进行一次对齐，实现深度信息和灰度信息的位置校准。

例如，在frame1的DCS0、DCS1、DCS2和DCS3中，可应用任意可行的预测算法，通过灰度图Gray0、灰度图Gray1、灰度图Gray2和灰度图Gray3对深度图Dep0进行平滑轨迹拟合预测，得到灰度图Gray0对应的深度图Dep0_1、灰度图Gray0对应的深度图Dep0_2、灰度图Gray0对应的深度图Dep0_3，以提升深度信息的帧率。

例如，在frame2的DCS0、DCS1、DC2中，可应用任意可行的预测算法，通过灰度图Gray4、灰度图Gray5、灰度图Gray6和灰度图Gray7对深度图Dep1进行平滑轨迹拟合预测，得到灰度图Gray4对应的深度图Dep1_1、灰度图Gray5对应的深度图Dep1_2、灰度图Gray6对应的深度图Dep1_3，以提升深度信息的帧率。

关于frame3中的处理过程与前述过程相同，这里不再赘述。

例如，预测算法可以包括内插算法、卡尔曼滤波算法等，本公开对此不做具体限制。

由此，第一获取单元能够在每个第一帧，输出一对对应的灰度图和深度图。

需要说明的是，也可以计算部分目前不具有对应的深度图的灰度图所对应的深度图，例如计算灰度图Gray1对应的深度图、灰度图Gray5对应的深度图，以间隔两个第一帧输出一对对应的深度图和灰度图，本公开不限制于在每个第一帧输出一对对应的深度图和灰度图，只要能够提高深度图的帧率即可。

在这些实施例中，拍摄装置输出深度图和灰度图的帧率可以达到第一获取单元中获取灰度图的帧率，延时可以达到一个第一帧的帧长，并且不需要额外增加灰度相机，可节约硬件成本。

上述实施例中，预测得到的深度图的精度受限于预测算法的精度，在N较大时，可能会降低深度图的预测精度。因此，本公开至少一实施例提供的手势识别方法还提供另一种深度图和灰度图的获取方式，参考图6，利用每4个第一帧的灰度图生成一幅深度图，由于4个相位是周期变化的，例如为0°，90°，180°，270°，0°，90°，…，因此可以选择4个不同相位的灰度图一起运算，获得新的深度图。

例如，在另一些实施例中，利用每个拍摄装置连续拍摄手势动作对象，得到拍摄装置输出的分别对应不同拍摄时刻的多对深度图和灰度图，可以包括：利用拍摄装置在至多每N-1个第一帧输出一对对应的深度图和灰度图，输出的深度图通过与输出的灰度图相邻的N-1个第一帧的灰度图计算得到，输出的灰度图和相邻的N-1个第一帧的灰度图对应N个不同的相位。

也就是说，此时拍摄装置能够在至多每N-1个第一帧输输出一对对应的深度图和灰度图，输出的深度图通过与输出的灰度图相邻的N-1个第一帧的灰度图计算得到，输出的灰度图和相邻的N-1个第一帧的灰度图对应N个不同的相位。

图7B示出了本公开另一实施例提供的深度图和灰度图的对应关系示意图。

如图7B所示，深度图Dep0是基于对应4个不同相位的灰度图Gray0、灰度图Gray1、灰度图Gray2和灰度图Gray3计算得到；深度图Dep1_1是基于对应4个不同相位的灰度图Gray1、灰度图Gray2、灰度图Gray3和灰度图Gray4计算得到，深度图Dep1_2是基于对应4个不同相位的灰度图Gray2、灰度图Gray3、灰度图Gray4和灰度图Gray5计算得到，…，以此类推。

也就是说，在图7B中，每个第一帧输出一对深度图和灰度图。例如，以在一个第一帧输出深度图Dep1_1和灰度图Gray4为例，深度图Dep1_1是基于与灰度图Gray4相邻的3个灰度图，且该3个灰度图是在灰度图Gray4之前得到，该3个灰度图为灰度图Gray1、灰度图Gray2、灰度图Gray3，灰度图Gray1、灰度图Gray2、灰度图Gray3和灰度图Gray4分别对应4个不同的相位。由此，利用对应4个不同相位的灰度图计算得到一个深度图。

当然，图7B所示为一种示意，当N取不同值时，可以以类似的方式计算得到灰度图对应的深度图。

需要说明的是，也可以计算部分灰度图对应的深度图，例如计算Gray5对应的深度图、Gray7等对应的深度图，以间隔两个第一帧输出一对对应的深度图和灰度图。因此，本公开不限制于在每个第一帧输出一对对应的深度图和灰度图，只要能够提高深度图的帧率即可，也即实现至多每N-1个第一帧输输出一对对应的深度图和灰度图。

在上述实施例中，拍摄装置输出深度图和灰度图的帧率可以达到第一获取单元中灰度图的获取帧率，延时可以达到一个第一帧的帧长，不需要额外增加灰度相机，可节约硬件成本。并且，这种方式得到的深度图的精度不受预测算法的影响，即使N较大也能保持较好的深度图的图像精度。

在上述方式中，能够实现不增加灰度相机的前提下提高拍摄装置的帧率，减少手势识别的处理延时。但是，这种方式中灰度图和深度图需要共享相同传输带宽，因此如果若帧率比较高，可能使得传输延时较高，并且，帧率受限于第一获取单元中的灰度图的获取帧率。

因此，在另一些实施例中，拍摄装置还可以包括第二获取单元，例如，第二获取单元包括高速灰度相机，通过高速灰度相机的高帧率实现超高速的深度信息预测和校准。

例如，利用每个拍摄装置连续拍摄手势动作对象，得到拍摄装置输出的分别对应不同拍摄时刻的多对深度图和灰度图，可以包括：利用拍摄装置在至多每M-1个第二帧输出一对对应的深度图和灰度图，其中，输出的深度图包括基准深度图，或者基于基准深度图和基准深度图对应的至少一个灰度图、利用平滑轨迹拟合预测得到的深度图，其中，基准深度图包括在当前第二帧或在当前第二帧之前由第一获取单元输出的深度图，当前第二帧为输出一对对应的深度图和灰度图的第二帧，至少一个灰度图包括在基准深度图对应的第二帧和当前第二帧之间由第二获取单元输出的灰度图。

也就是说，此时拍摄装置能够在至多每M-1个第二帧输出一对对应的深度图和灰度图。并且，输出的深度图可以是基准深度图，或者是基于基准深度图和基准深度图对应的至少一个灰度图，利用平滑轨迹拟合预测得到的深度图。这里，基准深度图包括在当前第二帧或在当前第二帧之前由第一获取单元输出的深度图，当前第二帧为输出一对对应的深度图和灰度图的第二帧，至少一个灰度图包括在基准深度图对应的第二帧和当前第二帧之间由第二获取单元输出的灰度图。

当然，根据预测算法的不同，也可以使用更多的灰度图结合基准深度图进行预测，例如，在当前第二帧没有对应的深度图时，可以利用当前第二帧之前的M个第二帧输出的灰度图，结合基准深度图，利用预测算法或插值算法进行处理，得到当前第二帧对应的深度图。

例如，由于第二获取单元输出灰度图的帧率是第一获取单元输出深度图的帧率的M倍，因此第二获取单元每M个第二帧就能跟第一获取单元输出的深度图进行一次对齐，实现深度和灰度信息位置的校准。在其他第二帧，利用预测算法，通过第二获取单元得到的高帧率灰度图对深度图进行平滑轨迹拟合预测，也就是说在其他M-1个第二帧中，即使没有深度图也能通过第二获取单元输出的灰度图实现对深度图的预测，进而实现高速图像深度信息的获取和校准。

需要说明的是，可以在每个第二帧输出一对对应的灰度图和深度图，也可以在每两个第二帧输出一对对应的灰度图和深度图，本公开对此不做具体限制，只要能够提高深度图的输出帧率即可，也即实现至多每M-1个第一帧输输出一对对应的深度图和灰度图。

下面结合附图具体说明此时拍摄装置的具体处理过程。

图7C为本公开再一实施例提供的深度图和灰度图的对应关系示意图。

例如，在图7C中，DCS0、DCS1、DCS2、DCS3分别表示对应不同相位的第一帧，f0_M、f1_1、f1_2、...、f1_M、f2_1、...、f2_M、f3_1、f3_2...分别表示第二帧。

例如，如图7C所示，第一获取单元配置为每M个第二帧输出一个深度图，M为正整数且大于1。例如，第一获取单元在第二帧f1_1输出深度图Dep_i，在第二帧f2_1输出深度图Dep_i+1，在第二帧f3_1输出深度图Dep_i+2。关于深度图Dep_i、深度图Dep_i+1、深度图Dep_i+2的计算过程可以参考前述实施例，这里不再赘述。

如图7C所示，第二获取单元配置为在每个第二帧输出一个灰度图，例如，在第二帧f1_1输出灰度图1_1，在第二帧f1_2输出灰度图1_2，在第二帧f1_3输出灰度图1_3，以此类推。

第二帧的帧长比第一帧的帧长短，例如，第一帧的帧长为25ms，第二帧的帧长为8.3ms。

下面以第二帧f1_1至第二帧f1_M输出深度图的过程为例，说明深度图的获取过程。

需要说明的是，对于第二帧f1_1至第二帧f1_M输出的深度图，基准深度图为由第一获取单元输出的深度图Dep_i，基准深度图Dep_i是利用4个第一帧得到的分别对应4个不同相位的灰度图计算得到，深度图Dep_i和第二获取单元输出的灰度图1_1对齐，在第二帧1_1同步输出拍摄装置。

在当前第二帧为第二帧f1_2时，利用基准深度图Dep_i和灰度图1_1、灰度图1_2，结合预测算法预测第二帧f1_2的深度图D2，将深度图D2和灰度图1_2同步输出拍摄装置。

在当前第二帧为第二帧f1_3时，利用基准深度图Dep_i和灰度图1_1、灰度图1_2、灰度图1_3，结合预测算法预测第二帧f1_3的深度图D3，将深度图D3和灰度图1_3同步输出拍摄装置。

以此类推，后续过程不再赘述。

由于高速灰度相机的帧率最高可达几百赫兹，因此在上述实施例中，利用高速灰度相机和深度相机的结合，能够实现毫秒级别的低时延，大幅降低获取图像所需的延时，提高图像获取帧率，快速实现手势动作及手势位置的判定，提高3D空间中交互体验的速度。

在该实施例中，预测得到的深度图的精度受限于预测算法的精度，在M 较大时，可能会降低深度图的预测精度。因此，可以先采用如上所述的利用不同相位的灰度图，得到每个第一帧对应的深度图，之后，再利用每个第一帧得到的深度图进行预测，降低预测时图像之间的间隔，提高预测的深度图的准确率。

例如，第一获取单元还配置为，在每个第一帧得到一对对应的深度图和灰度图，得到的深度图通过与得到的灰度图相邻的N-1个第一帧的灰度图计算得到，得到的灰度图和相邻的N-1个第一帧的灰度图对应N个不同的相位，第一帧的帧长大于第二帧的帧长，N为正整数且大于1。关于第一获取单元输出深度图的具体处理过程可以参考图7B相关的实施例的描述，这里不再赘述。

此时，第一获取单元能够在每个第一帧得到一对对应的深度图和灰度图，得到的深度图通过与得到的灰度图相邻的N-1个第一帧的灰度图计算得到，得到的灰度图和相邻的N-1个第一帧的灰度图对应N个不同的相位。第二获取单元能够在至多每M’-1个第二帧输出一对对应的深度图和灰度图，例如，输出的深度图包括基准深度图，或者基于基准深度图和基准深度图对应的至少一个灰度图、利用平滑轨迹拟合预测得到的深度图。

例如，参考图7B相关的实施例，在任一个第一帧，若第一帧没有对应的深度图，则利用与该第一帧相邻的、且在该第一帧之前的N-1个第一帧输出的灰度图，计算生成该第一帧对应的深度图，具体过程不再赘述。

由此，实现在每个第一帧从第一获取单元得到一个深度图，第一获取单元输出的深度图的帧率与第一获取单元得到灰度图的帧率相同。

此时，由于第二获取单元输出灰度图的帧率是第一获取单元输出深度图的帧率的M’倍，因此第二获取单元每M’个第二帧就能跟第一获取单元输出的深度图进行一次对齐，实现深度和灰度信息位置的校准。在其他第二帧，利用预测算法，通过第二获取单元得到的高帧率灰度图对第一获取单元输出的深度图进行平滑轨迹拟合预测，也就是说在其他M’-1个第二帧中，即使没有深度图也能通过第二获取单元输出的灰度图实现对深度图的预测，进而实现高速图像深度信息的获取和校准。

这里，M’为正整数，且M’＝M/N，M表示在第一获取单元每N个第一帧输出一个深度图时，第二获取单元输出灰度图的帧率为第一获取单元输出深度图的帧率的比值。

关于预测的具体过程可以参考图7C所述的内容，重复之处不再赘述。

由于高速灰度相机的帧率最高可达几百赫兹，因此在上述实施例中，利用高速灰度相机和深度相机的结合，能够实现毫秒级别的低时延，大幅降低获取图像所需的延时，提高图像获取帧率，快速实现手势动作及位置的判定，提高3D空间中交互体验的速度。

并且，由于此时用于预测的基准深度图之间的间隔缩短，例如在图7C所述的实施例中，基准深度图之间的间隔为4个第一帧，而在该实施例中，基准深度图之间的间隔缩短为1个第一帧，因此预测时的准确率得到提高，减少内插倍数，提升预测得到的深度图的精度。

因此，在本公开至少一实施例提供的手势识别方法中，拍摄装置输出灰度图和深度图的帧率大幅提高，降低了图像采集过程的延时，满足低延时的交互需求，例如，在采用帧率为120fps的高速灰度相机和帧率为30fps的TOF相机组合作为拍摄装置进行拍摄时，测试得到的具体指标包括：延时20ms以内，报点率120Hz，定位精度达到2mm以内，识别率95％以上。因此，本公开至少一实施例提供的手势识别方法能够快速准确地定位手势位置与手势动作，保证交互过程的流畅度和准确率，提升用户体验。

本公开至少一实施例还提供一种交互方法。图8为本公开至少一实施例提供的交互的方法示意性流程图。

如图8所示，本公开至少一实施例提供的交互方法至少包括步骤S30-S50。

在步骤S30，显示控件。

例如，可以在显示单元中显示控件，显示单元包括任意具有显示效果的显示装置，如三维显示器、大尺寸屏幕等。显示单元能够显示与手势动作对象进行交互的显示内容，例如显示内容包括通用的、易理解的控件，关于显示单元、显示控件的内容可以参考前述内容，这里不再赘述。需要说明的是，本公开对显示单元的类型、形状、性能不做具体限制，同样对控件的数量、材质、颜色、形状等也不做具体限制。

在步骤S40，识别用户执行目标动作时的动态手势变化。

例如，拍摄装置集成在显示单元附近且面向用户，例如，用户根据显示内容指示的信息，或者根据其他信息执行目标动作，拍摄装置连续拍摄用户执行目标动作的过程，并利用本公开任一实施例所述的手势识别方法识别用户执行目标动作时的动态手势变化。

关于手势识别方法参考如前所述的内容，这里不再赘述。

在步骤S50，根据识别的所述动态手势变化和所述目标动作，触发所述控件。

例如，在一些实施例中，动态手势变化包括手势动作，手势动作例如包括单击手势、长按手势、滑动手势、抓取手势及释放手势中的任一个。

例如，步骤S50可以包括：响应于用户的手势动作与目标动作一致，触发控件并显示可视化反馈效果。

例如，此时利用本公开任一实施例提供的手势识别方法，识别用户执行的手势动作变化，例如检测到手势动作为单击手势，若目标动作也是单击手势，则触发控件并显示可视化反馈效果，例如控件材质、颜色、亮度等发生变化，或者其他可视化反馈效果，以提醒用户交互完成。

例如，可视化反馈效果还可以根据手势动作的不同，包括切换场景、空间移动、旋转、缩放等，本公开对此不做具体限制。

例如，在另一些实施例中，动态手势变化还包括手势位置，控件本身也包含位置信息，只有当手势交互的位置与控件的位置重合时，才能触发此控件。

例如，步骤S50可以包括：响应于用户的手势动作与目标动作一致，用户的手势位置与控件的控件位置匹配，触发控件并显示可视化反馈效果。这里，用户的手势位置与控件的控件位置匹配表示，手势位置按映射关系映射至控件所在的坐标系中的位置与控件位置一致。

如前所述，控件所在的坐标系与手势位置所在的手势交互空间中的坐标系存在预定映射关系，将手势位置按照该映射关系映射至控件所在的坐标系，若两者位置重合，则触发控件并显示可视化反馈效果。

本公开至少一实施例还提供一种手势交互系统，图9为本公开至少一实施例提供的一种手势交互系统的示意性框图。

如图9所示，手势交互系统包括一个或多个拍摄装置901、手势识别单元902和显示单元903。

例如，至少一个拍摄装置901配置为连续拍摄手势动作对象，以获取针对手势动作对象的分别在不同拍摄时刻拍摄的多组图像。

手势识别单元902配置为接收多组图像，执行本公开任一实施例所述的手势识别方法，输出手势动作对象的动态手势变化的识别结果。

显示单元903配置为接收识别结果，根据识别结果显示交互效果。

例如，手势识别单元902包括数字信号处理器(Digital Signal Processor，简称DSP)，也即本公开至少一实施例提供的手势识别方法在多路DSP中执行，根据多组图像，输出手势动作对象的动态手势变化的识别结果。

例如，拍摄装置中获得高帧率的灰度图和深度图的处理，也可以在硬件中实现，例如在数字信号处理器中实现。

例如，在一些实施例中，拍摄装置拍摄得到原始信号数据(Raw Data)并将原始信号数据传输给手势识别单元，手势识别单元完成原始信号数据的读取、SIP处理、手势定位与识别、时序控制等多项功能。

传统方案通常在专用处理芯片或上位机中执行图像预处理，同时基于深度学习算法在上位机执行手势识别，占用大量的系统资源。本公开至少一实施例提供的手势识别方法使用的图像处理方法实现容易，算法能够实现硬件化，图像信号处理与动态手势识别均在DSP中执行，节省系统资源，快速准确地定位手势位置与手势动作，保证交互过程的流畅度和准确率。

例如，手势采集、动态手势识别均在下位机完成，识别结果直接通过预设接口(例如USB接口)上报给显示单元，以供显示单元结合内容显示相应的交互效果。由此，降低上位机的处理工作量，提升系统的处理效率，用于降低处理延时，保障手势识别的实时性；并且可以将有限的上位机资源用于交互效果的显示，提升用户体验。

例如，识别结果包括手势位置，也即手势动作对象在手势交互空间中的三维坐标。例如，识别结果还可以包括手势动作，例如，手势动作按照预设的标记码传输给显示单元，例如，单击手势对应“1”，长按手势对应“2”，以此类推。当然，手势动作还可以按其他预设的对应关系传输给显示单元，本公开对此不作具体限制。

例如，显示单元可以包括上位机，显示单元可以利用上位机结合显示内容开发交互效果。由于下位机处理速度较快，因此这种设置方式可以整体上提升系统的处理效率，最大化利用系统资源，降低处理延时，实现手势交互的实时性。

例如，手势交互系统包括多个拍摄装置901，多个拍摄装置901配置为从不同角度同步拍摄手势动作对象，以在同一拍摄时刻得到对应的多对深度图和灰度图。

例如，多个拍摄装置901设置在显示单元的周围且面向用户，例如设置在显示屏幕的上边缘、下边缘、左边缘或右边缘的中央位置。

例如，每个拍摄装置包括第一获取单元和第二获取单元，第一获取单元和第二获取单元配置为同步拍摄手势动作对象。例如，第一获取单元为TOF相机，第二获取单元为高速灰度相机。

例如，当存在多个拍摄装置时，多个拍摄装置同步拍摄手势动作对象，并且每个拍摄装置包括的第一获取单元和第二获取单元也同步拍摄手势动作对象，以得到对应同一拍摄时刻的多对深度图和灰度图。

关于第一获取单元、第二获取单元、拍摄装置的具体设置和处理参考如前所述的实施例，这里不再赘述。

例如，手势交互系统能够根据手势位置智能化调用相应的拍摄装置，控制多相机的曝光时序，在一个拍摄时刻可采集多对深度图与灰度图。例如，多个拍摄装置配置为根据手势动作对象在手势交互空间中的位置，选择部分或全部拍摄装置拍摄手势动作对象。

例如，若检测到手势位置位于显示单元的左上角，则可以设置位于显示单元右下角附近的拍摄装置不需拍摄手势交互对象，以降低系统资源消耗，降低硬件开销。

图10为本公开至少一实施例提供的一种手势识别单元的示意性框图。

如图10所示，手势识别单元902可以包括：图像获取模块9021、处理模块9022。

例如，这些模块可以通过硬件(例如电路)模块、软件模块或二者的任意组合等实现，以下实施例与此相同，不再赘述。例如，如前所述，这些模块可以利用DSP实现，或者，也可以通过中央处理单元(CPU)、图像处理器(GPU)、张量处理器(TPU)、现场可编程逻辑门阵列(FPGA)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元以及相应计算机指令来实现这些模块。

例如，图像获取模块9021被配置为获取针对手势动作对象的分别在不同拍摄时刻拍摄的多组图像。例如，每组图像包括至少一对对应的深度图和灰度图。

例如，处理模块9022被配置为根据多组图像，使用每组图像中的深度图来获取空间信息，使用每组图像中的灰度图来获取手势动作对象的姿态信息，以识别手势动作对象的动态手势变化。

例如，图像获取模块9021、处理模块9022可以包括存储在存储器中的代码和程序；处理器可以执行该代码和程序以实现如上所述的图像获取模块9021、处理模块9022的一些功能或全部功能。例如，图像获取模块9021、处理模块9022可以是专用硬件器件，用来实现如上所述的图像获取模块9021、处理模块9022的一些或全部功能。例如，图像获取模块9021、处理模块9022可以是一个电路板或多个电路板的组合，用于实现如上所述的功能。在本申请实施例中，该一个电路板或多个电路板的组合可以包括：(1)一个或多个处理器；(2)与处理器相连接的一个或多个非暂时的存储器；以及(3)处理器可执行的存储在存储器中的固件。

需要说明的是，图像获取模块9021可以用于实现图3所示的步骤S10，处理模块9022可以用于实现图3所示的步骤S20。从而关于图像获取模块9021、处理模块9022能够实现的功能的具体说明可以参考上述手势识别方法的实施例中的步骤S10至步骤S20的相关描述，重复之处不再赘述。此外，手势识别单元902可以实现与前述手势识别方法相似的技术效果，在此不再赘述。

需要注意的是，在本公开的实施例中，该手势识别单元902可以包括更多或更少的电路或单元，并且各个电路或单元之间的连接关系不受限制，可以根据实际需求而定。各个电路或单元的具体构成方式不受限制，可以根据电路原理由模拟器件构成，也可以由数字芯片构成，或者以其他适用的方式构成。

本公开至少一实施例还提供一种电子设备，图11为本公开至少一实施例提供的一种电子设备的示意图。

例如，如图11所示，电子设备包括处理器101、通信接口102、存储器103和通信总线104。处理器101、通信接口102、存储器103通过通信总线104实现相互通信，处理器101、通信接口102、存储器103等组件之间也可以通过网络连接进行通信。本公开对网络的类型和功能在此不作限制。应当注意，图11所示的电子设备的组件只是示例性的，而非限制性的，根据实际应用需要，该电子设备还可以具有其他组件。

例如，存储器103用于非瞬时性地存储计算机可读指令。处理器101用于执行计算机可读指令时，实现根据上述任一实施例所述的手势识别方法。关于该手势识别方法的各个步骤的具体实现以及相关解释内容可以参见上述手势识别方法的实施例，在此不作赘述。

例如，处理器101执行存储器103上所存放的计算机可读指令而实现的手势识别方法的其他实现方式，与前述方法实施例部分所提及的实现方式相同，这里也不再赘述。

例如，通信总线104可以是外设部件互连标准(PCI)总线或扩展工业标准结构(EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

例如，通信接口102用于实现电子设备与其他设备之间的通信。

例如，处理器101和存储器103可以设置在服务器端(或云端)。

例如，处理器101可以控制电子设备中的其它组件以执行期望的功能。处理器101可以是中央处理器(CPU)、网络处理器(NP)、张量处理器(TPU)或者图形处理器(GPU)等具有数据处理能力和/或程序执行能力的器件；还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。中央处理器(CPU)可以为X86或ARM架构等。

例如，存储器103可以包括一个或多个计算机程序产品的任意组合，计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。非易失性存储器例如可以包括只读存储器(ROM)、硬盘、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机可读指令，处理器101可以运行所述计算机可读指令，以实现电子设备的各种功能。在存储介质中还可以存储各种应用程序和各种数据等。

例如，在一些实施例中，电子设备还可以包括图像获取部件。图像获取部件用于获取图像。存储器903还用于存储获取的图像。

例如，图像获取部件可以是如前所述的拍摄装置。

例如，关于电子设备执行手势识别的过程的详细说明可以参考手势识别方法的实施例中的相关描述，重复之处不再赘述。

图12为本公开至少一实施例提供的一种非瞬时性计算机可读存储介质的示意图。例如，如图12所示，存储介质1000可以为非瞬时性计算机可读存储介质，在存储介质1000上可以非暂时性地存储一个或多个计算机可读指令1001。例如，当计算机可读指令1001由处理器执行时可以执行根据上文所述的手势识别方法中的一个或多个步骤。

例如，该存储介质1000可以应用于上述电子设备中，例如，该存储介质1000可以包括电子设备中的存储器。

例如，存储介质可以包括智能电话的存储卡、平板电脑的存储部件、个人计算机的硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、闪存、或者上述存储介质的任意组合，也可以为其他适用的存储介质。

例如，关于存储介质1000的说明可以参考电子设备的实施例中对于存储器的描述，重复之处不再赘述。

图13示出了为本公开至少一实施例提供的一种硬件环境的示意图。本公开提供的电子设备可以应用在互联网系统。

利用图13中提供的计算机系统可以实现本公开中涉及的手势识别装置和/或电子设备的功能。这类计算机系统可以包括个人电脑、笔记本电脑、平板电脑、手机、个人数码助理、智能眼镜、智能手表、智能指环、智能头盔及任何智能便携设备或可穿戴设备。本实施例中的特定系统利用功能框图解释了一个包含用户界面的硬件平台。这种计算机设备可以是一个通用目的的计算机设备，或一个有特定目的的计算机设备。两种计算机设备都可以被用于实现本实施例中的手势识别装置和/或电子设备。计算机系统可以包括实施当前描述的实现手势识别所需要的信息的任何组件。例如，计算机系统能够被计算机设备通过其硬件设备、软件程序、固件以及它们的组合所实现。为了方便起见，图13中只绘制了一台计算机设备，但是本实施例所描述的实现手势识别所需要的信息的相关计算机功能是可以以分布的方式、由一组相似的平台所实施的，分散计算机系统的处理负荷。

如图13所示，计算机系统可以包括通信端口250，与之相连的是实现数据通信的网络，例如，计算机系统可以通过通信端口250发送和接收信息及数据，即通信端口250可以实现计算机系统与其他电子设备进行无线或有线通信以交换数据。计算机系统还可以包括一个处理器组220(即上面描述的处理器)，用于执行程序指令。处理器组220可以由至少一个处理器(例如，CPU)组成。计算机系统可以包括一个内部通信总线210。计算机系统可以包括不同形式的程序储存单元以及数据储存单元(即上面描述的存储器或存储介质)，例如硬盘270、只读存储器(ROM)230、随机存取存储器(RAM)240，能够用于存储计算机处理和/或通信使用的各种数据文件，以及处理器组220所执行的可能的程序指令。计算机系统还可以包括一个输入/输出组件260，输入/输出组件260用于实现计算机系统与其他组件(例如，用户界面280等)之间的输入/输出数据流。

通常，以下装置可以连接输入/输出组件260：包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置；包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置；包括例如磁带、硬盘等的存储装置；以及通信接口。

虽然图13示出了具有各种装置的计算机系统，但应理解的是，并不要求计算机系统具备所有示出的装置，可以替代地，计算机系统可以具备更多或更少的装置。

对于本公开，还有以下几点需要说明：

(1)本公开实施例附图只涉及到与本公开实施例涉及到的结构，其他结构可参考通常设计。

(2)为了清晰起见，在用于描述本发明的实施例的附图中，层或结构的厚度和尺寸被放大。可以理解，当诸如层、膜、区域或基板之类的元件被称作位于另一元件“上”或“下”时，该元件可以“直接”位于另一元件“上”或“下”，或者可以存在中间元件。

(3)在不冲突的情况下，本公开的实施例及实施例中的特征可以相互组合以得到新的实施例。

以上所述仅为本公开的具体实施方式，但本公开的保护范围并不局限于此，本公开的保护范围应以所述权利要求的保护范围为准。

Claims

一种手势识别方法，包括：

获取针对手势动作对象的分别在不同拍摄时刻拍摄的多组图像，其中，每组图像包括至少一对对应的深度图和灰度图；

根据所述多组图像，使用每组图像中的深度图来获取空间信息，使用每组图像中的灰度图来获取手势动作对象的姿态信息，以识别所述手势动作对象的动态手势变化。
根据权利要求1所述的手势识别方法，其中，

使用每组图像中的深度图来获取空间信息，包括：根据所述深度图确定所述深度图中的手势区域，其中，所述空间信息包括所述深度图中的手势区域；

使用每组图像中的灰度图来获取手势动作对象的姿态信息，包括：根据所述深度图中的手势区域和所述灰度图，确定所述每组图像对应的针对所述手势动作对象的姿态信息；

识别所述手势动作对象的动态手势变化，包括：根据所述多组图像分别对应的针对所述手势动作对象的姿态信息，确定所述手势动作对象的动态手势变化。
根据权利要求2所述的手势识别方法，其中，根据所述深度图确定所述深度图中的手势区域，包括：

遍历所述深度图，统计所述深度图中的深度数据以建立深度直方图；

选取所述深度图对应的自适应深度阈值，根据所述自适应深度阈值和所述深度直方图，确定所述深度图中的手势区域。
根据权利要求2或3所述的手势识别方法，其中，所述每组图像对应的针对所述手势动作对象的姿态信息包括手指状态信息和位置信息，

根据所述深度图中的手势区域和所述灰度图，确定所述每组图像对应的针对所述手势动作对象的姿态信息，包括：

将所述深度图中的手势区域作用于所述灰度图，得到所述灰度图中的手势分析区域；

对所述手势分析区域进行二值化处理，得到手势连通域；

对所述手势连通域进行凸包检测，得到所述手指状态信息，其中，所述手指状态信息包括是否存在手指伸出，以及伸出手指的数量；

基于所述深度图，确定所述位置信息，其中，所述位置信息包括所述手势动作对象在手势交互空间中的坐标位置。
根据权利要求4所述的手势识别方法，其中，根据所述多组图像分别对应的针对所述手势动作对象的姿态信息，确定所述手势动作对象的动态手势变化，包括：

根据所述多组图像分别对应的手指状态信息和位置信息，确定所述手势动作对象在所述不同拍摄时刻组成的识别时段内的手指伸出状态变化和位置变化；

根据所述手指伸出状态变化和所述位置变化，确定所述手势动作对象的动态手势变化。
根据权利要求5所述的手势识别方法，其中，所述坐标位置包括深度坐标，

所述手势动作对象的动态手势变化包括手势动作，

根据所述手指伸出状态变化和所述位置变化，确定所述手势动作对象的动态手势变化，包括：

响应于所述手指伸出状态变化指示所述手势动作对象中的至少一个手指在所述识别时段内的至少部分时段处于伸出状态，所述位置变化指示所述手势动作对象中的目标识别点在所述至少部分时段内的深度坐标先减小后增大，确定所述手势动作为单击手势。
根据权利要求5所述的手势识别方法，其中，所述坐标位置包括深度坐标，所述手势动作对象的动态手势变化包括手势动作，

根据所述手指伸出状态变化和所述位置变化，确定所述手势动作对象的动态手势变化，包括：

响应于所述手指伸出状态变化指示所述手势动作对象中的至少一个手指在所述识别时段内的至少部分时段处于伸出状态，以及所述位置变化指示所述手势动作对象中的目标识别点在所述至少部分时段内的深度坐标先减小后保持，且所述保持动作的时长超过第一阈值，确定所述手势动作为长按手势。
根据权利要求5所述的手势识别方法，其中，所述手势动作对象的动态手势变化包括手势动作，

根据所述手指伸出状态变化和所述位置变化，确定所述手势动作对象的动态手势变化，包括：

响应于所述手指伸出状态变化指示所述手势动作对象中的至少一个手指在所述识别时段内的至少部分时段处于伸出状态，以及所述位置变化指示所述手势动作对象中的目标识别点在所述至少部分时段内沿预设方向滑动的距离超过第二阈值，确定所述手势动作为滑动手势，其中，所述滑动的距离基于所述多组图像中所述手势动作对象的目标识别点的位置信息计算得到。
根据权利要求5所述的手势识别方法，其中，

所述手势动作对象的动态手势变化包括手势动作，

根据所述手指伸出状态变化和所述位置变化，确定所述手势动作对象的动态手势变化，包括：

响应于所述手指伸出状态变化指示所述手势动作对象在所述识别时段内从存在至少一个手指处于伸出状态转换为无手指处于伸出状态，确定所述手势动作为抓取手势。
根据权利要求5所述的手势识别方法，其中，

所述手势动作对象的动态手势变化包括手势动作，

根据所述手指伸出状态变化和所述位置变化，确定所述手势动作对象的动态手势变化，包括：

响应于所述手指伸出状态变化指示所述手势动作对象在所述识别时段内从无手指处于伸出状态转换为存在至少一个手指处于伸出状态，确定所述手势动作为释放手势。
根据权利要求6-10任一项所述的手势识别方法，其中，根据所述手指伸出状态变化和所述位置变化，确定所述手势动作对象的动态手势变化，还包括：

在确定所述手势动作前，确定所述手势动作对象是否在发生动作变化前存在超过第三阈值的静止时间，

响应于存在超过第三阈值的静止时间，继续确定所述手势动作；

响应于不存在超过第三阈值的静止时间，确定未发生手势动作变化。
根据权利要求5-11任一项所述的手势识别方法，其中，

所述手势动作对象的动态手势变化还包括手势位置，

根据所述手指伸出状态变化和所述位置变化，确定所述手势动作对象的动态手势变化，还包括：

响应于手势动作为单击手势、长按手势或滑动手势，确定所述手势位置基于所述手势动作对象中的目标识别点的位置信息得到，其中，所述目标识别点包括目标手指的指尖点；

响应于手势动作为抓取手势或释放手势，确定所述手势位置基于所述手势动作对象的手势中心的位置信息得到，其中，所述手势中心为所述手势连通域的最大内接圆的圆心。
根据权利要求12所述的手势识别方法，其中，确定所述手势位置基于所述手势动作对象中的目标识别点的位置信息得到，包括：

获取所述目标识别点周围的预设位置处的多个采样点分别对应的多个位置信息；

根据所述多个位置信息和所述目标识别点的位置信息，得到所述手势位置；以及，

确定所述手势位置基于所述手势动作对象的手势中心的位置信息得到，包括：

获取所述手势中心周围的预设位置处的多个采样点分别对应的多个位置信息；

根据所述多个位置信息和所述手势中心的位置信息，得到所述手势位置。
根据权利要求1-13任一项所述的手势识别方法，其中，获取针对手势动作对象的分别在不同拍摄时刻拍摄的多组图像，包括：

利用至少一个拍摄装置连续拍摄所述手势动作对象，得到分别对应所述不同拍摄时刻的多组图像，其中，每个拍摄装置配置为在一个拍摄时刻同步输出一对对应的深度图和灰度图。
根据权利要求14所述的手势识别方法，其中，所述手势动作对象相对于每个图像中的其他对象最靠近所述至少一个拍摄装置。
根据权利要求14或15所述的手势识别方法，其中，响应于所述至少一个拍摄装置的数量是多个，每组图像包括多对对应的深度图和灰度图，所述多对深度图和灰度图由所述多个拍摄装置在同一拍摄时刻同步对所述手势动作对象进行拍摄得到，所述多对深度图和灰度图具有不同的拍摄角度。
根据权利要求16所述的手势识别方法，其中，根据所述多组图像，使用每组图像中的深度图来获取空间信息，使用每组图像中的灰度图来获取手势动作对象的姿态信息，以识别所述手势动作对象的动态手势变化，还包括：

基于同一拍摄装置得到的分别属于所述多组图像的、且对应所述不同拍摄时刻的多对深度图和灰度图，确定所述同一拍摄装置对应的所述手势动作对象的中间手势变化；

对所述多个拍摄装置分别对应的多个中间手势变化进行加权和滤波处理，得到所述手势动作对象的动态手势变化。
根据权利要求14-17任一项所述的手势识别方法，其中，利用至少一个拍摄装置连续拍摄所述手势动作对象，得到分别对应所述不同拍摄时刻的多组图像，包括：

利用每个拍摄装置连续拍摄所述手势动作对象，得到所述拍摄装置输出的分别对应所述不同拍摄时刻的多对深度图和灰度图。
根据权利要求18所述的手势识别方法，其中，每个拍摄装置包括第一获取单元，

所述第一获取单元配置为在每个第一帧获取灰度图，以及每N个第一帧获取深度图，其中，所述深度图基于所述每N个连续的第一帧获取的N个灰度图生成，所述N个灰度图分别对应N个不同的相位，所述一个深度图与所述N个灰度图中的一个灰度图同步输出所述拍摄装置，其中，N为正整数且大于1；

利用每个拍摄装置连续拍摄所述手势动作对象，得到所述拍摄装置输出的分别对应所述不同拍摄时刻的多对深度图和灰度图，包括：

利用所述拍摄装置在每个第一帧输出一对对应的深度图和灰度图，其中，所述输出的深度图根据所述N个灰度图和所述一个深度图，利用平滑轨迹拟合预测得到。
根据权利要求18所述的手势识别方法，其中，每个拍摄装置包括第一获取单元，

所述第一获取单元配置为在每个第一帧获取灰度图，以及每N个第一帧获取深度图，其中，所述深度图基于所述每N个连续的第一帧获取的N个灰度图生成，所述N个灰度图分别对应N个不同的相位，所述一个深度图与所述N个灰度图中的一个灰度图同步输出所述拍摄装置，其中，N为正整数且大于1；

利用每个拍摄装置连续拍摄所述手势动作对象，得到所述拍摄装置输出的分别对应所述不同拍摄时刻的多对深度图和灰度图，包括：

利用所述拍摄装置在至多每N-1个第一帧输出一对对应的深度图和灰度图，所述输出的深度图通过与所述输出的灰度图相邻的N-1个第一帧的灰度图计算得到，所述输出的灰度图和所述相邻的N-1个第一帧的灰度图对应所述N个不同的相位。
根据权利要求18所述的手势识别方法，其中，每个拍摄装置包括第一获取单元和第二获取单元，

所述第二获取单元配置为在每个第二帧输出一个灰度图，所述第一获取单元配置为每M个第二帧输出一个深度图，M为正整数且大于1，

利用每个拍摄装置连续拍摄所述手势动作对象，得到所述拍摄装置输出的分别对应所述不同拍摄时刻的多对深度图和灰度图，包括：

利用所述拍摄装置在至多每M-1个第二帧输出一对对应的深度图和灰度图，其中，所述输出的深度图包括基准深度图，或者基于所述基准深度图和所述基准深度图对应的至少一个灰度图、利用平滑轨迹拟合预测得到的深度图，

其中，所述基准深度图包括在当前第二帧或在所述当前第二帧之前由所述第一获取单元输出的深度图，所述当前第二帧为输出所述一对对应的深度图和灰度图的第二帧，所述至少一个灰度图包括在所述基准深度图对应的第二帧和所述当前第二帧之间由所述第二获取单元输出的灰度图。
根据权利要求21所述的手势识别方法，其中，所述第一获取单元还配置为，在每个第一帧得到一对对应的深度图和灰度图，所述得到的深度图通过与所述得到的灰度图相邻的N-1个第一帧的灰度图计算得到，所述得到的灰度图和所述相邻的N-1个第一帧的灰度图对应N个不同的相位，所述第一帧的帧长大于所述第二帧的帧长，N为正整数且大于1。
一种交互方法，包括：

显示控件；

利用权利要求1-22任一项所述的手势识别方法识别用户执行目标动作时的动态手势变化；

根据识别的所述动态手势变化和所述目标动作，触发所述控件。
根据权利要求23所述的交互方法，其中，所述动态手势变化包括手势动作，

根据识别的所述动态手势变化和所述目标动作，触发所述控件，包括：

响应于所述用户的手势动作与所述目标动作一致，触发所述控件并显示可视化反馈效果。
根据权利要求23所述的交互方法，其中，所述动态手势变化包括手势动作和手势位置；

根据识别的所述动态手势变化和所述目标动作，触发所述控件，包括：

响应于所述用户的手势动作与所述目标动作一致，所述用户的手势位置与所述控件的控件位置匹配，触发所述控件并显示可视化反馈效果，其中，所述用户的手势位置与所述控件的控件位置匹配表示，所述手势位置按映射关系映射至控件所在的坐标系中的位置与所述控件位置一致。
一种手势交互系统，包括：

至少一个拍摄装置，所述至少一个拍摄装置配置为连续拍摄所述手势动作对象，以获取针对所述手势动作对象的分别在不同拍摄时刻拍摄的多组图像；

手势识别单元，配置为接收所述多组图像，执行权利要求1-22任一项所述的手势识别方法，输出所述手势动作对象的动态手势变化的识别结果；

显示单元，配置为接收所述识别结果，根据所述识别结果显示交互效果。
根据权利要求26所述的手势交互系统，其中，所述手势交互系统包括多个拍摄装置，所述多个拍摄装置配置为从不同角度同步拍摄所述手势动作对象，以在同一拍摄时刻得到对应的多对深度图和灰度图。
根据权利要求26或27所述的手势交互系统，其中，每个拍摄装置包括第一获取单元和第二获取单元，所述第一获取单元和所述第二获取单元配置为同步拍摄所述手势动作对象。
根据权利要求27所述的手势交互系统，其中，所述多个拍摄装置配置为根据所述手势动作对象在手势交互空间中的位置，选择部分或全部拍摄装置拍摄所述手势动作对象。
根据权利要求26-29任一项所述的手势交互系统，其中，所述手势识别单元包括数字信号处理器。
一种电子设备，包括：

存储器，非瞬时性地存储有计算机可执行指令；

处理器，配置为运行所述计算机可执行指令，

其中，所述计算机可执行指令被所述处理器运行时实现根据权利要求1-22任一项所述的手势识别方法或权利要求23-25所述的交互方法。
一种非瞬时性计算机可读存储介质，其中，所述非瞬时性计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令被处理器执行时实现根据权利要求1-22中任一项所述的手势识别方法或权利要求23-25所述的交互方法。