WO2020228644A1

WO2020228644A1 - 基于ar场景的手势交互方法及装置、存储介质、通信终端

Info

Publication number: WO2020228644A1
Application number: PCT/CN2020/089449
Authority: WO
Inventors: 黄锋华
Original assignee: Oppo广东移动通信有限公司
Priority date: 2019-05-13
Filing date: 2020-05-09
Publication date: 2020-11-19
Also published as: EP3971686A1; EP3971686A4; CN110221690A; US11762475B2; CN110221690B; US20220075453A1

Abstract

一种基于AR场景的手势交互方法、一种基于AR场景的手势交互装置、一种计算机可读介质以及一种通信终端，涉及增强现实技术领域。所述方法包括：采集当前帧的RGB图像、深度图像，以及对应的IMU数据（S11）；对RGB图像、深度图像和IMU数据进行处理以获取当前帧的姿态信息和手部信息（S12）；根据当前帧的姿态信息和手部信息进行三维稠密建模以获取手部在参考坐标系下的三维点云信息（S13）；以及获取虚拟物体在参考坐标系下的位姿信息（S14）；基于参考坐标系下的手部的三维点云信息和所述虚拟物体的位姿信息和虚拟物体的预设点云信息对手部和虚拟物体进行渲染，以获取所述手部与所述虚拟物体之间的遮挡关系（S15）。

Description

基于AR场景的手势交互方法及装置、存储介质、通信终端

相关申请的交叉引用

本申请要求于2019年5月13日递交的中国专利申请第201910395297.9号的优先权，在此全文引用上述中国专利申请公开的内容以作为本申请的一部分。

技术领域

本公开涉及增强现实技术领域，具体涉及一种基于AR场景的手势交互方法、一种基于AR场景的手势交互装置、一种计算机可读介质以及一种通信终端。

背景技术

增强现实(AR)是通过信息技术，将虚拟信息应用到真实世界，并将真实环境和虚拟物体实时地叠加到了同一个画面或空间的方法。随着智能移动终端的快速发展，可以在终端设备上实现对AR手势的交互。相关的一种方案中，可以基于2D图像的手势识别结果，通过2D SLAM模型实现与AR场景中的虚拟物体进行简单的交互。在另一种方案中，还可以基于3D图像的手势识别结果，通过2D SLAM模型实现与AR场景中的虚拟物体进行交互。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本公开的目的在于提供一种基于AR场景的手势交互方法、一种基于AR场景的手势交互装置、一种计算机可读介质、一种无线通信终端。

本公开的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本公开的实践而习得。

根据本公开的第一方面，提供一种基于AR的手势交互方法，包括：

采集当前帧的RGB图像、深度图像，以及对应的IMU数据；

对所述RGB图像、深度图像和IMU数据进行处理以获取当前帧的姿态信息和手部信息；

根据当前帧的姿态信息和手部信息进行三维稠密建模以获取手部在参考坐标系下的三维点云信息；以及

获取虚拟物体在参考坐标系下的位姿信息；

基于参考坐标系下的所述手部的三维点云信息和所述虚拟物体的位姿信息和虚拟物体的预设点云信息对所述手部和虚拟物体进行渲染，以获取所述手部与所述虚拟物体之间的遮挡关系。

根据本公开的第二方面，提供一种基于AR的手势交互装置，包括：

数据采集模块，用于采集当前帧的RGB图像和深度图像，以及对应的惯性传感数据；

基础数据计算模块，用于根据所述RGB图像、深度图像和惯性传感数据获取当前帧的姿态信息以及手部信息；

点云数据生成模块，用于根据所述姿态信息和手部信息对手部区域进行三维稠密建模以获取手部区域的三维点云数据；

虚拟物体位姿信息计算模块，用于获取当前帧中虚拟物体的位姿信息；

渲染执行模块，用于根据所述当前帧的姿态信息和所述虚拟物体的位姿信息、所述手部区域的三维点云信息对所述当前帧进行渲染。

根据本公开的第三方面，提供一种计算机可读介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述的基于AR的手势交互方法。

根据本公开的第四方面，提供一种无线通信终端，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现上述的基于AR的手势交互方法。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示意性示出本公开示例性实施例中一种基于AR的手势交互方法的示意图；

图2示意性示出本公开示例性实施例中一种获取手部区域三维点云数据的方法的示意图；

图3示意性示出本公开示例性实施例中一种无线网络接入装置的组成示意图；

图4示意性示出本公开示例性实施例中一种无线通信设备的计算机系统的结构示意图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。

此外，附图仅为本公开的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

上述相关方案中基于手机平台的AR手势交互方案在手势与虚拟物体交互的过程中仍存在一些问题和不足。例如，相关方案大多基于手势识别结果来驱动虚拟物体的动作或行为，但对于AR场景中手部与虚拟物体之间的遮挡关系却无法实现，也无法实现与虚拟物体的“接触”，从而导致用户在AR场景中与虚拟物体之间的交互体验不够真实。又例如：基于2D图像的手势识别算法结合2D SLAM算法，或者基于3D图像的手势识别算法结合2D SLAM算法的应用中，均是在AR场景中基于手势识别结果去驱动虚拟物体的一些动作或者行为，并不能在AR场景中准确的实现和显示手部与虚拟物体之间的遮挡关系。

针对上述相关方案所存在的缺点和不足，本示例实施方式中提供了一种基于AR的手势交互方法，可以应用于配置有后置摄像头的终端设备，例如手机、平板电脑，以及配置有摄像头的智能电视、个人电脑等；或者，也可以应用于配置有摄像头的的AR眼镜或AR头盔等。参考图1中所示，上述的基于AR的手势交互方法可以包括以下步骤：

S11，采集当前帧的RGB图像、深度图像，以及对应的IMU数据；

S12，对所述RGB图像、深度图像和IMU数据进行处理以获取当前帧的姿态信息和手部信息；

S13，根据当前帧的姿态信息和手部信息进行三维稠密建模以获取手部在参考坐标系下的三维点云信息；以及

S14，获取虚拟物体在参考坐标系下的位姿信息；

S15，基于参考坐标系下的所述手部的三维点云信息和所述虚拟物体的位姿信息和虚拟物体的预设点云信息对所述手部和虚拟物体进行渲染，以获取所述手部与所述虚拟物体之间的遮挡关系。

本示例实施方式所提供的基于AR的手势交互方法中，通过同时获取当前帧的RGB图像和深度图像，在获取当前帧中手部的信息后，对手部区域进行三维稠密建模来获取手部区域在AR场景中的三维点云信息，并基于手部区域的三维点云信息和位姿信息进行渲染，获取手部区域与虚拟物体之间的遮挡关系，使手部与虚拟物体之间在AR场景中可以具有更加准确的接触效果和相对位置显示效果。进而使手部与虚拟物体之间可以执行更多的交互动作。

下面，将以手机为例，并结合附图及实施例对本示例实施方式中的基于AR的手势交互方法的各个步骤进行更详细的说明。

对于上述的终端设备来说，可以在终端设备的同一侧配置有两个摄像头，例如设置在终端设备的背面，用于采集同一侧的图像。其中，一个摄像头可以是用于采集RGB图像的平面摄像头；另一个摄像头则可以是用于采集深度图像的深度摄像头，例如ToF摄像模组。此外，上述的两个摄像头可以是嵌入终端设备的摄像头或摄像模组，也可以是升降式或外接的摄像模组，本公开对此不做特殊限定。

步骤S11，采集当前帧的RGB图像、深度图像，以及对应的IMU数据。

本示例实施方式中，可以利用终端设备的平面成像相机实时采集包含手部的当前帧的RGB图像，以及利用ToF摄像模组采集当前帧的包含手部的深度图像。同时，还可以采集每帧图像对应时刻的终端设备的IMU(Inertial measurement unit，惯性测量单元)数据，例如陀螺仪信息和加速度计信息。

步骤S12，对所述RGB图像、深度图像和IMU数据进行处理以获取当前帧的姿态信息和手部信息。

本示例实施方式中，在获取上述各项参数后，便可以对当前帧图像中的手部信息以及对应的姿态信息进行识别和提取。在一个实施例中，可以根据所述RGB图像和IMU数据为入参输入预设的SLAM模型以获取当前帧的姿态信息；以及对所述RGB图像、深度图像进行识别以获取手部信息；其中，所述手部信息可以包括：手部轮廓信息、手部深度信息。

在一个实施例中，上述的以所述RGB图像和IMU数据为入参输入预设的SLAM模型以获取当前帧的姿态信息可以包括：

步骤S1211，对所述RGB图像进行特征点提取，并计算特征点对应的描述子；

步骤S1212，根据所述特征点及对应的描述子对当前帧图像进行特征点匹配和IMU预积分计算；

步骤S1213，对所述RGB图像和IMU数据进行视觉惯性里程计处理，并将处理结果结合当前帧的特征点匹配结果和IMU预积分计算姿态信息。

本示例实施方式中，对于RGB图像的特征点提取可以采用DoG(Difference of Gaussian，角点检测)方法。并通过描述子对各特征点进行描述。在获取连续多帧图像的特征点及对应的描述子后，可以对当前帧图像进行特征点匹配，并进行IMU预积分计算。同时，还可以根据当前帧RGB图像和对应的IMU数据执行vio过程(Visual inertial odometry，视觉惯性里程计)，估计其位置和旋转变化。再结合特征点匹配结果和IMU预积分计算每帧的摄像模组的姿态信息。

此外，在本公开的其他示例性实施例中，上述的方法还可以包括：

步骤S1214，根据所述特征点信息对所述姿态信息进行局部非线性优化。

本示例实施方式中，在获取每帧的姿态信息后，还可以结合图像的特征点信息进行局部线性优化，从而对每帧的姿态信息进行优化。举例而言，可以通过已有的g2o优化库或者ceres优化库，将当前帧的姿态信息结合特征点对应的地图点信息构造代价函数，并通过该代价函数对当前帧姿态进行优化。

当然，在本公开的其他示例性实施例中，还可以结合每帧姿态信息，选取关键帧进行地图重建以局部窗口的形式对关键帧的姿态进行优化；并对所有关键帧进行闭环检测，优化累计误差，从而进一步的优化姿态信息。

此外，在一个实施例中，上述的对所述RGB图像、深度图像进行识别以获取手部信息还可以包括：

步骤S1221，将所述深度图像配准至RGB图像坐标系；

步骤S1222，根据所述RGB图像对所述深度图像进行后处理；

步骤S1223，在所述RGB图像坐标系下对经后处理的所述深度图像进行手部轮廓及手部深度信息提取。

本示例实施方式中，在对深度图像配准时，举例来说，可以首先根据所述深度图像的内参对深度图像进行去畸变处理；3)循环遍历深度图像的坐标点，并结合各坐标点的深度值获取其在深度相机坐标系下的三维坐标X3d_tof；然后根据深度图像和RGB图像的外参，以及RGB图像的内参将所述三维坐标投影到RGB图像坐标系以获取坐标点在RGB图像坐标系的坐标；在一个实施例中，可以根据以下公式进行坐标转换：

X2d_rgb＝K_rgb*X3d_rgb＝K_rgb*[R_tof2rgb|t_tof2rgb]*X3d_tof

其中，X2d_rgb为坐标点在RGB图像坐标系下的坐标；X3d_tof为坐标点在深度相机坐标系下的三维坐标；K_rgb为RGB Camera的内参矩阵；R_tof2rgb为RGB Camera与TOF模组之间的旋转(由TOF坐标系旋转到RGB图像坐标系)；t_tof2rgb为RGB Camera与TOF模组之间的平移量(TOF模组的坐标系原点在RGB Camera坐标系下的表示)。

最后，还可以对坐标点在RGB图像坐标系的坐标进行反畸变处理得到对应的X2d_rgb’坐标，对应的深度值取X3d_rgb的z轴坐标即可以得到配准到RGB图像坐标系下的深度图。

在对深度图像配准至RGB图像坐标系后，还可以对深度图像进行后处理，举例来说，可以是去除噪声、双边滤波或补洞等操作。然后，便可以对后处理后的深度图像进行手部轮廓提取。在一个实施例中，可以根据深度图像对应的IR图像进行二值化处理，然后提取二值化后的手部边缘轮廓信息。

此外，在本公开的其他示例性实施例中，在将所述深度图像配准至所述RGB图像坐标系之前，还可以对所述深度图像进行预处理；其中，所述预处理包括：中值滤波、双边滤波以及补洞中的任意一项。

其中，上述的深度图像和RGB图像各自的内参包括：摄像机光心垂直投影于像平面的位置(像素坐标，可以用cx，cy表示)；摄像机的焦距(分别用fx，fy表示)，以及摄像机的径向畸变(用p1，p2，p3等表示)和切向畸变系数(用k1，k2表示)。深度图像与RGB图像之间的外参包括：以两者光心为坐标原点的相机三维坐标系之间的平移和旋转关系。

步骤S13，根据当前帧的姿态信息和手部信息进行三维稠密建模以获取手部在参考坐标系下的三维点云信息。

本示例实施方式中，参考图2所示，上述步骤S13的一个实施例可以包括：

步骤S131，将手部轮廓内的各像素点的RGB图像坐标结合对应的深度值以获取对应的3D坐标；

步骤S132，根据所述姿态信息将所述3D坐标转换至参考坐标系下以获取手部在参考坐标系下的三维点云数据。

通过对手部区域的提取，获得手部的轮廓信息。将手部轮廓区域内的所有像素点的2d图像坐标(RGB图像坐标)结合对应的深度值得到对应的3D坐标，结合当前帧的姿态信息(6DOF姿态信息)，将上述3D坐标转换SLAM参考坐标系下，得到对应的稠密点云信息，从而完成对手部区域的稠密三维重建过程。

步骤S14，获取虚拟物体在参考坐标系下的位姿信息。

本示例实施方式中，可以根据用户在终端设备上触发的控制指令，触发对所述虚拟物体的碰撞测试(Hit Test)，从而获取虚拟物体(即锚点，Anchor)在SLAM参考坐标系下的位姿信息。通过碰撞检测算法，可以获取虚拟物体在SLAM参考坐标系中的位置和朝向。

在本公开的其他示例性实施例中，上述的步骤S13和步骤S14也可以同时进行，从而可以同时获取在参考坐标系下的虚拟物体的位姿信息和手部的三维点云信息。或者，也可以在采集图像和IMU数据时触发对虚拟物体的碰撞测试。本公开对步骤S13的执行顺序不做特殊限定。

步骤S15，基于参考坐标系下的所述手部的三维点云信息和所述虚拟物体的位姿信息和虚拟物体的预设点云信息对所述手部和虚拟物体进行渲染，以获取所述手部与所述虚拟物体之间的遮挡关系。

本示例实施方式中，，可以对所述手部的三维点云和所述虚拟物体的预设点云进行网格化处理以获取手部网格和虚拟物体网格，并根据所述虚拟物体的位姿信息在参考坐标系下对所述手部网格和虚拟物体网格进行渲染。

在一个实施例中，手部区域的三维点云可以通过对应当前帧的姿态信息转换到SLAM参考坐标系下。在通过碰撞测试获取虚拟物体在SLAM参考坐标系的姿态信息后，还可以在Unity渲染引擎中将虚拟相机和真实相机的视角对齐，对齐视角之后可以将虚拟物体转换到SLAM参考坐标系下。在获取手部区域的网格信息后，便可以通过Unity渲染引擎结合手部区域的网格信息及虚拟物体的位姿信息进行渲染，得到手部与虚拟物体之间的遮挡效果及位置关系。

基于上述内容，在本公开的其他示例性实施例中，上述的方法还可以包括：

步骤S21，对所述深度图像进行识别以获取当前帧的手势识别结果；

步骤S22，根据所述手势识别结果驱动所述虚拟物体。

本示例实施方式中，在获取深度图像后，在进行手部区域提取的同时，还可以通过深度图像对当前帧的手势进行识别。例如，可以利用TOF深度图像的手部标定数据(手骨骼点位置)作为训练样本，训练深度学习模型。从而利用该已训练的模型结合手部的外接矩形区域对手部关键点(即手骨骼点坐标)进行提取，并通过骨骼点之间的相对位置关系确定手势识别结果。

在获取手势识别结果后，便可以在获取手部与虚拟物体的遮挡关系的同时，根据该手势驱动虚拟物体运动，达到手部与虚拟物体的“物理接触”，以及实现真实互动的效果。

本公开实施例所提供的方法，通过RGB图像、深度图像，以及对应的IMU数据，并利用该些数据进行姿态信息和手部轮廓信息、手部深度信息的提取，进行手势识别，从而在参考坐标系下对手部进行三维稠密建模来获取手部的三维点云信息，并根据手部的三维点云信息和所述虚拟物体的位姿信息和虚拟物体的预设点云信息对手部和虚拟物体进行渲染，获取手部与虚拟物体之间的准确遮挡关系，并根据手势识别结果驱动虚拟物体的运动。不仅可以优化真实静止场景与虚拟场景的遮挡的显示效果，还可以在运动场景中手部区域与虚拟物体的遮挡关系进行准确的渲染和显示，使得通过手势能够与虚拟物体进行更加准确“物理接触”及互动，有效提升了AR场景的真实感体验。

需要注意的是，上述附图仅是根据本发明示例性实施例的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。

进一步的，参考图3所示，本示例的实施方式中还提供一种基于AR的手势交互装置30，包括：数据采集模块301、基础数据计算模块302、点云数据生成模块303、虚拟物体位姿信息计算模块304以及渲染执行模块305。其中：

所述数据采集模块301可以用于采集当前帧的RGB图像和深度图像，以及对应的惯性传感数据。

所述基础数据计算模块302可以用于根据所述RGB图像、深度图像和惯性传感数据获取当前帧的姿态信息以及手部信息。

所述点云数据生成模块303可以用于根据所述姿态信息和手部信息对手部区域进行三维稠密建模以获取手部区域的三维点云数据。

所述虚拟物体位姿信息计算模块304可以用于获取当前帧中虚拟物体的位姿信息。

所述渲染执行模块305可以用于根据所述当前帧的姿态信息和所述虚拟物体的位姿信息、所述手部区域的三维点云信息对所述当前帧进行渲染。

在本公开的一种示例中，所述基础数据计算模块302包括：位姿计算模块和手部信息提取模块(图中未示出)。其中，

所述位姿计算模块可以用于以所述RGB图像和IMU数据为入参输入预设的SLAM模型以获取当前帧的姿态信息。

所述手部信息提取模块可以用于对所述RGB图像、深度图像进行识别以获取手部信息；其中，所述手部信息包括：手部轮廓信息、手部深度信息。

在本公开的一种示例中，所述位姿计算模块可以包括：特征点提取模块、特征点匹配模块和姿态信息计算模块(图中未示出)。其中，

所述特征点提取模块可以用于对所述RGB图像进行特征点提取，并计算特征点对应的描述子。

所述特征点匹配模块可以用于根据所述特征点及对应的描述子对当前帧图像进行特征点匹配和IMU预积分计算。

所述姿态信息计算模块可以用于对所述RGB图像和惯性传感数据进行视觉惯性里程计处理，并将处理结果结合当前帧的特征点匹配结果和IMU预积分计算姿态信息。

在本公开的一种示例中，所述位姿计算模块还包括：姿态优化模块(图中未示出)。

所述姿态优化模块可以用于根据所述特征点信息对所述姿态信息进行局部非线性优化。

在本公开的一种示例中，所述手部信息提取模块可以包括：坐标系配准模块、后处理模块和轮廓提取模块(图中未示出)。其中，

所述坐标系配准模块可以用于将所述深度图像配准至RGB图像坐标系。

所述后处理模块可以用于根据所述RGB图像对所述深度图像进行后处理。

所述轮廓提取模块可以用于在所述RGB图像坐标系下对经后处理的所述深度图像进行手部轮廓及手部深度信息提取。

在本公开的一种示例中，所述轮廓提取模块可以包括：IR图像处理模块(图中未示出)。

所述IR图像处理模块可以用于获取所述深度图像对应的IR图像，并对IR图像进行二值化处理以提取手部边缘轮廓信息。

在本公开的一种示例中，所述手部信息提取模块还可以包括：预处理模块(图中未示出)。

所述预处理模块可以用于对所述深度图像进行预处理；其中，所述预处理包括：中值滤波、双边滤波以及补洞中的任意一项。

在本公开的一种示例中，所述点云数据生成模块可以包括：3D坐标计算模块、坐标系转换模块(图中未示出)。其中，

所述3D坐标计算模块可以用于将手部轮廓内的各像素点的RGB图像坐标结合对应的深度值以获取对应的3D坐标。

所述坐标系转换模块可以用于根据所述姿态信息将所述3D坐标转换至参考坐标系下以获取手部在参考坐标系下的三维点云数据。

在本公开的一种示例中，所述渲染执行模块可以包括：网格化处理模块、网格渲染模块(图中未示出)。其中，

所述网格化处理模块可以用于对所述手部的三维点云和所述虚拟物体的预设点云进行网格化处理以获取手部网格和虚拟物体网格。

所述网格渲染模块可以用于根据所述虚拟物体的位姿信息在参考坐标系下对所述手部网格和虚拟物体网格进行渲染。

在本公开的一种示例中，所述虚拟物体位姿信息计算模块304可以包括：碰撞测试模块(图中未示出)。

所述碰撞测试模块可以用于响应于一控制指令，触发对所述虚拟物体的碰撞测试以获取虚拟物体在参考坐标系下的位姿信息。

在本公开的一种示例中，上述的装置还可以包括：手势识别模块和虚拟物体驱动模块(图中未示出)。其中，

所述手势识别模块可以用于对所述深度图像进行识别以获取当前帧的手势识别结果。

所述虚拟物体驱动模块可用于根据所述手势识别结果驱动所述虚拟物体。

上述的基于AR的手势交互装置中各模块的具体细节已经在对应的基于AR的手势交互方法中进行了详细的描述，因此此处不再赘述。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

图4示出了适于用来实现本发明实施例的无线通信设备的计算机系统的结构示意图。

需要说明的是，图4示出的电子设备的计算机系统700仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图4所示，计算机系统700包括中央处理单元(Central Processing Unit，CPU)701，其可以根据存储在只读存储器(Read-Only Memory，ROM)702中的程序或者从存储部分708加载到随机访问存储器(Random Access Memory，RAM)703中的程序而执行各种适当的动作和处理。在RAM 703中，还存储有系统操作所需的各种程序和数据。CPU 701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(Input/Output，I/O)接口705也连接至总线704。

以下部件连接至I/O接口705：包括键盘、鼠标等的输入部分706；包括诸如阴极射线管(Cathode Ray Tube，CRT)、液晶显示器(Liquid Crystal Display，LCD)等以及扬声器等的输出部分707；包括硬盘等的存储部分708；以及包括诸如LAN(Local Area Network，局域网)卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至I/O接口705。可拆卸介质711，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器710上，以便于从其上读出的计算机程序根据需要被安装入存储部分708。

特别地，根据本发明的实施例，下文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分709从网络上被下载和安装，和/或从可拆卸介质711被安装。在该计算机程序被中央处理单元(CPU)701执行时，执行本申请的系统中限定的各种功能。

需要说明的是，本发明实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory，EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory，CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、有线等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本发明实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现，所描述的单元也可以设置在处理器中。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定。

作为另一方面，本申请还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该电子设备执行时，使得该电子设备实现如下述实施例中所述的方法。例如，所述的电子设备可以实现如图1所示的各个步骤。

此外，上述附图仅是根据本发明示例性实施例的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其他实施例。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限。

Claims

一种基于AR的手势交互方法，应用于电子设备，其特征在于，所述方法包括：

采集当前帧的RGB图像、深度图像，以及对应的IMU数据；

对所述RGB图像、深度图像和IMU数据进行处理以获取当前帧的姿态信息和手部信息；

根据当前帧的姿态信息和手部信息进行三维稠密建模以获取手部在参考坐标系下的三维点云信息；以及

获取虚拟物体在参考坐标系下的位姿信息；

基于参考坐标系下的所述手部的三维点云信息和所述虚拟物体的位姿信息和虚拟物体的预设点云信息对所述手部和虚拟物体进行渲染，以获取所述手部与所述虚拟物体之间的遮挡关系。
根据权利要求1所述方法，其特征在于，所述对所述RGB图像、深度图像和IMU数据进行处理以获取当前帧的姿态信息和手部信息包括：

以所述RGB图像和IMU数据为入参输入预设的SLAM模型以获取当前帧的姿态信息；以及

对所述RGB图像、深度图像进行识别以获取手部信息；其中，所述手部信息包括：手部轮廓信息、手部深度信息。
根据权利要求2所述方法，其特征在于，所述以所述RGB图像和IMU数据为入参输入预设的SLAM模型以获取当前帧的姿态信息包括：

对所述RGB图像进行特征点提取，并计算特征点对应的描述子；

根据所述特征点及对应的描述子对当前帧图像进行特征点匹配和IMU预积分计算；

对所述RGB图像和惯性传感数据进行视觉惯性里程计处理，并将处理结果结合当前帧的特征点匹配结果和IMU预积分计算姿态信息。
根据权利要求3所述方法，其特征在于，所述方法还包括：

根据所述特征点信息对所述姿态信息进行局部非线性优化。
根据权利要求2所述方法，其特征在于，所述对所述RGB图像、深度图像进行识别以获取手部信息包括：

将所述深度图像配准至RGB图像坐标系；

根据所述RGB图像对所述深度图像进行后处理；

在所述RGB图像坐标系下对经后处理的所述深度图像进行手部轮廓及手部深度信息提取。
根据权利要求5所述方法，其特征在于，所述对经后处理的所述深度图像进行手部轮廓提取包括：

获取所述深度图像对应的IR图像，并对IR图像进行二值化处理以提取手部边缘轮廓信息。
根据权利要求5所述方法，其特征在于，在将所述深度图像配准至所述RGB图像坐标系之前，所述方法还包括：

对所述深度图像进行预处理；其中，所述预处理包括：中值滤波、双边滤波以及补洞中的任意一项。
根据权利要求1所述方法，其特征在于，所述根据当前帧的姿态信息和手部信息进行三维稠密建模以获取手部在参考坐标系下的三维点云信息包括：

将手部轮廓内的各像素点的RGB图像坐标结合对应的深度值以获取对应的3D坐标；

根据所述姿态信息将所述3D坐标转换至参考坐标系下以获取手部在参考坐标系下的三维点云数据。
根据权利要求1所述方法，其特征在于，所述基于参考坐标系下的所述手部的三维点云信息和所述虚拟物体的位姿信息和虚拟物体的预设点云信息对所述手部和虚拟物体进行渲染包括：

对所述手部的三维点云和所述虚拟物体的预设点云进行网格化处理以获取手部网格和虚拟物体网格；

根据所述虚拟物体的位姿信息在参考坐标系下对所述手部网格和虚拟物体网格进行渲染。
根据权利要求1所述方法，其特征在于，获取当前帧中虚拟物体的位姿信息包括：

响应于一控制指令，触发对所述虚拟物体的碰撞测试以获取虚拟物体在参考坐标系下的位姿信息。
根据权利要求1所述方法，其特征在于，所述方法还包括：

对所述深度图像进行识别以获取当前帧的手势识别结果；

根据所述手势识别结果驱动所述虚拟物体。
一种基于AR的手势交互装置，其特征在于，包括：

数据采集模块，用于采集当前帧的RGB图像和深度图像，以及对应的惯性传感数据；

基础数据计算模块，用于根据所述RGB图像、深度图像和惯性传感数据获取当前帧的姿态信息以及手部信息；

点云数据生成模块，用于根据所述姿态信息和手部信息对手部区域进行三维稠密建模以获取手部区域的三维点云数据；

虚拟物体位姿信息计算模块，用于获取当前帧中虚拟物体的位姿信息；

渲染执行模块，用于根据所述当前帧的姿态信息和所述虚拟物体的位姿信息、所述手部区域的三维点云信息对所述当前帧进行渲染。
一种计算机可读介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至11中任一项所述的基于AR的手势交互方法。
一种无线通信终端，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1至11中任一项所述的基于AR的手势交互方法。