WO2022040954A1

WO2022040954A1 - 一种通过手势控制的ar空间可视三维重建方法

Info

Publication number: WO2022040954A1
Application number: PCT/CN2020/111216
Authority: WO
Inventors: 陈雨
Original assignee: 南京智导智能科技有限公司
Priority date: 2020-08-26
Filing date: 2020-08-26
Publication date: 2022-03-03

Abstract

一种通过手势控制的AR空间可视三维重建方法，其包括以下步骤：1：对AR眼镜相机和深度相机C1进行联合标定；2：通过手势交互确定包围目标物体的包围盒；3：开启三维重建；4：客户端进行可视化，同时实现虚实注册；5：用户通过手势暂停三维重建过程，查看当前的三维重建进度；6：将目标物体移动、旋转到新的观察角度，然后通过手势重新开启三维重建算法；7：通过手势结束三维重建算法，输出虚拟模型。所述方法通过手势控制的AR空间可视三维重建方法可在AR端实时看到三维重建的当前结果，使用基于手势传感器的人体自然手势动作，控制重建流程。

Description

一种通过手势控制的AR空间可视三维重建方法

技术领域

本发明涉及三维重建技术领域，具体为一种通过手势控制的AR空间可视三维重建方法。

背景技术

三维重建是指对三维物体建立适合计算机表示和处理的数学模型,是在计算机环境下对其进行处理、操作和分析其性质的基础,也是在计算机中建立表达客观世界的虚拟现实的关键技术。

在计算机视觉中, 三维重建是指根据单视图或者多视图的图像重建三维信息的过程. 由于单视频的信息不完全,因此三维重建需要利用经验知识. 而多视图的三维重建(类似人的双目定位)相对比较容易, 其方法是先对摄像机进行标定, 即计算出摄像机的图象坐标系与世界坐标系的关系.然后利用多个二维图象中的信息重建出三维信息。

技术问题

现阶段采用的AR三维重建方法具有以下缺陷。

（1）使用单个相机无法对物体的盲区角度进行扫描重建。

（2）三维重建算法在电脑端运行，AR用户手持或者头戴深度相机无法实时把控重建的进度。

（3）使用鼠标、键盘控制整个重建流程，不符合人体自然习惯。

由此可见，提供一种通过手势控制的AR空间可视三维重建方法是本领域亟需解决的问题。

技术解决方案

针对上述问题，本发明通过手势控制的AR空间可视三维重建方法可在AR端实时看到三维重建的当前结果，使用基于手势传感器的人体自然手势动作，控制重建流程，支持暂停三维重建流程，将物体旋转、移动到新的观察角度，从新角度开始三维重建。

为解决上述问题，提供一种通过手势控制的AR空间可视三维重建方法，其包括以下步骤。

步骤一：对AR眼镜相机和深度相机C1进行联合标定，得到两组相机坐标系之间的坐标转换关系。

步骤二：用户佩戴AR眼镜站于工作台前，通过手势交互确定包围目标物体的包围盒。

步骤三：开启三维重建，并自由变换视角观察工作台上摆放的物体，深度相机C1将不断采集RGB-D数据，并通过ElasticFusion算法对场景进行实时三维重建。

步骤四：将点云形式的物体虚拟模型传输给服务器，再由服务器发放给AR客户端进行可视化，同时实现虚实注册。

步骤五：用户通过手势暂停三维重建过程，查看当前的三维重建进度。

步骤六：用户根据步骤五的判断情况，可以将目标物体移动、旋转到新的观察角度，然后通过手势重新开启三维重建算法，算法将从新的角度继续对三维重建模型的表面进行扫描填充。

步骤七：重复进行步骤五和步骤六，用户判断三维重建模型达到预期目标时，通过手势结束三维重建算法，输出虚拟模型。

进一步的，所述手势的全部实现均建立在硬件设备Leap Motion的基础之上，Leap Motion通过对获取到的视频图像进行处理，能够定位到图像中手指指尖、关节、手掌、手腕在三维物理空间中的位置；然后在增强现实环境中叠加人手模型预制体到该位置，通过关节和指尖点、手掌、手腕23个关键点来确定手与手掌的位置、姿态。

进一步的，所述步骤一是将黑白棋盘格置于场景中，保证能同时被AR眼镜相机与深度相机C1采集到彩色图像数据，针对12组不同位姿摆放的黑白棋盘格，使用张正友标定法计算得到两组相机的外参矩阵。

进一步的，，所述步骤一剔除标定结果误差大于0.05像素的组别，对剩下的矩阵计算平均值，得到最终的从深度相机C1坐标系转换至AR眼镜相机坐标系的转换矩阵M。

进一步的，所述步骤二中用户使用手势1在空间中依次确定P1、P2和P3点形成一个平面区域，再使用手势1在空间中确定P4点，沿着所确定平面的垂直方向朝P4点拉伸，在空间中划分出一个长方体区域，以此得到包围盒。

进一步的，所述步骤三使用PCL库中的直通滤波器对输入点云进行处理，剔除包围盒范围外的点，将剩余点输出。

进一步的，所述步骤四基于TCP/IP协议搭建“三维重建客户端-服务器-AR客户端”系统架构。

进一步的，所述步骤五和步骤六通过工业相机C2识别目标物体上张贴的二维码，使用PnP算法分别获得相机在世界坐标系下的位姿Mpre和Mpost。

进一步的，所述步骤六根据Mpre和Mpost计算出二维码角点在用户操作前后的位姿变化矩阵Mb，从而推断出目标物体在用户操作前后的位姿变化矩阵Mo。

进一步的，所述步骤六包括计算相机在世界坐标系下的位姿Mpost、根据Mpre和Mpost计算出二维码角点在用户操作前后的位姿变化矩阵Mb并推断物体在用户操作前后的位姿变化矩阵Mo、更新三维重建算法的新计算位姿、更新包围盒的新位姿、使用手势重新开始三维重建进程。

有益效果

再者，本发明通过手势控制的AR空间可视三维重建方法可在AR端实时看到三维重建的当前结果，使用基于手势传感器的人体自然手势动作，控制重建流程，支持暂停三维重建流程，将物体旋转、移动到新的观察角度，从新角度开始三维重建。

附图说明

图1是本发明的流程图。

图2是本发明中包围盒的示意图。

图3是本发明中步骤五和步骤六的流程图。

图4是本发明中手势的具体动作表。

本发明的最佳实施方式

本发明所提到的方向用语，例如「上」、「下」、「前」、「后」、「左」、「右」、「内」、「外」、「侧面」等，仅是附图中的方向，只是用来解释和说明本发明，而不是用来限定本发明的保护范围。

本发明中手势识别的全部实现均建立在硬件设备Leap Motion的基础之上，Leap Motion通过对获取到的视频图像进行处理，能够定位到图像中手指指尖、关节、手掌、手腕在三维物理空间中的位置；然后在增强现实环境中叠加人手模型预制体到该位置，通过关节和指尖点、手掌、手腕等共23个关键点来确定手与手掌的位置、姿态。

所述通过手势控制的AR空间可视三维重建方法的流程如图1所示，具体包括以下步骤。

1.1：将深度相机C1固定在AR眼镜上，保证在移动AR眼镜时二者不会有太大的相对位姿改变。

1.2：将黑白棋盘格置于场景中，保证能同时被AR眼镜相机与深度相机C1采集到彩色图像数据，针对12组不同位姿摆放的黑白棋盘格，使用张正友标定法计算得到两组相机的外参矩阵，假设AR眼镜相机的外参矩阵为：{MA1, MA2…MA12}，深度相机C1的外参矩阵为：{MD1, MD2…MD12}。

1.3：将黑白棋盘格确定的世界坐标系中的任意一点P(Xw, Yw, Zw)转换为两组相机坐标系的坐标，转换公式如下。

（2）。

上式中，MAi是第i组标定计算中AR眼镜相机对应的外参矩阵，MDi是第i组标定计算中深度相机C1对应的外参矩阵；(XAC, YAC, ZAC)是点P转换到AR眼镜相机坐标系下的坐标，(XDC, YDC, ZDC)是点P转换到深度相机C1坐标系下的坐标。

1.4：联合式(1)和式(2)，可得到从深度相机C1坐标系转换到AR眼镜相机坐标系的转换矩阵Mi，转换公式如下。

（3）。

1.5：对于12组标定计算所得的转换矩阵{M1, M2…M12}，剔除标定结果误差大于0.05像素的组别，对剩下的矩阵计算平均值，得到最终的从深度相机C1坐标系转换至AR眼镜相机坐标系的转换矩阵M。

步骤二，如图2所示，用户佩戴AR眼镜站于工作台前，通过手势交互确定包围目标物体的包围盒。

2.1：用户使用手势1在空间中依次确定P1、P2和P3点，由这三点在空间中划分成一个平面区域。

2.2：用户使用手势1在空间中确定P4点，沿着所确定平面的垂直方向朝P4点拉伸，在空间中划分出一个长方体区域。

2.3：通过步骤2.1和步骤2.2得到了包围目标物体的包围盒以及尺寸数据（长、宽、高），用户使用手势2进行确认并进入下一步，若不满意则使用手势3进行撤销操作，重新选择。

3.1：计算上述包围盒在三条坐标轴维度上的界限：Xmin、Xmax 、Ymin、Ymax、Zmin、Zmax。

3.2：将3.1所述的6个值作为参数，使用PCL库中的直通滤波器对输入点云进行处理，剔除包围盒范围外的点，将剩余点输出。

4.1：基于TCP/IP协议搭建“三维重建客户端-服务器-AR客户端”系统架构，将步骤3生成的物体虚拟模型，以点云形式上传给服务器，并由服务器发放给AR客户端进行渲染。

4.2：通过步骤1计算所得转换矩阵M，将物体点云从深度相机C ₁坐标系转换到AR眼镜相机坐标系，实现虚实注册。对于点云中任意一点P(X, Y, Z)，转换到AR眼镜相机坐标系后的新坐标为P (X’, Y’, Z’)，如下所示：

。

将传输的所有点云进行坐标转换后，在AR眼镜显示屏上渲染，同时实现虚实注册。

5.1：用户使用手势4暂停三维重建算法，工作台顶部悬挂有工业相机C2，,工业相机C2将根据目标物体上张贴的二维码，通过PnP算法计算相机在世界坐标系下的位姿Mpre；假设以二维码中心点作为世界坐标系原点；通过二维码真实尺寸计算出3个角点的世界坐标，通过OpenCV库中检测角点的函数求解出3个角点的像素坐标。以这两个参数作为输入，使用PnP算法就可以计算出相机在世界坐标系下的位姿Mpre。

5.2：用户使用手势5将包围盒以及包围盒范围内的物体点云模型从实物中挪开（脱离虚实注册状态），配合手势6和手势7进行旋转、缩放，以此来观察三维重建进度：判断虚拟模型表面是否存在空洞、哪些角度细节缺失或不够丰富。

5.3：用户使用手势3撤销观察，令包围盒以及包围盒范围内的物体点云模型复位，回到原本的虚实注册状态。

6.1：用户将目标物体移动、旋转到新的观察角度，工作台顶部悬挂的工业相机C2将根据目标物体上张贴的二维码，通过PnP算法计算相机在世界坐标系下的位姿Mpost。假设以二维码中心点作为世界坐标系原点；通过二维码真实尺寸计算出3个角点的世界坐标，通过OpenCV库中检测角点的函数求解出3个角点的像素坐标；以这两个参数作为输入，使用PnP算法就可以计算出相机在世界坐标系下的位姿Mpost。

6.2：根据Mpre和Mpost计算出二维码角点在用户操作前后的位姿变化矩阵Mb，从而推断出目标物体在用户操作前后的位姿变化矩阵Mo，由于在计算Mpre和Mpost时所设定的世界坐标系皆为二维码中心，因此二维码角点的世界坐标Pcorner是一个定值，Mb和Mo可通过下式计算。

。

上式中， QUOTE

和 QUOTE

分别为用户操作前后，二维码角点在工业相机C2的相机坐标系中的坐标。

6.3：更新三维重建算法的新计算位姿；假设三维重建算法在暂停前，深度相机C1在所设定的世界坐标系下的位姿为Mw，在变换目标物体后，新的位姿Mw’可通过下式计算。

。

6.4：更新包围盒的新位姿；对于原始包围盒的8个边界点Pi(i=1、2…8)进行坐标转换，生成新的边界点Pi’(i=1、2…8)，以新的边界点为基础构建新包围盒。

。

6.5：用户使用手势2重新开始三维重建进程，算法将从新的位姿Mw’开始计算，且以新包围盒作为点云筛选约束。

步骤七，重复进行步骤五和步骤六；用户判断三维重建模型达到预期目标时，通过手势8结束三维重建算法，输出虚拟模型。

步骤五和步骤六的流程如图3所示，上述手势1-8的具体动作参见图4。

本发明通过手势控制的AR空间可视三维重建方法可在AR端实时看到三维重建的当前结果，使用基于手势传感器的人体自然手势动作，控制重建流程，支持暂停三维重建流程，将物体旋转、移动到新的观察角度，从新角度开始三维重建。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

Claims

一种通过手势控制的AR空间可视三维重建方法，其特征在于，所述AR空间可视三维重建方法包括以下步骤：

步骤一：对AR眼镜相机和深度相机C1进行联合标定，得到两组相机坐标系之间的坐标转换关系；

步骤二：用户佩戴AR眼镜站于工作台前，通过手势交互确定包围目标物体的包围盒；

步骤三：开启三维重建，并自由变换视角观察工作台上摆放的物体，深度相机C1将不断采集RGB-D数据，并通过ElasticFusion算法对场景进行实时三维重建；

步骤四：将点云形式的物体虚拟模型传输给服务器，再由服务器发放给AR客户端进行可视化，同时实现虚实注册；

步骤五：用户通过手势暂停三维重建过程，查看当前的三维重建进度；

步骤六：用户根据步骤五的判断情况，可以将目标物体移动、旋转到新的观察角度，然后通过手势重新开启三维重建算法，算法将从新的角度继续对三维重建模型的表面进行扫描填充；

步骤七：重复进行步骤五和步骤六，用户判断三维重建模型达到预期目标时，通过手势结束三维重建算法，输出虚拟模型。
根据权利要求1所述的一种通过手势控制的AR空间可视三维重建方法，其特征在于，所述手势的全部实现均建立在硬件设备Leap Motion的基础之上，Leap Motion通过对获取到的视频图像进行处理，能够定位到图像中手指指尖、关节、手掌、手腕在三维物理空间中的位置；然后在增强现实环境中叠加人手模型预制体到该位置，通过关节和指尖点、手掌、手腕23个关键点来确定手与手掌的位置、姿态。
根据权利要求1所述的一种通过手势控制的AR空间可视三维重建方法，其特征在于，所述步骤一将黑白棋盘格置于场景中，保证能同时被AR眼镜相机与深度相机C1采集到彩色图像数据，针对12组不同位姿摆放的黑白棋盘格，使用张正友标定法计算得到两组相机的外参矩阵。
根据权利要求1所述的一种通过手势控制的AR空间可视三维重建方法，其特征在于，所述步骤一剔除标定结果误差大于0.05像素的组别，对剩下的矩阵计算平均值，得到最终的从深度相机C1坐标系转换至AR眼镜相机坐标系的转换矩阵M。
根据权利要求1所述的一种通过手势控制的AR空间可视三维重建方法，其特征在于，所述步骤二中用户使用手势1在空间中依次确定P1、P2和P3点形成一个平面区域，再使用手势1在空间中确定P4点，沿着所确定平面的垂直方向朝P4点拉伸，在空间中划分出一个长方体区域。
根据权利要求1所述的一种通过手势控制的AR空间可视三维重建方法，其特征在于，所述步骤三使用PCL库中的直通滤波器对输入点云进行处理，剔除包围盒范围外的点，将剩余点输出。
根据权利要求1所述的一种通过手势控制的AR空间可视三维重建方法，其特征在于，所述步骤四基于TCP/IP协议搭建“三维重建客户端-服务器-AR客户端”系统架构。
根据权利要求1所述的一种通过手势控制的AR空间可视三维重建方法，其特征在于，所述步骤五和步骤六通过工业相机C2识别目标物体上张贴的二维码，使用PnP算法分别获得相机在世界坐标系下的位姿Mpre和Mpost。
根据权利要求8所述的一种通过手势控制的AR空间可视三维重建方法，其特征在于，所述步骤六根据Mpre和Mpost计算出二维码角点在用户操作前后的位姿变化矩阵Mb，从而推断出目标物体在用户操作前后的位姿变化矩阵Mo。
根据权利要求1所述的一种通过手势控制的AR空间可视三维重建方法，其特征在于，所述步骤六包括计算相机在世界坐标系下的位姿Mpost、根据Mpre和Mpost计算出二维码角点在用户操作前后的位姿变化矩阵Mb并推断物体在用户操作前后的位姿变化矩阵Mo、更新三维重建算法的新计算位姿、更新包围盒的新位姿、使用手势重新开始三维重建进程。