WO2024061238A1

WO2024061238A1 - 一种估计手柄位姿的方法及虚拟显示设备

Info

Publication number: WO2024061238A1
Application number: PCT/CN2023/119844
Authority: WO
Inventors: 黄志明; 史灿灿; 曾杰; 周祺晟; 郑贵桢
Original assignee: 海信电子科技（深圳）有限公司
Priority date: 2022-09-21
Filing date: 2023-09-19
Publication date: 2024-03-28

Abstract

本公开涉及虚拟现实交互技术领域，提供一种估计手柄位姿的方法及虚拟显示设备，利用手柄上的IMU和多个发光器，实现视觉和惯导对位姿的联合优化。位姿估计前，根据不同位置角度采集的多帧初始手柄图像中手柄上各发光器的标注结果，优化各发光器的3D空间结构以提高相对位姿计算的准确性；位姿估计过程中，基于优化后的3D空间结构、相机采集的目标手柄图像中提取的目标光斑集合以及IMU的观测数据，初始化手柄与虚拟显示设备间的相对位姿，由于目标光斑集合剔除了环境因素的干扰，有助于提高相对位姿计算的准确性，后续在对手柄与虚拟显示设备间相对位姿进行预测和优化时，能够得到平稳、准确的目标相对位姿。

Description

一种估计手柄位姿的方法及虚拟显示设备

相关申请的交叉引用

本公开要求在2022年09月27日提交中华人民共和国知识产权局、申请号为202211183832.2、发明名称为“一种估计手柄位姿的方法及虚拟显示设备”，2022年09月21日提交中华人民共和国知识产权局、申请号为202211149262.5、发明名称为“一种检测手柄上发光器的方法及虚拟显示设备”，2022年11月07日提交中华人民共和国知识产权局、申请号为202211390797.1、发明名称为“检测手柄图像中光斑标识的方法及电子设备”的中国专利申请的优先权，其全部内容通过引用结合在本公开中。

技术领域

本公开涉及虚拟现实交互技术领域，提供一种估计手柄位姿的方法及虚拟显示设备。

背景技术

针对虚拟现实(Virtual Reality，VR)、增强现实(Augmented Reality，AR)等虚拟显示设备，通常使用手柄实现常规交互，就如同个人电脑(Personal Computer，PC)和鼠标间的控制关系。

然而，通过手柄实现与虚拟世界的交互，其前提是得到手柄与虚拟显示设备间的6DOF位姿，从而根据6DOF位姿实现手柄对虚拟显示设备显示画面的控制。因此，手柄相对于虚拟显示设备的位姿，决定了手柄对虚拟显示设备的控制精度，会影响了用户的沉浸式体验，因此，具有重要的研究价值。

发明内容

本公开提供一种估计手柄位姿的方法及虚拟显示设备，用于提高手柄与虚拟显示设备间相对位姿估计的准确性。

一方面，本公开提供一种估计手柄位姿的方法，应用于虚拟显示设备，所述虚拟显示设备与手柄进行交互，所述手柄用于控制虚拟显示设备显示的画面，所述手柄上安装有IMU和多个发光器，所述虚拟显示设备安装有与所述发光器类型相匹配的多目相机，所述方法包括：

针对所述多目相机各自采集的首帧目标手柄图像，根据所述目标手柄图像获得各发光器的目标光斑集合，并根据所述目标光斑集合、所述IMU同步采集的观测数据和所述手柄上各发光器优化后的3D空间结构，初始化所述手柄与所述虚拟显示设备间的相对位姿；其中，所述3D空间结构是根据不同位置角度采集的多帧初始手柄图像中各发光器的标注结果优化的；

针对所述多目相机各自采集的非首帧目标手柄图像，根据历史目标手柄图像对应的相对位姿，预测所述手柄与所述虚拟显示设备间的当前相对位姿，结合所述IMU连续采集的观测数据，确定当前所述手柄与所述虚拟显示设备间的目标相对位姿。

另一方面，本公开提供一种虚拟显示设备，包括处理器、存储器、显示屏、通信接口和多目相机，所述显示屏用于显示画面，所述虚拟显示设备通过所述通信接口与手柄通信，所述手柄用于控制所述显示屏显示的画面，所述多目相机的类型与所述手柄上多个发光器的发光类型相匹配；

所述通信接口、所述多目相机、所述显示屏、所述存储器和所述处理器通过总线连接，所述存储器存储有计算机程序，所述处理器根据所述计算机程序，执行以下操作：

针对所述多目相机采集的首帧目标手柄图像，根据所述目标手柄图像获得各发光器的目标光斑集合，并根据所述目标光斑集合、所述IMU同步采集的观测数据和所述手柄上各发光器优化后的3D空间结构，初始化所述手柄与所述虚拟显示设备间的相对位姿；其中，所述3D空间结构是根据不同位置角度采集的多帧初始手柄图像中各发光器的标注结果优化的；

在本公开的某一些实施例中，所述处理器通过以下方式优化所述手柄上各发光器的3D空间结构：

根据优化前所述各发光器的3D空间结构，获得每个发光器的3D坐标和第一标识；

根据各发光器的第一标识，对不同位置角度采集的多帧初始手柄图像上预先标注的发光器，获得每个发光器在相应的初始手柄图像上形成的光斑的2D坐标和第二标识；

针对各帧所述初始手柄图像，根据所述第一标识和所述第二标识相同的发光器的3D坐标和光斑的2D坐标，以及相应帧对应的所述IMU的观测数据，确定所述手柄与采集相机间的相对位姿；

构建重投影误差方程，根据所述重投影误差方程同时优化各个相对位姿和各发光器的3D坐标，得到第一次优化后的3D空间结构。

在本公开的某一些实施例中，所述处理器优化所述手柄上各发光器的3D空间结构还执行：

得到第一次优化后的3D空间结构之后，根据优化后3D空间结构对应的所述手柄上各发光器组成的第一3D点云，以及优化前3D空间结构对应的所述手柄上各发光器组成的第二3D点云，确定优化前后所述第一3D点云和所述第二3D点云间的转换位姿；

根据所述转换位姿，重新确定所述手柄上各发光器的3D坐标，得到第二次优化后的3D空间结构。

在本公开的某一些实施例中，所述重投影误差方程为：

其中，K_n表示第n号相机的投影参数，分别表示所述手柄与第0号相机间的旋转矩阵和平移向量，分别表示所述第n号相机与第0号相机间的旋转矩阵和平移向量，表示第一标识为m的发光器在所述手柄上的3D坐标，p_m,n表示第二标识为m的光斑的2D坐标。

在本公开的某一些实施例中，所述处理器根据所述目标手柄图像获得所述各发光器的目标光斑集合，具体操作为：

获取当前环境亮度，根据所述当前环境亮度，确定至少两个二值化方法各自的二值化阈值，并根据各二值化阈值对所述目标手柄图像进行二值化处理，获得二值化手柄图像；

在所述二值化手柄图像的全局范围内进行轮廓检测，得到所述各发光器的候选轮廓集，其中，每个轮廓表征一个光斑；

分别根据先验轮廓形状信息以及轮廓对比信息，剔除所述候选轮廓集中的异常轮廓，得到所述各发光器的目标光斑集合。

在本公开的某一些实施例中，所述处理器根据所述当前环境亮度，确定至少两个二值化方法各自的二值化阈值，并根据各二值化阈值对所述可见光手柄图像进行二值化处理，获得二值化手柄图像，具体操作为：

剔除对所述可见光手柄图像灰度化处理后的灰度手柄图像中灰度值低于预设灰度阈值的像素点，并根据像素点剔除后的灰度手柄图像的新直方图，分别确定所述至少两个二值化方法各自的二值化阈值；

将所述当前环境亮度与预设亮度阈值进行比较，根据比较结果，分别确定所述至少两个二值化阈值各自对应的权重；

根据各二值化阈值以及相应的权重，加权得到目标二值化阈值；

根据所述目标二值化阈值，对所述灰度手柄图像进行二值化处理，获得二值化手柄图像。

在本公开的某一些实施例中，所述处理器根据比较结果，分别确定所述至少两个二值化阈值各自对应的权重，具体操作为：

当所述当前环境亮度大于所述预设亮度阈值时，设置第一二值化方法计算的第一二值化阈值对应的第一权重，大于第二二值化方法计算的第二二值化阈值对应的第二权重；

当所述当前环境亮度小于等于所述预设亮度阈值时，设置第一二值化方法计算的第一二值化阈值对应的第一权重，小于第二二值化方法计算的第二二值化阈值对应的第二权重；

其中，所述第一二值化方法用于求解包含单峰的直方图分布，所述第二二值化方法用于求解包含双峰的直方图分布。

在本公开的某一些实施例中，所述处理器在所述二值化手柄图像的全局范围内进行光斑检测，获得各发光器的目标光斑集合，具体操作为：

对所述二值化手柄图像进行轮廓检测，得到所述各发光器的候选轮廓集，其中，每个轮廓表征一个光斑；

在本公开的某一些实施例中，所述处理器根据所述轮廓对比信息剔除所述候选轮廓集中异常轮廓的方式包含以下一种或多种：

针对所述候选轮廓集中的每两个候选轮廓，分别确定两个候选轮廓的外接矩形中心点之间的欧式距离，以及两个候选轮廓的边缘的最小曼哈顿距离，并根据所述欧式距离和所述最小曼哈顿距离，剔除异常轮廓；

根据候选轮廓的面积对所述候选轮廓集中的全部候选轮廓进行排顺序，并根据面积最大候选轮廓和面积次大候选轮廓内像素点间的数量关系，剔除异常轮廓；

针对所述候选轮廓集中的每个候选轮廓，计算所述候选轮廓与最近邻候选轮廓间的距离，并根据所述距离，剔除离群的异常轮廓；

计算所述候选轮廓集中每个候选轮廓的亮度均值，并根据各亮度均值，剔除异常轮廓。

在本公开的某一些实施例中，所述处理器根据所述欧式距离和所述最小曼哈顿距离，剔除异常轮廓，具体操作为：

当所述欧式距离和所述最小曼哈顿距离中的至少一个小于预设距离阈值时，则分别计算两个候选轮廓的面积；

若两个候选轮廓的面积均小于预设面积阈值，则同时剔除两个候选轮廓；

若两个候选轮廓的面积中至少一个不小于所述预设面积阈值，则分别计算两个候选轮廓的亮度均值，剔除小亮度均值对应的一个候选轮廓。

在本公开的某一些实施例中，所述处理器根据面积最大候选轮廓和面积次大候选轮廓内像素点间的数量关系，剔除异常轮廓，具体操作为：

若所述面积最大候选轮廓和面积次大候选轮廓内像素点数量均超过预设像素点数量阈值，则计算所述面积最大候选轮廓与所述面积次大候选轮廓内像素点数量间的倍数；

若所述倍数大于预设倍数阈值，则剔除所述面积最大候选轮廓。

在本公开的某一些实施例中，所述处理器根据所述距离，剔除离群的异常轮廓，具体操作为：

根据所述候选轮廓的边长以及全部候选轮廓的边长中位数，确定自适应离群距离；

若所述全部候选轮廓的数量大于预设数量阈值，且所述距离大于所述自适应离群距离，则剔除所述候选轮廓。

在本公开的某一些实施例中，所述处理器根据所述先验轮廓形状信息剔除所述候选轮廓集中异常轮廓的方式包含以下一种或多种：

根据所述候选轮廓的面积与所述候选轮廓的外接矩形的长宽比例关系，剔除所述长宽比例超出第一预设比例阈值的候选轮廓；

剔除所述候选轮廓与所述候选轮廓的外接矩形的面积占比小于预设占比阈值的候选轮廓；

计算所述候选轮廓的灰度质心点与所述候选轮廓的外接矩形的中心点，分别在横轴与纵轴上的距离，并分别计算每个距离占所述候选轮廓的边长的比例，若两个比例中的至少一个超过第二预设比例阈值，则剔除所述候选轮廓；

根据所述候选轮廓包含的像素点总数以及所述候选轮廓的边长，确定所述候选轮廓的圆度，若所述圆度低于预设圆度阈值，则剔除所述候选轮廓；

计算所述候选轮廓的亮度均值，若所述亮度均值小于预设亮度阈值，则剔除所述候选轮廓；

确定所述候选区域的外接矩形的预设外围区域的亮度均值，以及所述候选轮廓的亮度均值，若两个亮度均值之间的亮度差异小于预设差值，则剔除所述候选轮廓。

在本公开的某一些实施例中，所述处理器根据所述目标光斑集合、所述IMU同步采集的观测数据和所述手柄上各发光器优化后的3D空间结构，初始化所述手柄与所述虚拟显示设备间的相对位姿，具体操作为：

将所述优化后的3D空间结构上各发光器与所述目标光斑集合中的目标光斑进行匹配，建立3D发光器与2D光斑间的对应关系；

根据存在对应关系的发光器的3D坐标和光斑的2D坐标，以及所述IMU同步采集的观测数据，初始化所述手柄与所述虚拟显示设备间的相对位姿。

在本公开的某一些实施例中，所述处理器将所述优化后的3D空间结构上各发光器与所述目标光斑集合中的目标光斑进行匹配，建立3D发光器与2D光斑间的对应关系，具体操作为：

针对所述目标光斑集合中的任意一个目标光斑，从所述目标光斑集合中筛选出与所述目标光斑相邻的第一指定数量的候选光斑，并将所述目标光斑与所述第一指定数量的候选光斑进行连接，得到平面图形；

根据所述优化后的3D空间结构上实际相邻的发光器集合，将所述平面图形中的各光斑和所述实际相邻的发光器集合中的各发光器分别进行匹配，得到各相邻光斑匹配对，其中，每个相邻光斑匹配对包含所述光斑的图像光斑索引和与所述光斑相匹配的发光器的第一标识；

针对任意一组相邻光斑匹配对，根据所述相邻光斑匹配对中各光斑的2D坐标和所述各发光器的3D坐标，确定所述相邻光斑匹配对对应的所述手柄的多个预测位姿；

针对任意一个预测位姿，根据所述预测位姿将所述各发光器投影到指定图像中，获得各投影光斑，并根据所述各投影光斑，对所述指定图像中除所述平面图形包含的各光斑之外的其他光斑与所述手柄上的各发光器进行匹配，得到各其他光斑匹配对，其中，每个其它光斑匹配对包含所述其他光斑的图像光斑索引和与所述其它光斑匹配的投影光斑对应的发光器的第一标识；

根据所述各其他光斑匹配对的数量对各光斑匹配对进行筛选，并根据筛选后的各光斑匹配对的数量，得到各目标光斑匹配对，并将所述目标光斑匹配对中发光器的第一标识确定为所述图像光斑索引对应的目标光斑的第二标识，其中，所述光斑匹配对包括所述相邻光斑匹配对和所述其他光斑匹配对，每个匹配对表征3D发光器与2D光斑间的对应关系。

在本公开的某一些实施例中，所述处理器从所述目标光斑集合中筛选出与所述目标光斑相邻的第一指定数量的候选光斑，具体操作为：

根据所述目标光斑的2D坐标以及所述目标光斑集合中其他光斑的2D坐标，得到所述目标光斑与所述其他光斑之间的距离；

按照所述目标光斑与所述其他光斑之间的距离从小到大的顺序，选择前第一指定数量的距离对应的其他光斑作为所述候选光斑。

在本公开的某一些实施例中，所述处理器根据所述优化后的3D空间结构上实际相邻的发光器集合，将所述平面图形中的各光斑和所述实际相邻的发光器集合中的各发光器分别进行匹配，得到各相邻光斑匹配对，具体操作为：

将所述平面图形中的各光斑按照图像光斑索引从小到大的顺序进行排列，得到光斑列表；

按照指定顺序对所述实际相邻的发光器集合中的各发光器进行遍历，针对当前遍历的发光器，以所述发光器作为初始位置，并将与所述发光器实际相邻的其他发光器按照指定顺序进行排序，得到排序列表；

针对所述排序列表中的任意一个发光器，将所述发光器的第一标识与所述光斑列表中位置与所述发光器在所述排序列表中的位置相同的光斑的图像光斑索引添加到同一相邻光斑匹配对中；

判断所述实际相邻的发光器集合中是否存在未进行遍历的发光器；

若是，则返回按照指定顺序对所述实际相邻的发光器集合中的各发光器进行遍历的步骤，直至所述实际相邻的发光器集合中不存在未遍历的发光器。

在本公开的某一些实施例中，根据所述预测位姿将所述各发光器投影到指定图像中之前，所述处理器还执行：

针对任意一组所述相邻光斑匹配对对应的所述手柄的多个预测位姿，分别得到与所述相邻光斑匹配对相对应的手柄的预测重力方向向量；

根据拍摄所述指定图像时所述虚拟显示设备的当前位置，得到所述手柄的实际重力方向向量；

通过与各相邻光斑匹配对相对应的预测重力方向向量和所述实际方向向量，确定需要删除的相邻光斑匹配对，并将所述需要删除的相邻光斑匹配对进行删除。

在本公开的某一些实施例中，所述处理器通过与各相邻光斑匹配对相对应的预测重力方向向量和所述实际方向向量，确定需要删除的相邻光斑匹配对，具体操作为：

针对任意一组相邻光斑匹配对，根据与所述相邻光斑匹配对对应的预测重力方向向量与所述实际方向向量，得到重力方向向量夹角；

若所述重力方向向量夹角大于指定夹角，则确定所述相邻光斑匹配对为所述需要删除的相邻光斑匹配对。

在本公开的某一些实施例中，所述处理器根据所述各投影光斑，对所述指定图像中除所述平面图形包含的各光斑之外的其他光斑与所述手柄上的各发光器进行匹配，得到各其他光斑匹配对，具体操作为：

针对所述指定图像中任意一个其他光斑，根据所述其他光斑的2D坐标和所述各投影光斑的2D坐标，得到所述其他光斑分别与所述各投影光斑之间的距离；

若所述各距离中的最短距离小于指定距离，则将所述其他光斑的图像光斑索引以及与所述最短距离对应的投影光斑对应的发光器的第一标识添加到同一光斑匹配对，并将所述光斑匹配对确定为所述其他光斑匹配对。

在本公开的某一些实施例中，所述处理器根据所述各其他光斑匹配对的数量对各光斑匹配对进行筛选，并根据筛选后的各光斑匹配对的数量，得到各目标光斑匹配对，具体操作为：

针对任意一个预测位姿，若所述预测位姿对应的其他光斑匹配对的数量小于第二指定数量，则删除所述预测位姿以及与所述预测位姿相对应的其他光斑匹配对；

针对任意一个相邻光斑匹配对，若与所述相邻光斑匹配对相应的多个预测位姿均已被删除，则删除所述相邻光斑匹配对；

统计剔除后剩余的各光斑匹配对的数量；

针对存在同一图像光斑索引的各光斑匹配对，将所述各光斑匹配对中数量最多的光斑匹配对确定为与所述图像光斑索引相对应的目标光斑匹配对。

在本公开的某一些实施例中，所述处理器根据预测的所述手柄与所述虚拟显示设备间的当前相对位姿，以及所述IMU连续采集的观测数据，确定当前所述手柄与所述虚拟显示设备间的目标相对位姿，具体操作为；

根据所述手柄上各发光器在优化后3D空间结构中的3D坐标，以及预测得到的所述手柄与所述虚拟显示设备间的当前相对位姿，确定当前各发光器在当前目标手柄图像的局部范围；

在所述当前目标手柄图像的局部范围内提取所述当前各发光器的当前光斑，并根据最近邻匹配，确定各当前光斑对应的发光器；

根据存在对应关系的当前光斑的2D坐标与3D发光器的3D坐标，以及所述观测数据和所述当前目标手柄图像同步时所述IMU与所述相机的位姿，建立重投影约束方程；

根据连续两帧观测数据对应的所述IMU的位姿和所述手柄的运动速度，建立预积分约束方程；

联合所述预积分约束方程和所述重投影约束方程，求解出所述当前目标手柄图像对应的所述IMU的位姿、所述相机的位姿、以及所述IMU与所述手柄的相对位姿；

根据所述IMU与所述手柄的相对位姿、所述IMU的位姿和所述相机的位姿，得到当前所述手柄与所述虚拟显示设备间的目标相对位姿。

在本公开的某一些实施例中，所述预积分约束方程为：

所述重投影约束方程为：

其中，分别表示所述IMU采集的第j帧观测数据对应的所述IMU在世界坐标系下的旋转矩阵和平移向量，表示所述IMU采集的第j+1帧观测数据对应的所述IMU在所述世界坐标系下的平移向量，分别表示第j帧和第j+1帧观测数据对应的所述IMU在所述世界坐标系下的运动速度，g^W表示重力加速度，Δt表示所述IMU采集的第j帧和第j+1帧观测数据之间的时间间隔，LOG(·)表示四元数组对应的李群SO3上的对数函数，分别表示所述IMU的所述平移向量、所述运动速度和所述旋转矩阵的预积分变量，分别表示所述IMU采集的第j帧观测数据对应的所述虚拟显示设备上的相机在世界坐标系下的旋转矩阵和平移向量，分别表示所述IMU在手柄坐标系下的旋转矩阵和平移向量，表示所述手柄上第一标识为m的发光器的3D坐标，p_m表示所述手柄上第二标识为m的当前光斑的2D坐标，pro j(·)表示相机的投影方程。

在本公开的某一些实施例中，联合所述预积分约束方程和所述重投影约束方程的结果为：

其中，分别表示所述IMU采集的第j帧观测数据对应的所述IMU在世界坐标系下的旋转矩阵和平移向量，j表示所述IMU采集的观测数据的帧数，f_j表示所述预积分约束方程，g_j表示所述重投影约束方程。

另一方面，本公开提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机设备执行根据一些实施例的估计手柄位姿的方法。

本公开提供的估计手柄位姿的方法及虚拟显示设备中，手柄上安装有IMU和多个发光器，虚拟显示设备上安装有多目相机，且相机的类型与发光器类型相匹配，通过估计手柄与虚拟显示设备间的相对位姿，实现手柄对控制虚拟显示设备显示的画面的控制，完成与虚拟世界的交互。在估计手柄与虚拟显示设备间相对位姿前，从不同位置、角度采集多帧初始手柄图像，保证获取到手柄上完整数量的发光器，从而基于多帧初始手柄图像中的发光器来优化发光器的3D空间结构，提高后续相对位姿计算的准确性；在位姿估计过程中，基于优化后的3D空间结构以及各相机采集的首帧目标手柄图像中提取的目标光斑集合以及IMU的观测数据，初始化手柄与虚拟显示设备间的相对位姿，由于目标光斑集合提取时剔除了环境因素的干扰，有助于提高相对位姿计算的准确性，当初始化完成后，针对相机采集的非首帧目标手柄图像，根据历史目标手柄图像对应的手柄与虚拟显示设备间的相对位姿，预测当前目标手柄图像对应的手柄与虚拟显示设备间的相对位姿，再结合IMU的观测数据，实现视觉惯导对相对位姿的联合优化，从而得到平稳、准确的当前手柄与虚拟显示设备间的目标相对位姿。

附图说明

图1为根据一些实施例的VR设备与手柄的应用场景示意图；

图2A为根据一些实施例的包含多目相机的虚拟显示设备示意图；

图2B为根据一些实施例的包含多个LED白光灯的6DOF手柄示意图；

图2C为根据一些实施例的包含多个LED红外灯的6DOF手柄示意图；

图3A为根据一些实施例的发光器异常检测示意图；

图3B为根据一些实施例的发光器异常检测示意图；

图4为根据一些实施例的估计手柄位姿方法的整体架构图；

图5为根据一些实施例的优化手柄上各发光器的3D空间结构的方法流程图；

图6A为根据一些实施例的标注前双目红外相机采集的手柄图像；

图6B为根据一些实施例的标注后双目红外相机采集的手柄图像；

图7为根据一些实施例的PnP原理示意图；

图8为根据一些实施例的视觉惯导联合优化估计手柄位姿的架构图；

图9为根据一些实施例的视觉惯导联合估计手柄位姿的方法流程图；

图10为根据一些实施例的光斑检测方法流程图；

图11为根据一些实施例的图像二值化处理的方法流程图；

图12为根据一些实施例的利用每两个候选轮廓间的欧式距离和最小曼哈顿距离剔除异常轮廓的方法流程图；

图13为根据一些实施例的利用选择出的这两个候选轮廓内像素点间的数量关系剔除异常轮廓的方法流程图；

图14为根据一些实施例的利用候选轮廓与最近邻候选轮廓间的距离剔除离群的异常轮廓的方法流程图；

图15为根据一些实施例的2D光斑与3D发光器匹配的方法流程图；

图16为根据一些实施例的相邻光斑组成的平面图形示意图；

图17为根据一些实施例的平面图形中的各光斑与实际相邻的发光器集合快速匹配的方法流程图；

图18为根据一些实施例的为对相邻光斑匹配对进行筛选的方法流程图；

图19为根据一些实施例的确定其他光斑匹配对的方法流程图；

图20为根据一些实施例的实时估计手柄与虚拟显示设备间相对位姿的方法流程图；

图21为根据一些实施例的虚拟显示设备的结构图。

具体实施方式

为使本公开实施例的目的和优点更加清楚，下面将结合本公开实施例中的附图，对本公开进行清楚、完整地描述，显然，所描述的实施例是本公开的一部分实施例，而不是全部的实施例。基于本公开文件中记载的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。

AR、VR等虚拟显示设备一般是指具备独立处理器的头戴式显示设备(简称为头显或者头盔，如VR眼镜、AR眼镜等)，具有独立运算、输入和输出的功能。虚拟显示设备可外接手柄，用户通过操作手柄来控制虚拟显示设备显示的虚拟画面，实现常规交互。

以游戏场景为例，参见图1，为根据一些实施例的虚拟显示设备与手柄的应用场景示意图，如图1所示的游戏场景中，玩家通过手柄实现与虚拟世界的交互，利用手柄与虚拟显示设备的相对位姿，控制虚拟显示设备的游戏画面，并根据游戏场景的变化做出肢体上的反映，从而体验身临其境般的沉浸式体验，提升游戏的趣味性。特别的，利用电视的大屏优势，将虚拟显示设备的虚拟游戏画面投放到电视上，娱乐性更高。

一般的，根据输出位姿的不同，常用的手柄包括3DOF手柄和6DOF手柄，其中，3DOF输出3维的旋转姿态，6DOF手柄输出3维的平移位置和3维的旋转姿态，相对于3DOF手柄，6DOF手柄可以做出的游戏动作更加复杂，趣味性更强。

目前，常用的6DOF手柄上设置有多个发光器(如LED灯)，其中，发光器可以发不同类型的光(如红外光、白光等)，且虚拟显示设备上的多目相机(在图2A中用圆圈圈出)的类型，应与发光类型相适配。

例如，参见图2B，为根据一些实施例的一种6DOF手柄的示意图，如图2B所示的，该6DOF手柄上设置的LED灯发射白光，白点孔洞就是每个LED灯的位置。此时，为通过手柄上LED灯的位置来估计手柄与虚拟显示设备间的位姿，虚拟显示设备上的多目相机应为RGB相机。

再例如，参见图2C，为根据一些实施例的另一种6DOF手柄的示意图，如图2C所示的，该6DOF手柄上设置的LED灯发射红外光(人眼不可见)。此时，为通过手柄上LED灯的位置来估计手柄与虚拟显示设备间的位姿，虚拟显示设备上的多目相机应为红外相机。

在实际应用中，使用手柄与虚拟世界进行交互，其前提是得到手柄在虚拟世界中的位姿，从而根据6DOF位姿实现手柄对虚拟显示设备显示画面的控制。

目前，市面上的大多数产品中，定位手柄位姿的方法主要为：利用虚拟显示设备上的红外相机捕捉手柄上发光器的红外图像，通过图像识别、图像跟踪这些红外发光器，并结合手柄上发光器的3D空间结构进行发光器的匹配、3D坐标计算等操作，最终可以得到手柄与虚拟显示设备间的相对位姿。

然而，上述方法中，由于手柄上发光器的3D空间结构是基于手柄的设计图纸测量得到，精度较低，导致位姿估计误差较大；同时，通过手柄上发光器的3D空间结构以及在图像中的2D光斑，可以计算当前帧手柄的位姿，但一方面相机采集的单帧图像内发光器的数目有限，导致位姿估计准确度不高，另一方面相机采集的连续多帧图像之间的发光器的观测没有相互关联，导致交互过程中位姿光滑度较差，影响视觉体验。

一般的，如图2B和图2C所示的手柄内部，还安装有惯性测量单元(Inertial measurement unit，IMU)，用于测量手柄的运动速度，包括加速度和角速度，而手柄的运动速度，也会影响手柄与虚拟显示设备间的相对位姿。

鉴于此，本公开实施例提供了一种估计手柄位姿的方法及虚拟显示设备，基于虚拟显示设备的多目相机在不同位置、角度采集的手柄图像中发光器的标注结果，优化手柄上发光器的3D空间结构，从而提高手柄位姿估计的准确性；并且，利用手柄上IMU采集的观测数据和虚拟显示设备上相机采集的手柄图像，采用视觉惯导联合优化的位姿估计方法，获得更加平滑、准确的手柄位姿。

同时，考虑到手柄上的发光器是通过视觉图像进行检测的，在一定程度上会受到环境因素的影响。例如，图3A中(a)所示廊道和房间中的一些灯光，这些灯光可能被错误的检测到，如图3A中(b)所示；再例如，图3B中(a)所示LED显示屏上的文字，可能被错误的检测到，如图3B中(b)所示。而如果图像中手柄上的发光器检测不准确，将会导致手柄与虚拟显示设备间的相对位姿存在较大误差，降低了控制精度，严重影响用户体验。因此，本公开实施例在估计位姿时，在相机采集的图像进行了一些列处理操作，并对检测出的发光器在图像中的2D光斑进行了异常剔除，以提高发光器检测的准确性和鲁棒性。

在计算手柄与虚拟显示设备间的相对位姿时，需要将手柄上发光器的3D点与发光器在相机采集的图像中光斑的2D点一一对应，而传统的暴力匹配方式比较耗时，会降低定位效率。因此，本公开实施例通过将相邻的光斑拼接为平面图形来提高匹配的效率和精度。

参见图4，为根据一些实施例的估计手柄位姿方法的整体架构图，主要包括预处理以及相对位姿估计两部分。其中，预处理部分主要是利用虚拟显示设备上多目相机在不同位置、角度采集的多帧初始手柄图像中各发光器的标注结果，优化手柄上发光器的3D空间结构，获得更加准确的发光器的3D坐标，从而提高手柄位姿估计的准确性。相对位姿估计部分主要是利用相机采集的目标手柄图像以及IMU采集的观测数据，采用视觉惯导联合优化方法，实时估计手柄与虚拟显示设备间的相对位姿。

其中，在相对位姿估计部分，针对相机采集的目标手柄图像进行了光斑检测，获得手柄上的各发光器在图像中的目标光斑集合，结合各发光器优化后的3D空间结构和IMU采集的观测数据，进行相对位姿估计。在位姿估计过程中，需要将手柄上各发光器的3D点与各发光器在图像中形成的光斑的2D点一一匹配，而通常的，手柄上各发光器的第一标识在设计图纸上是设置好的，因此，匹配过程可以看作是确定各发光器匹配的光斑的第二标识过程。

手柄在出厂前，各发光器的3D空间结构可以根据手柄的设计图纸获得，包括每个发光器的位置(用3D坐标表示)以及第一标识(用数字编码的ID表示)。但由于生产工艺的不同，实际上各发光器的3D空间结构可能和设计图纸存在误差，若直接使用设计图纸中手柄上各发光器的3D空间结构进行位姿估计，可能造成估计误差，影响用户的沉浸式体验。

因此，本公开实施例在估计手柄与虚拟显示设备间相对位姿之前，根据采集的多帧不同初始手柄图像，优化各发光器的3D空间结构。其中，优化过程可使用虚拟显示设备上预先标定好的至少两台相机采集的手柄图像，还可以使用预先标定好的独立的多台相机采集的手柄图像，但无论使用哪种相机，该相机的类型是与手柄上发光器的发光类型相配的。

在本公开的某一些实施例中，手柄上各发光器的3D空间结构的具体优化过程参见图5，主要包括以下几步：

S501：根据优化前各发光器的3D空间结构，获得每个发光器的3D坐标和第一标识。

优化前各发光器的3D空间结构是由手柄的设计图纸确定的，通过测量手柄的设计图纸，可以得到优化前3D空间结构中手柄上各发光器的3D坐标，以及每个发光器的第一标识。

S502：根据不同位置角度采集的多帧初始手柄图像上预先标注的发光器，获得每个发光器在相应的初始手柄图像上形成的光斑的2D坐标和第二标识。

本公开的实施例中，在手柄上各发光器亮起的状态下，使用与发光器的发光类型相匹配的多目相机，从不同位置、角度采集多帧初始手柄图像，保证手柄上的发光器全部被采集到。得到多帧初始手柄图像后，人工预先标注出各发光器的中心点在每帧初始手柄图像中的位置(用2D坐标表示)，以及每个发光器的第二标识(用数字编码的ID表示)。其中，各发光器的第二标识与各发光器的3D空间结构保持一致。

以手柄上的发光器为LED红外灯、采集相机为虚拟显示设备上的双目红外相机为例，此时，初始手柄图像为红外手柄图像。如图6A所示，为双目红外相机采集的标注前的红外手柄图像，人工标注后，双目红外手柄图像如图6B所示。

由于双目红外相机相对于同一个手柄的位置和角度不同，因此，同步采集的单帧红外手柄图像中，手柄的发光器的位置和数量不同。例如，如图6A和图6B所示的，一个红外相机采集的红外手柄图像中，包含第一标识为2、3、4、5、7的5个LED红外光斑，另一个红外相机采集的红外手柄图像中，包含第一标识为2、3、4、5、6、7、8、9的8个LED红外光斑。

对多目相机在不同位置、角度采集的每帧初始手柄图像全部进行标注后，可以根据各帧初始手柄图像的标注结果，可以获得每个发光器相应的初始手柄图像上形成的光斑的2D坐标和第二标识。

进一步地，基于每帧初始手柄图像中各光斑的2D坐标和第二标识，采用从运动恢复结构(Structure from Motion，SFM)思想，对每个发光器的3D坐标进行优化，得到优化后的各发光器的3D空间结构，具体参见S503-S506。

S503：针对各帧初始手柄图像，根据第一标识和第二标识相同的发光器的2D坐标和3D坐标，以及相应帧对应的IMU的观测数据，确定手柄与采集相机间的相对位姿。

针对每一帧初始手柄图像，执行以下操作：根据2D图像中第二标识和3D空间中第一标识相同的光斑的2D坐标和发光器的3D坐标，采用PnP(Perspective-n-Points)算法，确定该帧对应的手柄与采集相机间第一相对位姿，以及通过对该帧对应的IMU的观测数据进行积分，得到手柄与采集相机间的第二相对位姿，通过对第一相对位姿和第二相对位姿进行融合，得到该帧对应的手柄与采集相机间的相对位姿。

PnP算法是指基于3D与2D点对解决物体运动定位问题，其原理如图7所示，O表示相机光心，3D空间中物体的若干个(如A、B、C、D)3D点通过相机投影在图像平面上，得到对应的2D点(如a、b、c、d)，在已知3D点的坐标和3D点与2D点的投影关系的情况下，可以估算相机与物体间的位姿。在本公开实施例中，3D点与2D点的投影关系可以通过发光器的第一标识和第二标识反映出来。

S504：构建重投影误差方程，根据重投影误差方程同时优化各个相对位姿和3D坐标，得到第一次优化后的3D空间结构。

由于各相机在使用前进行了标定，每个相机的投影参数(也称为内参数)，以及相机间的相对位姿是已知的。因此，在S504中，根据每个相机的投影参数、相机间的相对位姿、以及手柄上各发光器的3D坐标、各发光器在每个相机采集的初始手柄图像中形成的光斑的2D坐标，构建重投影误差方程，通过使重投影误差最小，从而同时优化各帧初始手柄图像对应的手柄与采集相机间的相对位姿，以及手柄上各发光器的3D坐标，得到第一次优化后的3D空间结构。

其中，重投影误差方程公式表示如下：

在公式1中，K_n表示第n号相机的投影参数，分别表示手柄与第0号相机间的旋转矩阵和平移向量，分别表示第n号相机与第0号相机间的旋转矩阵和平移向量，表示第一标识为m的发光器在手柄上的3D坐标，p_m,n表示第二标识为m的发光器在第n号相机采集的初始手柄图像上形成的光斑的2D坐标。

其中，表示手柄与第0号相机间的相对位姿，表示第n号相机与第0号相机间的相对位姿。

在本公开的某一些实施例中，第0号相机可以为采集的光斑数量最多的相机，也称为主相机。例如，以图6B为例，右红外相机采集的光斑数量多于左红外相机采集的光斑数量，此时，右红外相机为第0号相机(主相机)。

第一次3D空间结构优化后，可以得到较为准确的各发光器的3D坐标，但优化后3D空间结构的原点与优化前3D空间结构的原点之间会有一定的漂移。在一些实施例中，为进一步提高各发光器3D坐标的准确性，采用3对点的相似变换(Similarity Transformation，SIM3)方法将优化前后手柄坐标系统一对齐，实现对各发光器的3D空间结构的二次优化。其中，第二次优化过程包括：

S505：根据优化后3D空间结构对应的手柄上各发光器组成的第一3D点云，以及优化前3D空间结构对应的手柄上各发光器组成的第二3D点云，确定优化前后第一3D点云和第二3D点云间的转换位姿。

手柄上各发光器的3D空间结构第一次优化后，各发光器的3D点组成第一3D点云，手柄上各发光器的3D空间结构第一次优化前，各发光器的3D点组成第二3D点云。在第一3D点云和第二3D点云中，优化前后各发光器的3D点坐标是已知的，通过是优化前后各发光器的3D坐标间的漂移误差最小，求得第一3D点云和第二3D点云间的转换位姿，转换位姿的计算公式如下：

其中，表示第一次优化后标识为m的发光器在手柄坐标系下的3D坐标，表示第一次优化前标识为m的发光器在手柄坐标系下的3D坐标，s表示第一3D点云和第二3D点云的尺度变换系数，(R，t)表示第一3D点云和第二3D点云间的转换位姿，其中，R表示优化前后手柄坐标系间的旋转矩阵，t表示优化前后手柄坐标系间的平移向量。

S506：根据转换位姿，重新确定手柄上各发光器的3D坐标，得到第二次优化后的3D空间结构。

根据3D空间结构第一次优化前后各发光器的第一3D点云和第二3D点云间的准换位姿，计算手柄上各发光器最终的3D坐标，记为计算公式如下：

基于各发光器最终的3D坐标，可以得到第二次优化后的3D空间结构。通过优化手柄上各发光器的3D空间结构，可以得到各发光器更加准确的3D坐标，进而基于优化后各发光器的3D坐标，实时估计手柄与虚拟显示设备间的相对位姿时，能够提高位姿估计的准确性。

需要说明的是，同一批次的手柄是基于同一设计图纸生产的，因此，对于同一批次的手柄，只需要进行一次优化即可。

需要说明的是，上述优化手柄上各发光器的3D空间结构的方法，可以由虚拟显示设备执行，还可以由其他设备执行，如笔记本电脑、台式计算机等。

优化完手柄上各发光器的3D空间结构后，可以利用虚拟显示设备上的多目相机对手柄进行成像，再结合手柄内IMU采集的观测数据，实现视觉和惯导对位姿的联合优化。

参见图8，为根据一些实施例的视觉惯导联合优化估计手柄位姿的架构图，在图8中，分别表示第j(j＝1,2,…n)帧对应的手柄上IMU坐标系与世界坐标系间的相对位姿、手柄坐标系与世界坐标系间的相对位姿、相机(即虚拟显示设备)坐标系与世界坐标系间的相对位姿，表示手柄坐标系与IMU坐标系间的相对位姿。

如图8示出的，通过IMU连续采集的多帧观测数据间的预积分约束，以及IMU和相机采集的同一帧数据(即观测数据和目标手柄图像的时间戳相同)间的重投影约束，实现视觉惯导对手柄与虚拟显示设备间相对位姿的联合优化。

参见图9，为根据一些实施例的视觉惯导联合估计手柄位姿的方法流程图，该流程主要包括以下几步：

S901：确定是否对手柄和虚拟显示设备间的相对位姿进行了初始化操作，若否，则执行S902，若是，则执行S903。

实时估计手柄与虚拟显示设备间相对位姿的过程中，可对手柄与虚拟显示设备间的相对位姿进行预测，预测过程需要给定手柄与虚拟显示设备间相对位姿的初值，因此，位姿估计过程中，首先确定是否对手柄和虚拟显示设备间的相对位姿进行了初始化操作，若没有初始化，则初始化手柄和虚拟显示设备间的相对位姿，若已经初始化，则对手柄和虚拟显示设备间的相对位姿进行预测及优化。

S902：针对相机采集的首帧目标手柄图像，根据目标手柄图像获得各发光器的目标光斑集合，并根据目标光斑集合、IMU同步采集的观测数据和手柄上各发光器优化后的3D空间结构，初始化手柄与虚拟显示设备间的相对位姿。

在实际应用中，VR体验的环境亮度亮暗差异较大，且环境中的光源会对手柄上发光器的检测存在影响。为了解决该问题，本公开实施例提供一种在明亮环境和昏暗环境下均能准确检测出各发光器在图像中的2D光斑的方法。

参见图10，为本公开实施例提供的光斑检测方法流程图，主要包括以下几步：

S9021：获取当前环境亮度，根据当前环境亮度，确定至少两个二值化方法各自的二值化阈值，并根据各二值化阈值对目标手柄图像进行二值化处理，获得二值化手柄图像。

通常的，相机采集的图像中可以提取光照特征，通过光照特征，可以获得当前环境亮度。

在公开的某一些实施例中，可以对相机采集的图像进行灰度化处理，获得灰度图像，包括但不限于浮点法、整数法、移位法、平均法等，进一步地，根据灰度图像的直方图，确定当前环境亮度。

例如，当直方图的高峰位于灰度值小于100的暗侧时，表明当前环境中没有明亮光照，此时，确定当前环境亮度为昏暗；当直方图的高峰位于灰度值大于等于100的亮侧时，表明当前环境中存在明亮光照，此时，确定当前环境亮度为明亮。

根据当前环境亮度，可以采用与当前环境亮度相匹配的目标二值化阈值对目标手柄图像进行二值化处理以提高不同环境下发光器检测的准确性和鲁棒性。其中，适用于对包含多个发光器的目标手柄图像进行二值化的方法主要包括以下两种：

最大类间方差法：也称为大津法，是1979年提出的一种二值化阈值求解方法，该方法以最大化前景图像与背景图像的类间方差为核心思想，适用于求解直方图分布趋近于双峰的二值化阈值；

三角法：是一种二值化阈值求解算法，更适用于求解直方图分布趋近于单峰的二值化阈值，该方法通过直方图的最高峰到较远侧的直方图构造一条直线，然后求解每条直方图到该直线的垂直距离，取最大垂直距离对应的直方图位置作为二值化阈值。

由于虚拟游戏体验场景复杂，环境亮度亮暗差异较大，无论单独采用上述两种方法中的任意一种，均无法获得较为理想的二值化效果。为了适应更加广泛的使用场景，本公开实施例基于这两种主要的二值化自适应阈值求解算法，将大津法与三角法结合起来，得到一种能够同时适应明亮与昏暗环境下，求得更合理的图像二值化所用的目标二值化阈值。

参见图11，为本公开实施例中图像二值化处理的方法流程图，主要包括以下几步：

S9021_1：剔除对目标手柄图像灰度化处理后的灰度手柄图像中灰度值低于预设灰度阈值的像素点，并根据像素点剔除后的灰度手柄图像的新直方图，分别确定至少两个二值化方法各自的二值化阈值。

手柄上各发光器的亮度在不同环境下基本稳定，在通过二值化方法计算二值化阈值时，应排除亮度过低的昏暗背景。因此，将目标手柄图像灰度化处理后的灰度手柄图像中灰度值低于预设灰度阈值的像素点剔除，根据灰度手柄图像中剩余像素点来计算当前图像的新直方图，并根据新直方图，分别确定至少两个二值化方法各自的二值化阈值。

在本公开的某一些实施例中，由于手柄所处的环境复杂多样，为防止意外情况的发生，可预先为每个二值化方法设置一个最低保障阈值。当根据新直方图计算的二值化阈值低于预设最低保障阈值，强制将计算的二值化阈值设置为预设最低保障阈值，从而增强算法在特殊情况下的稳定性。

例如，根据新直方图，当大津法计算的二值化阈值低于预设最低保障阈值时，将预设最低保障阈值设置为大津法对应的二值化阈值；当三角法计算的二值化阈值低于预设最低保障阈值时，将预设最低保障阈值设置为三角法对应的二值化阈值。

需要说明的是，根据新直方图确定的上述大津法和三角法的二值化阈值外，还可确定其他二值化方法的二值化阈值。

S9021_2：将当前环境亮度与预设亮度阈值进行比较，根据比较结果，分别确定至少两个二值化阈值各自对应的权重。

通过将当前环境亮度与预设亮度阈值进行比较，可以确定当前环境亮度与每个二值化方法求解的二值化阈值的适应程度，该适应程度可通过权重反应。

以两个二值化方法求解的二值化阈值加权得到目标二值化阈值的过程为例，其中，第一二值化方法用于求解包含单峰的直方图分布，第二二值化方法用于求解包含双峰的直方图分布，例如，第一二值化方法为三角法，第二二值化方法为大津法。首先，确定当前环境亮度是否大于预设亮度阈值，若是，表明手柄处于明亮环境，此时，采用第一二值化方法计算的第一二值化阈值与当前环境亮度更适配，即第一二值化方法计算的第一二值化阈值更准确，因此，设置第一二值化方法计算的第一二值化阈值对应的第一权重，大于第二二值化方法计算的第二二值化阈值对应的第二权重；若否，表明手柄处于昏暗环境，此时，采用第二二值化方法计算的第二二值化阈值与当前环境亮度更适配，即第二二值化方法计算的第二二值化阈值更准确，因此，设置第一二值化方法计算的第一二值化阈值对应的第一权重，小于第二二值化方法计算的第二二值化阈值对应的第二权重。

S9021_3：根据各二值化阈值以及相应的权重，加权得到目标二值化阈值。

获得各二值化方法对应的权重后，通过加权得到目标二值化阈值。

以第一二值化方法为三角法、第二二值化方法为大津法为例，假设第一二值化阈值记为S1，对应的第一权重为α，第二二值化阈值记为S2，对应的第二权重为β，此时，目标二值化阈值S的计算公式为：
S＝α*S1+β*S2 公式4

在本公开的某一些实施例中，当当前环境亮度大于预设亮度阈值时，α＝0.7，β＝0.3；当当前环境亮度大于预设亮度阈值时，α＝0.3，β＝0.7。

S9021_4：根据目标二值化阈值，对灰度手柄图像进行二值化处理，获得二值化手柄图像。

获取与当前环境亮度相匹配的目标二值化阈值后，根据目标二值化阈值对灰度手柄图像进行二值化处理，得到二值化手柄图像。由于目标二值化阈值是根据当前环境亮度对不同二值化方法的二值化阈值加权得到的，因此目标二值化阈值的设置更加合理，能够适应当前环境亮度，从而减少环境光的干扰，提高发光器检测的准确性。

S9022：在二值化手柄图像的全局范围内进行轮廓检测，得到各发光器的候选轮廓集。

初始化前，手柄与虚拟显示设备间的相对位姿是未知的，3D空间中手柄上各发光器投影到虚拟显示设备上相机采集的目标手柄图像中的光斑的位置也是未知的。因此，需要在二值化手柄图像的全局范围内进行各发光器的检测，将检测出的各光斑作为3D空间中的各发光器在图像中的2D点。

在本公开的某一些实施例中，可采用图像处理中的轮廓提取算法(如HOG、Canny等)进行发光器检测。其中，轮廓是对图像进行二值化处理后由不连通的二值化区域中最外围像素组成的，每个不连通的二值化区域均有且只有一个最外围轮廓，通过计算最外围像素点包围的区域内所有像素点的面积之和，可以获得轮廓面积。其中，每个轮廓表征一个光斑。

需要说明的是，本公开实施例对发光器的检测方法不做限制性要求，例如，还可以采用深度学习模型(如CNN、YOLO等)进行发光器检测。

S9023：分别根据先验轮廓形状信息以及轮廓对比信息，剔除候选轮廓集中的异常轮廓，得到各发光器的目标光斑集合。

由于除手柄上的多个发光器可以发光外，周围环境的其他发光设备也会发光，因此，轮廓检测的候选轮廓集中，可能包含发光器的轮廓，也可能包含对发光器形成干扰的其他发光设备的轮廓，因此，需要对候选轮廓集进行筛选。

在本公开的某一些实施例中，根据先验轮廓形状信息执行以下至少一种剔除操作：

剔除操作一、根据候选轮廓的面积与候选轮廓的外接矩形的长宽比例关系，剔除长宽比例超出第一预设比例阈值的候选轮廓，所述第一预设比例阈值与候选轮廓的面积。

当候选轮廓的面积扩大时，要求候选轮廓的外接矩形的长宽要更加接近。因此，在剔除操作一中，为提高轮廓检测的准确性，本公开实施例采用阶梯式的比例阈值进行异常轮廓剔除，即第一预设比例阈值与候选轮廓的面积呈阶梯式状态，候选轮廓的面积越大，第一预设比例阈值越小。当候选轮廓的外接矩形的长宽比例超出第一预设比例阈值，则认为是误检，剔除该候选轮廓。

剔除操作二、剔除候选轮廓与候选轮廓的外接矩形的面积占比小于预设占比阈值的候选轮廓。

剔除操作三、计算候选轮廓的灰度质心点与候选轮廓的外接矩形的中心点，分别在横轴与纵轴上的距离，并分别计算每个距离占候选轮廓的边长的比例，若两个比例中的至少一个超过第二预设比例阈值，则剔除候选轮廓。

剔除操作四、根据候选轮廓包含的像素点总数以及候选轮廓的边长，确定候选轮廓的圆度，若圆度低于预设圆度阈值，则剔除候选轮廓。

假设候选轮廓包含的像素点总数(包括该候选轮廓内部的像素点以及轮廓边界上的像素点)为P，候选轮廓的周长为C，则圆度R的计算公式为：
R＝(4*π*P)/C² 公式5

剔除操作五、计算候选轮廓的亮度均值，若亮度均值小于预设亮度阈值，则剔除候选轮廓。

剔除操作六、确定候选区域的外接矩形的预设外围区域的亮度均值，以及候选轮廓的亮度均值，若两个亮度均值之间的亮度差异小于预设亮度差值，则剔除候选轮廓。

上述根据先验轮廓形状信息剔除候选轮廓集中的异常轮廓时，是针对单一候选轮廓剔除的，没有考虑候选轮廓间的关系。因此，还可以根据轮廓对比信息进一步剔除候选轮廓集中的异常轮廓。

在本公开的某一些实施例中，根据轮廓对比信息剔除候选轮廓集中的异常轮廓的方式包含以下一种或多种：

剔除操作七、针对候选轮廓集中的每两个候选轮廓，分别确定两个候选轮廓的外接矩形中心点之间的欧式距离，以及两个候选轮廓的边缘的最小曼哈顿距离，并根据欧式距离和最小曼哈顿距离，剔除异常轮廓。

其中，根据每两个候选轮廓间的欧式距离和最小曼哈顿距离剔除异常轮廓的具体过程参见图12，主要包括以下几步：

S9023_11：确定两个候选轮廓间的欧式距离和最小曼哈顿距离中的至少一个是否小于预设距离阈值，若是，则执行S9023_12，否则，执行S9023_16。

根据两个候选轮廓间的欧式距离和最小曼哈顿距离，可以判定两个候选轮廓的近似程度。当两个候选轮廓间的欧式距离和最小曼哈顿距离中的至少一个小于预设距离阈值时，表明两个候选轮廓近似程度较高，需进一步进行异常判断，应执行S9023_12；当两个候选轮廓间的欧式距离和最小曼哈顿距离均大于预设距离阈值，表明两个候选轮廓近似程度较低，应执行S9023_16。

S9023_12：分别计算两个候选轮廓的面积。

S9023_13：确定两个候选轮廓的面积是否均小于预设面积阈值，若是，则执行S9023_14，否则，执行S9023_15。

通过计算出的两个候选轮廓各自的面积与预设面积阈值的比较结果，进一步进行异常判断。

S9023_14：同时剔除两个候选轮廓。

当两个候选轮廓的面积均小于预设面积阈值时，表明这两个候选轮廓均可能是噪点，应同时剔除这两个候选轮廓。

S9023_15：分别计算两个候选轮廓的亮度均值，剔除小亮度均值对应的一个候选轮廓。

当两个候选轮廓的面积中至少一个不小于预设面积阈值时，可通过亮度均值进行异常剔除。在实际应用中，分别计算这两个候选轮廓的亮度均值，并比较两个亮度均值的大小，将小亮度均值对应的一个候选轮廓从候选轮廓集中剔除。

S9023_16：同时保留两个候选轮廓。

当两个候选轮廓间的欧式距离和最小曼哈顿距离均大于预设距离阈值，表明两个候选轮廓近似程度较低，可同时保留候选轮廓集中的这两个候选轮廓。

剔除操作八、根据候选轮廓的面积对候选轮廓集中的全部候选轮廓进行排顺序，并根据面积最大候选轮廓和面积次大候选轮廓内像素点间的数量关系，剔除异常轮廓。

通过候选轮廓的面积排序后，可以选择出候选轮廓集中面积最大候选轮廓和面积次大候选轮廓，根据选择出的这两个候选轮廓内像素点间的数量关系剔除异常轮廓的具体过程参见图13，主要包括以下几步：

S9023_21：确定面积最大候选轮廓和面积次大候选轮廓内像素点数量是否均超过预设像素点数量阈值，若是，则执行S9023_22，否则，执行S9023_25。

两个候选轮廓内像素点数量可以反应两个候选轮廓的近似程度，因此，可以根据面积最大候选轮廓和面积次大候选轮廓内像素点数量分别与预设像素点数量阈值的比较，确定这两个候选轮廓是否形状相似。

S9023_22：计算面积最大候选轮廓与面积次大候选轮廓内像素点数量间的倍数。

S9023_23：确定倍数是否大于预设倍数阈值，若是，则执行S9023_24，否则，执行S9023_25。

通过面积最大候选轮廓与面积次大候选轮廓内像素点数量间的倍数，进一步进行异常判断。

S9023_24：剔除面积最大候选轮廓。

当面积最大候选轮廓与面积次大候选轮廓内像素点数量间的倍数大于预设倍数阈值，此时，面积最大候选轮廓可能为一种与手柄上发光器的形状类似的干扰物，应从候选轮廓集中剔除。

S9023_25：保留面积最大候选轮廓和面积次大候选轮廓。

当面积最大候选轮廓和面积次大候选轮廓内像素点数量有一个未均超过预设像素点数量阈值，或者，面积最大候选轮廓与面积次大候选轮廓内像素点数量间的倍数不大于预设倍数阈值时，保留面积最大候选轮廓和面积次大候选轮廓。

剔除操作九、针对候选轮廓集中的每个候选轮廓，计算候选轮廓与最近邻候选轮廓间的距离，并根据距离，剔除离群的异常轮廓。

其中，根据候选轮廓与最近邻候选轮廓间的距离剔除离群的异常轮廓的过程参见图14，主要包括以下几步：

S9023_31：根据候选轮廓的边长以及全部候选轮廓的边长中位数，确定自适应离群距离。

根据候选轮廓的边长对候选轮廓集中全部候选轮廓的进行排序，得到边长中位数，将边长中位数与当前的候选轮廓间的距离，作为自适应离群距离。

S9023_32：确定候选轮廓与最近邻候选轮廓间的距离是否大于自适应离群距离，若是，则执行S9023_33，否则，执行S9023_36。

S9023_33：确定全部候选轮廓的数量是否大于预设数量阈值，若是，则执行S9023_34，否则，执行S9023_35。

S9023_34：剔除候选轮廓。

当候选轮廓与最近邻候选轮廓间的距离大于自适应离群距离，且全部候选轮廓的数量大于预设数量阈值时，表明该候选轮廓为一个异常的离群轮廓，应该剔除。

S9023_35：保留候选轮廓。

S9023_36：离群剔除结束。

当全部候选轮廓的数量较少时，可能无法代表一个群体，此时，通过离群剔除异常轮廓可能无法实现，需通过其他方式进行异常剔除。

剔除操作十、计算候选轮廓集中每个候选轮廓的亮度均值，并根据各亮度均值，剔除异常轮廓。

在剔除操作十中，对候选轮廓集中各候选轮廓的亮度均值从大到小进行排序，保留前N(N为大于等于1的整数)个候选轮廓，剔除其余候选轮廓。

需要说明的是，上述剔除操作一至剔除操作十这多种方式中，没有严格的执行顺序，可以先根据先验轮廓形状信息进行异常轮廓剔除，再根据轮廓对比信息进行异常轮廓剔除；也可以先根据轮廓对比信息进行异常轮廓剔除，再根据先验轮廓形状信息进行异常轮廓剔除；还可以将轮廓对比信息和先验轮廓形状信息两类异常剔除方式穿插进行。

在本公开获取目标光斑集合的实施例中，为进一步适应不同环境光照的使用场景，使算法能在复杂环境下稳定鲁棒的运行，根据当前环境亮度对不同的二值化方法的二值化阈值进行加权，得到对目标手柄图像进行二值化处理的目标二值化阈值，保证了不同亮度下手柄上发光器检测的准确性，大幅度降低了开发难度及成本；同时，为了提高手柄上发光器的检测速度，采用图像处理技术对检测出的轮廓进行了异常剔除，提高运行速度的同时降低了内存资源的占用，利于部署在便携的可穿戴设备上。一方面，相比于基于AI神经网络的发光器检测方法，本公开实施例不需要高配置处理器进行网络训练，也不需要进行大量数据的标注，降低了开发硬件资源需求以及开发的成本与工作量；相比于一般图像处理的发光器检测方法，本公开实施例能够根据当前环境亮度，自适应调节二值化阈值，且通过对至少两个二值化方法的二值化阈值进行加权，提高了算法在复杂场景下使用的鲁棒性，扩大了适用范围。另一方面，本公开实施例根据发光器的轮廓特征，剔除了干扰手柄定位的发光器的光斑，进一步提升了算法的性能和检测的准确性。

获得准确检测的目标光斑集合后，目标光斑集合中的各目标光斑是优化后的3D空间结构中哪个发光器的投影是未知的，即2D光斑与3D发光器间的对应关系未知。因此，需要将目标光斑集合中的各目标光斑与3D空间结构优化后的各发光器进行匹配，建立2D光斑与3D发光器间一一对应的关系。从而根据存在对应关系的3D发光器与2D光斑，采用PNP算法，对齐手柄与虚拟显示设备间的坐标系，并对对齐后手柄上IMU采集的观测数据(包括但不限于手柄的加速度和角速度)进行预积分，进而得到手柄与虚拟显示设备间的相对6DOF位姿，完成手柄与虚拟显示设备间相对位姿的初始化过程。

一般的，IMU与相机的采集频率可能不同，位姿估计过程需要保证使用的IMU采集的观测数据与相机采集的目标手柄图像保持同步，观测数据与目标手柄图像的同步关系，可根据时间戳确定。

在本公开的某一些实施例中，2D光斑与3D发光器间一一对应的关系可通过3D发光器的第一标识与2D光斑的图像光斑索引表征，因此，2D光斑与3D发光器匹配的过程，可看作是确定目标手柄图像中某个图像光斑索引对应的光斑的第二标识的过程。

目前，2D光斑与3D发光器的匹配方式大多采用暴力匹配。其中，暴力匹配方法为：从目标光斑集合中任选3个目标光斑，根据各发光器的3D空间结构猜测这3个目标光斑的ID，然后使用P3P算法计算相对位姿，每个P3P算法有4个解，再根据解出的相对位姿将所有发光器重新投影到图像中，计算匹配点对的个数和误差，然后对所有组合结果进行排序，优先选择匹配数量最多的结果，如果匹配数量一样，选择误差小的结果。

通常的，暴力匹配的组合数量是巨大的，整体耗时较大，会降低定位效率。假设目标光斑集合中有m个光斑，手柄有n个发光器，则组合数计算公式为

为了解决该问题，本公开实施例提供一种高效的匹配方式，将相邻光斑拼接为平面图形进行匹配，经实验测得，以平面三角形为例，相邻光斑的组合数量通常小于500，小于暴力匹配的组合数量，能够有效提高匹配的效率和精度。

参见图15，为本公开实施例中2D光斑与3D发光器匹配方法流程图，主要包括以下几步：

S9024：针对目标光斑集合中的任意一个目标光斑，从目标光斑集合中筛选出与目标光斑相邻的第一指定数量的候选光斑，并将目标光斑与第一指定数量的候选光斑进行连接，得到平面图形。

以目标光斑集合中的任意一个目标光斑为例，候选光斑的确定过程包括：根据目标光斑的2D坐标以及目标光斑集合中其他光斑的2D坐标，得到目标光斑与其他光斑之间的距离，将目标光斑与其他斑之间的距离按照从小到大的顺序进行排序，将与前第一指定数量的距离对应的其他光斑确定为候选光斑，其中，可通过公式6得到所述目标光斑与任意一个其他光斑之间的距离：

其中，d为目标光斑与任意一个其他光斑之间的距离，x₁为目标光斑在图像中的横坐标，y₁为目标光斑在图像中的纵坐标，x₂为其他光斑在图像中的横坐标，y₂为其他光斑在图像中的纵坐标。

在本公开的某一些实施例中，第一指定数量为2，但是并不对本公开的实施例中的第一指定数量进行限定，其可根据实际情况来进行设置。

其中，第一指定数量与平面图形是相对应的，若平面图形是三角形，则第一指定数量为2，若平面图形是四面形，则第一指定数量为3。

以平面图形为三角形为例，如图16所示，为将目标光斑集合中的各相邻光斑进行连接得到多个三角形。

S9025：根据优化后的3D空间结构上实际相邻的发光器集合，将平面图形中的各光斑和实际相邻的发光器集合中的各发光器分别进行匹配，得到各相邻光斑匹配对。

通过手柄的设计图纸，可以得到手柄上各发光器的第一标识以及各发光器间的实际相邻关系，获得实际相邻的发光器集合。因此，可以以平面图形为单位，对平面图形中的各光斑与实际相邻的发光器集合进行快速匹配，得到各相邻光斑匹配对。其中，每个相邻光斑匹配对包含光斑的图像光斑索引和与光斑相匹配的发光器的第一标识。

如图17所示，为平面图形中的各光斑与实际相邻的发光器集合的快速匹配过程，主要包括以下几步：

S9025_1：将平面图形中的各光斑按照图像光斑索引从小到大的顺序进行排列，得到光斑列表。

S9025_2：按照指定顺序对实际相邻的发光器集合中的各发光器进行遍历，针对当前遍历的发光器，以发光器作为初始位置，并将与发光器实际相邻的其他发光器按照指定顺序进行排序，得到排序列表。

其中，本实施例中的指定顺序包括顺时针方向顺序和逆时针方向顺序，但是并不对本实施例中的指定顺序进行限定，本实施例中的指定顺序可根据实际情况来进行设置。

例如，以平面图形为三角形为例，实际相邻的发光器集合中，一组发光器包括发光器1、发光器2和发光器3。若本实施中的指定顺序为逆时针方向，则对实际相邻的发光器集合中各发光器的遍历顺序依次为发光器3、发光器2和发光器1，当遍历到发光器3时，对应的排序列表为：发光器3、发光器2、发光器1；当遍历到发光器2时，对应的排序列表为发光器2、发光器1、发光器3；当遍历到发光器1时，对应的排序列表为发光器1、发光器3、发光器2。

S9025_3：针对排序列表中的任意一个发光器，将发光器的第一标识与光斑列表中位置与发光器在排序列表中的位置相同的光斑的图像光斑索引添加到同一相邻光斑匹配对中。

例如，光斑列表中的顺序依序为：光斑A、光斑B、光斑C，以排序列表为：发光器3、发光器2、发光器1为例进行说明，得到的相邻光斑匹配度分别为：光斑A-发光器3，光斑B-发光器2，光斑C-发光器1。

S9025_4：判断实际相邻的发光器集合中是否存在未进行遍历的发光器，若是，则返回S9025_2，若否，则结束。

通过遍历实际相邻的发光器集合中的发光器，可以保证每个发光器都存在对应的图像光斑索引，获得基于相邻的各光斑的匹配结果。

为了进一步提高匹配的效率，在本公开的某一些实施例中，获得各相邻光斑匹配对之后，可以对相邻光斑匹配对进行筛选，如图18所示，为对相邻光斑匹配对进行筛选的流程示意图，包括以下步骤：

S9025_5：针对任意一组相邻光斑匹配对对应的手柄的多个预测位姿，分别得到该相邻光斑匹配对相对应的手柄的预测重力方向向量。

在实际应用中，根据任意一组相邻光斑匹配对对应的手柄的多个预测位姿，通过预设的IMU积分算法，可以求解出该相邻光斑匹配对相对应的手柄的预测重力方向向量。

S9025_6：根据拍摄指定图像时虚拟显示设备的当前位置，得到手柄的实际重力方向向量。

在实际应用中，根据拍摄指定图像时虚拟显示设备的6Dof位姿，可以得到手柄的实际重力方向向量。

S9025_7：通过与各相邻光斑匹配对相对应的预测重力方向向量和实际方向向量，确定需要删除的相邻光斑匹配对，并将需要删除的相邻光斑匹配对进行删除。

在实际应用中，针对任意一组相邻光斑匹配对，根据该相邻光斑匹配对对应的预测重力方向向量与实际重力方向向量，得到重力方向向量夹角；若重力方向向量夹角大于指定夹角，则确定该相邻光斑匹配对为需要删除的相邻光斑匹配对。其中，可通过公式7得到重力方向向量夹角：

其中，θ为重力方向向量夹角，为预测重力方向向量，为实际重力方向向量。

例如，若指定夹角为10°，若第一相邻光斑匹配对对应的重力方向向量夹角为4°，则确定第一相邻光斑匹配对不需要进行删除，若第二相邻光斑匹配对对应的重力方向向量夹角为12°，则确定第二相邻光斑匹配对需要进行删除。

需要说明的是：本实施例中的指定夹角可根据实际情况来进行设置，本实施例在此并不对指定夹角的具体值进行限定。

S9026：针对任意一组相邻光斑匹配对，根据相邻光斑匹配对中各光斑的2D坐标和各发光器的3D坐标，确定相邻光斑匹配对对应的手柄的多个预测位姿。

以平面图形为三角形为例，每一组相邻光斑匹配对包含三个光斑的匹配结果，将这组相邻光斑匹配对中各光斑的2D坐标和各发光器的3D坐标输入至p3p算法中，可以得到这组相邻光斑匹配对对应的手柄的多个预测位姿，包括旋转矩阵和平移向量。

其中，p3p算法可以输出四个结果，因此，一组相邻光斑匹配对对应四个预测位姿。

S9027：针对任意一个预测位姿，根据预测位姿将各发光器投影到指定图像中，获得各投影光斑，并根据各投影光斑，对指定图像中除平面图形包含的各光斑之外的其他光斑与手柄上的各发光器进行匹配，得到各其他光斑匹配对。

在同一时刻上，虚拟显示设备上的多目相机可以同步采集多张手柄图像，其中，指定图像为当前时刻获取的各目标手柄图像中的至少一个图像，该指定图像可为一个，也可为多个，指定图像的数量以及具体使用哪一张图像可根据实际情况来进行设置。

虚拟显示设备在出厂时，多目相机的内参数已经标定好了，或者，在定位前，可以采用棋盘格标定法进行预先标定，再结合预测位姿，可以将3D空间中的各发光器投影到2D指定图像中，获得各投影光斑。由于已经确定了平面图形包含的各光斑匹配的发光器，因此，只需要在确定指定图像中除平面图形包含的各光斑之外的其他光斑匹配的发光器即可。

如图19所示，为确定其他光斑匹配对的流程示意图，包括以下步骤：

S9027_1：针对指定图像中任意一个其他光斑，根据其他光斑的2D坐标和各投影光斑的2D坐标，得到其他光斑分别与各投影光斑之间的距离。

其中，其他光斑与投影光斑之间的距离可通过公式6中的距离公式来确定，本实施例在此不再进行赘述。

S9027_2：确定各距离中的最短距离是否小于指定距离，若是，则执行S9027_3，若否，则结束。

S9027_3：将其他光斑的图像光斑索引以及与最短距离对应的投影光斑对应的发光器的第一标识添加到同一光斑匹配对，并将光斑匹配对确定为其他光斑匹配对。

其中，每个其它光斑匹配对包含其他光斑的图像光斑索引和与其它光斑匹配的投影光斑对应的发光器的第一标识。

例如，指定图像中包括其他光斑C和其他光斑D，若其他光斑C与第一投影光斑之间的距离为m，与第二投影光斑之间的距离为n，第一投影光斑为发光器1的投影光斑，第二投影光斑为发光器2的投影光斑。若m>n，则确定n是最短距离，若n小于指定距离，则确定一个其他光斑匹配对为(C，2)。若其他光斑D与第一投影光斑之间的距离为p，与第二投影光斑之间的距离为q，若p<q，则确定p是最短距离，若p大于指定距离，则确定其他光斑D不存在对应的发光器。

需要说明的是：本实施例中的指定距离可根据实际情况来进行设置，本实施例在此并不对指定距离进行限定。

S9028：根据各其他光斑匹配对的数量对各光斑匹配对进行筛选，并根据筛选后的各光斑匹配对的数量，得到各目标光斑匹配对，并将目标光斑匹配对中发光器的第一标识确定为图像光斑索引对应的目标光斑的第二标识。

其中，光斑匹配对包括相邻光斑匹配对和其他光斑匹配对，每个匹配对表征3D发光器与2D光斑间的对应关系。

在本公开的某一些实施例中，针对任意一个手柄的预测位姿，若该预测位姿对应的其他光斑匹配对的数量小于第二指定数量，则删除预测位姿以及与预测位姿相对应的其他光斑匹配对。

在本公开的某一些实施例中，针对任意一个相邻光斑匹配对，若该相邻光斑匹配对应的多个预测位姿均已被删除，则删除该相邻光斑匹配对。

例如，每个相邻光斑匹配存在对应的4个预测位姿，若任意一个相邻光斑匹配对对应的4个预测位姿均已经被删除，则将该相邻光斑匹配对进行删除。

需要说明的是：本实施例中的第二指定数量可根据实际情况来进行设置，本实施例在此并不对第二指定数量的具体值进行限定。

对各光斑匹配对进行筛选后，统计剔除后的各光斑匹配对的数量，针对存在同一图像光斑索引的各光斑匹配对，将各光斑匹配对中数量最多的光斑匹配对确定为与图像光斑索引相对应的目标光斑匹配对，并将目标光斑匹配对中发光器的第一标识确定为图像光斑索引对应的目标光斑的第二标识。

例如：剔除后的各光斑匹配对分别为：(A，1)、(A，2)、(A，2)、(A，2)、(A，1)、(B，3)、(B，1)、(B，3)、(B，3)、(B，1)，从剔除后的各光斑匹配对中可以得到光斑匹配对(A，1)的数量为2，光斑匹配对(A，2)的数量为3，光斑匹配对(B，1)的数量为2，光斑匹配对(B，3)的数量为3，则确定图像光斑索引为A的目标光斑匹配对为(A，2)，此时，图像光斑索引为A的目标光斑的第二标识为2，确定图像光斑索引为B的目标光斑匹配对为(B，3)，此时，图像光斑索引为B的光斑的第二标识为3。

在本公开实施例的3D发光器与2D光斑的匹配过程中，通过将相邻的光斑连接为平面图形，然后以平面图形为单位，将各光斑与实际相邻的发光器集合进行快速匹配和位姿预测，获得各光斑匹配对，有效减少了匹配过程中的组合数量，且通过对各光斑匹配对进行筛选，提高了匹配精度，从而提高了定位效率和准确性。

S9029：根据各目标光斑匹配对中发光器的3D坐标与目标光斑的2D坐标，结合IMU采集的观测数据，初始化手柄与虚拟显示设备间相对位姿。

获得各目标光斑匹配对后，便得到了3D发光器与2D光斑的对应关系，从而可以利用各目标光斑匹配对中发光器的3D坐标和目标光斑的2D坐标，采用PNP算法，对齐手柄与虚拟显示设备间的坐标系，获得基于视觉计算的手柄与虚拟显示设备间6Dof位姿，并对对齐后手柄上IMU采集的观测数据进行预积分，以利用惯导定位结果优化手柄与虚拟显示设备间的相对6DOF位姿，完成手柄与虚拟显示设备间相对位姿的初始化过程。

S903：针对相机采集的非首帧目标手柄图像，根据历史目标手柄图像对应的手柄与虚拟显示设备间的相对位姿，预测手柄与虚拟显示设备间的当前相对位姿，结合IMU连续采集的观测数据，确定当前手柄与虚拟显示设备间的目标相对位姿。

实时估计手柄与虚拟显示设备间相对位姿的过程中，当已经初始化手柄与虚拟显示设备间的相对位姿时，针对相机采集的非首帧目标手柄图像，根据初始化结果，预测当前手柄与虚拟显示设备间的相对位姿。

在本公开的某一些实施例中，根据首帧目标手柄图像对应的手柄与虚拟显示设备间的相对位姿，预测第二帧目标手柄图像对应的手柄与虚拟显示设备间的相对位姿，再根据首帧目标手柄图像和第二帧目标手柄图像对应的手柄与虚拟显示设备间的相对位姿，预测第三帧目标手柄图像对应的手柄与虚拟显示设备间的相对位姿，依此类推。

本公开实施例中，位姿估计过程中，通过根据历史目标手柄图像对应的手柄与虚拟显示设备间的相对位姿进行预测，保证了连续多帧目标手柄图像间相对位姿的平滑性，这样，在实际交互过程中，使用手柄控制虚拟显示设备显示的画面时，保证了虚拟显示画面的流畅性，提升了用户的沉浸式体验。

为进一步提高相对位姿的准确性，可以利用IMU连续采集的观测数据对预测的当前相对位姿进行优化，从而实时获得当前手柄与虚拟显示设备间准确的目标相对位姿。

目标相对位姿的确定过程参见图20，主要包括以下几步：

S9031：根据手柄上各发光器在优化后3D空间结构中的3D坐标，以及预测得到的手柄与虚拟显示设备间的当前相对位姿，确定当前各发光器在当前目标手柄图像的局部范围。

位姿估计过程中，通过预测得到了手柄与虚拟显示设备间的当前相对位姿，根据当前相对位姿，可以确定3D空间中手柄上各发光器投影到当前目标手柄图像中的光斑的大概位置，从而减小发光器检测的图像范围，提高检测效率。

S9032：在当前目标手柄图像的局部范围内提取当前各发光器的当前光斑，并根据最近邻匹配，确定各当前光斑对应的发光器。

由于手柄与虚拟显示设备间的当前相对位姿是已知的，可以预测出3D空间结构优化后手柄上各发光器，投影到当前目标手柄图像中的当前光斑的大概位置。因此，位姿估计过程中，针对每个发光器，可采用最近邻匹配方法，将当前目标手柄图像内提取的各当前光斑中与投影光斑最近的一个光斑，作为该发光器匹配的当前光斑。

S9033：根据存在对应关系的当前光斑的2D坐标与3D发光器的3D坐标，以及观测数据和当前目标手柄图像同步时IMU与相机的位姿，建立重投影约束方程。

其中，重投影约束方程如下：

在公式8中，分别表示IMU采集的第j帧观测数据对应的IMU在世界坐标系下的旋转矩阵和平移向量，分别表示IMU采集的第j帧观测数据对应的虚拟显示设备上的相机在世界坐标系下的旋转矩阵和平移向量，分别表示IMU在手柄坐标系下的旋转矩阵和平移向量，表示手柄上第一标识为m的发光器的3D坐标，p_m表示第二标识为m的当前光斑在当前目标手柄图像上的2D坐标，pro j(·)表示相机的投影方程。其中，为IMU与相机同步时IMU在世界坐标系下的位姿，为IMU与相机同步时相机在世界坐标系下的位姿，为IMU与相机同步时IMU与手柄间的相对位姿。

S9034：根据连续两帧观测数据对应的IMU的位姿和手柄的运动速度，建立预积分约束方程。

其中，预积分约束方程如下：

在公式9中，表示IMU采集的第j+1帧观测数据对应的IMU在世界坐标系下的平移向量，分别表示第j帧和第j+1帧观测数据对应的IMU在世界坐标系下的运动速度，可通过分别对第j帧和第j+1帧观测数据中加速度进行积分得到，g^W表示重力加速度，Δt表示IMU采集的第j帧和第j+1帧观测数据之间的时间间隔，LOG(·)表示四元数组对应的李群(Special Orthometri，SO3)上的对数函数，分别表示IMU的平移向量、运动速度和旋转矩阵的预积分变量。

S9035：联合预积分约束方程和重投影约束方程，求解出当前目标手柄图像对应的IMU的位姿、相机的位姿、以及IMU与手柄的相对位姿。

其中，预积分约束方程和重投影约束方程联合后的公式表示如下：

在公式10中，j表示IMU采集的观测数据的帧数，f_j表示预积分约束方程，g_j表示重投影约束方程。

通过求解公式10，可以得到当前目标手柄图像对应的IMU在世界坐标系下的位姿相机(即虚拟显示设备)在世界坐标系下的位姿以及IMU与手柄的相对位姿

S9036：根据IMU与手柄的相对位姿，以及当前IMU的位姿和相机的位姿，得到当前手柄与虚拟显示设备间的目标相对位姿。

其中，视觉惯导联合优化后手柄在世界坐标系下的位姿的公式表示如下：

在公式8中，表示当前手柄在世界坐标系下的位姿，表示IMU和手柄的相对位姿。

由于和均在同一世界坐标系下，可以得到当前手柄与虚拟显示设备间的目标相对位姿，从而通过操作手柄控制虚拟显示设备显示的画面。

需要说明的是，由相机位于虚拟显示设备上，因此，相机的位姿可以表示虚拟显示设备的位姿。而虚拟显示设备上一般由多个相机，各相机时同步采集的，本公开实施例中，可使用一个相机采集的目标手柄图像进行位姿估计。

根据一些实施例的估计手柄位姿的方法中，利用手柄上的IMU的多个发光器，以及虚拟显示设备上的多目相机，实现视觉惯导联合优化手柄与虚拟显示设备间的相对位姿。在位姿估计前，通过对不同位置、角度采集的多帧初始手柄图像进行发光器的标注，从而根据各发光器的标注结果优化发光器的3D空间结构，提高后续相对位姿计算的准确性。位姿估计过程中，基于优化后的3D空间结构以及相机采集的首帧目标手柄图像，初始化手柄与虚拟显示设备间的相对位姿，初始化完成后，针对相机采集的非首帧目标手柄图像，根据历史目标手柄图像对应的手柄与虚拟显示设备间的相对位姿，预测当前手柄与虚拟显示设备间的相对位姿，再结合IMU的观测数据，实现视觉惯导对相对位姿的联合优化，从而得到平稳、准确的当前手柄与虚拟显示设备间的目标相对位姿。

基于相同的技术构思，本公开实施例提供一种虚拟显示设备，该虚拟显示设备可执行上述检测手柄上发光器的方法，且能达到相同的技术效果。

参见图21，该虚拟显示设备包括处理器2101、存储器2102、显示屏2103、通信接口2104和多目相机2105，所述显示屏2103用于显示画面，所述虚拟显示设备通过所述通信接口2104与手柄通信，所述手柄用于控制所述显示屏2103显示的画面，所述多目相机2105的类型与所述手柄上多个发光器的发光类型相匹配；

所述通信接口2104、所述多目相机2105、所述显示屏2103、所述存储器2102和所述处理器2101通过总线2106连接，所述存储器2102存储有计算机程序，所述处理器2101根据所述计算机程序，执行以下操作：

针对所述多目相机2105采集的首帧目标手柄图像，根据所述目标手柄图像获得所述各发光器的目标光斑集合，并根据所述目标光斑集合、所述IMU同步采集的观测数据和所述手柄上各发光器优化后的3D空间结构，初始化所述手柄与所述虚拟显示设备间的相对位姿；其中，所述3D空间结构是根据不同位置角度采集的多帧初始手柄图像中各发光器的标注结果优化的；

针对所述多目相机2105采集的非首帧目标手柄图像，根据历史目标手柄图像对应的相对位姿，预测所述手柄与所述虚拟显示设备间的当前相对位姿，结合所述IMU连续采集的观测数据，确定当前所述手柄与所述虚拟显示设备间的目标相对位姿。

在本公开的某一些实施例中，所述处理器2101通过以下方式优化所述手柄上各发光器的3D空间结构：

在本公开的某一些实施例中，得到第一优化后的3D空间结构之后，所述处理器2101还执行：

根据优化后3D空间结构对应的所述手柄上各发光器组成的第一3D点云，以及优化前3D空间结构对应的所述手柄上各发光器组成的第二3D点云，确定优化前后所述第一3D点云和所述第二3D点云间的转换位姿；

在本公开的某一些实施例中，所述重投影误差方程为：

在本公开的某一些实施例中，所述处理器2101根据所述目标手柄图像获得所述各发光器的目标光斑集合，具体操作为：

在本公开的某一些实施例中，所述处理器2101根据所述当前环境亮度，确定至少两个二值化方法各自的二值化阈值，并根据各二值化阈值对所述可见光手柄图像进行二值化处理，获得二值化手柄图像，具体操作为：

在本公开的某一些实施例中，所述处理器2101根据比较结果，分别确定所述至少两个二值化阈值各自对应的权重，具体操作为：

在本公开的某一些实施例中，所述处理器2101在所述二值化手柄图像的全局范围内进行光斑检测，获得各发光器的目标光斑集合，具体操作为：

在本公开的某一些实施例中，所述处理器2101根据所述轮廓对比信息剔除所述候选轮廓集中异常轮廓的方式包含以下一种或多种：

在本公开的某一些实施例中，所述处理器2101根据所述欧式距离和所述最小曼哈顿距离，剔除异常轮廓，具体操作为：

在本公开的某一些实施例中，所述处理器2101根据面积最大候选轮廓和面积次大候选轮廓内像素点间的数量关系，剔除异常轮廓，具体操作为：

在本公开的某一些实施例中，所述处理器2101根据所述距离，剔除离群的异常轮廓，具体操作为：

在本公开的某一些实施例中，所述处理器2101根据所述先验轮廓形状信息剔除所述候选轮廓集中异常轮廓的方式包含以下一种或多种：

在本公开的某一些实施例中，所述处理器2101根据所述目标光斑集合、所述IMU同步采集的观测数据和所述手柄上各发光器优化后的3D空间结构，初始化所述手柄与所述虚拟显示设备间的相对位姿，具体操作为：

在本公开的某一些实施例中，所述处理器2101将所述优化后的3D空间结构上各发光器与所述目标光斑集合中的目标光斑进行匹配，建立3D发光器与2D光斑间的对应关系，具体操作为：

在本公开的某一些实施例中，所述处理器2101从所述目标光斑集合中筛选出与所述目标光斑相邻的第一指定数量的候选光斑，具体操作为：

在本公开的某一些实施例中，所述处理器2101根据所述优化后的3D空间结构上实际相邻的发光器集合，将所述平面图形中的各光斑和所述实际相邻的发光器集合中的各发光器分别进行匹配，得到各相邻光斑匹配对，具体操作为：

在本公开的某一些实施例中，根据所述预测位姿将所述各发光器投影到指定图像中之前，所述处理器2101还执行：

在本公开的某一些实施例中，所述处理器2101通过与各相邻光斑匹配对相对应的预测重力方向向量和所述实际方向向量，确定需要删除的相邻光斑匹配对，具体操作为：

在本公开的某一些实施例中，所述处理器2101根据所述各投影光斑，对所述指定图像中除所述平面图形包含的各光斑之外的其他光斑与所述手柄上的各发光器进行匹配，得到各其他光斑匹配对，具体操作为：

在本公开的某一些实施例中，所述处理器2101根据所述各其他光斑匹配对的数量对各光斑匹配对进行筛选，并根据筛选后的各光斑匹配对的数量，得到各目标光斑匹配对，具体操作为：

统计剔除后剩余的各光斑匹配对的数量；

在本公开的某一些实施例中，所述处理器2101根据预测的所述手柄与所述虚拟显示设备间的当前相对位姿，以及所述IMU连续采集的观测数据，确定当前所述手柄与所述虚拟显示设备间的目标相对位姿，具体操作为；

在本公开的某一些实施例中，所述预积分约束方程为：

所述重投影约束方程为：

需要说明的是，图21仅是一种示例，给出虚拟显示设备实现本公开提供的估计手柄位姿的方法步骤所必要的硬件。未示出的，该虚拟显示设备还包括扬声器、听筒、镜片、电源接口等常规硬件。

本公开实施例图21中涉及的处理器可以是中央处理器(Central Processing Unit，CPU)，通用处理器，图形处理器(Graphics Processing Unit，GPU)数字信号处理器(Digital Signal Processor，DSP)，专用集成电路(Application-specific Integrated Circuit，ASIC)，现场可编程门阵列(Field Programmable Gate Array，FPGA)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。

本公开实施例还提供一种计算机可读存储介质，用于存储一些指令，这些指令被执行时，可以完成前述实施例中估计手柄位姿的方法。

本公开实施例还提供一种计算机程序产品，用于存储计算机程序，该计算机程序用于执行前述实施例中估计手柄位姿的方法。

本领域内的技术人员应明白，本公开的实施例可提供为方法、装置、或计算机程序产品。因此，本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本公开是参照根据本公开的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本公开进行各种改动和变型而不脱离本公开的精神和范围。这样，倘若本公开的这些修改和变型属于本公开权利要求及其等同技术的范围之内，则本公开也意图包含这些改动和变型在内。

Claims

一种估计手柄位姿的方法，应用于虚拟显示设备，所述虚拟显示设备与手柄进行交互，所述手柄用于控制虚拟显示设备显示的画面，所述手柄上安装有IMU和多个发光器，所述虚拟显示设备安装有与所述发光器类型相匹配的多目相机，所述方法包括：

针对所述多目相机各自采集的首帧目标手柄图像，根据所述目标手柄图像获得各发光器的目标光斑集合，并根据所述目标光斑集合、所述IMU同步采集的观测数据和所述手柄上各发光器优化后的3D空间结构，初始化所述手柄与所述虚拟显示设备间的相对位姿；其中，所述3D空间结构是根据不同位置角度采集的多帧初始手柄图像中各发光器的标注结果优化的；

针对所述多目相机各自采集的非首帧目标手柄图像，根据历史目标手柄图像对应的相对位姿，预测所述手柄与所述虚拟显示设备间的当前相对位姿，结合所述IMU连续采集的观测数据，确定当前所述手柄与所述虚拟显示设备间的目标相对位姿。
如权利要求1所述的方法，通过以下方式优化所述手柄上各发光器的3D空间结构：

根据优化前所述各发光器的3D空间结构，获得每个发光器的3D坐标和第一标识；

根据各发光器的第一标识，对不同位置角度采集的多帧初始手柄图像上预先标注的发光器，获得每个发光器在相应的初始手柄图像上形成的光斑的2D坐标和第二标识；

针对各帧所述初始手柄图像，根据所述第一标识和所述第二标识相同的发光器的3D坐标和光斑的2D坐标，以及相应帧对应的所述IMU的观测数据，确定所述手柄与采集相机间的相对位姿；

构建重投影误差方程，根据所述重投影误差方程同时优化各个相对位姿和各发光器的3D坐标，得到第一次优化后的3D空间结构。
如权利要求2所述的方法，优化所述手柄上各发光器的3D空间结构的方式还包括：

得到第一次优化后的3D空间结构之后，根据优化后3D空间结构对应的所述手柄上各发光器组成的第一3D点云，以及优化前3D空间结构对应的所述手柄上各发光器组成的第二3D点云，确定优化前后所述第一3D点云和所述第二3D点云间的转换位姿；

根据所述转换位姿，重新确定所述手柄上各发光器的3D坐标，得到第二次优化后的3D空间结构。
如权利要求2或3所述的方法，所述重投影误差方程为：

其中，K_n表示第n号相机的投影参数，分别表示所述手柄与第0号相机间的旋转矩阵和平移向量，分别表示所述第n号相机与第0号相机间的旋转矩阵和平移向量，表示第一标识为m的发光器在所述手柄上的3D坐标，p_m,n表示第二标识为m的光斑的2D坐标。
如权利要求1所述的方法，所述根据所述目标手柄图像获得所述各发光器的目标光斑集合，包括：

获取当前环境亮度，根据所述当前环境亮度，确定至少两个二值化方法各自的二值化阈值，并根据各二值化阈值对所述目标手柄图像进行二值化处理，获得二值化手柄图像；

在所述二值化手柄图像的全局范围内进行轮廓检测，得到所述各发光器的候选轮廓集，其中，每个轮廓表征一个光斑；

分别根据先验轮廓形状信息以及轮廓对比信息，剔除所述候选轮廓集中的异常轮廓，得到所述各发光器的目标光斑集合。
如权利要求5所述的方法，所述根据所述当前环境亮度，确定至少两个二值化方法各自的二值化阈值，并根据各二值化阈值对所述目标手柄图像进行二值化处理，获得二值化手柄图像，包括：

剔除对所述目标手柄图像灰度化处理后的灰度手柄图像中灰度值低于预设灰度阈值的像素点，并根据像素点剔除后的灰度手柄图像的新直方图，分别确定所述至少两个二值化方法各自的二值化阈值；

将所述当前环境亮度与预设亮度阈值进行比较，根据比较结果，分别确定所述至少两个二值化阈值各自对应的权重；

根据各二值化阈值以及相应的权重，加权得到目标二值化阈值；

根据所述目标二值化阈值，对所述灰度手柄图像进行二值化处理，获得二值化手柄图像。
如权利要求6所述的方法，所述根据比较结果，分别确定所述至少两个二值化阈值各自对应的权重，包括：

当所述当前环境亮度大于所述预设亮度阈值时，设置第一二值化方法计算的第一二值化阈值对应的第一权重，大于第二二值化方法计算的第二二值化阈值对应的第二权重；

当所述当前环境亮度小于等于所述预设亮度阈值时，设置第一二值化方法计算的第一二值化阈值对应的第一权重，小于第二二值化方法计算的第二二值化阈值对应的第二权重；

其中，所述第一二值化方法用于求解包含单峰的直方图分布，所述第二二值化方法用于求解包含双峰的直方图分布。
如权利要求5所述的方法，根据所述轮廓对比信息剔除所述候选轮廓集中异常轮廓的方式包含以下一种或多种：

针对所述候选轮廓集中的每两个候选轮廓，分别确定两个候选轮廓的外接矩形中心点之间的欧式距离，以及两个候选轮廓的边缘的最小曼哈顿距离，并根据所述欧式距离和所述最小曼哈顿距离，剔除异常轮廓；

根据候选轮廓的面积对所述候选轮廓集中的全部候选轮廓进行排顺序，并根据面积最大候选轮廓和面积次大候选轮廓内像素点间的数量关系，剔除异常轮廓；

针对所述候选轮廓集中的每个候选轮廓，计算所述候选轮廓与最近邻候选轮廓间的距离，并根据所述距离，剔除离群的异常轮廓；

计算所述候选轮廓集中每个候选轮廓的亮度均值，并根据各亮度均值，剔除异常轮廓。
如权利要求8所述的方法，所述根据所述欧式距离和所述最小曼哈顿距离，剔除异常轮廓，包括：

当所述欧式距离和所述最小曼哈顿距离中的至少一个小于预设距离阈值时，则分别计算两个候选轮廓的面积；

若两个候选轮廓的面积均小于预设面积阈值，则同时剔除两个候选轮廓；

若两个候选轮廓的面积中至少一个不小于所述预设面积阈值，则分别计算两个候选轮廓的亮度均值，剔除小亮度均值对应的一个候选轮廓。
如权利要求8所述的方法，所述根据面积最大候选轮廓和面积次大候选轮廓内像素点间的数量关系，剔除异常轮廓，包括：

若所述面积最大候选轮廓和面积次大候选轮廓内像素点数量均超过预设像素点数量阈值，则计算所述面积最大候选轮廓与所述面积次大候选轮廓内像素点数量间的倍数；

若所述倍数大于预设倍数阈值，则剔除所述面积最大候选轮廓。
如权利要求8所述的方法，所述根据所述距离，剔除离群的异常轮廓，包括：

根据所述候选轮廓的边长以及全部候选轮廓的边长中位数，确定自适应离群距离；

若所述全部候选轮廓的数量大于预设数量阈值，且所述距离大于所述自适应离群距离，则剔除所述候选轮廓。
如权利要求5所述的方法，根据所述先验轮廓形状信息剔除所述候选轮廓集中异常轮廓的方式包含以下一种或多种：

根据所述候选轮廓的面积与所述候选轮廓的外接矩形的长宽比例关系，剔除所述长宽比例超出第一预设比例阈值的候选轮廓；

剔除所述候选轮廓与所述候选轮廓的外接矩形的面积占比小于预设占比阈值的候选轮廓；

计算所述候选轮廓的灰度质心点与所述候选轮廓的外接矩形的中心点，分别在横轴与纵轴上的距离，并分别计算每个距离占所述候选轮廓的边长的比例，若两个比例中的至少一个超过第二预设比例阈值，则剔除所述候选轮廓；

根据所述候选轮廓包含的像素点总数以及所述候选轮廓的边长，确定所述候选轮廓的圆度，若所述圆度低于预设圆度阈值，则剔除所述候选轮廓；

计算所述候选轮廓的亮度均值，若所述亮度均值小于预设亮度阈值，则剔除所述候选轮廓；

确定所述候选区域的外接矩形的预设外围区域的亮度均值，以及所述候选轮廓的亮度均值，若两个亮度均值之间的亮度差异小于预设差值，则剔除所述候选轮廓。
如权利要求1所述的方法，所述根据所述目标光斑集合、所述IMU同步采集的观测数据和所述手柄上各发光器优化后的3D空间结构，初始化所述手柄与所述虚拟显示设备间的相对位姿，包括：

将所述优化后的3D空间结构上各发光器与所述目标光斑集合中的目标光斑进行匹配，建立3D发光器与2D光斑间的对应关系；

根据存在对应关系的发光器的3D坐标和光斑的2D坐标，以及所述IMU同步采集的观测数据，初始化所述手柄与所述虚拟显示设备间的相对位姿。
如权利要求13所述的方法，所述将所述优化后的3D空间结构上各发光器与所述目标光斑集合中的目标光斑进行匹配，建立3D发光器与2D光斑间的对应关系，包括：

针对所述目标光斑集合中的任意一个目标光斑，从所述目标光斑集合中筛选出与所述目标光斑相邻的第一指定数量的候选光斑，并将所述目标光斑与所述第一指定数量的候选光斑进行连接，得到平面图形；

根据所述优化后的3D空间结构上实际相邻的发光器集合，将所述平面图形中的各光斑和所述实际相邻的发光器集合中的各发光器分别进行匹配，得到各相邻光斑匹配对，其中，每个相邻光斑匹配对包含所述光斑的图像光斑索引和与所述光斑相匹配的发光器的第一标识；

针对任意一组相邻光斑匹配对，根据所述相邻光斑匹配对中各光斑的2D坐标和所述各发光器的3D坐标，确定所述相邻光斑匹配对对应的所述手柄的多个预测位姿；

针对任意一个预测位姿，根据所述预测位姿将所述各发光器投影到指定图像中，获得各投影光斑，并根据所述各投影光斑，对所述指定图像中除所述平面图形包含的各光斑之外的其他光斑与所述手柄上的各发光器进行匹配，得到各其他光斑匹配对，其中，每个其它光斑匹配对包含所述其他光斑的图像光斑索引和与所述其它光斑匹配的投影光斑对应的发光器的第一标识；

根据所述各其他光斑匹配对的数量对各光斑匹配对进行筛选，并根据筛选后的各光斑匹配对的数量，得到各目标光斑匹配对，并将所述目标光斑匹配对中发光器的第一标识确定为所述图像光斑索引对应的目标光斑的第二标识，其中，所述光斑匹配对包括所述相邻光斑匹配对和所述其他光斑匹配对，每个匹配对表征3D发光器与2D光斑间的对应关系。
如权利要求14所述的方法，所述从所述目标光斑集合中筛选出与所述目标光斑相邻的第一指定数量的候选光斑，包括：

根据所述目标光斑的2D坐标以及所述目标光斑集合中其他光斑的2D坐标，得到所述目标光斑与所述其他光斑之间的距离；

按照所述目标光斑与所述其他光斑之间的距离从小到大的顺序，选择前第一指定数量的距离对应的其他光斑作为所述候选光斑。
如权利要求14所述的方法，所述根据所述优化后的3D空间结构上实际相邻的发光器集合，将所述平面图形中的各光斑和所述实际相邻的发光器集合中的各发光器分别进行匹配，得到各相邻光斑匹配对，包括：

将所述平面图形中的各光斑按照图像光斑索引从小到大的顺序进行排列，得到光斑列表；

按照指定顺序对所述实际相邻的发光器集合中的各发光器进行遍历，针对当前遍历的发光器，以所述发光器作为初始位置，并将与所述发光器实际相邻的其他发光器按照指定顺序进行排序，得到排序列表；

针对所述排序列表中的任意一个发光器，将所述发光器的第一标识与所述光斑列表中位置与所述发光器在所述排序列表中的位置相同的光斑的图像光斑索引添加到同一相邻光斑匹配对中；

判断所述实际相邻的发光器集合中是否存在未进行遍历的发光器；

若是，则返回按照指定顺序对所述实际相邻的发光器集合中的各发光器进行遍历的步骤，直至所述实际相邻的发光器集合中不存在未遍历的发光器。
如权利要求14所述的方法，根据所述预测位姿将所述各发光器投影到指定图像中之前，所述方法还包括：

针对任意一组所述相邻光斑匹配对对应的所述手柄的多个预测位姿，分别得到与所述相邻光斑匹配对相对应的手柄的预测重力方向向量；

根据拍摄所述指定图像时所述虚拟显示设备的当前位置，得到所述手柄的实际重力方向向量；

通过与各相邻光斑匹配对相对应的预测重力方向向量和所述实际重力方向向量，确定需要删除的相邻光斑匹配对，并将所述需要删除的相邻光斑匹配对进行删除。
根据权利要求17所述的方法，所述通过与各相邻光斑匹配对相对应的预测重力方向向量和所述实际重力方向向量，确定需要删除的相邻光斑匹配对，包括：

针对任意一组相邻光斑匹配对，根据与所述相邻光斑匹配对对应的预测重力方向向量与所述实际重力方向向量，得到重力方向向量夹角；

若所述重力方向向量夹角大于指定夹角，则确定所述相邻光斑匹配对为所述需要删除的相邻光斑匹配对。
如权利要求14所述的方法，所述根据所述各投影光斑，对所述指定图像中除所述平面图形包含的各光斑之外的其他光斑与所述手柄上的各发光器进行匹配，得到各其他光斑匹配对，包括：

针对所述指定图像中任意一个其他光斑，根据所述其他光斑的2D坐标和所述各投影光斑的2D坐标，得到所述其他光斑分别与所述各投影光斑之间的距离；

若所述各距离中的最短距离小于指定距离，则将所述其他光斑的图像光斑索引以及与所述最短距离对应的投影光斑对应的发光器的第一标识添加到同一光斑匹配对，并将所述光斑匹配对确定为所述其他光斑匹配对。
如权利要求14所述的方法，所述根据所述各其他光斑匹配对的数量对各光斑匹配对进行筛选，并根据筛选后的各光斑匹配对的数量，得到各目标光斑匹配对，包括：

针对任意一个预测位姿，若所述预测位姿对应的其他光斑匹配对的数量小于第二指定数量，则删除所述预测位姿以及与所述预测位姿相对应的其他光斑匹配对；

针对任意一个相邻光斑匹配对，若与所述相邻光斑匹配对相应的多个预测位姿均已被删除，则删除所述相邻光斑匹配对；

统计剔除后剩余的各光斑匹配对的数量；

针对存在同一图像光斑索引的各光斑匹配对，将所述各光斑匹配对中数量最多的光斑匹配对确定为与所述图像光斑索引相对应的目标光斑匹配对。
如权利要求1所述的方法，根据预测的所述手柄与所述虚拟显示设备间的当前相对位姿，以及所述IMU连续采集的观测数据，确定当前所述手柄与所述虚拟显示设备间的目标相对位姿，包括；

根据所述手柄上各发光器在优化后3D空间结构中的3D坐标，以及预测得到的所述手柄与所述虚拟显示设备间的当前相对位姿，确定当前各发光器在当前目标手柄图像的局部范围；

在所述当前目标手柄图像的局部范围内提取所述当前各发光器的当前光斑，并根据最近邻匹配，确定各当前光斑对应的发光器；

根据存在对应关系的当前光斑的2D坐标与3D发光器的3D坐标，以及所述观测数据和所述当前目标手柄图像同步时所述IMU与所述相机的位姿，建立重投影约束方程；

根据连续两帧观测数据对应的所述IMU的位姿和所述手柄的运动速度，建立预积分约束方程；

联合所述预积分约束方程和所述重投影约束方程，求解出所述当前目标手柄图像对应的所述IMU的位姿、所述相机的位姿、以及所述IMU与所述手柄的相对位姿；

根据所述IMU与所述手柄的相对位姿、所述IMU的位姿和所述相机的位姿，得到当前所述手柄与所述虚拟显示设备间的目标相对位姿。
如权利要求21所述的方法，所述预积分约束方程为：

所述重投影约束方程为：

其中，分别表示所述IMU采集的第j帧观测数据对应的所述IMU在世界坐标系下的旋转矩阵和平移向量，表示所述IMU采集的第j+1帧观测数据对应的所述IMU在所述世界坐标系下的平移向量，分别表示第j帧和第j+1帧观测数据对应的所述IMU在所述世界坐标系下的运动速度，g^W表示重力加速度，Δt表示所述IMU采集的第j帧和第j+1帧观测数据之间的时间间隔，LOG(·)表示四元数组对应的李群SO3上的对数函数，分别表示所述IMU的所述平移向量、所述运动速度和所述旋转矩阵的预积分变量，分别表示所述IMU采集的第j帧观测数据对应的所述虚拟显示设备上的相机在世界坐标系下的旋转矩阵和平移向量，分别表示所述IMU在手柄坐标系下的旋转矩阵和平移向量，表示所述手柄上第一标识为m的发光器的3D坐标，p_m表示所述手柄上第二标识为m当前光斑的2D坐标，pro j(·)表示相机的投影方程。
如权利要求22所述的方法，联合所述预积分约束方程和所述重投影约束方程的结果为：

其中，分别表示所述IMU采集的第j帧观测数据对应的所述IMU在世界坐标系下的旋转矩阵和平移向量，j表示所述IMU采集的观测数据的帧数，f_j表示所述预积分约束方程，g_j表示所述重投影约束方程。
一种虚拟显示设备，包括处理器、存储器、显示屏、通信接口和多目相机，所述显示屏用于显示画面，虚拟显示设备通过所述通信接口与手柄通信，所述手柄用于控制所述显示屏显示的画面，所述多目相机的类型与所述手柄上多个发光器的发光类型相匹配；

所述通信接口、所述多目相机、所述显示屏、所述存储器和所述处理器通过总线连接，所述存储器存储有计算机程序，所述处理器根据所述计算机程序，执行以下操作：

针对所述多目相机各自采集的首帧目标手柄图像，根据所述目标手柄图像获得所述各发光器的目标光斑集合，并根据所述目标光斑集合、所述IMU同步采集的观测数据和所述手柄上各发光器优化后的3D空间结构，初始化所述手柄与所述虚拟显示设备间的相对位姿；其中，所述3D空间结构是根据不同位置角度采集的多帧初始手柄图像中各发光器的标注结果优化的；

针对所述多目相机各自采集的非首帧目标手柄图像，根据历史目标手柄图像对应的所述手柄与所述虚拟显示设备间的相对位姿，预测当前所述手柄与所述虚拟显示设备间的相对位姿，结合所述IMU连续采集的观测数据，确定当前所述手柄与所述虚拟显示设备间的目标相对位姿。