WO2022041596A1

WO2022041596A1 - 一种适用于室内动态环境的视觉slam方法

Info

Publication number: WO2022041596A1
Application number: PCT/CN2020/138581
Authority: WO
Inventors: 陆理文
Original assignee: 同济人工智能研究院(苏州)有限公司
Priority date: 2020-08-31
Filing date: 2020-12-23
Publication date: 2022-03-03
Also published as: CN112132893A; CN112132893B

Abstract

一种适用于室内动态环境的视觉SLAM方法，包括获取环境的彩色图封装成帧，计算动态概率传播结果，根据动态概率剔除动态特征点，保留静态特征点，关键帧判定时若当前帧满足关键帧条件，对该关键帧进行目标检测，根据检测结果对图片做语义分割，确定属于动态物体的区域，更新与关键帧特征点对应地图点的动态概率，输入局部建图线程，更新并提取局部共视图，对关键帧和地图点的位姿进行局部优化，更新本质图进行全局优化。在进行位姿计算和地图构建时，有效融合了环境中的物体类别信息，将目标检测算法与传统视觉SLAM系统相融合，及时剔除属于动态物体的特征点，在动态环境下定位与建图准确率更高，鲁棒性更强。

Description

一种适用于室内动态环境的视觉SLAM方法

技术领域

本发明属于机器人学与计算机视觉技术领域，具体涉及一种适用于室内动态环境的视觉SLAM方法。

背景技术

SLAM(simultaneous localization and mapping)，即时定位与地图构建，或并发建图与定位。机器人在未知环境中从一个未知位置开始移动，在移动过程中根据位置估计和地图进行自身定位，同时在自身定位的基础上建造增量式地图，实现机器人的自主定位和导航。

视觉SLAM技术使搭载相机传感器的主体在没有环境先验信息的情况下，在主体运动过程中完成对环境模型的建立与自身运动状态的估计。在当今的社会生活中，视觉SLAM系统在移动机器人、服务机器人、无人机、虚拟现实和增强现实等领域中获得了广泛运用。

现有经典的视觉SLAM框架主要基于搭载相机传感器的主体是建图环境中唯一的运动物体的假设，默认建图环境中其余物体一直处于静止状态。这样的经典视觉SLAM框架在静态场景下可以获得良好的实验结果，但是当建图场景中包含动态物体信息，如场景中含有人的走动，车的移动时，经典的视觉SLAM框架依然将这些动态物体默认为静止状态，无法将场景中动态物体区域内的特征点及时去除，将动态物体上提取到的特征点也纳入几何约束和图优化约束的条件下，将使SLAM系统出现很大的误差。

发明内容

本发明的目的是提供一种适用于室内动态环境的视觉SLAM方法，及时消除了环境内动态物体对SLAM系统位姿估计的不利影响。

为达到上述目的，本发明采用的技术方案是：

一种适用于室内动态环境的视觉SLAM方法，包括：

S1、获取包括环境的彩色图、深度图，将所获取的彩色图和深度图封装成帧，输入跟踪线程，进行特征提取和匹配，利用匹配关系计算动态概率传播结果，

S2、根据动态概率，剔除当前帧中的动态特征点，保留静态特征点，优化当前帧的位姿，然后进行关键帧判定，

S3、若当前帧满足关键帧条件，对该关键帧进行目标检测，

S4、根据关键帧目标检测的结果，对图片做语义分割，确定属于动态物体的区域，更新与关键帧特征点对应的的3D地图点的动态概率，

S5、对动态概率更新后的关键帧输入局部建图线程，对系统维护的共视图进行更新，提取局部共视图，对关键帧和地图点的位姿进行局部优化，

S6、对当前帧进行回环检测与回环融合，消除系统的累积误差，利用回环融合结果更新本质图，并利用本质图对所有关键帧和地图点的位姿进行全局优化。

优选地，在S1中：在特征匹配过程中：如当前帧的特征点x _i与关键帧特征点成功匹配，则关键帧特征点的动态概率

传播到当前帧的特征点的动态概率P(x _i)上，如当前帧的特征点x _i与局部地图中的3D地图点X _i匹配成功，则3D地图点的动态概率P(X _i)传播到当前帧的特征点的动态概率P(x _i)上。

进一步优选地，3D地图点动态概率享有优选传播权，也就是说在当前帧的特征点x _i与关键帧特征点成功匹配、前帧的特征点x _i与局部地图中的3D地图点X _i匹配成功时，3D地图点的动态概率P(X _i)优先传播到当前帧的特征点的动态概率P(x _i)上。

优选地，在S1中：当前帧中任一特征点的动态概率首先受到与其成功匹配的关键帧特征点或3D地图点的动态概率的影响：对于匹配成功的特征点，关键帧特征点或3D地图点的动态概率通过一定权重更新当前帧中特征点的动态概率；

当前帧中任一特征点在受到匹配成功的特征点的动态概率影响后，其动态概率还会受到邻域内高动态概率特征点的影响：高动态率特征点由动态概率极高或极低的特征点组成，高动态率特征点会影响以其为中心、以一定像素距离为半径的区域内其余特征点的动态概率。

优选地，所述的动态概率传播包括特征匹配方式传播、高可信度特征点区域影响方式传播。

进一步优选地，所述的动态概率表示的特征点或3D地图点属于动态点的可能性从0％到100％均分为五个等级，其中：所述的高可信度特征点区域包括高可信度特征点低动态率(0％～20％)特征点、高可信度特征点高动态率(80％～100％)特征点，选定距离r(以像素为单位)为高可信度特征点的区域影响半径，对处于高可信度特征点区域影响半径内的特征点，其动态概率将受到高可信度特征点的影响，影响权重与特征点距离高可信度特征点的距离成反比。

优选地，在S2中：以最小化重投影误差为优化方程，当前帧位姿为优化对象构建位姿优化器，将动态概率高的特征点设置为外点，利用最小化重投影误差对当前帧位姿进行优化，将当前帧中重投影误差超过阈值的特征点作为外点去除。

进一步优选地，非线性优化将进行多次，在每次优化后计算所有点的重投影误差，若重投影误差小于阈值则将该点设置为内点，反之将该点设置为外点，外点不参与下一次优化过程。

优选地，在S3中，利用神经网络对该关键帧进行目标检测，使用预训练好的神经网络进行目标检测，对目标检测网络判定为动态类别的物体，使用语义分割算法提取出该物体在图像中轮廓作为动态区域。

进一步优选地，关键帧目标检测网络前向传播过程和视觉SLAM系统为两个不同的ROS系统下的工作节点，其间的交互通过ROS系统下话题和消息机制实现。

优选地，在S4中：提取出动态物体轮廓区域作为动态区域，动态区域内的特征点被认定为动态点，其余特征点被认定为静态特征点，更新被检测关键帧所有特征点和与之相匹配的3D地图点的动态概率。

优选地，在S4中：动态物体类别需根据系统使用环境进行设定，在室内环境下设置人，猫，狗三个物体类别为动态物体类别。

优选地，在S5中：通过图优化方法对关键帧和3D地图点的位姿进行局部优化，以最小化重投影误差方程为优化方程，与当前帧共视程度高的其余帧位姿和地图点位姿为优化对象，构建图优化器，优化跟踪线程所求得位姿。

由于上述技术方案运用，本发明与现有技术相比具有下列优点：

本发明在进行位姿计算和地图构建时，有效融合了环境中的物体类别信息，将目标检测算法与传统视觉SLAM系统相融合，为特征点和地图点引入“动态概率”属性，及时剔除属于动态物体的特征点，在动态环境下定位与建图准确率更高，鲁棒性更强。

附图说明

附图1为本实施例的流程示意图；

附图2为本实施例中动态概率各阶段划分的示意图；

附图3为本实施例中动态概率传播的流程图；

附图4为本实施例中动态特征点剔除的流程图；

附图5为本实施例中动态物体区域生成的流程图；

附图6为本实施例中动态概率更新的流程图；

附图7为本实施例中与ORB-SLAM2对比的结果图。

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示：一种适用于室内动态环境的视觉SLAM方法，包括：

S1、使用RGB-D相机获取环境的彩色图和深度图，将其封装成帧，输入跟踪线程，进行特征提取和匹配，利用匹配关系计算动态概率传播结果。

动态概率传播由特征匹配方式传播和高可信度特征点区域影响方式传播组成。在特征匹配过程中：如当前帧的特征点x _i与关键帧特征点成功匹配，则关键帧特征点的动态概率

传播到当前帧的特征点的动态概率P(x _i)上，如当前帧的特征点x _i与局部地图中的3D地图点X _i匹配成功，则3D地图点的动态概率P(X _i)传播到当前帧的特征点的动态概率P(x _i)上，并且3D地图点动态概率享有优选传播权。

动态概率表示的特征点或3D地图点属于动态点的可能性从0％到100％均分为五个等级，如图2所示，其中：高可信度特征点区域包括高可信度特征点低动态率(0％～20％)特征点、高可信度特征点高动态率(80％～100％)特征点，选定距离r(以像素为单位)为高可信度特征点的区域影响半径，对处于高可信度特征点区域影响半径内的特征点，其动态概率将受到高可信度特征点的影响，影响权重与特征点距离高可信度特征点的距离成反比。

当前帧中任一特征点的动态概率同时受到与其匹配的3D地图点关键帧上特征点及邻域的动态概率的影响：缺少特征内容请确认；

当前帧中特征点的动态概率首先受到与其匹配的关键帧上特征点和3D地图点动态概率的影响：动态概率极高或极低的特征点影响以其为中心、以一定像素距离为半径的区域内其余特征点的动态概率，如图3所示。

S2、根据动态概率，剔除当前帧中的动态特征点，保留静态特征点，优化当前帧的位姿，然后进行关键帧判定。

以最小化重投影误差为优化方程，当前帧位姿为优化对象构建位姿优化器，首先根据动态概率首先将高动态率特征点设置为外点，即高动态率特征点不参与第一次位姿优化过程，当第一次优化完成后，对包括外点在内的所特征点都进行重投影误差计算，若外点(即高动态率特征点)的重投影误差小于设定的阈值，那么说明该特征点被误认为为动态点，便将其重新设置为内点，参加下次优化运算，若有特征点的重投影误差大于所设定的阈值，那么说明在动态概率判别和传播的过程中遗漏了该特征点，将其设置为外点，不参与下次优化，位姿优化器共进行4次优化次数，优化完成后将所有作为动态点去除，如图4所示。

S3、若当前帧满足关键帧条件，则利用神经网络对该关键帧进行目标检测，使用预训练好的神经网络进行目标检测，对目标检测网络判定为动态类别的物体，使用语义分割算法提取出该物体在图像中轮廓作为动态区域。

在本实施例中：目标检测网络选用了基于Darknet53的YOLO V3网络结构，对每张输入的彩色图片网络将输出维度为(G×G)×(B×5+C)的张量，其中G×G表示网络特征地图的划分网格尺度，B表示每个网格对应负责输出的候选框信息，每个候选框信息中包含了候选框中心坐标，候选框长度，宽度和置信度五个值，C表示网络训练时的数据集物品分类。

S4、根据关键帧目标检测的结果，对图片做语义分割，确定属于动态物体的区域，更新与关键帧特征点对应的3D地图点的动态概率，如图5所示。

根据目标检测网络提供的位姿信息和类别信息，选定人，猫，狗三个类别为动态物体类别，对动态物体类别的矩形区域采用Grab-Cut语义分割算法，提取出动态物体轮廓区域作为动态区域。动态区域内的特征点被认定为动态点，其余特征点被认定为静态特征点，更新被检测关键帧所有特征点和与之相匹配的地图点的动态概率。

S5、动态概率更新后的关键帧输入局部建图线程，对系统维护的共视图进行更新，提取局部共视图，通过图优化方法对关键帧和地图点的位姿进行局部优化，如图6所示。

在本实施例中：使用ORB-SLAM2的局部建图线程，以最小化重投影误差方程为优化方程，与当前帧共视程度高的其余帧位姿和地图点位姿为优化对象，构建图优化器，优化跟踪线程所求得位姿。

S6、在回环检测线程，对当前帧进行回环检测与回环融合，消除系统的累积误差，利用回环融合结果更新本质图，并利用本质图对所有关键帧和地图点的位姿进行全局优化。

在本实施例中：使用ORB-SLAM2的回环检测与全局BA线程，优化跟踪和局部建图线程所得到的相机和3D地图点位姿的累积误差。

本发明提供的物体六自由度位姿估计方法，与现有技术中的位姿估计方法相比，最大的创新点有两点：

一是提出了动态概率这一概念，并将特征点和地图点属于动态点的概率均为5个等级，在视觉SLAM的跟踪线程中完成动态概率传播和动态点的去除，在局部建图线程中融合目标检测网络提供的语义信息完成动态概率的更新，去除了环境中动态物体对SLAM系统的影响，提升了SLAM系统的准确性。

二是在动态特征点剔除方面综合考虑了目标检测网络提供的语义信息，同时考虑了SLAM系统中存有的特征点和3D地图点的位姿信息，将语义信息作为判断的先验条件，位姿信息作为决定性条件，防止静态特征点的误剔除，提高了SLAM系统的鲁棒性。与ORB-SLAM2系统对比的结果如图7所示，图7中虚线为相机轨迹真实值，左图实线为ORB-SLAM2预测轨迹，右图实线为本发明预测轨迹，可以看出右图预测轨迹与轨迹真实值更加接近。

上述实施例只为说明本发明的技术构思及特点，其目的在于让熟悉此项技术的人士能够了解本发明的内容并据以实施，并不能以此限制本发明的保护范围。凡根据本发明精神实质所作的等效变化或修饰，都应涵盖在本发明的保护范围之内。

Claims

一种适用于室内动态环境的视觉SLAM方法，其特征在于：包括：

S1、获取包括环境的彩色图、深度图，将所获取的彩色图和深度图封装成帧，输入跟踪线程，进行特征提取和匹配，利用匹配关系计算动态概率传播结果，

S2、根据动态概率，剔除当前帧中的动态特征点，保留静态特征点，优化当前帧的位姿，然后进行关键帧判定，

S3、若当前帧满足关键帧条件，对该关键帧进行目标检测，

S4、根据关键帧目标检测的结果，对图片做语义分割，确定属于动态物体的区域，更新与关键帧特征点对应的的3D地图点的动态概率，

S5、对动态概率更新后的关键帧输入局部建图线程，对系统维护的共视图进行更新，提取局部共视图，对关键帧和地图点的位姿进行局部优化，

S6、对当前帧进行回环检测与回环融合，消除系统的累积误差，利用回环融合结果更新本质图，并利用本质图对所有关键帧和地图点的位姿进行全局优化。
根据权利要求1所述的适用于室内动态环境的视觉SLAM方法，其特征在于：在S1中：在特征匹配过程中：如当前帧的特征点x _i与关键帧特征点成功匹配，则关键帧特征点的动态概率
传播到当前帧的特征点的动态概率P(x _i)上，如当前帧的特征点x _i与局部地图中的3D地图点X _i匹配成功，则3D地图点的动态概率P(X _i)传播到当前帧的特征点的动态概率P(x _i)上。
根据权利要求2所述的适用于室内动态环境的视觉SLAM方法，其特征在于：所述的3D地图点动态概率享有优选传播权。
根据权利要求1所述的适用于室内动态环境的视觉SLAM方法，其特征在于：在S1中：当前帧中任一特征点的动态概率首先受到与其成功匹配的关键帧特征点或3D地图点的动态概率的影响：对于匹配成功的特征点，关键帧特征点或3D地图点的动态概率通过一定权重更新当前帧中特征点的动态概率；

当前帧中任一特征点在受到匹配成功的特征点的动态概率影响后，其动态概率还会受到邻域高内动态概率特征点的影响：高动态率特征点由动态概率极高或极低的特征点组成，高动态率特征点会影响以其为中心、以一定像素距离为半径的区域内其余特征点的动态概率。
根据权利要求1所述的适用于室内动态环境的视觉SLAM方法，其特征在于：所述的动态概率传播包括特征匹配方式传播、高可信度特征点区域影响方式传播。
根据权利要求1所述的适用于室内动态环境的视觉SLAM方法，其特征在于：在S2中：以最小化重投影误差为优化方程，当前帧位姿为优化对象构建位姿优化器，将动态概率高的特征点设置为外点，利用最小化重投影误差对当前帧位姿进行优化，将当前帧中重投影误差超过阈值的特征点作为外点去除。
根据权利要求6所述的适用于室内动态环境的视觉SLAM方法，其特征在于：非线性优化将进行多次，在每次优化后计算所有点的重投影误差，若重投影误差小于阈值则将该点设置为内点，反之将该点设置为外点，外点不参与下一次优化过程。
根据权利要求1所述的适用于室内动态环境的视觉SLAM方法，其特征在于：在S3中，利用神经网络对该关键帧进行目标检测，使用预训练好的神经网络进行目标检测，对目标检测网络判定为动态类别的物体，使用语义分割算法提取出该物体在图像中轮廓作为动态区域。
根据权利要求8所述的适用于室内动态环境的视觉SLAM方法，其特征在于：关键帧目标检测网络前向传播过程和视觉SLAM系统为两个不同的ROS系统下的工作节点，其间的交互通过ROS系统下话题和消息机制实现。
根据权利要求1所述的适用于室内动态环境的视觉SLAM方法，其特征在于：在S4中：提取出动态物体轮廓区域作为动态区域，动态区域内的特征点被认定为动态点，其余特征点被认定为静态特征点，更新被检测关键帧所有特征点和与之相匹配的3D地图点的动态概率。
根据权利要求1所述的适用于室内动态环境的视觉SLAM方法，其特征在于：在S4中：动态物体类别需根据系统使用环境进行设定，在室内环境下设置人，猫，狗三个物体类别为动态物体类别。
根据权利要求1所述的适用于室内动态环境的视觉SLAM方法，其特征在于：在S5中：通过图优化方法对关键帧和3D地图点的位姿进行局部优化，以最小化重投影误差方程为优化方程，与当前帧共视程度高的其余帧位姿和地图点位姿为优化对象，构建图优化器，优化跟踪线程所求得位姿。
一种适用于室内动态环境的视觉SLAM方法，其特征在于：

S1、获取包括环境的彩色图、深度图，将所获取的彩色图和深度图封装成帧，输入跟踪线程，进行特征提取和匹配，利用匹配关系计算动态概率传播结果，动态概率传播由特征匹配方式传播和高可信度特征点区域影响方式传播组成，在特征匹配过程中：如当前帧的特征点x _i与关键帧特征点成功匹配，则关键帧特征点的动态概率
传播到当前帧的特征点的动态概率P(x _i)上，如当前帧的特征点x _i与局部地图中的3D地图点X _i匹配成功，则3D地图点的动态概率P(X _i)传播到当前帧的特征点的动态概率P(x _i)上，并且3D地图点动态概率享有优选传播权，

当前帧中任一特征点的动态概率首先受到与其成功匹配的关键帧特征点或3D地图点的动态概率的影响：对于匹配成功的特征点，关键帧特征点或3D地图点的动态概率通过一定权重更新当前帧中特征点的动态概率；

当前帧中任一特征点在受到匹配成功的特征点的动态概率影响后，其动态概率还会受到邻域高内动态概率特征点的影响：高动态率特征点由动态概率极高或极低的特征点组成，高动态率特征点会影响以其为中心、以一定像素距离为半径的区域内其余特征点的动态概率，

S2、根据动态概率，剔除当前帧中的动态特征点，保留静态特征点，优化当前帧的位姿，然后进行关键帧判定，以最小化重投影误差为优化方程，当前帧位姿为优化对象构建位姿优化器，将动态概率高的特征点设置为外点，利用最小化重投影误差对当前帧位姿进行优化，将当前帧中重投影误差超过阈值的特征点作为外点去除，非线性优化将进行多次，在每次优化后计算所有点的重投影误差，若重投影误差小于阈值则将该点设置为内点，反之将该点设置为外点，外点不参与下一次优化过程，

S3、若当前帧满足关键帧条件，对该关键帧进行目标检测，利用神经网络对该关键帧进行目标检测，使用预训练好的神经网络进行目标检测，对目标检测网络判定为动态类别的物体，使用语义分割算法提取出该物体在图像中轮廓作为动态区域，

S4、根据关键帧目标检测的结果，对图片做语义分割，确定属于动态物体的区域，更新与关键帧特征点对应的的3D地图点的动态概率，动态物体类别需根据系统使用环境进行设定，在室内环境下设置人，猫，狗三个物体类别为动态物体类别，提取出动态物体轮廓区域作为动态区域，动态区域内的特征点被认定为动态点，其余特征点被认定为静态特征点，更新被检测关键帧所有特征点和与之相匹配的3D地图点的动态概率，

S5、对动态概率更新后的关键帧输入局部建图线程，对系统维护的共视图进行更新，提取局部共视图，对关键帧和地图点的位姿进行局部优化，通过图优化方法对关键帧和3D地图点的位姿进行局部优化，以最小化重投影误差方程为优化方程，与当前帧共视程度高的其余帧位姿和地图点位姿为优化对象，构建图优化器，优化跟踪线程所求得位姿，

S6、对当前帧进行回环检测与回环融合，消除系统的累积误差，利用回环融合结果更新本质图，并利用本质图对所有关键帧和地图点的位姿进行全局优化。