WO2024045632A1

WO2024045632A1 - 基于双目视觉和imu的水下场景三维重建方法及设备

Info

Publication number: WO2024045632A1
Application number: PCT/CN2023/088584
Authority: WO
Inventors: 王振民; 迟鹏; 廖海鹏; 田济语; 张芩
Original assignee: 华南理工大学
Priority date: 2022-08-31
Filing date: 2023-04-17
Publication date: 2024-03-07
Also published as: CN115471534A

Abstract

一种基于双目视觉和IMU的水下场景三维重建方法及设备；其中方法为：标定双目相机和IMU参数；对IMU数据进行积分，对双目相机图像数据进行特征提取和匹配；以紧耦合方式融合定位，得到旋转矩阵和平移向量；计算视差图生成三维点云数据；基于三维点云数据进行位姿匹配校正；计算三维点云数据之间的最佳估计旋转矩阵和平移向量；基于最佳估计旋转矩阵和平移向量以及三维点云数据进行叠加并滤波得到三维重建点云数据。该方法利用紧耦合的方式融合IMU和双目相机数据实现精准定位，基于定位结果和多帧图像生成的点云进行三维重建，并基于点云特征进行位姿校正，能够更精确且稠密地建立目标场景中的物体模型。

Description

基于双目视觉和IMU的水下场景三维重建方法及设备

技术领域

本发明涉及三维重建技术领域，更具体地说，涉及一种基于双目视觉和IMU的水下场景三维重建方法及设备。

背景技术

随着科技的不断进步，各个国家都在极力发展水下探测技术，以满足人类对未知水下环境的探索和对珍贵海洋资源的开采，与此同时，水下探测技术还在水下维修和搜救等领域发挥极为重要的作用。水下三维重建技术作为水下探测技术中重要的组成部分，一直是计算机视觉发展的主要方向。由于传统的水下三维重建技术多采用基于声学的声呐探测技术，其设备昂贵且有诸多限制，相比之下，基于计算机视觉的方法则更为直观地展示了水下环境的光学特征，而基于双目视觉的方法因其更容易获得深度信息而被广泛应用。

近年来，有越来越多的基于双目视觉的水下三维重建方法被提出，但是其中大部分只针对水下单帧的双目图像进行三维重建，一般的步骤包括图像获取、图像标定、图像增强、视差图获取、三维重建，所生成的点云较为稀疏，不足以支撑上述研究内容。部分基于多帧融合的双目视觉三维重建也存在定位匹配不准的问题，导致多帧叠加后存在很多噪声点，从而导致三维重建结果不准确，因此，开发一种精确定位且点云稠密的双目视觉三维重建算法显得尤为重要。

发明内容

为克服现有技术中的缺点与不足，本发明的目的在于提供一种基于双目视觉和IMU的水下场景三维重建方法及设备；该方法利用紧耦合的方式融合IMU和双目相机数据实现精准定位，基于定位结果和多帧图像生成的点云进行三维重建，并基于点云特征进行位姿校正，能够更精确且稠密地建立目标场景中的物体模型。

为了达到上述目的，本发明通过下述技术方案予以实现：一种基于双目视觉和IMU的水下场景三维重建方法，包括如下步骤：

S1、标定双目相机内参、IMU参数以及双目相机与IMU外参；

S2、统一双目相机和IMU的时间戳；对高频率的IMU数据进行积分，对低频率的双目相机图像数据进行特征提取和匹配；以紧耦合的方式将双目相机和IMU融合定位，得到多帧图像数据之间的坐标转换参数，从而得到初始的旋转矩阵和平移向量；

S3、利用双目相机的同一帧图像数据进行视差图的计算；通过视差图和二维的图像数据原始坐标生成三维点云数据；

S4、基于三维点云数据的多帧匹配进行位姿匹配校正；S2得到的旋转矩阵和平移向量作为本步骤中匹配算法的初始输入参数，计算多帧三维点云数据之间的最佳估计旋转矩阵和平移向量；

S5、基于S4得到的最佳估计旋转矩阵和平移向量，对S3得到的多帧三维点云数据进行叠加并滤波，得到更为稠密的三维重建点云数据。

优选地，所述S1包括如下步骤：

S11、标定IMU的确定性误差与随机误差；

S12、将双目相机与IMU刚性固定；

S13、将刚性固定的双目相机与IMU，以及参数已知的标定板一同放入水下；

S14、充分移动双目相机并录制数据；记录下多组双目相机图像数据，对图像进行角点识别标定双目相机镜头焦距、基线距离及畸变参数；

S15、记录双目相机和IMU的相对运动关系，标定双目相机内参、双目相机的左右相机之间的外参及左相机与IMU外参。

优选地，所述S11中，IMU的确定性误差包括加速度计误差；

加速度计误差按照以下公式校正：

其中，l_ax,l_ay,l_az分别代表X、Y、Z三个坐标轴校正后的结果；a_x,a_y,a_z分别代表X、Y、Z三个坐标轴初始结果；s_xx,s_yy,s_zz分别代表X、Y、Z三个坐标轴尺度变换；m_xy,m_xz,m_yx,m_yz,m_zx,m_zy分别代表X、Y、Z三个坐标轴错位；b_ax,b_ay,b_az代表分别X、Y、Z三个坐标轴固定偏差；

IMU的随机误差包括高斯白噪声和误差随机游走；所述高斯白噪声表示为：

其中，t为时间，n()为高斯过程，E[]为均值，σ²为方差，δ()为狄拉克函数；

所述误差随机游走表示为：

其中，n_b(t)为维纳过程，σ_b为随机游走标准差，ω(t)是方差为1的白噪声；

所述S15中，标定双目相机的左右相机的内参是指：

其中，l代表左相机；r代表右相机；K_l，K_r分别代表左右相机内参矩阵；f_xl,f_yl，f_xr,f_yr分别代表使用像素表示左右相机在x轴和y轴方向上的焦距长度；(u_0l,v_0l),(u_0r,v_0r)分别代表左右相机像平面坐标系的主点的实际像素坐标；

标定双目相机的左右相机与IMU外参是指：

设定IMU坐标系为世界坐标系，则双目相机的左右相机图像点到IMU坐标系下的转换关系为：

其中，分别为左右相机坐标系下的二维坐标；为IMU坐标系下的三维坐标；R_lr,R_ri分别为右相机到左相机、左相机到IMU坐标系的3*3的旋转矩阵；T_lr,T_ri分别为右相机到左相机、左相机到IMU坐标系的1*3的平移向量。

优选地，所述S2，包括如下步骤：

输入IMU数据；IMU数据包括加速度数据和旋转数据；将IMU数据积分并转化为离散量，在k时刻到k+1时刻下IMU数据积分得到的速度V、平移结果T和旋转参数R分别表示为：
V_k+1＝V_k+aΔt

其中，V_k,V_k+1分别为k时刻、k+1时刻下的速度；a为加速度；Δt为时间间隔；T_k,T_k+1分别为k时刻、k+1时刻下的平移向量；R_k,R_k+1分别为k时刻、k+1时刻下的旋转矩阵；ω为角速度；为克罗内克积；

输入双目相机图像数据；对双目相机的左右相机图像数据分别进行特征提取，再与前一帧的特征进行匹配，得到特征点在相邻两帧的图像上的图像坐标；通过IMU数据的积分及时间对齐，得到双目相机的估计位置，设为状态量初始值；构建误差函数，利用最小二乘法得到状态量的最优估计F：

其中，R_ci,T_ci分别为旋转矩阵和平移向量；Q_j为特征点坐标；ci为第i个相机坐标系；π(·)为投影函数；为ci对Q_j观测；为范数；

基于最小二乘问题求解最优估计F，损失函数表达为：

其中，Δx为变化量；Δx^T代表转置；ο(||Δx||³)为泰勒展开的高阶项；J和H分别为损失函数一阶导和二阶导矩阵；忽略泰勒展开的高阶项，损失函数变成二次函数，根据一阶导数为0的稳定点的H矩阵的性质求解出局部极值和鞍点；

从而得到以紧耦合的方式融合双目相机和IMU实现每一帧双目相机图像数据定位。

优选地，所述S3，包括如下步骤：

S31、根据双目相机内参对输入的双目相机图像数据进行畸变校正；基于NCC算法进行视差计算：

其中，x，y，d分别为x轴坐标，y轴坐标，视差；i，j分别为x轴，y轴方向的变化值；m,n分别为x轴，y轴方向的最大值；I₁(x,y),I₂(x,y)分别为原始图像和目标图像上偏移后的像素值；分别为原始图像和目标图像上偏移后像素的均值；

进而求得双目相机图像同一帧图像数据对应的视差图；

S32，通过视差图和原始坐标生成三维点云数据，三维坐标表示为:

其中，x_l、x_r分别为左右相机对应的横坐标值；y_l、y_r分别为左右相机纵坐标值；f_x,f_y分别为左右相机内参中对应的焦距；X，Y，Z分别为为三维坐标；D为深度值，由下式计算：
D＝B·f/d

其中，B为基线长度，f为焦距，d为左右图像视差。

优选地，所述S4包括如下步骤：

将两帧三维点云数据分别进行空间分割，分为n个小正方体；对每个小正方体进行均值和协方差矩阵Σ的计算：

其中，x_i第i个小正方体中的值；

建立两帧三维点云数据之间的概率分布函数p(x)：

得到优化函数E：

将S2得到的旋转矩阵和平移向量作为初始值计算概率分布函数p(x)，通过优化函数E迭代收敛，获得两帧三维点云数据之间最佳估计旋转矩阵和平移向量。

一种计算设备，包括处理器以及用于存储处理器可执行程序的存储器，所述处理器执行存储器存储的程序时，实现权利要求1-6中任一项所述的基于双目视觉和IMU的水下场景三维重建方法。

与现有技术相比，本发明具有如下优点与有益效果：

1、本发明，基于融合定位匹配多帧双目相机图像数据并基于三维点云数据进行位姿校正，相比传统的基于视觉的方法能够实现更精准的水下定位，减少匹配丢失概率，从而提高三维重建结果的精度；

2、本发明，基于多帧点云融合得到三维重建结果，相比于传统水下单帧三维重建方法可以建立更为稠密的环境三维模型，提供丰富且立体的环境感知信息。

附图说明

图1是本发明水下场景三维重建方法的流程示意图；

图2是本发明水下场景三维重建方法的S1流程示意图；

图3(a)～图3(d)是实施例一水下场景三维重建方法的水下图像数据；

图4(a)～图4(e)是实施例一水下场景三维重建方法的水下三维重建过程示意图。

具体实施方式

下面结合附图与具体实施方式对本发明作进一步详细的描述。

实施例一

本实施例一种基于双目视觉和IMU的水下场景三维重建方法，如图1所示，包含以下五个步骤：标定双目相机内参、IMU参数以及双目相机与IMU的外参；双目视觉和IMU紧耦合定位；双目图像计算视差图并生成三维点云；基于三维点云进行位姿匹配校正；基于位姿和三维点云实现三维重建。

具体地说，S1、标定双目相机内参、IMU参数以及双目相机与IMU外参。

如图2所示，所述S1包括如下步骤：

S11、将IMU静置，标定IMU的确定性误差与随机误差；

确定性误差主要由于多轴传感器制作工艺的问题，导致X、Y、Z三个坐标轴可能不垂直。IMU的确定性误差包括加速度计误差；加速度计误差按照以下公式校正：

其中，l_ax,l_ay,l_az分别代表X、Y、Z三个坐标轴校正后的结果；a_x,a_y,a_z分别代表X、Y、Z三个坐标轴初始结果；s_xx,s_yy,s_zz分别代表X、Y、Z三个坐标轴尺度变换(scale)；m_xy,m_xz,m_yx,m_yz,m_zx,m_zy分别代表X、Y、Z三个坐标轴错位(misalignment)；b_ax,b_ay,b_az代表分别X、Y、Z三个坐标轴固定偏差(bias)；

IMU的随机误差通常假定噪声服从高斯分布,包括高斯白噪声(Gaussian white noise)和误差随机游走(bias random walker)；所述高斯白噪声表示为：

所述误差随机游走表示为：

至此，IMU参数已经标定完毕；

S12、将双目相机与IMU刚性固定；

S13、将刚性固定的双目相机与IMU，以及参数已知的标定板一同放入水下；标定板可采用棋盘格；如图3(a)和图3(b)所示；图3(a)和图3(b)对应水下标定时的左相机图像和右相机图像。

S14、固定棋盘格，充分移动双目相机，尽量使得棋盘格出现在双目相机视野的各个位置，利于对相机畸变进行标定；双目相机录制数据；记录下多组双目相机图像数据，对图像进行角点识别标定双目相机镜头焦距、基线距离及畸变参数；

S15、记录双目相机和IMU的相对运动关系，标定双目相机的左右相机的内参及左相机与IMU外参：利用棋盘格标定双目相机内参及双目相机的左右相机之间的外参，利用棋盘格估计左相机坐标系下的运动轨迹，利用积分计算IMU中加速度计提供的加速度信息和陀螺仪提供的旋转信息，得到IMU坐标系下的运动轨迹；

具体地，标定双目相机的左右相机的内参是指：

其中，l代表左相机；r代表右相机；K_l，K_r分别代表左右相机内参矩阵；f_xl,f_yl，f_xr,f_yr分别代表使用像素表示左右相机在x轴和y轴方向上的焦距的长度；(u_0l,v_0l),(u_0r,v_0r)分别代表左右相机像平面坐标系的主点的实际像素坐标；标定双目相机的左右相机与IMU外参是指：

至此，IMU数据参数、双目相机内参以及左右相机和IMU之间的外参均已知。

S2、双目视觉和IMU紧耦合定位。

统一双目相机和IMU的时间戳；对高频率的IMU数据进行积分，对低频率的双目相机图像数据进行特征提取和匹配；以紧耦合的方式将双目相机和IMU融合定位，得到多帧图像数据之间的坐标转换参数。这种方法可以利用双目相机特征匹配消除IMU的累计积分误差，同时由于引入了高频率的IMU数据，可以提高定位结果的输出频率。

所述S2，包括如下步骤：

输入双目相机图像数据，如图3(c)和图3(d)所示；图3(c)和图3(d)对应水下三维重建测试时某一帧的左相机图像和右相机图像；对双目相机的左右相机图像数据分别进行特征提取，再与前一帧的特征进行匹配，得到特征点在相邻两帧的图像上的图像坐标；通过IMU数据的积分及时间对齐，得到双目相机的估计位置，设为状态量初始值；构建误差函数，利用最小二乘法得到状态量的最优估计F：

基于最小二乘问题求解最优估计F，损失函数表达为：

至此，已经基于紧耦合的方式融合IMU和双目相机实现了每一帧的图像数据定位，同时由于IMU频率较高，且短时间内IMU的积分数据充分可信，可以在两帧图像数据之间通过插值计算，得到较高频率的定位结果。

S3、双目图像计算视差图并生成三维点云。

利用双目相机的同一帧图像数据进行视差图的计算；通过视差图和二维的图像数据原始坐标生成三维点云数据。

所述S3，包括如下步骤：

S31、根据双目相机内参对输入的双目相机图像数据进行畸变校正；如图4(a)和图4(b)所示，图4(a)和图4(b)对应三维重建测试时，某一帧去畸变后的左相机图像和右相机图像；基于NCC算法进行视差计算：

进而求得双目相机图像同一帧图像数据对应的视差图；图4(c)所示，图4(c)是基于图4(a)和图4(b)生成的视差图；

其中，B为基线长度，f为焦距，d为左右图像视差。

至此，可以基于双目相机图像数据生成三维点云数据，如图4(d)所示，图4(d)是基于图4(c)生成的三维点云数据。

S4、基于三维点云进行位姿匹配校正。

在进行S2和S3后，可得到多帧由双目相机图像数据生成的三维点云及多帧之间的坐标转换结果，但是由于坐标转换结果由二维图像数据计算得到，所以增加了基于三维点云数据的多帧匹配进行位姿匹配校正；S2的定位结果作为本步骤中匹配算法的初始输入参数，计算多帧三维点云数据之间的最佳坐标转换参数。这种方法提高了匹配精度的同时减少了三维数据的匹配时间。

所述S4包括如下步骤：

其中，x_i第i个小正方体中的值；

建立两帧三维点云数据之间的概率分布函数p(x)：

得到优化函数E：

S5、基于位姿和三维点云数据实现三维重建。

基于S4得到的最佳坐标转换参数，对S3得到的多帧三维点云数据进行叠加并滤波，得到更为稠密的三维重建点云数据，从而提供丰富的环境感知信息。如图4(e)所示，图4(e)是经过多帧融合的三维重建结果。

实施例二

本实施例一种计算设备，包括处理器以及用于存储处理器可执行程序的存储器，其特征在于，所述处理器执行存储器存储的程序时，实现实施例一所述的基于双目视觉和IMU的水下场景三维重建方法。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

一种基于双目视觉和IMU的水下场景三维重建方法，其特征在于：包括如下步骤：

S1、标定双目相机内参、IMU参数以及双目相机与IMU外参；

S2、统一双目相机和IMU的时间戳；对高频率的IMU数据进行积分，对低频率的双目相机图像数据进行特征提取和匹配；以紧耦合的方式将双目相机和IMU融合定位，得到多帧图像数据之间的坐标转换参数，从而得到初始的旋转矩阵和平移向量；

S3、利用双目相机的同一帧图像数据进行视差图的计算；通过视差图和二维的图像数据原始坐标生成三维点云数据；

S4、基于三维点云数据的多帧匹配进行位姿匹配校正；S2得到的旋转矩阵和平移向量作为本步骤中匹配算法的初始输入参数，计算多帧三维点云数据之间的最佳估计旋转矩阵和平移向量；

S5、基于S4得到的最佳估计旋转矩阵和平移向量，对S3得到的多帧三维点云数据进行叠加并滤波，得到三维重建点云数据。
根据权利要求1所述的基于双目视觉和IMU的水下场景三维重建方法，其特征在于：所述S1包括如下步骤：

S11、标定IMU的确定性误差与随机误差；

S12、将双目相机与IMU刚性固定；

S13、将刚性固定的双目相机与IMU，以及参数已知的标定板一同放入水下；

S14、充分移动双目相机并录制数据；记录下多组双目相机图像数据，对图像进行角点识别标定双目相机镜头焦距、基线距离及畸变参数；

S15、记录双目相机和IMU的相对运动关系，标定双目相机内参、双目相机的左右相机之间的外参及左相机与IMU外参。
根据权利要求2所述的基于双目视觉和IMU的水下场景三维重建方法，其特征在于：所述S11中，IMU的确定性误差包括加速度计误差；

加速度计误差按照以下公式校正：

其中，l_ax,l_ay,l_az分别代表X、Y、Z三个坐标轴校正后的结果；a_x,a_y,a_z分别代表X、Y、Z三个坐标轴初始结果；s_xx,s_yy,s_zz分别代表X、Y、Z三个坐标轴尺度变换；m_xy,m_xz,m_yx,m_yz,m_zx,m_zy分别代表X、Y、Z三个坐标轴错位；b_ax,b_ay,b_az代表分别X、Y、Z三个坐标轴固定偏差；

IMU的随机误差包括高斯白噪声和误差随机游走；所述高斯白噪声表示为：

其中，t为时间，n()为高斯过程，E[]为均值，σ²为方差，δ()为狄拉克函数；

所述误差随机游走表示为：

其中，n_b(t)为维纳过程，σ_b为随机游走标准差，ω(t)是方差为1的白噪声；

所述S15中，标定双目相机的左右相机的内参是指：

其中，l代表左相机；r代表右相机；K_l，K_r分别代表左右相机内参矩阵；f_xl,f_yl，f_xr,f_yr分别代表使用像素表示左右相机在x轴和y轴方向上的焦距长度；(u_0l,v_0l),(u_0r,v_0r)分别代表左右相机像平面坐标系的主点的实际像素坐标；

标定双目相机的左右相机与IMU外参是指：

设定IMU坐标系为世界坐标系，则双目相机的左右相机图像点到IMU坐标系下的转换关系为：

其中，分别为左右相机坐标系下的二维坐标；为IMU坐标系下的三维坐标；R_lr,R_ri分别为右相机到左相机、左相机到IMU坐标系的3*3的旋转矩阵；T_lr,T_ri分别为右相机到左相机、左相机到IMU坐标系的1*3的平移向量。
根据权利要求1所述的基于双目视觉和IMU的水下场景三维重建方法，其特征在于：所述S2，包括如下步骤：

输入IMU数据；IMU数据包括加速度数据和旋转数据；将IMU数据积分并转化为离散量，在k时刻到k+1时刻下IMU数据积分得到的速度V、平移结果T 和旋转参数R分别表示为：
V_k+1＝V_k+aΔt

其中，V_k,V_k+1分别为k时刻、k+1时刻下的速度；a为加速度；Δt为时间间隔；T_k,T_k+1分别为k时刻、k+1时刻下的平移结果；R_k,R_k+1分别为k时刻、k+1时刻下的旋转结果；ω为角速度；为克罗内克积；

输入双目相机图像数据；对双目相机的左右相机图像数据分别进行特征提取，再与前一帧的特征进行匹配，得到特征点在相邻两帧的图像上的图像坐标；通过IMU数据的积分及时间对齐，得到双目相机的估计位置，设为状态量初始值；构建误差函数，利用最小二乘法得到状态量的最优估计F：

其中，R_ci,T_ci分别为旋转矩阵和平移向量；Q_j为特征点坐标；ci为第i个相机坐标系；π(·)为投影函数；为ci对Q_j观测；为范数；

基于最小二乘问题求解最优估计F，损失函数表达为：

其中，Δx为变化量；Δx^T代表转置；ο(||Δx||³)为泰勒展开的高阶项；J和H分别为损失函数一阶导和二阶导矩阵；忽略泰勒展开的高阶项，损失函数变成二次函数，根据一阶导数为0的稳定点的H矩阵的性质求解出局部极值和鞍点；

从而得到以紧耦合的方式融合双目相机和IMU实现每一帧双目相机图像数据定位。
根据权利要求1所述的基于双目视觉和IMU的水下场景三维重建方法，其特征在于：所述S3，包括如下步骤：

S31、根据双目相机内参对输入的双目相机图像数据进行畸变校正；基于NCC算法进行视差计算：

其中，x，y，d分别为x轴坐标，y轴坐标，视差；i，j分别为x轴，y轴方向的变化值；m,n分别为x轴，y轴方向的最大值；I₁(x,y),I₂(x,y)分别为原始图像和目标图像上偏移后的像素值；分别为原始图像和目标图像上偏移后像素的均值；

进而求得双目相机图像同一帧图像数据对应的视差图；

S32，通过视差图和原始坐标生成三维点云数据，三维坐标表示为:

其中，x_l、x_r分别为左右相机对应的横坐标值；y_l、y_r分别为左右相机纵坐标值；f_x,f_y分别为左右相机内参中对应的焦距；X，Y，Z分别为为三维坐标；D为深度值，由下式计算：
D＝B·f/d

其中，B为基线长度，f为焦距，d为左右图像视差。
根据权利要求1所述的基于双目视觉和IMU的水下场景三维重建方法，其特征在于：所述S4包括如下步骤：

将两帧三维点云数据分别进行空间分割，分为n个小正方体；对每个小正方体进行均值和协方差矩阵Σ的计算：

其中，x_i第i个小正方体中的值；

建立两帧三维点云数据之间的概率分布函数p(x)：

得到优化函数E：

将S2得到的旋转矩阵和平移向量作为初始值计算概率分布函数p(x)，通过优化函数E迭代收敛，获得两帧三维点云数据之间最佳估计旋转矩阵和平移向量。
一种计算设备，包括处理器以及用于存储处理器可执行程序的存储器，其特征在于，所述处理器执行存储器存储的程序时，实现权利要求1-6中任一项所述的基于双目视觉和IMU的水下场景三维重建方法。