WO2023184795A1

WO2023184795A1 - 面向虚拟现实元宇宙的先验双向补偿的全景图像配准方法

Info

Publication number: WO2023184795A1
Application number: PCT/CN2022/107421
Authority: WO
Inventors: 张晖; 赵梦; 赵海涛; 朱洪波
Original assignee: 南京邮电大学
Priority date: 2022-03-28
Filing date: 2022-07-22
Publication date: 2023-10-05
Also published as: JP2024515913A; CN114842058A

Abstract

一种面向虚拟现实元宇宙的先验双向补偿的全景图像配准方法，包括：对两幅待配准图像进行运动目标提取，对提取到运动目标的图像前景集进行自适应形变像素校正，提取图像特征，完成运动目标匹配；对匹配成功的运动目标进行运动方向和速度检测，根据两个摄像头物理时间的差值计算得到运动目标的速度，对各自运动目标进行补偿；对目标提取失败的图像、目标匹配失败的图像以及进行了双向补偿的图像进行图像配准。能够解决现有虚拟现实元宇宙场景下存在的因摄像机时钟不同步导致的图像中存在运动前景时图像配准效率低、效果差等技术问题。

Description

面向虚拟现实元宇宙的先验双向补偿的全景图像配准方法

技术领域

本发明属于深度学习和图像处理技术领域，尤其涉及一种面向虚拟现实元宇宙的先验双向补偿的全景图像配准方法。

背景技术

图像配准就是将单幅或多幅图片依据某种最优的变换映射到目标图片。基于灰度信息的图像配准方法是基于灰度信息寻求配准图像与待配准图像之间相似性最大化的过程。相似性度量方法一般采用互信息、平方差、Hausdorff距离、互相关系数、平方差和等度量等方法。其中互信息在图像融合中使用较为频繁。配准图像与待配准图像相似性最大化的过程实际上也是最优化的过程，通过对变换模型的参数进行不断调整，只有当相似性最大化时，变换模型的参数才能达到最优，将待配准图像按照该最优模型进行变换，完成与配准图像的配准。基于特征信息的图像配准利用特征提取算法提取特征，然后通过建立配准图像与待配准图像之间的特征点的映射关系得到变换模型，从而完成图像配准。

不同类型的图片在进行配准时采用的算法、评价标准也不同。随着医学方面各种设备的日渐进步，图像配准在医学图像处理方面重要性也愈来愈高。对不同时间拍摄的同一患者的图像进行配准，可以很好的分析患者器官和病理的动态变化状况，以便进行更加准确的医疗诊断，制定更具有针对性的治疗方案。图像配准也是材料力学方向研究力学性质的一种方法。将不同的传感器采集到的温度、形状等信息进行融合与比较得到温度场、形变场等各类数值。再把各类数值带入理论模型当中进行参数的优化。图像配准还可以用来进行运动目标自动追踪、模式识别和视频分析等。

然而，现有虚拟现实元宇宙场景下，因摄像机时钟不同步导致图像中存在运动前景时图像配准效率低、效果差等技术问题。

发明内容

解决的技术问题：现有虚拟现实元宇宙场景下因摄像机时钟不同步导致的图像中存在运动前景时图像配准效率低、效果差等技术问题。

技术方案：

一种面向虚拟现实元宇宙的先验双向补偿的全景图像配准方法，所述全景图像配准方法包括以下步骤：

S1、采用基于Vibe的背景消减法对两幅待配准图像进行运动目标提取，对提取到运动目标的图像前景集进行自适应形变像素校正，使用SURF特征提取算法提取图像特征，并根据特征阈值完成运动目标匹配；

S2、采用稀疏光流法对匹配成功的运动目标进行运动方向和速度检测，根据摄像机的物理时间计算逻辑时间，根据两个摄像头物理时间的差值计算得到运动目标的速度，对各自运动目标进行补偿；

S3、基于密集卷积神经网络构建第一图像配准模型，基于VGG16网络构建第二图像配准模型；对目标提取失败的图像、目标匹配失败的图像以及进行了双向补偿的图像进行图像配准，以图像是否进行双向补偿将图像分为两类，其中，采用第一图像配准模型对基于位置预测的双向补偿后的图像进行图像配准，采用第二图像配准模型对包括目标提取失败和目标配准失败的图像在内的没有进行双向补偿的图像进行图像配准。

进一步地，步骤S1中，采用基于Vibe的背景消减法对两幅待配准图像进行运动目标提取，对提取到运动目标的图像前景集进行自适应形变像素校正的过程包括以下步骤：

为待检测的图像序列中每个像素值都建立一个包含N个样本值的背景模型M(x)，M(x)＝{v ₁,v ₂…v _N}，v _i表示索引为i的背景样本，i＝1,2,…,N；

更新背景模型M(x)如下：

M ⁰(x)＝{v _y(y|y∈N _G(x))}

式中，N _G(x)表示x位置的像素的空间邻域，v _y表示处于该空间邻域的像素点的颜色值；背景模型的样本点从邻域像素点随机抽取N个生成；

根据以下公式对像素进行校正：

式中，(x _d,y _d)表示发生形变的像素坐标，(x _c,y _c)表示有形变的中心像素坐标，(x _u,y _u)表示矫正之后的像素坐标，K ₁和K ₂分别表示一阶和二阶放射畸变系数；r表示形变后的坐标到中心像素坐标的距离；α和1-α表示相机焦距所处的相对位置：

式中，f _max、f _min分别表示相机焦距的最大值和最小值，f _c表示相机实际焦距。

进一步地，采用稀疏光流法计算前景中运动目标的速度和方向，得出在x、y两个方向上的速度分别为u、v：

其中

和

表示第i个像素在x和y方向上的图像梯度，

表示第i个像素时间上的梯度；

两幅待配准图像A和图像B中左侧图像前景集表示为：

A _N＝{p _A1,p _A2…p _AN}；

右侧图像前景集表示为：

B _N＝{p _B1,p _B2…p _BN}；

其中p _Ai、p _Bi表示构成图像A和图像B的前景集的像素；

右侧图像真正的物理时间t′与左侧图像时间t满足t′＝t+Δt，Δt为两幅图像物理时间的差值；对图像A进行位置补偿的时间t _A和对图像B进行位置补偿的时间t _B分别为：

t _A＝t+Δt/2

t _B＝t′-Δt/2＝t+Δt/2；

补偿后左侧前景集为：

A _N′＝{p _A1′,p _A2′…p _AN′}

其中p _Ai′表示构成图像A补偿后的前景集的像素，p _Aix表示补偿前x方向上的像素分量，p _Aix′表示在x方向上补偿后的像素分量，u _A表示该像素在x方向上的速度，p _Aiy表示补偿前y方向上的像素分量，p _Aiy′表示在y方向上补偿后的像素分量，u _B表示该像素在y方向上的速度；

补偿后右侧图像前景集为：

B _N′＝{p _B1′,p _B2′…p _BN′}

其中p _Bi′表示构成图像B补偿后的前景集的像素，p _Bix表示补偿前x方向上的像素分量，p _Bix′表示在x方向上补偿后的像素分量，u _B表示该像素在x方向上的速度，p _Biy表示补偿前y方向上的像素分量，p _Biy′表示在y方向上补偿后的像素分量，v _B表示该像素在y方向上的速度。

进一步地，步骤S3中，所述第一图像配准模型由依次连接的三个密集网络块、一个卷积层和一个第一池化层组成，其中每个密集网络块是由一个卷积层、一个第二池化层和一个密集网络依次连接组成；第一池化层的输出经过压平后与回归网络连接，回归网络采用五个完全连接层依次连接组成，用于输出图像配准的几何变换的参数。

进一步地，步骤S3中，所述第二图像配准模型包括依次连接的特征提取网络、特征匹配网络和回归网络，其中，特征提取网络包括依次连接的两个卷积层和一个池化层，用于提取待配准图像的相关特征，生成特征图；特征提取网络包括两路匹配网络，两路匹配网络共享权值，每个匹配网络用来采用相关图进行相关性计算，进行特征描述子的匹配，其输出通过回归网络输出图像配准的几何变换的参数。

进一步地，所述虚拟现实元宇宙的场景包括虚拟现实场景。

本发明针对摄像机不同步和前景运动目标导致的图像配准效率问题给出了补偿方案，首先使用背景消减法对图像进行目标提取，然后在目标匹配时考虑了两个相机的形变，进行自适应形变校正，最后对两幅图像中的前景分别进行补偿操作。本发明还提出了基于密集卷积神经网络的图像配准算法，提供了一种端到端获取变换参数的方法，最后对是否进行双向补偿的图像采用不同的配准方案，提高算法效率。

有益效果：

第一，本发明针对不同步的摄像头拍摄到的图像，根据前景中是否包含运动物体采用了不同的配准方法；当前景中存在运动物体时，本发明的自适应形变像素校正和基于位置预测的双向补偿可以有效的避免不同步的时间差内运动物体造成的偏移，配准结果更加精准。

第二，本发明提出的基于DSCNN的图像配准方法可以实现端到端的输出配准所需的转换参数与传统的图像配准算法相比计算时间大幅缩小，有更加广阔的应用前景。

附图说明

图1为本发明的面向虚拟现实元宇宙的先验双向补偿的全景图像配准方法的整体流程图；

图2为目标提取流程图；

图3为考虑形变的目标匹配流程图；

图4为基于双向补偿的图像配准流程图；

图5为DSCNN图像配准流程图；

图6为DSCNN图像配准网络结构图；

图7为基于VGG-16的图像配准网络结构图。

具体实施方式

下面的实施例可使本专业技术人员更全面地理解本发明，但不以任何方式限制本发明。

本发明提出面向虚拟现实元宇宙的先验双向补偿的全景图像配准方法，基本包括运动目标提取、考虑形变的运动目标匹配、基于位置预测的双向补偿、针对不同前景集采用不同的配准方法，其中，虚拟现实元宇宙的场景，包括诸如虚拟现实场景，VR监控场景等。如图1所示，具体包括以下步骤：

步骤1：ViBe算法为待检测的图像序列中每个像素值都建立一个包含N个样本值的背景模型M(x)，v _i表示索引为i的背景样本：

M(x)＝{v ₁,v ₂…v _N}

v(x)表示位置在x处的像素在给定的颜色空间中的颜色值，该像素的背景模型为M(x)。

ViBe假定相邻的像素点空间分布关系也相似。ViBe背景模型初始化是利用单帧图像就可以完成的，该技术在面临光源突然变化时可以快速响应，即将原来所有样本点全部抛弃，重新初始化：

M ⁰(x)＝{v _y(y|y∈N _G(x))}

N _G(x)表示x位置的像素的空间邻域，v _y表示处于该空间邻域的像素点的颜色值。具体实施时背景模型的样本点从邻域像素点随机抽取N个生成。

自适应形变像素校正主要是根据不同焦距会导致不同类型的形变，如焦距处于设备的中间值时容易产生桶形形变，焦距过长时，容易产生桶形和枕形形变的混合形变，无论哪种变形都会对匹配结果产生负面影响，故提出以下公式对像素进行校正：

其中(x _d,y _d)表示发生形变的像素坐标，(x _c,y _c)表示有形变的中心像素坐标，(x _u,y _u)表示矫正之后的像素坐标，K ₁和K ₂分别表示一阶和二阶放射畸变系数。r表示形变后的坐标到中心像素坐标的距离。α和1-α表示相机焦距所处的相对位置：

其中f _max、f _min分别表示相机焦距的最大值和最小值，f _c表示相机实际焦距。

步骤2：使用LK光流法计算匹配好的前景运动目标单位时间内在各个方向上的位移：

I(x,y,t)＝I(x+dx,y+dy,t+dt)

右边进行泰勒级数展开，两边同除以dt得公式：

f _xu+f _yv+f _t＝0

其中

f _x，f _y表示图像梯度，f _t表示时间上的梯度。LK光流根据边长为3的正方形内的9个像素点具有相同的运动来找到他们的光流方程，组成9个等式2个未知数的方程组，使用最小二乘拟合求解。求解结果如下：

由于摄像机内部晶振等各种原因导致右侧图像与左侧图像存在一个微小的时间间隔Δt，右侧图像真正的物理时间t′与左侧图像时间t满足t′＝t+Δt。t时刻左侧待配准图像提取出的运动目标表示为A _N＝{p _A1,p _A2…p _AN}，同一时间右侧待配准图像提取出的运动目标表示为B _N＝{p _B1,p _B2…p _BN}，对两幅图像进行位置补偿的时间分别为：

t _A＝t+Δt/2

t _B＝t′-Δt/2＝t+Δt/2。

位置补偿后左右两侧待配准图像的前景图为：

A _N′＝{p _A1′,p _A2′…p _AN′}

B _N′＝{p _B1′,p _B2′…p _BN′}

其中，p _Ai′表示构成A补偿后的前景集的像素，p _Aix表示补偿前x方向上的像素分量，p _Aix′表示在x方向上补偿后的像素分量，u _A表示该像素在x方向上的速度，p _Aiy表示补偿前y方向上的像素分量，p _Aiy′表示在y方向上补偿后的像素分量，u _B表示该像素在y方向上的速度，Δt为两幅图像物理时间的差值；p _Bi′表示构成B补偿后的前景集的像素，p _Bix表示补偿前x方向上的像素分量，p _Bix′表示在x方向上补偿后的像素分量，u _B表示该像素在x方向上的速度，p _Biy表示补偿前y方向上的像素分量，p _Biy′表示在y方向上补偿后的像素分量，v _B表示该像素在y方向上的速度。

步骤3：待配准图像A与待配准图像B分别经过DSCNN网络提取特征，两个特征提取网络共享权重参数，之后经过由5个全连接层组成的回归网络，最终输出图像配准的变换参数。

图像配准所用到的特征提取网络为基于密集卷积神经网络的，该网络结构是由三个密集网络块和一个卷积层、一个池化层组成，其中密集网络块是由一个卷积层一个池化层和一个密集网络组成，输出经过压平后与回归网络连接。随着CNN卷积层数的增加，网络的输入信息和梯度信息会随着网络深度的增加而逐渐消失。ResNets和Highway Netwoks用不同的方法证实了神经网络从开始值至结束的路径越短，越能够缓解梯度消失的问题。ResNets通过标识连接将信号分流，获取了更好的梯度流和信息。FractalNets保证了网络的短路径，降低了梯度消失的影响。因此本发明将密集网络块引入特征提取网络，提出了一种基于密集网络的特征提取网络，既保证了提取较为全面的特征信息，又不会出现梯度消失问题，如图6所示。图中密集网络块的各层是直接相连接的，保证了各层网络之间的信息流达到最大。密集网络块中的每一层的输入都是前面所有层的输出，保证了网络的前馈特性，本层的特征映射也会传递给后面层作为输入。本发明中DSCNN的回归网络是由5个完全连接层组成。全连接层用来寻找特征之间的非线性关系和高级推理。最后输出可以对齐两幅图像的转换参数。

步骤4：对没有提取到运动目标和运动目标匹配失败的图像进行基于VGG16的图像配准。这是因为本发明提出的基于双向补偿的图像配准算法核心思想是针对不同前景的图像采用不同的配准算法以求较高的配准准确率，如图1所示。针对成功检测并匹配到运动前景的图像来进行基于DSCNN的图像配准，当检测不到目标或匹配不成功时，直接进行基于VGG16的图像配准，而不必进行双向补偿操作，以降低整体算法的时间复杂度。

基于VGG16的图像配准算法主要包括特征提取网络，特征匹配网络和回归网络三大部分，其中特征提取网络部分采用改进的VGG-16，两路匹配网络共享权值，匹配网络用来进行特征描述子的匹配，其输出通过回归网络输出几何变换的参数。特征提取网络采用标准的卷积神经网络架构，将待配准图像输入没有完全连接层的卷积神经网络，生成特征图。卷积神经网络截取VGG-16部分网络，其网络结构如图7所示。

经典的图像配准几何估计丢弃了原始的描述符，而关注描述符对之间的相似程度，这是因为描述符对相似程度和空间位置已包含了几何估计所需的必要信息，通过阈值化相似值仅保留最相似邻居的匹配去修建描述符对。本发明匹配网络也借鉴了这种思想，采用关联层，只考虑描述符对之间的空间位置和相似程度而不考虑原始描述符。本发明匹配网络采用相关层和归一化层的结构。其中，相关层计算所有特征描述子的相似性，归一化层用于对相似度分数进行处理和归一化以便去除模糊匹配。

应当指出，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以对本申请进行若干改进和修饰，这些改进和修饰也在本申请权利要求的保护范围内。

Claims

一种面向虚拟现实元宇宙的先验双向补偿的全景图像配准方法，其特征在于，所述全景图像配准方法包括以下步骤：

S1、采用基于Vibe的背景消减法对两幅待配准图像进行运动目标提取，对提取到运动目标的图像前景集进行自适应形变像素校正，使用SURF特征提取算法提取图像特征，并根据特征阈值完成运动目标匹配；

S2、采用稀疏光流法对匹配成功的运动目标进行运动方向和速度检测，根据摄像机的物理时间计算逻辑时间，根据两个摄像头物理时间的差值计算得到运动目标的速度，对各自运动目标进行补偿；

S3、基于密集卷积神经网络构建第一图像配准模型，基于VGG16网络构建第二图像配准模型；对目标提取失败的图像、目标匹配失败的图像以及进行了双向补偿的图像进行图像配准，以图像是否进行双向补偿将图像分为两类，其中，采用第一图像配准模型对基于位置预测的双向补偿后的图像进行图像配准，采用第二图像配准模型对包括目标提取失败和目标配准失败的图像在内的没有进行双向补偿的图像进行图像配准。
根据权利要求1所述的面向虚拟现实元宇宙的先验双向补偿的全景图像配准方法，其特征在于，步骤S1中，采用基于Vibe的背景消减法对两幅待配准图像进行运动目标提取，对提取到运动目标的图像前景集进行自适应形变像素校正的过程包括以下步骤：

为待检测的图像序列中每个像素值都建立一个包含N个样本值的背景模型M(x)，M(x)＝{v ₁,v ₂…v _N}，v _i表示索引为i的背景样本，i＝1,2,…,N；

更新背景模型M(x)如下：

M ⁰(x)＝{v _y(y|y∈N _G(x))}

式中，N _G(x)表示x位置的像素的空间邻域，v _y表示处于该空间邻域的像素点的颜色值；背景模型的样本点从邻域像素点随机抽取N个生成；

根据以下公式对像素进行校正：

式中，(x _d,y _d)表示发生形变的像素坐标，(x _c,y _c)表示有形变的中心像素坐标，(x _u,y _u)表示矫正之后的像素坐标，K ₁和K ₂分别表示一阶和二阶放射畸变系数；r表示形变后的坐标到中心像素坐标的距离；α和1-α表示相机焦距所处的相对位置：

式中，f _max、f _min分别表示相机焦距的最大值和最小值，f _c表示相机实际焦距。
根据权利要求1所述的面向虚拟现实元宇宙的先验双向补偿的全景图像配准方法，其特征在于，步骤S2中，对各自运动目标进行补偿的过程包括以下步骤：

采用稀疏光流法计算前景中运动目标的速度和方向，得出在x、y两个方向上的速度分别为u、v：

其中
和
表示第i个像素在x和y方向上的图像梯度，
表示第i个像素时间上的梯度；

两幅待配准图像A和图像B中左侧图像前景集表示为：

A _N＝{p _A1,p _A2…p _AN}；

右侧图像前景集表示为：

B _N＝{p _B1,p _B2…p _BN}；

其中p _Ai、p _Bi表示构成图像A和图像B的前景集的像素；

右侧图像真正的物理时间t′与左侧图像时间t满足t′＝t+Δt，Δt为两幅图像物理时间的差值；对图像A进行位置补偿的时间t _A和对图像B进行位置补偿的时间t _B分别为：

t _A＝t+Δt/2

t _B＝t′-Δt/2＝t+Δt/2；

补偿后左侧前景集为：

A _N′＝{p _A1′,p _A2′…p _AN′}

其中p _Ai′表示构成图像A补偿后的前景集的像素，p _Aix表示补偿前x方向上的像素分量，p _Aix′表示在x方向上补偿后的像素分量，u _A表示该像素在x方向上的速度，p _Aiy表示补偿前y方向上的像素分量，p _Aiy′表示在y方向上补偿后的像素分量，u _B表示该像素在y方向上的速度；

补偿后右侧图像前景集为：

B _N′＝{p _B1′,p _B2′…p _BN′}

其中p _Bi′表示构成图像B补偿后的前景集的像素，p _Bix表示补偿前x方向上的像素分量，p _Bix′表示在x方向上补偿后的像素分量，u _B表示该像素在x方向上的速度，p _Biy表示补偿前y方向上的像素分量，p _Biy′表示在y方向上补偿后的像素分量，v _B表示该像素在y方向上的速度。
根据权利要求1所述的面向虚拟现实元宇宙的先验双向补偿的全景图像配准方法，其特征在于，步骤S3中，所述第一图像配准模型由依次连接的三个密集网络块、一个卷积层和一个第一池化层组成，其中每个密集网络块是由一个卷积层、一个第二池化层和一个密集网络依次连接组成；第一池化层的输出经过压平后与回归网络连接，回归网络采用五个完全连接层依次连接组成，用于输出图像配准的几何变换的参数。
根据权利要求1所述的面向虚拟现实元宇宙的先验双向补偿的全景图像配准方法，其特征在于，步骤S3中，所述第二图像配准模型包括依次连接的特征提取网络、特征匹配网络和回归网络，其中，特征提取网络包括依次连接的两个卷积层和一个池化层，用于提取待配准图像的相关特征，生成特征图；特征提取网络包括两路匹配网络，两路匹配网络共享权值，每个匹配网络用来采用相关图进行相关性计算，进行特征描述子的匹配，其输出通过回归网络输出图像配准的几何变换的参数。
根据权利要求1所述的面向虚拟现实元宇宙的先验双向补偿的全景图像配准方法，其特征在于，所述虚拟现实元宇宙的场景包括虚拟现实场景。