WO2024082602A1

WO2024082602A1 - 一种端到端视觉里程计方法及装置

Info

Publication number: WO2024082602A1
Application number: PCT/CN2023/091529
Authority: WO
Inventors: 王祎男; 梁贵友; 关瀛洲; 曹礼军; 翟诺; 王迪; 曹容川; 张天奇
Original assignee: 中国第一汽车股份有限公司
Priority date: 2022-10-18
Filing date: 2023-04-28
Publication date: 2024-04-25
Also published as: CN115358962A; CN115358962B

Abstract

本申请公开了一种端到端视觉里程计方法及装置，属于自动驾驶技术领域。所述端到端视觉里程计方法包括：获取当前帧图像信息及前一帧图像信息；获取当前帧的亮度图像信息及前一帧的亮度图像信息；获取当前帧融合图像信息；获取当前帧的前一帧的融合图像信息；通过跳跃-融合-FCNN方法对当前帧融合图像信息以及当前帧的前一帧的融合图像信息进行特征提取从而获取融合图像特征；根据融合图像特征获取摄像装置的位姿估计信息。通过本申请的方法能够增强图像的对比度，提供更多的细节信息，从而提高图像特征提取的精度，降低位姿估计过程中的误差。

Description

一种端到端视觉里程计方法及装置

技术领域

本申请涉及自动驾驶技术领域，具体涉及一种端到端视觉里程计方法以及端到端视觉里程计装置。

背景技术

同时定位与建图(Simultaneous Localization And Mapping，SLAM)是计算机视觉领域的重要研究方向之一。在自动驾驶的相关研究中，SLAM是关键核心技术之一。在SLAM系统中，需要执行大量的位姿估计任务。视觉里程计(Visual Odemetry，VO)是SLAM系统框架中的前端，其目的是根据车载导航视频通过计算机视觉技术对图像序列进行分析和处理，输出车辆的估计位姿。VO将相邻时刻采集的图像序列作为输入，在估计车辆运动的同时生成初步优化的局部地图，并提供给后端进行下一步优化。传统的VO方法主要包括特征点法和直接法。特征点法需要提取图像序列的特征点，通过特征匹配来构建几何模型，从而估计车辆的运动。直接法通常是基于光度不变假设来估计相邻图像序列之间的车辆运动。VO进行位姿估计的精度影响着SLAM系统整体的轨迹精度。然而，传统的特征提取算法容易受到噪声、光照条件以及视角的影响，其鲁棒性较差。另外，该类算法提取的特征点的类型较为单一，会影响后续特征匹配的准确度，进而影响输出位姿估计的精度。

随着图像成像技术的成熟以及计算机视觉技术的飞速发展，VO方法得到了深入研究和广泛应用。目前，深度学习技术在计算机视觉领域中发挥着越来越重要的作用，它拥有强大的学习能力以及提取更深层次、更抽象特征的能力，已成为VO中非常重要的特征提取方法之一。深度学习特征提取方法能够学习到图像序列间的内在关联，提取到性能优异的特征点。Deep VO是当前应用较为广泛的一种端到端的VO算法。该算法是一种监督学习方法，能够从输入的图像序列中直接估计出车辆相应的位姿。

然而，在低光照或光照不均匀场景中采集的图像，由于图像对比度较低，缺乏动态移动细节特征，依然无法保证良好的性能。

因此，希望有一种技术方案来解决或至少减轻现有技术的上述不足。

发明内容

本发明的目的在于提供一种端到端视觉里程计方法来至少解决上述的一个技术问题。

本发明的一个方面，提供一种端到端视觉里程计方法，用于获取车辆上的摄像装置的位姿估计信息，所述端到端视觉里程计方法包括：

获取摄像装置所提供的当前帧图像信息以及当前帧的前一帧的图像信息；

分别对当前帧图像信息以及当前帧的前一帧的图像信息进行灰度变换处理，从而获取当前帧的亮度图像信息以及当前帧的前一帧的亮度图像信息；

对所述当前帧图像信息以及当前帧的亮度图像信息进行融合，从而获取当前帧融合图像信息；对所述当前帧的前一帧的图像信息以及当前帧的前一帧的亮度图像信息进行融合，从而获取当前帧的前一帧的融合图像信息；通过跳跃-融合-FCNN方法对所述当前帧融合图像信息以及所述当前帧的前一帧的融合图像信息进行特征提取从而获取融合图像特征；

根据所述融合图像特征获取摄像装置的位姿估计信息。

可选地，所述对当前帧图像信息进行灰度变换处理，从而获取当前帧的亮度图像信息包括：

获取当前帧图像信息中的当前帧源图像序列；

将当前帧源图像序列变换到灰度空间，对当前帧图像信息的各个像素进行集合划分，从而将各个像素分成三组集合，所述三组集合包括当前帧暗类像素集合，当前帧中类像素集合，当前帧亮类像素集合；

计算各组集合中的各个像素点的曝光度；

根据所述曝光度对当前帧源图像序列进行灰度变换，扩大欠曝光像素的灰度值，从而获取当前帧的亮度图像信息；

所述对当前帧的前一帧的图像信息进行灰度变换处理，从而获取当前帧的前一帧的亮度图像信息包括：

获取当前帧的前一帧的图像信息中的当前帧的前一帧的图像序列；

将当前帧的前一帧的图像序列变换到灰度空间，对当前帧的前一帧的图像信息的各个像素进行集合划分，从而将各个像素分成三组集合，所述三组集合包括当前帧的前一帧的暗类像素集合，当前帧的前一帧的中类像素集合，当前帧的前一帧的亮类像素集合；

计算各组集合中的各个像素点的曝光度；

根据所述曝光度对当前帧的前一帧的图像信息进行灰度变换，扩大欠曝光像素的灰度值，从而获取当前帧的前一帧的亮度图像信息。

可选地，对所述当前帧图像信息以及当前帧的亮度图像信息进行融合，从而获取当前帧融合图像信息包括：

采用如下公式对所述当前帧图像信息以及当前帧的亮度图像信息进行融合：

Fusion(I，I′)＝ω_p*I+(1-ω_p)*I′；其中，ω_p表示当前帧图像信息中像素p位置处的权重，I为当前帧源图像序列；I′为当前帧亮度图像信息；Fusion(I，I′)表示当前帧融合图像信息；

其中，G(x)表示高斯滤波器，F和F^-1分别表示傅里叶变换及其逆变换，H_n×n表示n×n矩阵，矩阵中的每个元素均为1/n²；和分别表示复数矩阵的实数部分和虚数部分；I′_i(p)表示像素p扩大之后的像素值；I(p)表示像素p的灰度值；SM(I)为显著性图谱。

可选地，所述通过跳跃-融合-FCNN方法对所述当前帧融合图像信息以及所述当前帧的前一帧的融合图像信息进行特征提取从而获取融合图像特征包括：

获取FCNN神经网络模型，所述FCNN神经网络模型包括五个池化层以及七个卷积层，其中，所述五个池化层分别称为第一池化层、第二池化层、第三池化层、第四池化层以及第五池化层；所述七个卷积层分别称为第一卷积层、第二卷积层、第三卷积层、第四卷积层、第五卷积层、第六卷积层以及第七卷积层；

将所述当前帧融合图像信息以及所述当前帧的前一帧的融合图像信息进行叠加从而形成最终输入图像信息；

将所述最终输入图像信息输入至所述FCNN神经网络模型，以使所述最终输入图像信息依次经过第一卷积层、第一池化层、第二卷积层、第二池化层、第三卷积层、第三池化层、第四卷积层、第四池化层、第五卷积层、第五池化层、第六卷积层以及第七卷积层处理；

根据经过所述第三池化层处理后的数据、经过所述第四池化层处理后的数据以及经过所述第七卷积层处理后的数据生成第一路径特征；

根据经过所述第二池化层处理后的数据、经过所述第三池化层处理后的数据、经过所述第四池化层处理后的数据以及经过所述第七卷积层处理后的数据生成第二路径特征；

根据经过所述第一池化层处理后的数据、所述第二池化层处理后的数据、经过所述第三池化层处理后的数据、经过所述第四池化层处理后的数据以及经过所述第七卷积层处理后的数据生成第三路径特征；

将所述第一路径特征、第二路径特征以及第三路径特征进行融合，从而获取所述融合图像特征。

可选地，所述第一池化层、第二池化层、第三池化层、第四池化层以及第五池化层分别具有不同的参数；

所述根据经过所述第三池化层处理后的数据、经过所述第四池化层处理后的数据以及经过所述第七卷积层处理后的数据生成第一路径特征包括：

对经过所述第三池化层处理后的数据进行4倍下采样，对经过所述第四池化层处理后的数据进行2倍下采样；

将经过所述4倍下采样的数据以及经过所述2倍下采样的数据与第七卷积层处理后的数据进行求和运算，逐数据相加，将三个不同深度的预测结果进行合并从而获取第一路径特征。

可选地，所述根据经过所述第二池化层处理后的数据、经过所述第三池化层处理后的数据、经过所述第四池化层处理后的数据以及经过所述第七卷积层处理后的数据生成第二路径特征包括：

对经过所述第二池化层处理后的数据进行8倍下采样、对经过所述第三池化层处理后的数据进行4倍下采样，对经过所述第四池化层处理后的数据进行2倍下采样；

将经过所述8倍下采样的数据、所述4倍下采样的数据以及经过所述2倍下采样的数据与第七卷积层处理后的数据进行求和运算，逐数据相加，将四个不同深度的预测结果进行合并从而获取第二路径特征。

可选地，所述根据经过所述第一池化层处理后的数据、所述第二池化层处理后的数据、经过所述第三池化层处理后的数据、经过所述第四池化层处理后的数据以及经过所述第七卷积层处理后的数据生成第三路径特征包括：

对经过所述第一池化层处理后的数据进行16倍下采样、经过所述第二池化层处理后的数据进行8倍下采样、对经过所述第三池化层处理后的数据进行4倍下采样，对经过所述第四池化层处理后的数据进行2倍下采样；

将经过所述16倍下采样的数据、所述8倍下采样的数据、所述4倍下采样的数据以及经过所述2倍下采样的数据与第七卷积层处理后的数据进行求和运算，逐数据相加，将五个不同深度的预测结果进行合并从而获取第三路径特征。

可选地，所述池化层的参数包括图像尺寸参数以及通道数；所述卷积层的参数包括图像尺寸参数以及通道数；

所述第一池化层的图像尺寸参数为(M/2)×(N/2)；所述第一池化层的通道数为64；

所述第二池化层的图像尺寸参数为(M/4)×(N/4)；所述第二池化层的通道数为128；

所述第三池化层的图像尺寸参数为(M/8)×(N/8)；所述第三池化层的通道数为256；

所述第四池化层的图像尺寸参数为(M/16)×(N/16)；所述第四池化层的通道数为256；

所述第五池化层的图像尺寸参数为(M/32)×(N/32)；所述第五池化层的通道数为512；

所述第六卷积层的图像尺寸参数为4096×(M/32)×(N/32)；所述第六卷积层的通道数为512；

所述第七卷积层的图像尺寸参数为4096×(M/32)×(N/32)；所述第七卷积层的通道数为512。

可选地，所述根据所述融合图像特征获取位姿估计信息包括：

将所述融合图像特征输入至长短期记忆神经网络中，从而获取摄像装置的位姿估计信息。

本申请还提供了一种端到端视觉里程计装置，所述端到端视觉里程计装置包括：

图像获取模块，所述图像获取模块用于获取摄像装置所提供的当前帧图像信息以及当前帧的前一帧的图像信息；

灰度变换处理模块，所述灰度变换处理模块用于分别对当前帧图像信息以及当前帧的前一帧的图像信息进行灰度变换处理，从而获取当前帧的亮度图像信息以及当前帧的前一帧的亮度图像信息；

融合模块，所述融合模块用于对所述当前帧图像信息以及当前帧的亮度图像信息进行融合，从而获取当前帧融合图像信息以及对所述当前帧的前一帧的图像信息以及当前帧的前一帧的亮度图像信息进行融合，从而获取当前帧的前一帧的融合图像信息；

特征提取模块，所述特征提取模块用于通过跳跃-融合-FCNN方法对所述当前帧融合图像信息以及所述当前帧的前一帧的融合图像信息进行特征提取从而获取融合图像特征；

位姿估计模块，所述位姿估计模块用于根据所述融合图像特征获取摄像装置的位姿估计信息。

有益效果

本申请的端到端视觉里程计方法通过对源图像序列进行灰度变换获得其亮度图像，设计基于谱残差理论的图像融合算法将图像序列及其亮度图像进行合并，增强图像的对比度，提供更多的细节信息。为了提高图像特征提取的精度，降低位姿估计过程中的误差，本申请设计了基于跳跃-融合-FCNN的特征提取算法，对传统的全卷积神经网络(fully convolutional neural network，FCNN)进行了改进，提出跳跃-融合-FCNN网络模型，构建了3条不同的路径进行特征提取。在每条路径中，通过下采样将不同深度的预测结果进行融合，获得特征图谱。合并3个不同的特征图谱，获得融合图像特征，同时考虑了图像的结构信息和细节信息。

附图说明

图1是本申请一实施例的端到端视觉里程计方法的流程示意图。

图2是能够实现本申请一实施例的端到端视觉里程计方法的电子设备的示意图。

图3是本申请一实施例的端到端视觉里程计方法的架构示意图。

具体实施方式

为使本申请实施的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行更加详细的描述。在附图中，自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。所描述的实施例是本申请一部分实施例，而不是全部的实施例。下面通过参考附图描述的实施例是示例性的，旨在用于解释本申请，而不能理解为对本申请的限制。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。下面结合附图对本申请的实施例进行详细说明。

本申请的端到端视觉里程计方法用于获取车辆上的摄像装置的位姿估计信息。

如图1及图3所示的端到端视觉里程计方法包括：

步骤1：获取摄像装置所提供的当前帧图像信息以及当前帧的前一帧的图像信息；

步骤2：分别对当前帧图像信息以及当前帧的前一帧的图像信息进行灰度变换处理，从而获取当前帧的亮度图像信息以及当前帧的前一帧的亮度图像信息；

步骤3：对当前帧图像信息以及当前帧的亮度图像信息进行融合，从而获取当前帧融合图像信息；

步骤4：对当前帧的前一帧的图像信息以及当前帧的前一帧的亮度图像信息进行融合，从而获取当前帧的前一帧的融合图像信息；通过跳跃-融合-FCNN方法对当前帧融合图像信息以及当前帧的前一帧的融合图像信息进行特征提取从而获取融合图像特征；

步骤5：根据融合图像特征获取摄像装置的位姿估计信息。

在本实施中，对当前帧图像信息进行灰度变换处理，从而获取当前帧的亮度图像信息包括：

获取当前帧图像信息中的当前帧源图像序列；

计算各组集合中的各个像素点的曝光度；

根据曝光度对当前帧源图像序列进行灰度变换，扩大欠曝光像素的灰度值，从而获取当前帧的亮度图像信息。

具体而言，首先，将源图像序列变换到灰度空间，对源图像I中的像素进行划分，分为暗类(I_D)，中类(I_M)和亮类(I_B)。假设p为源图像I中的一个像素，p通过如下公式进行分类。

其中，

I_D表示暗类像素集合、I_M中类像素集合、I_B表示亮类像素集合，I(p)表示像素p的灰度值。τ₁和τ₂表示两个阈值，可通过多阈值Otsu算法获得。

然后，通过计算3类像素(暗类，中类和亮类)的曝光度，来判断各个像素点是否曝光良好。任意一个像素p的曝光度E(p)计算如下公式。

当p∈I_i时，其中，i＝D，M，B；其中，表示I_i类像素的参考曝光值。σ_i(i＝D，M，B)表示I_i类像素的参考标准差，可分别设置为32，64，32。像素的灰度值越接近其参考曝光值，表明该像素曝光越好。通常情况下，当E(p)≥0.8时，表示像素p曝光良好；否则，像素p曝光不足，需要扩大像素p的灰度值。

最后，根据像素的曝光度，对当前帧源图像序列进行灰度变换，扩大欠曝光像素的灰度值，计算方式如下所示。

I′_i(p)＝I(p)F_i(p)，当p∈I_i时，其中，i＝D，M，B；其中， I′_i(p)表示像素p扩大之后的像素值。F_i(p)表示扩大因子，F_i(p)计算方式如下公式。

当p∈I_i时，其中，i＝D，M，B；(其中，i＝D，M，B)表示I_i类像素中曝光良好的像素p的灰度值，表示I_i类像素中欠曝光像素p的灰度值。

在本实施例中，采用谱残差理论对源图像及其亮度图像进行显著性检测，实现两幅图像的融合。

具体而言，对当前帧图像信息以及当前帧的亮度图像信息进行融合，从而获取当前帧融合图像信息包括：

采用如下公式对当前帧图像信息以及当前帧的亮度图像信息进行融合：

在本实施例中，对当前帧的前一帧的图像信息进行灰度变换处理，从而获取当前帧的前一帧的亮度图像信息包括：

计算各组集合中的各个像素点的曝光度；

可以理解的是，获取当前帧的亮度图像信息与获取当前帧的前一帧的亮度图像信息所用方法以及所用公式相同，在此不再赘述。

在本实施例中，通过跳跃-融合-FCNN方法对当前帧融合图像信息以及当前帧的前一帧的融合图像信息进行特征提取从而获取融合图像特征包括：

获取FCNN神经网络模型，FCNN神经网络模型包括五个池化层以及七个卷积层，其中，五个池化层分别称为第一池化层、第二池化层、第三池化层、第四池化层以及第五池化层；七个卷积层分别称为第一卷积层、第二卷积层、第三卷积层、第四卷积层、第五卷积层、第六卷积层以及第七卷积层；

将当前帧融合图像信息以及当前帧的前一帧的融合图像信息进行叠加从而形成最终输入图像信息；

将最终输入图像信息输入至FCNN神经网络模型，以使最终输入图像信息依次经过第一卷积层、第一池化层、第二卷积层、第二池化层、第三卷积层、第三池化层、第四卷积层、第四池化层、第五卷积层、第五池化层、第六卷积层以及第七卷积层处理；

根据经过第三池化层处理后的数据、经过第四池化层处理后的数据以及经过第七卷积层处理后的数据生成第一路径特征；

根据经过第二池化层处理后的数据、经过第三池化层处理后的数据、经过第四池化层处理后的数据以及经过第七卷积层处理后的数据生成第二路径特征；

根据经过第一池化层处理后的数据、第二池化层处理后的数据、经过第三池化层处理后的数据、经过第四池化层处理后的数据以及经过第七卷积层处理后的数据生成第三路径特征；

将第一路径特征、第二路径特征以及第三路径特征进行融合，从而获取融合图像特征。

在本实施例中，第一池化层、第二池化层、第三池化层、第四池化层以及第五池化层分别具有不同的参数；

在本实施例中，根据经过第三池化层处理后的数据、经过第四池化层处理后的数据以及经过所述第七卷积层处理后的数据生成第一路径特征包括：

对经过第三池化层处理后的数据进行4倍下采样，对经过第四池化层处理后的数据进行2倍下采样；

将经过4倍下采样的数据以及经过2倍下采样的数据与第七卷积层处理后的数据进行求和运算，逐数据相加，将三个不同深度的预测结果进行合并从而获取第一路径特征。

在本实施例中，根据经过第二池化层处理后的数据、经过第三池化层处理后的数据、经过第四池化层处理后的数据以及经过第七卷积层处理后的数据生成第二路径特征包括：

对经过第二池化层处理后的数据进行8倍下采样、对经过第三池化层处理后的数据进行4倍下采样，对经过所述第四池化层处理后的数据进行2倍下采样；

将经过8倍下采样的数据、4倍下采样的数据以及经过2倍下采样的数据与第七卷积层处理后的数据进行求和运算，逐数据相加，将四个不同深度的预测结果进行合并从而获取第二路径特征。

在本实施例中，根据经过第一池化层处理后的数据、第二池化层处理后的数据、经过所述第三池化层处理后的数据、经过第四池化层处理后的数据以及经过第七卷积层处理后的数据生成第三路径特征包括：

对经过第一池化层处理后的数据进行16倍下采样、经过第二池化层处理后的数据进行8倍下采样、对经过第三池化层处理后的数据进行4倍下采样，对经过所述第四池化层处理后的数据进行2倍下采样；

将经过16倍下采样的数据、8倍下采样的数据、4倍下采样的数据以及经过2倍下采样的数据与第七卷积层处理后的数据进行求和运算，逐数据相加，将五个不同深度的预测结果进行合并从而获取第三路径特征。

参见下表1，在本实施例中，池化层的参数包括图像尺寸参数以及通道数；卷积层的参数包括图像尺寸参数以及通道数；

第一池化层的图像尺寸参数为(M/2)×(N/2)；第一池化层的通道数为64；

第二池化层的图像尺寸参数为(M/4)×(N/4)；第二池化层的通道数为128；

第三池化层的图像尺寸参数为(M/8)×(N/8)；第三池化层的通道数为256；

第四池化层的图像尺寸参数为(M/16)×(N/16)；第四池化层的通道数为256；

第五池化层的图像尺寸参数为(M/32)×(N/32)；第五池化层的通道数为512；

第六卷积层的图像尺寸参数为4096×(M/32)×(N/32)；第六卷积层的通道数为512；

第七卷积层的图像尺寸参数为4096×(M/32)×(N/32)；第七卷积层的通道数为512。

可以理解的是，其他卷积层可以根据自身需要而自行设定图像尺寸参数以及通道数。

表1：

本申请设计了端到端视觉里程计算法获得估计位姿。首先，为了更好地提取图像序列的特征信息，本申请设计了跳跃-融合-FCNN网络框架。通过3条不同的路径获得图像序列在不同步长下的特征信息，同时考虑了图像的细节信息和结构信息，并通过融合思想将3条路径的特征信息进行合并。其次，本发明采用基于LSTM的循环神经网络对特征信息之间的动态变化和关联进行序列化建模，进而输出估计位姿。

第一路径侧重图像的结构信息，获得的特征图谱具有鲁棒性。第三路径充分考虑了图像的细节信息，获得的特征图谱更加精细。第二路径获得的特征图谱用于平衡上述两条路径的结果。将3条路径获得的特征图谱进行合并，获得特征融合信息，作为RNN网络层的输入。

在本实施例中，根据融合图像特征获取位姿估计信息包括：

将融合图像特征输入至长短期记忆神经网络中，从而获取摄像装置的位姿估计信息。

具体而言，当前帧融合图像信息经过FCNN提取获得的当前帧特征输入到RNN网络，对特征之间的动态变化和关联进行序列化建模。长短期记忆(Long Short-Term Memory，LSTM)网络具有记忆单元和门限控制函数，能够丢弃或保留先前时刻的隐藏层状态来对更新当前时刻的隐藏层状态，进而输出当前时刻的估计位姿。LSTM使得RNN网络具有记忆功能和较强的学习能力。

在t-1时刻，LSTM的隐藏层状态记为h_t-1，记忆单元记为c_t-11。假设在t时刻，输入为x_t，则更新后的隐藏层状态和记忆单元定义为，

其中，sigmoid和tanh是两个激活函数，W表示相应的权重矩阵，b表示偏置向量。

LSTM网络包含LSTM1和LSTM2两个网络层，LSTM1的隐藏层状态作为LSTM2的输入。每个LSTM网络层含有1000个隐藏单元，输出当前时刻对应的估计位姿，即一个6自由度的位姿向量。

参数优化

根据位姿坐标平移距离变化和方向变化，定义网络的损失函数如下，

其中，N表示样本数据集中图像序列的数目，和分别表示第i个序列中第j个时刻的图像相对于上一时刻图像的估计位姿和真实位姿。||·||₂表示矩阵的2范数计算。α＞0是一个常数。

因此，视觉里程计的位姿估计转化为求解最优网络参数δ^*，最终即可获得摄像装置的位姿估计信息。

本申请还提供了一种端到端视觉里程计装置，端到端视觉里程计装置包括图像获取模块、灰度变换处理模块、融合模块、特征提取模块以及位姿估计模块，其中，图像获取模块用于获取摄像装置所提供的当前帧图像信息以及当前帧的前一帧的图像信息；灰度变换处理模块用于分别对当前帧图像信息以及当前帧的前一帧的图像信息进行灰度变换处理，从而获取当前帧的亮度图像信息以及当前帧的前一帧的亮度图像信息；融合模块用于对当前帧图像信息以及当前帧的亮度图像信息进行融合，从而获取当前帧融合图像信息以及对当前帧的前一帧的图像信息以及当前帧的前一帧的亮度图像信息进行融合，从而获取当前帧的前一帧的融合图像信息；特征提取模块用于通过跳跃-融合-FCNN方法对当前帧融合图像信息以及当前帧的前一帧的融合图像信息进行特征提取从而获取融合图像特征；位姿估计模块用于根据融合图像特征获取摄像装置的位姿估计信息。

可以理解的是，上述对方法的描述，也同样适用于对装置的描述。

本申请还提供了一种电子设备，包括存储器、处理器以及存储在存储器中并能够在处理器上运行的计算机程序，处理器执行计算机程序时实现如上的基于图像融合和FCNN-LSTM的端到端视觉里程计方法。

本申请还提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序被处理器执行时能够实现如上的端到端视觉里程计方法。

图2是能够实现根据本申请一个实施例提供的端到端视觉里程计方法的电子设备的示例性结构图。

如图2所示，电子设备包括输入设备501、输入接口502、中央处理器503、存储器504、输出接口505以及输出设备506。其中，输入接口502、中央处理器503、存储器504以及输出接口505通过总线507相互连接，输入设备501和输出设备506分别通过输入接口502和输出接口505与总线507连接，进而与电子设备的其他组件连接。具体地，输入设备504接收来自外部的输入信息，并通过输入接口502将输入信息传送到中央处理器503；中央处理器503基于存储器504中存储的计算机可执行指令对输入信息进行处理以生成输出信息，将输出信息临时或者永久地存储在存储器504中，然后通过输出接口505将输出信息传送到输出设备506；输出设备506将输出信息输出到电子设备的外部供用户使用。

也就是说，图2所示的电子设备也可以被实现为包括：存储有计算机可执行指令的存储器；以及一个或多个处理器，该一个或多个处理器在执行计算机可执行指令时可以实现结合图1描述的端到端视觉里程计方法。

在一个实施例中，图2所示的电子设备可以被实现为包括：存储器504，被配置为存储可执行程序代码；一个或多个处理器503，被配置为运行存储器504中存储的可执行程序代码，以执行上述实施例中的基于图像融合和FCNN-LSTM的端到端视觉里程计方法。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动，媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数据多功能光盘(DVD)或其他光学存储、磁盒式磁带、磁带磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

此外，显然“包括”一词不排除其他单元或步骤。装置权利要求中陈述的多个单元、模块或装置也可以由一个单元或总装置通过软件或硬件来实现。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，模块、程序段、或代码的一部分包括一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地标识的方框实际上可以基本并行地执行，他们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或总流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

在本实施例中所称处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器可用于存储计算机程序和/或模块，处理器通过运行或执行存储在存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现装置/终端设备的各种功能。存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

在本实施例中，装置/终端设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，计算机程序包括计算机程序代码，计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括：能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减。本申请虽然以较佳实施例公开如上，但其实并不是用来限定本申请，任何本领域技术人员在不脱离本申请的精神和范围内，都可以做出可能的变动和修改，因此，本申请的保护范围应当以本申请权利要求所界定的范围为准。

虽然，上文中已经用一般性说明及具体实施方案对本发明作了详尽的描述，但在本发明基础上，可以对之作一些修改或改进，这对本领域技术人员而言是显而易见的。因此，在不偏离本发明精神的基础上所做的这些修改或改进，均属于本发明要求保护的范围。

Claims

一种端到端视觉里程计方法，用于获取车辆上的摄像装置的位姿估计信息，其特征在于，所述端到端视觉里程计方法包括：

获取摄像装置所提供的当前帧图像信息以及当前帧的前一帧的图像信息；

分别对当前帧图像信息以及当前帧的前一帧的图像信息进行灰度变换处理，从而获取当前帧的亮度图像信息以及当前帧的前一帧的亮度图像信息；

对所述当前帧图像信息以及当前帧的亮度图像信息进行融合，从而获取当前帧融合图像信息；

对所述当前帧的前一帧的图像信息以及当前帧的前一帧的亮度图像信息进行融合，从而获取当前帧的前一帧的融合图像信息；

通过跳跃-融合-FCNN方法对所述当前帧融合图像信息以及所述当前帧的前一帧的融合图像信息进行特征提取从而获取融合图像特征；

根据所述融合图像特征获取摄像装置的位姿估计信息；其中，

对所述当前帧图像信息以及当前帧的亮度图像信息进行融合，从而获取当前帧融合图像信息包括：

采用如下公式对所述当前帧图像信息以及当前帧的亮度图像信息进行融合：
Fusion(I，I′)＝ω_p*I+(1-ω_p)*I′；其中，

ω_p表示当前帧图像信息中像素p位置处的权重，I为当前帧源图像序列；I′为当前帧亮度图像信息；Fusion(I，I′)表示当前帧融合图像信息；

其中，G(x)表示高斯滤波器，F和F^-1分别表示傅里叶变换及其逆变换，H_n×n表示n×n矩阵，矩阵中的每个元素均为1/n²；和分别表示复数矩阵的实数部分和虚数部分；SM(I)为显著性图谱；

所述通过跳跃-融合-FCNN方法对所述当前帧融合图像信息以及所述当前帧的前一帧的融合图像信息进行特征提取从而获取融合图像特征包括：

获取FCNN神经网络模型，所述FCNN神经网络模型包括五个池化层以及七个卷积层，其中，所述五个池化层分别称为第一池化层、第二池化层、第三池化层、第四池化层以及第五池化层；所述七个卷积层分别称为第一卷积层、第二卷积层、第三卷积层、第四卷积层、第五卷积层、第六卷积层以及第七卷积层；

将所述当前帧融合图像信息以及所述当前帧的前一帧的融合图像信息进行叠加从而形成最终输入图像信息；

将所述最终输入图像信息输入至所述FCNN神经网络模型，以使所述最终输入图像信息依次经过第一卷积层、第一池化层、第二卷积层、第二池化层、第三卷积层、第三池化层、第四卷积层、第四池化层、第五卷积层、第五池化层、第六卷积层以及第七卷积层处理；

根据经过所述第三池化层处理后的数据、经过所述第四池化层处理后的数据以及经过所述第七卷积层处理后的数据生成第一路径特征；

根据经过所述第二池化层处理后的数据、经过所述第三池化层处理后的数据、经过所述第四池化层处理后的数据以及经过所述第七卷积层处理后的数据生成第二路径特征；

根据经过所述第一池化层处理后的数据、所述第二池化层处理后的数据、经过所述第三池化层处理后的数据、经过所述第四池化层处理后的数据以及经过所述第七卷积层处理后的数据生成第三路径特征；

将所述第一路径特征、第二路径特征以及第三路径特征进行融合，从而获取所述融合图像特征。
如权利要求1所述的端到端视觉里程计方法，其特征在于，所述对当前帧图像信息进行灰度变换处理，从而获取当前帧的亮度图像信息包括：

获取当前帧图像信息中的当前帧源图像序列；

将当前帧源图像序列变换到灰度空间，对当前帧图像信息的各个像素进行集合划分，从而将各个像素分成三组集合，所述三组集合包括当前帧暗类像素集合，当前帧中类像素集合，当前帧亮类像素集合；

计算各组集合中的各个像素点的曝光度；

根据所述曝光度对当前帧源图像序列进行灰度变换，扩大欠曝光像素的灰度值，从而获取当前帧的亮度图像信息；

所述对当前帧的前一帧的图像信息进行灰度变换处理，从而获取当前帧的前一帧的亮度图像信息包括：

获取当前帧的前一帧的图像信息中的当前帧的前一帧的图像序列；

将当前帧的前一帧的图像序列变换到灰度空间，对当前帧的前一帧的图像信息的各个像素进行集合划分，从而将各个像素分成三组集合，所述三组集合包括当前帧的前一帧的暗类像素集合，当前帧的前一帧的中类像素集合，当前帧的前一帧的亮类像素集合；

计算各组集合中的各个像素点的曝光度；

根据所述曝光度对当前帧的前一帧的图像信息进行灰度变换，扩大欠曝光像素的灰度值，从而获取当前帧的前一帧的亮度图像信息。
如权利要求2所述的端到端视觉里程计方法，其特征在于，所述第一池化层、第二池化层、第三池化层、第四池化层以及第五池化层分别具有不同的参数；

所述根据经过所述第三池化层处理后的数据、经过所述第四池化层处理后的数据以及经过所述第七卷积层处理后的数据生成第一路径特征包括：

对经过所述第三池化层处理后的数据进行4倍下采样，对经过所述第四池化层处理后的数据进行2倍下采样；

将经过所述4倍下采样的数据以及经过所述2倍下采样的数据与第七卷积层处理后的数据进行求和运算，逐数据相加，将三个不同深度的预测结果进行合并从而获取第一路径特征。
如权利要求3所述的端到端视觉里程计方法，其特征在于，所述根据经过所述第二池化层处理后的数据、经过所述第三池化层处理后的数据、经过所述第四池化层处理后的数据以及经过所述第七卷积层处理后的数据生成第二路径特征包括：

对经过所述第二池化层处理后的数据进行8倍下采样、对经过所述第三池化层处理后的数据进行4倍下采样，对经过所述第四池化层处理后的数据进行2倍下采样；

将经过所述8倍下采样的数据、所述4倍下采样的数据以及经过所述2倍下采样的数据与第七卷积层处理后的数据进行求和运算，逐数据相加，将四个不同深度的预测结果进行合并从而获取第二路径特征。
如权利要求4所述的端到端视觉里程计方法，其特征在于，所述根据经过所述第一池化层处理后的数据、所述第二池化层处理后的数据、经过所述第三池化层处理后的数据、经过所述第四池化层处理后的数据以及经过所述第七卷积层处理后的数据生成第三路径特征包括：对经过所述第一池化层处理后的数据进行16倍下采样、经过所述第二池化层处理后的数据进行8倍下采样、对经过所述第三池化层处理后的数据进行4倍下采样，对经过所述第四池化层处理后的数据进行2倍下采样；

将经过所述16倍下采样的数据、所述8倍下采样的数据、所述4倍下采样的数据以及经过所述2倍下采样的数据与第七卷积层处理后的数据进行求和运算，逐数据相加，将五个不同深度的预测结果进行合并从而获取第三路径特征。
如权利要求5所述的端到端视觉里程计方法，其特征在于，所述池化层的参数包括图像尺寸参数以及通道数；所述卷积层的参数包括图像尺寸参数以及通道数；

所述第一池化层的图像尺寸参数为(M/2)×(N/2)；所述第一池化层的通道数为64；

所述第二池化层的图像尺寸参数为(M/4)×(N/4)；所述第二池化层的通道数为128；

所述第三池化层的图像尺寸参数为(M/8)×(N/8)；所述第三池化层的通道数为256；

所述第四池化层的图像尺寸参数为(M/16)×(N/16)；所述第四池化层的通道数为256；

所述第五池化层的图像尺寸参数为(M/32)×(N/32)；所述第五池化层的通道数为512；

所述第六卷积层的图像尺寸参数为4096×(M/32)×(N/32)；所述第六卷积层的通道数为512；

所述第七卷积层的图像尺寸参数为4096×(M/32)×(N/32)；所述第七卷积层的通道数为512。
如权利要求6所述的端到端视觉里程计方法，其特征在于，所述根据所述融合图像特征获取位姿估计信息包括：

将所述融合图像特征输入至长短期记忆神经网络中，从而获取摄像装置的位姿估计信息。
一种端到端视觉里程计装置，用于实现如权利要求1至7中任意一项所述的端到端视觉里程计方法，其特征在于，所述端到端视觉里程计装置包括：

图像获取模块，所述图像获取模块用于获取摄像装置所提供的当前帧图像信息以及当前帧的前一帧的图像信息；

灰度变换处理模块，所述灰度变换处理模块用于分别对当前帧图像信息以及当前帧的前一帧的图像信息进行灰度变换处理，从而获取当前帧的亮度图像信息以及当前帧的前一帧的亮度图像信息；

融合模块，所述融合模块用于对所述当前帧图像信息以及当前帧的亮度图像信息进行融合，从而获取当前帧融合图像信息以及对所述当前帧的前一帧的图像信息以及当前帧的前一帧的亮度图像信息进行融合，从而获取当前帧的前一帧的融合图像信息；

特征提取模块，所述特征提取模块用于通过跳跃-融合-FCNN方法对所述当前帧融合图像信息以及所述当前帧的前一帧的融合图像信息进行特征提取从而获取融合图像特征；

位姿估计模块，所述位姿估计模块用于根据所述融合图像特征获取摄像装置的位姿估计信息；其中，

对所述当前帧图像信息以及当前帧的亮度图像信息进行融合，从而获取当前帧融合图像信息包括：

采用如下公式对所述当前帧图像信息以及当前帧的亮度图像信息进行融合：
Fusion(I，I′)＝ω_p*I+(1-ω_p)*I′；其中，

ω_p表示当前帧图像信息中像素p位置处的权重，I为当前帧源图像序列；I′为当前帧亮度图像信息；Fusion(I，I′)表示当前帧融合图像信息；

其中，G(x)表示高斯滤波器，F和F^-1分别表示傅里叶变换及其逆变换，H_n×n表示n×n矩阵，矩阵中的每个元素均为1/n²；和分别表示复数矩阵的实数部分和虚数部分；SM(I)为显著性图谱；

所述通过跳跃-融合-FCNN方法对所述当前帧融合图像信息以及所述当前帧的前一帧的融合图像信息进行特征提取从而获取融合图像特征包括：

获取FCNN神经网络模型，所述FCNN神经网络模型包括五个池化层以及七个卷积层，其中，所述五个池化层分别称为第一池化层、第二池化层、第三池化层、第四池化层以及第五池化层；所述七个卷积层分别称为第一卷积层、第二卷积层、第三卷积层、第四卷积层、第五卷积层、第六卷积层以及第七卷积层；

将所述当前帧融合图像信息以及所述当前帧的前一帧的融合图像信息进行叠加从而形成最终输入图像信息；

将所述最终输入图像信息输入至所述FCNN神经网络模型，以使所述最终输入图像信息依次经过第一卷积层、第一池化层、第二卷积层、第二池化层、第三卷积层、第三池化层、第四卷积层、第四池化层、第五卷积层、第五池化层、第六卷积层以及第七卷积层处理；

根据经过所述第三池化层处理后的数据、经过所述第四池化层处理后的数据以及经过所述第七卷积层处理后的数据生成第一路径特征；

根据经过所述第二池化层处理后的数据、经过所述第三池化层处理后的数据、经过所述第四池化层处理后的数据以及经过所述第七卷积层处理后的数据生成第二路径特征；

根据经过所述第一池化层处理后的数据、所述第二池化层处理后的数据、经过所述第三池化层处理后的数据、经过所述第四池化层处理后的数据以及经过所述第七卷积层处理后的数据生成第三路径特征；

将所述第一路径特征、第二路径特征以及第三路径特征进行融合，从而获取所述融合图像特征。