WO2023082822A1

WO2023082822A1 - 图像数据的处理方法和装置

Info

Publication number: WO2023082822A1
Application number: PCT/CN2022/118735
Authority: WO
Inventors: 陈腾; 隋伟; 谢佳锋; 张骞; 黄畅
Original assignee: 北京地平线信息技术有限公司
Priority date: 2021-11-10
Filing date: 2022-09-14
Publication date: 2023-05-19
Also published as: CN114049388A; EP4290456A1; US20240169712A1; JP2024508024A

Abstract

本公开实施例公开了一种图像数据的处理方法和装置，其中，该处理方法包括：利用第一神经网络对第一图像和第二图像进行处理，得到单应性矩阵；根据所述单应性矩阵，确定第一图像特征的映射图像特征；对所述映射图像特征和所述第二图像特征进行融合，得到融合图像特征；利用第二神经网络对所述融合图像特征进行处理，得到所述第二图像的第一像素高深比。本公开实施例可以得到稠密且准确的像素高深比，进而可以辅助进行3D场景建模。

Description

图像数据的处理方法和装置

本申请要求在2021年11月10日提交的、申请号为202111329386.7、发明名称为“图像数据的处理方法和装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本公开涉及图像处理技术领域，尤其是一种图像数据的处理方法和装置。

背景技术

平面视差方法基于两个视角观测同一目标或场景的差异来建模3D场景，该方法依赖于某个特定平面，可以恢复场景中一个像素点到平面的高度和到观测点的距离，即该像素点的像素高深比。

目前的平面视差方法依赖于光流估计得到两个视角下对应点的匹配结果。光流方法不能得到稠密的估计结果并且受噪声影响大。如何基于图像数据得到稠密且准确的像素高深比，是一个亟待解决的问题。

发明内容

为了解决上述技术问题，提出了本公开。

根据本公开实施例的第一方面，提供了一种图像数据的处理方法，包括：

利用第一神经网络对第一图像和第二图像进行处理，得到单应性矩阵，其中，所述第一图像为第一时刻拍摄，所述第二图像为第二时刻拍摄，且所述第一图像和所述第二图像具有相同区域的路面元素；

根据所述单应性矩阵，确定第一图像特征的映射图像特征，其中，所述第一图像特征为基于所述第一图像提取的特征；

对所述映射图像特征和第二图像特征进行融合，得到融合图像特征，其中，所述第二图像特征为基于所述第二图像提取的特征；

利用第二神经网络对所述融合图像特征进行处理，得到所述第二图像的第一像素高深比。

根据本公开实施例的第二方面，提供了一种图像数据的处理装置，包括：

单应性矩阵确定模块，用于利用第一神经网络对第一图像和第二图像进行处理，得到单应性矩阵，其中，所述第一图像为第一时刻拍摄，所述第二图像为第二时刻拍摄，且所述第一图像和所述第二图像具有相同区域的路面元素；

映射图像特征确定模块，用于根据所述单应性矩阵，确定第一图像特征的映射图像特征，其中，所述第一图像特征为基于所述第一图像提取的特征；

融合模块，用于对所述映射图像特征和第二图像特征进行融合，得到融合图像特征，其中，所述第二图像特征为基于所述第二图像提取的特征；

第一像素高深比确定模块，用于利用第二神经网络对所述融合图像特征进行处理，得到所述第二图像的第一像素高深比。

根据本公开实施例的第三方面，提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序用于执行上述第一方面所述的图像数据的处理方法。

根据本公开实施例的第四方面，提供了一种电子设备，所述电子设备包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现上述第一方面所述的图像数据的处理方法。

基于本公开上述实施例提供的图像数据的处理方法和装置，利用第一神经网络对相机拍摄的、具有共同区域路面元素的第一图像和第二图像进行处理，得到单应性矩阵；接着通过单应性矩阵对第一图像特征进行映射得到映射图像特征，并将映射图像特征与第二图像特征进行融合，得到融合图像特征；利用第二神经网络对融合图像特征进行处理，确定第一像素高深比。其中，第一像素高深比为第二图像中目标物的像素相对于路面的高度与像素深度之间的比值，该比值可以用于3D场景建模。本公开实施例的图像数据的处理方法，基于图像数据可以得到稠密且准确的像素高深比，进而可以辅助进行3D场景建模。

下面通过附图和实施例，对本公开的技术方案做进一步的详细描述。

附图说明

通过结合附图对本公开实施例进行更详细的描述，本公开的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本公开实施例的进一步理解，并且构成说明书的一部分，与本公开实施例一起用于解释本公开，并不构成对本公开的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1是本公开一个实施例中图像数据的处理方法的流程示意图；

图2是本公开一个实施例中步骤S1的流程示意图；

图3是本公开一个示例中第一神经网络的工作原理图；

图4是本公开另一个实施例中图像数据的处理方法的流程示意图；

图5是本公开又一个实施例中在步骤S4之后的流程示意图；

图6是本公开再一个实施例中在步骤S4之后的流程示意图；

图7是本公开一个实施例中步骤S5″的流程示意图；

图8是本公开一个实施例中步骤S5″-6的流程示意图；

图9是本公开一个实施例中图像数据的处理装置的结构框图；

图10是本公开一个实施例中单应性矩阵确定模块100的结构框图；

图11是本公开另一个实施例中图像数据的处理装置的结构框图；

图12是本公开又一个实施例中图像数据的处理装置的结构框图；

图13是本公开再一个实施例中图像数据的处理装置的结构框图；

图14是本公开一个实施例中整体损失值确定模块1000的结构框图；

图15是本公开一个实施例提供的电子设备的结构图。

具体实施方式

下面，将参考附图详细地描述根据本公开的示例实施例。显然，所描述的实施例仅仅是本公开的一部分实施例，而不是本公开的全部实施例，应理解，本公开不受这里描述的示例实施例的限制。

应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。

本领域技术人员可以理解，本公开实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等，既不代表任何特定技术含义，也不表示它们之间的必然逻辑顺序。

还应理解，在本公开实施例中，“多个”可以指两个或两个以上，“至少一个”可以指一个、两个或两个以上。

还应理解，对于本公开实施例中提及的任一部件、数据或结构，在没有明确限定或者在前后文给出相反启示的情况下，一般可以理解为一个或多个。

另外，本公开中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本公开中字符“/”，一般表示前后关联对象是一种“或”的关系。

还应理解，本公开对各个实施例的描述着重强调各个实施例之间的不同之处，其相同或相似之处可以相互参考，为了简洁，不再一一赘述。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

本公开实施例可以应用于终端设备、计算机系统、服务器等电子设备，其可与众多其它通用或专用计算系统环境或配置一起操作。适于与终端设备、计算机系统、服务器等电子设备一起使用的众所周知的终端设备、计算系统、环境和/或配置的例子包括但不限于：个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统﹑大型计算机系统和包括上述任何系统的分布式云计算技术环境，等等。

终端设备、计算机系统、服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常，程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等，它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施，分布式云计算环境中，任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。

示例性方法

图1是本公开一个实施例中图像数据的处理方法的流程示意图。本实施例可应用在服务器上，如图1所示，包括如下步骤：

S1：利用第一神经网络对第一图像和第二图像进行处理，得到单应性矩阵。其中，第一图像为第一时刻拍摄，第二图像为第二时刻拍摄，且第一图像和第二图像具有相同区域的路面元素。

具体地，车辆上设置有相机，并预先设有相机内参和相机外参。在车辆行驶过程中，通过相机拍摄图像。

获取同一个相机在第一时刻拍摄的第一图像，以及该相机在第二时刻拍摄的第二图像。其中，可以通过拍摄视频的方式拍摄图像，也可以通过每间隔一段时间拍摄一次图像的方式拍摄多帧图像。在本实施例中，第一时刻和第二时刻可以间隔M帧，M为大于0的整数。

由于在驾驶场景下拍摄的图像中通常包括路面，因此本实施例将第一图像和第二图像中的路面作为平面视差法所需的参考平面。

利用特征提取网络对第一图像进行特征提取，得到第一图像特征，并利用特征提取网络对第二图像进行特征提取，得到第二图像特征。其中，特征提取网络可以属于第一神经网络，也可以是独立于第一神经网络之外的网络。在本实施例中，按照相同的下采样方式进行特征提取。例如将原本为3*h*w维度(h和w分别代表图像宽和长)的第一图像进行下采样，得到n*h’*w’维度的第一特征图，作为第一图像特征。并将原本为3*h*w维度的第二图像进行下采样，得到n*h’*w’维度的第二特征图，作为第二图像特征。其中n为通道数，h’可以是h的1/32，1/64等。w’为w的1/32，1/64等。h’和w’的取值可以相同，也可以不相同。

利用第一神经网络对第一图像特征和第二图像特征进行处理，得到用于对齐第一图像和第二图像中路面的单应性矩阵。示例性地，单应性矩阵的计算方式如下：

其中，H表示单应性矩阵，例如可以采用元素为3×3的矩阵，K表示相机内参，K ^-1表示K的逆矩阵，d表示相机相对于路面的高度，d可以通过标定得到，R和t分别表示第一图像和第二图像之间的相机相对旋转矩阵(例如3×3)和相对平移矩阵(例如1×3)，N表示路面法线。

S2：根据单应性矩阵，确定第一图像特征的映射图像特征。

具体地，利用单应性矩阵将第一图像特征映射到第二图像特征的视角上，得到映射图像特征，映射图像特征的维度与第一图像特征和第二图像特征的维度相同，按照步骤S1的示例，映射图像特征的维度为n*h’*w’。

S3：对映射图像特征和第二图像特征进行融合，得到融合图像特征。

在一种可选的方式中，将映射图像特征和第二图像特征按照通道维度进行叠加处理，得到融合图像特征。按照步骤S1和S2的示例，融合图像特征的维度为2n*h’*w’。

S4：利用第二神经网络对融合图像特征进行处理，得到第二图像的第一像素高深比。

具体地，第二神经网络是预先训练好的模型，例如深度学习模型。第二神经网络可以基于融合图像特征预测出像素高深比。在本实施例中，将第二神经网络对融合图像特征预测出的像素高深比作为第一像素高深比。

在本实施例中，利用第一神经网络对相机拍摄的、具有共同区域路面元素的第一图像和第二图像进行处理，得到单应性矩阵；接着通过单应性矩阵对第一图像特征进行映射得到映射图像特征，并将映射图像特征与第二图像特征进行融合，得到融合图像特征；利用第二神经网络对融合图像特征进行处理，确定第一像素高深比。其中，第一像素高深比为第二图像中目标物的像素相对于路面的高度与像素深度之间的比值，该比值可以用于3D场景建模。本公开实施例的图像数据的处理方法，可以基于图像数据得到稠密且准确的像素高深比，进而辅助3D场景建模。

图2是本公开一个实施例中步骤S1的流程示意图。如图2所示，在本实施例中，步骤S1包括：

S1-1：对第一图像特征和第二图像特征进行融合，得到第三图像特征。

图3是本公开一个示例中第一神经网络的工作原理图。如图3所示，在本示例中，特征提取网络属于第一神经网络。特征提取网络提取出第一图像特征和第二图像特征之后，将第一图像特征和第二图像特征输入到特征融合模块进行融合。其中，特征融合模块可以将第一图像特征和第二图像特征按照通道维度进行叠加处理，得到融合图像特征。例如当第一图像特征的维度是n*h’*w’，且第二图像特征的维度是n*h’*w’时，则第三图像特征的维度为2n*h’*w’。

S1-2：利用第一神经网络中的路面子网络对第三图像特征进行处理，确定路面法线信息。

请继续参考图3，特征融合模块将第三图像特征输入给路面子网络，由路面子网络根据第三图像特征进行预测，输出路面法线信息。其中，路面子网络为根据输入的具有路面特征的图像特征进行预测，输出路面法线信息的网络模型。在本实施例中，路面法线信息可以通过N＝[n _X,n _Y,n _z]的路面方程进行表示。其中，n _X,n _Y和n _z为在路面坐标系中三维坐标。

S1-3：利用第一神经网络中的姿态子网络对第三图像特征进行处理，确定第一图像与第二图像之间的相机相对姿态。

请继续参考图3，特征融合模块将第三图像特征输入姿态子网络，由姿态子网络根据第三图像特征进行预测，输出相机相对姿态。其中，姿态子网络为根据输入图像特征进行预测，输出相机相对姿态的网络模型。在本实施例中，相机相对姿态包括相机相对旋转矩阵和相对平移矩阵。

S1-4：基于路面法线信息、相机相对姿态和预存的相机相对于路面的高度，确定单应性矩阵。

请继续参考图3，第一神经网络通过相机相对于路面的高度、路面法线信息和相机相对姿态，可以采用上文中的单应性矩阵的计算方式确定单应性矩阵。需要说明的是，也可以由第一神经网络输出相机相对于路面的高度、路面法线信息和相机相对姿态，然后由第一神经网络之外的其他模块确定单应性矩阵。

在本实施例中，利用第一神经网络中路面子网络和姿态子网络分别对融合后的第三图像特征进行处理，例如可以利用路面子网络和姿态子网络对第一图像特征和第二图像特征在通道维度上叠加得到的第三图像特征进行处理，得到路面法线信息和相机相对姿态，基于路面法线信息、相机相对姿态和预存的相机相对于路面的高度、可以准确地确定单应性矩阵。

图4是本公开另一个实施例中图像数据的处理方法的流程示意图。如图4所示，在本实施例中，在步骤S4之后，还包括：

S5：在第二图像的采集时间内，基于与第二图像中的目标对象对应的雷达扫描数据，确定目标对象的第二像素高深比。

具体地，车辆设置有车载雷达。第二图像的采集时刻为t ₂，通过车载雷达获取t ₂时刻车辆附近的雷达扫描数据。通过对第二图像和车辆附近的雷达扫描数据进行分析，从而可以根据分析结果从车辆附近的雷达扫描数据中提取出目标对象对应的雷达扫描数据。根据提取出的雷达扫描数据可以准确得到目标对象的相对于车辆的位置，以及目标对象的体积，进而可以生成t ₂时刻像素高深比的真值，记为第二像素高深比。

S6：基于第一像素高深比与第二像素高深比的差值，对第二神经网络进行参数调整。

具体地，基于在t ₂时刻，像素高深比的真值(即第二像素高深比)与像素高深比的预测值(即第一像素高深比)之间的差值，通过反向传播的方式对第二神经网络进行参数调整。

在本实施例中，通过在同一时刻，将雷达数据确定的像素高深比的真值作为第二神经网络的监督信息，通过像素高深比的真值与预测值之间差值，合理地调整第二神经网络的参数，提升第二神经网络的预测准确性。

图5是本公开又一个实施例中在步骤S4之后的流程示意图。如图5所示，在本实施例中，在步骤S4之后，还包括：

S5ˊ：利用单应性矩阵对第一图像进行图像重建，得到第一重建图像。

具体地，利用单应性矩阵，对第一图像采用反向映射的方式进行图像重建，得到第一重建图像。

S6ˊ：基于第一重建图像与第二图像之间在相同区域路面元素上的像素位移，调整单应性矩阵的矩阵参数。

具体地，如果单应性矩阵的矩阵参数达到最优，则第一重建图像与第二图像在路面部分会对齐；如果单应性矩阵的矩阵参数没有达到最优，则第一重建图像与第二图像在路面部分会存在像素位移。

基于第一重建图像与第二图像之间在相同区域路面元素上的像素位移，可以合理的调整单应性矩阵的矩阵参数。

S7ˊ：基于调整矩阵参数后的单应性矩阵，对路面子网络和姿态子网络进行参数调整。

具体地，由于单应性矩阵是根据路面子网络预测出的路面法线信息、姿态自网络预测出的相机相对姿态，以及预存的相机相对路面高度确定。因此，通过调整矩阵参数后的单应性矩阵，通过反向传播的方式合理调整路面子网络和姿态子网络的参数。

在本实施例中，将第一重建图像与第二图像之间在相同区域路面元素上的像素位移可以合理的调整单应性矩阵的矩阵参数，将调整矩阵参数后的单应性矩阵作为监督信息，合理地调整路面子网络和姿态子网络的参数，能够提升路面子网络和姿态子网络的预测准确性。

图6是本公开再一个实施例中在步骤S4之后的流程示意图。如图6所示，在本实施例中，在步骤S4之后，还包括：

S5″：在第二图像的采集时间内，基于第一像素高深比、第二图像的路面掩码以及与第二图像中的目标对象对应的雷达扫描数据，确定整体损失值。

具体地，本实施例将第一神经网络和第二神经网络作为一个整体。其中，基于第一像素高深比和第二图像的路面掩码，通过光度损失函数可以计算出整体的光度损失值。基于在第二图像的采集时间内与第二图像中的目标对象对应的雷达扫描数据，可以得到目标图像相对于车辆的位置和目标对象的体积，进而可以辅助确定整体的监督损失值。基于整体的光度损失值和监督损失值，可以确定整体损失值。

S6″：基于整体损失值，对第一神经网络和第二神经网络进行参数调整。

在本实施例中，将第一神经网络和第二神经网络作为一个整体，通过计算出整体损失值，可以对第一神经网络和第二神经网络的参数进行合理的调整，提升第一神经网络和第二神经网络的预测准确率。

图7是本公开一个实施例中步骤S5″的流程示意图。如图7所示，在本实施例中，步骤S5″包括：

S5″-1：基于第二图像中的目标对象对应的雷达扫描数据，确定目标对象的第二像素高深比。

S5″-2：基于第一像素高深比和第二像素高深比，确定第一损失值。其中，可以将第一像素高深比与第二像素高深比进行相减，得到第一损失值。

S5″-3：利用单应性矩阵对第一图像进行图像重建，得到第一重建图像。

S5″-4：基于第一像素高深比，确定第一图像区域与第二图像区域之间的像素位移。其中，第一图像区域为第一重建图像中除路面图像区域以外的剩余图像区域，第二图像区域为第二图像中除路面图像区域以外的剩余图像区域。

具体地，基于单应性矩阵实现了第一重建图像与第二图像在路面图像区域上的基本对齐(如果单应性矩阵的矩阵参数没有达到最优，则第一重建图像与第二图像在路面部分仍然存在部分像素有位移)，但是第一重建图像与第二图像除了路面图像区域以外的剩余图像区域，则没有对齐。对第一重建图像与第二图像中除了路面图像区域以外的剩余图像区域，逐个像素进行对比，得到第一图像区域与第二图像区域之间的像素位移。

S5″-5：基于第一图像区域与第二图像区域之间的像素位移，对第一重建图像的像素位置进行调整，得到第二重建图像。

具体地，基于第一图像区域与第二图像区域之间的像素位移，对第一重建图像的像素位置进行调整，可以使得第二重建图像与第二图像在路面图像区域上实现像素对齐。结合第一重建图像已经实现了与第二图像在路面图像区域的基本对齐，则实现了第二重建图像与第二图像在全图上的基本对齐。

S5″-6：基于第二重建图像、第二图像和第二图像的路面掩码，确定第二损失值。

具体地，可以基于第二重建图像、第二图像和第二图像的路面掩码计算第二重建图像与第二图像之间的光度损失，作为第二损失值。

S5″-7：基于第一损失值和第二损失值，确定整体损失值。其中，可以将第一损失值与第二损失值进行相加，得到整体损失值。

在本实施例中，在第二图像的采集时间内，可以基于与第二图像中的目标对象对应的雷达扫描数据、第一像素高深比以及第二图像的路面掩码，合理地确定整体损失值，以便基于整体损失值对第一神经网络和第二神经网络的参数进行合理的调整，进而提升第一神经网络和第二神经网络的预测准确率。

图8是本公开一个实施例中步骤S5″-6的流程示意图。如图8所示，在本实施例中，步骤S5″-6包括：

S5″-6-1：确定第二重建图像与第二图像之间的全图光度误差。

在一种可选的方式中，基于光度误差函数，通过以下公式确定全图光度误差：

L_photo1＝L _p(It，Isw)

其中，L _p表示光度损失系数，α表示权重，且α为常数，It表示第二图像，Isw表示第二重建图像，SSIM(It,Isw)表示第二图像与第二重建图像之间的结构相似参数，L_photo1表示全图光度误差。

S5″-6-2：基于全图光度误差和第二图像的路面掩码，确定第二重建图像与第二图像在路面图像区域上的光度误差。

在一种可选的方式中，通过以下公式确定第二重建图像与第二图像在路面图像区域上的光度误差：

L_photo2＝mask_ground*L_photo1

其中，L_photo2表示第二重建图像与第二图像在路面图像区域上的光度误差，mask_ground表示第二图像的路面掩码。

S5″-6-3：基于全图光度误差和第二重建图像与第二图像在路面图像区域上的光度误差，确定第二损失值。

具体地，通过以下公式确定第二损失值：

L_photoT＝L _photo1+L_photo2

在本实施例中，基于第二重建图像、第二图像和第二图像的路面掩码，可以合理地确定第二重建图像和第二图像之间的第二损失值，以便基于第二损失值对第一神经网络和第二神经网络的参数进行合理的调整，进而提升第一神经网络和第二神经网络的预测准确率。

本公开实施例提供的任一种图像数据的处理方法，可以由任意适当的具有数据处理能力的设备执行，包括但不限于：终端设备和服务器等。或者，本公开实施例提供的任一种图像数据的处理方法可以由处理器执行，如处理器通过调用存储器存储的相应指令来执行本公开实施例提及的任一种图像数据的处理方法。下文不再赘述。

示例性装置

图9是本公开一个实施例中图像数据的处理装置的结构框图。如图9所示，在本实施例中，图像数据的处理装置包括：单应性矩阵确定模块100、映射图像特征确定模块200、融合模块300和第一像素高深比确定模块400。

其中，单应性矩阵确定模块100用于利用第一神经网络对第一图像和第二图像进行处理，得到单应性矩阵，其中，所述第一图像为第一时刻拍摄，所述第二图像为第二时刻拍摄，且所述第一图像和所述第二图像具有相同区域的路面元素；映射图像特征确定模块200用于根据所述单应性矩阵，确定第一图像特征的映射图像特征，其中，所述第一图像特征为基于所述第一图像提取的特征；融合模块300用于对所述映射图像特征和所述第二图像特征进行融合，得到融合图像特征，其中，所述第二图像特征为基于所述第二图像提取的特征；第一像素高深比确定模块400用于利用第二神经网络对所述融合图像特征进行处理，得到所述第二图像的第一像素高深比。

图10是本公开一个实施例中单应性矩阵确定模块100的结构框图。如图10所示，在本实施例中，单应性矩阵确定模块100包括：

融合单元101，用于对所述第一图像特征和所述第二图像特征进行融合，得到第三图像特征；

路面法线信息确定单元102，用于利用所述第一神经网络中的路面子网络对所述第三图像特征进行处理，确定路面法线信息；

相机相对姿态确定单元103，用于利用所述第一神经网络中的姿态子网络对所述第三图像特征进行处理，确定所述第一图像与所述第二图像之间的相机相对姿态；

单应性矩阵确定单元104，用于基于所述路面法线信息、所述相机相对姿态和预存的相机相对于路面的高度，确定所述单应性矩阵。

图11是本公开另一个实施例中图像数据的处理装置的结构框图。如图11所示，在本实施例中，图像数据的处理装置还包括：

第二像素高深比确定模块500，用于在所述第二图像的采集时间内，基于与所述第二图像中的目标对象对应的雷达扫描数据，确定所述目标对象的第二像素高深比；

第一参数调整模块600，用于基于所述第一像素高深比与所述第二像素高深比的差值，对所述第二神经网络进行参数调整。

图12是本公开又一个实施例中图像数据的处理装置的结构框图。如图12所示，在本实施例中，图像数据的处理装置还包括：

图像重建模块700，用于利用所述单应性矩阵对所述第一图像进行图像重建，得到第一重建图像；

单应性矩阵参数调整模块800，用于基于所述第一重建图像与所述第二图像之间在所述相同区域路面元素上的像素位移，调整所述单应性矩阵的矩阵参数；

第一网络参数调整模块900，用于基于调整矩阵参数后的单应性矩阵，对所述路面子网络和所述姿态子网络进行参数调整。

图13是本公开再一个实施例中图像数据的处理装置的结构框图。如图13所示，在本实施例中，图像数据的处理装置还包括：

整体损失值确定模块1000，用于在所述第二图像的采集时间内，基于所述第一像素高深比、所述第二图像的路面掩码以及与所述第二图像中的目标对象对应的雷达扫描数据，确定整体损失值；

第二网络参数调整模块1100，用于基于所述整体损失值，对所述第一神经网络和所述第二神经网络进行参数调整。

图14是本公开一个实施例中整体损失值确定模块1000的结构框图。如图14所示，在本实施例中，整体损失值确定模块1000包括：

第二像素高深比确定单元1001，用于基于所述雷达扫描数据，确定所述目标对象的第二像素高深比；

第一损失值确定单元1002，用于基于所述第一像素高深比和所述第二像素高深比，确定第一损失值；

第一重建图像单元1003，用于利用所述单应性矩阵对所述第一图像进行图像重建，得到第一重建图像；

像素位移确定单元1004，用于基于所述第一像素高深比，确定第一图像区域与第二图像区域之间的像素位移，其中，所述第一图像区域为所述第一重建图像中除了路面图像区域以外的剩余图像区域，所述第二图像区域为所述第二图像中除了路面图像区域以外的剩余图像区域；

第二重建图像单元1005，用于基于所述像素位移对所述第一重建图像的像素位置进行调整，得到第二重建图像；

第二损失值确定单元1006，用于基于所述第二重建图像、所述第二图像和所述第二图像的路面掩码，确定第二损失值；

整体损失值确定单元1007，用于基于所述第一损失值和所述第二损失值，确定所述整体损失值。

在本公开的一个实施例中，第二损失值确定单元1006具体用于确定所述第二重建图像与所述第二图像之间的全图光度误差；第二损失值确定单元1006还用于基于所述全图光度误差和所述第二图像的路面掩码，确定所述第二重建图像与所述第二图像在路面图像区域上的光度误差；第二损失值确定单元1006还用于基于所述全图光度误差和所述第二重建图像与所述第二图像在路面图像区域上的光度误差，确定所述第二损失值。

需要说明的是，本公开实施例的图像数据的处理装置的具体实施方式与本公开实施例的图像数据的处理方法的具体实施方式类似，具体参见图像数据的处理方法部分，为了减少冗余，不作赘述。

示例性电子设备

下面，参考图15来描述本公开一个实施例提供的电子设备。如图15所示，电子设备包括一个或多个处理器10和存储器20。

处理器10可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备中的其他组件以执行期望的功能。

存储器20可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器10可以运行所述程序指令，以实现上文所述的本公开的各个实施例的图像数据的处理方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。

在一个示例中，电子设备还可以包括：输入装置30和输出装置40，这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。输入装置30可以例如键盘、鼠标等。输出装置40可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等。

当然，为了简化，图15中仅示出了该电子设备中与本公开有关的组件中的一些，省略了诸如总线、输入/输出接口等的组件。除此之外，根据具体应用情况，电子设备还可以包括任何其他适当的组件。

示例性计算机可读存储介质

计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本公开的基本原理，但是，需要指出的是，在本公开中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本公开为必须采用上述具体的细节来实现。

本说明书中各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言，由于其与方法实施例基本对应，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本公开中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

可能以许多方式来实现本公开的方法和装置。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明，本公开的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本公开实施为记录在记录介质中的程序，这些程序包括用于实现根据本公开的方法的机器可读指令。因而，本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。

还需要指出的是，在本公开的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本公开的范围。因此，本公开不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本公开的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

一种图像数据的处理方法，包括：

利用第一神经网络对第一图像和第二图像进行处理，得到单应性矩阵，其中，所述第一图像为第一时刻拍摄，所述第二图像为第二时刻拍摄，且所述第一图像和所述第二图像具有相同区域的路面元素；

根据所述单应性矩阵，确定第一图像特征的映射图像特征，其中，所述第一图像特征为基于所述第一图像提取的特征；

对所述映射图像特征和第二图像特征进行融合，得到融合图像特征，其中，所述第二图像特征为基于所述第二图像提取的特征；

利用第二神经网络对所述融合图像特征进行处理，得到所述第二图像的第一像素高深比。
根据权利要求1所述的图像数据的处理方法，其中，所述利用第一神经网络对第一图像和第二图像进行处理，得到单应性矩阵，包括：

对所述第一图像的第一图像特征和所述第二图像的第二图像特征进行融合，得到第三图像特征；

利用所述第一神经网络中的路面子网络对所述第三图像特征进行处理，确定路面法线信息；

利用所述第一神经网络中的姿态子网络对所述第三图像特征进行处理，确定所述第一图像与所述第二图像之间的相机相对姿态；

基于所述路面法线信息、所述相机相对姿态和预存的相机相对于路面的高度，确定所述单应性矩阵。
根据权利要求1所述的图像数据的处理方法，在所述利用第二神经网络对所述融合图像特征进行处理，得到所述第二图像的第一像素高深比之后，还包括：

在所述第二图像的采集时间内，基于与所述第二图像中的目标对象对应的雷达扫描数据，确定所述目标对象的第二像素高深比；

基于所述第一像素高深比与所述第二像素高深比的差值，对所述第二神经网络进行参数调整。
根据权利要求2所述的图像数据的处理方法，在所述利用第一神经网络对第一图像和第二图像进行处理，得到单应性矩阵之后，还包括：

利用所述单应性矩阵对所述第一图像进行图像重建，得到第一重建图像；

基于所述第一重建图像与所述第二图像之间在所述相同区域路面元素上的像素位移，调整所述单应性矩阵的矩阵参数；

基于调整矩阵参数后的单应性矩阵，对所述路面子网络和所述姿态子网络进行参数调整。
根据权利要求1所述的图像数据的处理方法，在所述利用第二神经网络对所述融合图像特征进行处理，得到所述第二图像的第一像素高深比之后，还包括：

在所述第二图像的采集时间内，基于所述第一像素高深比、所述第二图像的路面掩码以及与所述第二图像中的目标对象对应的雷达扫描数据，确定整体损失值；

基于所述整体损失值，对所述第一神经网络和所述第二神经网络进行参数调整。
根据权利要求5所述的图像数据的处理方法，其中，所述在所述第二图像的采集时间内，基于所述第一像素高深比、所述第二图像的路面掩码以及与所述第二图像中的目标对象对应的雷达扫描数据，确定整体损失值，包括：

基于所述雷达扫描数据，确定所述目标对象的第二像素高深比；

基于所述第一像素高深比和所述第二像素高深比，确定第一损失值；

利用所述单应性矩阵对所述第一图像进行图像重建，得到第一重建图像；

基于所述第一像素高深比，确定第一图像区域与第二图像区域之间的像素位移，其中，所述第一图像区域为所述第一重建图像中除了路面图像区域以外的剩余图像区域，所述第二图像区域为所述第二图像中除了路面图像区域以外的剩余图像区域；

基于所述像素位移对所述第一重建图像的像素位置进行调整，得到第二重建图像；

基于所述第二重建图像、所述第二图像和所述第二图像的路面掩码，确定第二损失值；

基于所述第一损失值和所述第二损失值，确定所述整体损失值。
根据权利要求6所述的图像数据的处理方法，其中，所述基于所述第二重建图像、所述第二图像和所述第二图像的路面掩码，确定第二损失值，包括：

确定所述第二重建图像与所述第二图像之间的全图光度误差；

基于所述全图光度误差和所述第二图像的路面掩码，确定所述第二重建图像与所述第二图像在路面图像区域上的光度误差；

基于所述全图光度误差和所述第二重建图像与所述第二图像在路面图像区域上的光度误差，确定所述第二损失值。
一种图像数据的处理装置，包括：

单应性矩阵确定模块，用于利用第一神经网络对第一图像和第二图像进行处理，得到单应性矩阵，其中，所述第一图像为第一时刻拍摄，所述第二图像为第二时刻拍摄，且所述第一图像和所述第二图像具有相同区域的路面元素；

映射图像特征确定模块，用于根据所述单应性矩阵，确定第一图像特征的映射图像特征，其中，所述第一图像特征为基于所述第一图像提取的特征；

融合模块，用于对所述映射图像特征和第二图像特征进行融合，得到融合图像特征，其中，所述第二图像特征为基于所述第二图像提取的特征；

第一像素高深比确定模块，用于利用第二神经网络对所述融合图像特征进行处理，得到所述第二图像的第一像素高深比。
一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序用于执行上述权利要求1-7任一所述的图像数据的处理方法。
一种电子设备，所述电子设备包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现上述权利要求1-7任一所述的图像数据的处理方法。