WO2022241877A1

WO2022241877A1 - 基于神经网络的异构图像位姿估计及配准方法、装置及介质

Info

Publication number: WO2022241877A1
Application number: PCT/CN2021/099255
Authority: WO
Inventors: 王越; 陈泽希; 许学成; 熊蓉
Original assignee: 浙江大学
Priority date: 2021-05-18
Filing date: 2021-06-09
Publication date: 2022-11-24
Also published as: CN113240743B; US20240169584A1; CN113240743A

Abstract

本发明公开了一种基于神经网络的异构图像位姿估计及配准方法，属于图像处理领域。本发明将相位相关算法优化为可微分，并将其嵌入到端到端学习网络框架中，构建了一种基于神经网络的异构图像位姿估计方法。该方法能够针对图像匹配的结果找到最优的特征提取器，不需要详尽的评估就能得到解，又具有良好的可解释性和泛化能力。测试结果表明，本发明能够准确实现异构图片的准确位姿估计和配准，而且所需的时间较短，具有较高的准确率和实时性，能够满足实际应用需求，可应用于机器人自定位等领域。

Description

基于神经网络的异构图像位姿估计及配准方法、装置及介质

技术领域

本发明属于图像处理领域，具体涉及一种图像位姿估计及匹配方法。

背景技术

自定位是移动机器人最基本的问题之一。经过十几年的研究，将给定的某一观测在同一传感器建立的地图中完成定位已经相对成熟。但对于来自异构传感器的测量匹配仍然是一个开放性的问题。异构传感器受限于传感器自身的特性，其得到的两幅图像属于存在角度、比例、视角等差异的异构图像；而且传感器在获取图形时还会受到光照、阴影和遮挡等不同形式的干扰，而这些干扰都会使位姿估计变得异常困难。考虑近年来研究人员在构建地图方方面的积极进展，我们也希望通过构建地图的方式完成多传感器得到的异构图像的匹配，使匹配后形成的地图能够被多个配备异构传感器机器人共享。

关于同风格的同构图像匹配的现有技术可以分为两类：一类是依靠点特征匹配来在特定的情景中进行定位，另一类是应用相关方法来寻找解空间中的最佳候选位置。然而，当面对异构图像时，所有这些方法的效果都不理想。

因此，设计一套针对异构图像位姿估计及配准的方法，是现有技术中亟待解决的技术问题。

发明内容

本发明的目的在于解决现有技术中异构图像难以实现位姿估计和配准的问题，并提供一种基于神经网络的异构图像位姿估计及配准方法。

本发明所采用的具体技术方案如下：

第一方面，本发明提供了一种基于神经网络的异构图像位姿估计方法，其步骤如下：

S1：以预先经过训练的第一U-Net网络和第二U-Net网络作为两个特征提取器，分别以异构的模板图像和待匹配图片作为两个特征提取器各自的原始输入图片，提取两张原始输入图片中的同构特征，得到同构的第一特征图和第二特征图；

S2：将S1中得到的第一特征图和第二特征图分别进行傅里叶变换后取各自的幅度谱；

S3：将S2中得到的两个幅度谱分别进行对数极坐标变换，使其从笛卡尔坐标系转换到对数极坐标系中，从而使两个幅度谱之间笛卡尔坐标系下的旋转变换被映射成对数极坐标系中y方向上的平移变换；

S4：将S3中两个坐标变换后的幅度谱进行相位相关求解，得到二者之间的平移变换关系，再按照S3中笛卡尔坐标系和对数极坐标系之间的映射关系重新转换，得到所述模板图像和所述待匹配图片之间的旋转变换关系；

S5：以预先经过训练的第三U-Net网络和第四U-Net网络作为两个特征提取器，分别以异构的模板图像和待匹配图片作为两个特征提取器各自的原始输入图片，提取两张原始输入图片中的同构特征，得到同构的第三特征图和第四特征图；

S6：将S5中得到的第三特征图和第四特征图分别进行傅里叶变换后取各自的幅度谱；

S7：将S6中得到的两个幅度谱分别进行对数极坐标变换，使其从笛卡尔坐标系转换到对数极坐标系中，从而使两个幅度谱之间笛卡尔坐标系下的缩放变换被映射成对数极坐标系中x方向上的平移变换；

S8：将S7中两个坐标变换后的幅度谱进行相位相关求解，得到二者之间的平移变换关系，再按照S7中笛卡尔坐标系和对数极坐标系之间的映射关系重新转换，得到所述模板图像和所述待匹配图片之间的缩放变换关系；

S9：将所述待匹配图片按照S4和S8中得到的旋转变换关系和缩放变换关系进行对应的旋转和缩放变换，得到一张新的待匹配图片模板图像；

S10：以预先经过训练的第五U-Net网络和第六U-Net网络作为两个特征提取器，分别以模板图像和新的待匹配图片作为两个特征提取器各自的原始输入图片，提取两张原始输入图片中的同构特征，得到同构的第五特征图和第六特征图；

S11：将S10中得到的第五特征图和第六特征图进行相位相关求解，得到所述模板图像和所述待匹配图片之间的x方向上的平移变换关系；

S12：以预先经过训练的第七U-Net网络和第八U-Net网络作为两个特征提取器，分别以模板图像和新的待匹配图片作为两个特征提取器各自的原始输入图片，提取两张原始输入图片中的同构特征，得到同构且仅保留有原始输入图片之间的平移变换关系的第七特征图和第八特征图；

S13：将S12中得到的第七特征图和第八特征图进行相位相关求解，得到所述模板图像和所述待匹配图片之间的y方向上的平移变换关系，完成异构的模板图像和待匹配图片之间旋转、缩放和平移三种变换关系的位姿估计。

第二方面，本发明提供了一种基于神经网络的异构图像配准方法，其做法是按照第一方面所述异构图像位姿估计方法得到模板图像和待匹配图片之间的位姿估计，然后将待匹配图片按照估计的变换关系同时进行旋转、缩放和平移变换，使其配准至模板图像，实现模板图像和待匹配图片之间的匹配拼接。

本发明相对于现有技术而言，具有以下有益效果：

本发明将相位相关算法优化为为可微分，并将其嵌入到端到端学习网络框架中，构建了一种基于神经网络的异构图像位姿估计方法。该方法能够针对图像匹配的结果找到最优的特征提取器，不需要详尽的评估就能得到解，又具有良好的可解释性和泛化能力。测试结果表明，本发明能够准确实现异构图片的准确位姿估计和配准，而且所需的时间较短，具有较高的准确率和实时性，能够满足实际应用需求，可应用与机器人自定位等领域。

附图说明

图1为本发明中位姿估计器的网络框架结构示意图；

图2为本发明位姿估计方法的两个阶段流程示意图；

图3为本发明一个实施例中的图形配准过程示意图；

图4为本发明另一个实施例中的图形配准结果示意图。

具体实施方式

下面结合附图和具体实施方式对本发明做进一步阐述和说明。本发明中各个实施方式的技术特征在没有相互冲突的前提下，均可进行相应组合。

异构传感器受限于传感器自身的特性，其得到的两幅图像属于存在角度、比例、视角等差异的异构图像。而且传感器在获取图形时还会受到光照、阴影和遮挡等不同形式的干扰，而这些干扰都会使位姿估计变得异常困难。例如，O ₁是由无人机的鸟瞰相机在清晨获取的，而O ₂是由地面机器人用激光雷达构建的局部高程图，这两种图形就属于异构图像，两者无法直接匹配。为了解决这个问题，一般的处理方法是从两幅图像中提取特征，用特征代替原始传感器测量值来估计相对姿态。

本发明针对异构传感器获取到的异构图像，构建了一种基于神经网络的异构图像位姿估计方法对任意两张异构图像之间的位姿变换关系进行估计。该估计方法是通过一个基于神经网络构建的位姿估计器来实现的，其本质是一种可微分的相位相关算法。相位相关是一种基于相似性的匹配器，它对具有相同模态的输入表现良好，但只能在小的高频噪声情况下完成匹配。我们将相位相关算法优化为为可微分，并将其嵌入到我们的端到端学习网络框架中，形成位姿估计器。这种架构使得我们的系统能够针对图像匹配的结果找到最优的特征提取器。具体来说，本发明采用了传统的相位相关，并赋予快速傅里叶变换层(FFT)、对数极性变换层(LPT)和相位相关层(DC)以可微分性质，从而使其可用于端到端位姿估计器的训练。

如图1所示，为本发明一个较佳实施例中构建的位姿估计器的网络框架结构，其核心是8个独立的U-Net网络以及傅里叶变换层(FFT)、对数极性变换层(LPT)和相位相关层(DC)，该位姿估计器的输入是一对异构的图形，记为模板图像Source和待匹配图片Template，其最终输出是配准模板图像和待匹配图片所需要的三种位姿变换关系，即平移、旋转和缩放。模板图像用于作为匹配的模板，待匹配图片通过位姿变换后可以匹配拼接到模板图像上。

为了解决异构图像无法直接配准的问题，一般的处理方法是从两幅图像中提取特征，用特征代替原始传感器测量值来估计相对姿态。在传统的相位相关算法中，利用高通滤波器来抑制两个输入的随机随机噪声，而这一过程可以看作是一个特征提取器。但是对于一对输入的异构图像而言，两者之间存在比较明显的变化，一个高通滤波器是远远不够的。考虑到没有共同的特征来直接监督特征提取器，本发明利用端到端学习来解决这个问题。本发明中对模板图像和源图像在旋转缩放阶段和平移阶段分别构建了8个独立的可训练U-Net网络(记为U-Net1～U-Net8)，这8个U-Net网络在平移、旋转和缩放三类损失的监督下预先经过训练后，能够从异构图像中提取出图片中的同构特征即共同特征，从而将两张异构图像转换为两张同构的特征图。本发明中，假如仅设4个U-Net网络，那么旋转与缩放两种变换的求解需要被偶合起来的，x方向平移与y方向平移的求解也需要被偶合起来，这样训练得到的特征提取器所提取的特征存在效果不佳的情况；因此，我们将旋转、缩放、x平移、y平移解耦，分别训练各自的U-Net网络，一共得到8个U-Net网络，以达到提升精度的效果。

在本实施例中，对于8个独立的U-Net网络，其输入和输出大小分别为256×256。每个U-Net网络由4个下采样的编码器层和4个上采样的解码器层来提取特征。随着训练的进行，8个U-Net的参数会被调整。请注意，这个网络是轻量级的，所以它具有足够高效的实时性，能够满足应用场景的要求。

另外，傅里叶变换层(FFT)的作用是对U-Net网络提取的特征图进行傅里叶变换，去掉图像之间的平移变换关系但保留旋转和缩放变换关系。因为根据傅里叶变换的特性，只有旋转和比例对频谱的幅度有影响，但对频谱的幅度对平移不敏感。因此引入FFT后就得到了对平移不敏感但对缩放和旋转尤其敏感的表示方法，因此在后续求解缩放和旋转时可以忽略平移。

另外，对数极性变换层(LPT)的作用是对FFT变换后的图像进行对数极坐标变换，将图像从笛卡尔坐标系映射至对数极坐标系。在该映射过程中，笛卡尔坐标系下的缩放和旋转可以转换成对数极坐标系下的平移。该坐标系变换，可以得出关于缩放和旋转的交叉相关形式，消除整个位姿估计器中的所有穷尽性评价。

另外，相位相关层(DC)的作用是进行相位相关求解，即计算两个幅度谱之间的交叉相关性。根据求解得到的相关性，可以得到二者之间的平移变换关系。交叉相关性的具体计算过程属于现有技术，不再赘述。

下面基于上述位姿估计器，对本发明一个较佳实施例中的具体异构图像位姿估计过程进行详细描述，其步骤如下：

S1：以预先经过训练的第一U-Net网络U-Net1和第二U-Net网络U-Net2作为两个特征提取器，分别以异构的模板图像和待匹配图片作为两个特征提取器U-Net1和U-Net2各自的原始输入图片(即模板图像输入U-Net1中，而待匹配图片输入U-Net2中，下同)，提取两张原始输入图片中的同构特征，得到同构的第一特征图和第二特征图。此时，第一特征图和第二特征图中同时保留有原始输入图片之间的平移、旋转和缩放变换关系。

S2：将S1中得到的第一特征图和第二特征图分别进行第一次傅里叶变换操作(记为FFT1)后取各自的幅度谱，此时两个幅度谱之间保留有原始输入图片之间的旋转和缩放变换关系，但平移变换关系已在FFT1中被滤掉。

S3：将S2中得到的两个幅度谱分别进行第一次对数极坐标变换操作(记为LPT1)，使其从笛卡尔坐标系转换到对数极坐标系中，从而使两个幅度谱之间笛卡尔坐标系下的旋转变换被映射成对数极坐标系中y方向上的平移变换。

S4：将S3中两个坐标变换后的幅度谱在相位相关层(DC)中进行相位相关求解，得到二者之间的平移变换关系。需注意，在S3的LPT1中，笛卡尔坐标系下的旋转变换与对数极坐标系中y方向上的平移变换之间存在映射关系，因此可以再将该平移变换关系按照S3中笛卡尔坐标系和对数极坐标系之间的映射关系重新转换，得到前述模板图像和待匹配图片之间的旋转变换关系。

上述旋转变换关系本质上是待匹配图片要实现与模板图像的配准，需要被旋转的角度theta。

S5：同样的，以预先经过训练的第三U-Net网络U-Net3和第四U-Net网络U-Net4作为两个特征提取器，分别以异构的模板图像和待匹配图片作为两个特征提取器U-Net3和U-Net4各自的原始输入图片，提取两张原始输入图片中的同构特征，得到同构的第三特征图和第四特征图。此时，第三特征图和第四特征图中也同时保留有原始输入图片之间的平移、旋转和缩放变换关系。

S6：将S5中得到的第三特征图和第四特征图分别进行第二次傅里叶变换操作(记为FFT2)后取各自的幅度谱。同样的，这两个幅度谱之间保留有原始输入图片之间的旋转和缩放变换关系而平移变换关系已在已在FFT2中被滤掉。

S7：将S6中得到的两个幅度谱分别进行第二次对数极坐标变换操作(记为LPT2)，使其从笛卡尔坐标系转换到对数极坐标系中，从而使两个幅度谱之间笛卡尔坐标系下的缩放变换被映射成对数极坐标系中x方向上的平移变换。

S8：将S7中两个坐标变换后的幅度谱在相位相关层(DC)中进行相位相关求解，得到二者之间的平移变换关系。同样的，在S7的LPT2中，笛卡尔坐标系下的旋转变换与对数极坐标系中x方向上的平移变换之间存在映射关系，因此可以再按照S7中笛卡尔坐标系和对数极坐标系之间的映射关系重新转换，得到前述模板图像和前述待匹配图片之间的缩放变换关系。

上述缩放变换关系本质上是待匹配图片要实现与模板图像的配准，需要被缩放的比例scale。

由此，通过上述步骤，已获得了模板图像和待匹配图片之间的旋转变换关系和缩放变换关系。

S9：将前述待匹配图片按照S4和S8中得到的旋转变换关系和缩放变换关系进行对应的旋转和缩放变换，得到一张新的待匹配图片。由于通过旋转和缩放变换后，模板图像和待匹配图片之间已不存在角度和比例的差异，因此新的待匹配图片与输入的模板图像之间目前仅包含平移变换关系，而不存在旋转变换关系和缩放变换关系，后续仅需要通过平移变换消除两者之间的平移差异即可。对于平移变换关系，只需要通过相位相关求解，就可以获取其x和y方向上的平移变换关系。

S10：以预先经过训练的第五U-Net网络U-Net5和第六U-Net网络U-Net6作为两个特征提取器，分别以模板图像和新的待匹配图片作为两个特征提取器U-Net5和U-Net6各自的原始输入图片，提取两张原始输入图片中的同构特征，得到同构的第五特征图和第六特征图。此时，第五特征图和第六特征图中仅保留有原始输入图片之间的平移变换关系，而不存在旋转和缩放变换关系。

S11：将S10中得到的第五特征图和第六特征图在相位相关层(DC)中进行相位相关求解，得到模板图像和待匹配图片之间的x方向上的平移变换关系X。

S12：以预先经过训练的第七U-Net网络U-Net7和第八U-Net网络U-Net8作为两个特征提取器，分别以模板图像和新的待匹配图片作为两个特征提取器U-Net7和U-Net8各自的原始输入图片，提取两张原始输入图片中的同构特征，得到同构的第七特征图和第八特征图。此时，第七特征图和第八特征图中仅保留有原始输入图片之间的平移变换关系，而不存在旋转和缩放变换关系。

S13：将S12中得到的第七特征图和第八特征图在相位相关层(DC)中进行相位相关求解，得到模板图像和待匹配图片之间的y方向上的平移变换关系Y。

上述x方向上的平移变换关系和y方向上的平移变换关系本质上是待匹配图片要实现与模板图像的配准，分别需要在x方向上平移的距离X和在y方向上平移的距离Y。

由此可见，本发明的位姿估计是分为两个阶段来实现的，一共得到了四个自由度(X、Y、theta、scale)的估计值。首先，通过S1～S9的旋转缩放阶段实现旋转和缩放变换关系的估计，然后再通过S10～S13平移阶段实现平移变换关系的估计。上述S1～S9的处理过程可参见图2中a)所示，上述S10～S13的处理过程可参加图2中b)所示。

综合上述S4、S8、S11和S13的结果，就可以得到异构的模板图像和待匹配图片之间旋转、缩放和平移三种变换关系的位姿估计值，从而完成两者的位姿估计过程，后续可以根据相应的估计值将异构图像进行配准。

需注意，上述位姿估计器中，8个U-Net网络均预先进行训练，为了保证每一个U-Net网络均可以准确提取同构特征，需要设置合理的损失函数。训练的总损失函数应当为模板图像和所述待匹配图片之间的旋转变换关系损失、缩放变换关系损失、x方向上的平移变换关系损失和y方向上的平移变换关系损失的加权和，具体加权值可根据实际进行调整。

在本实施例中，总损失函数中四种损失的加权权值均为1，且四种损失均采用L1损失，四种损失函数分别如下：

将S4中预测的旋转关系theta记为theta_predict，将S8中预测的缩放关系scale记为scale_predict，将S11中预测的x方向上的平移变换X记为x_predict，将S13中预测的y方向上的平移变换Y记为y_predict。因此，每一轮训练过程中求得两个异构图片之间的平移(x_predict,y_predict)，旋转(theta_predict)，缩放(scale_predict)关系。

1)在模型中将所求得的theta_predict与其真值theta_gt做1范数距离损失，L_theta＝(theta_gt-theta_predict)，将L_theta回传用以训练U-Net1、U-Net2,使其能够提取到更好的用于求theta_predict的特征。

2)将所求得的scale_predict与其真值scale_gt做1范数距离损失，L_scale＝(scale_gt-scale_predict)，将L_scale回传用以训练U-Net3、U-Net4,使其能够提取到更好的用于求scale_predict的特征。

3)将所求得的x_predict与其真值x_gt做1范数距离损失，L_x＝(x_gt-x_predict)，将L_x回传用以训练U-Net5、U-Net6,使其能够提取到更好的用于求x_predict的特征。

4)将所求得的y_predict与其真值y_gt做1范数距离损失，L_y＝(y_gt-y_predict)，将L_y回传用以训练U-Net7、U-Net8,使其能够提取到更好的用于求y_predict的特征。

因此，总损失函数为L＝L_x+L_y+L_theta+L_scale，训练过程中通过梯度下降方法对8个U-Net网络的模型参数进行优化，使总损失函数最小。训练完毕后的8个U-Net网络组成了用于对实际的异构图像进行位姿估计的位姿估计器，该位姿估计器中可按照上述S1～S13的方法进行两张异构图像的位姿估计，并根据估计结果进行图像配准。

本发明中，在上述异构图像位姿估计方法得到模板图像和待匹配图片之间的位姿估计基础上，可以进一步提供一种基于神经网络的异构图像配准方法，其做法是：将待匹配图片按照估计得到的三种变换关系估计值(X、Y、theta、scale)，同时进行旋转、缩放和平移变换，使其配准至模板图像。然后再将模板图像和配准后的待匹配图片进行匹配拼接。

但需要说明的是，上述位姿估计器中，待匹配图片可以是一张也可以是多张，如果有多张待匹配图片仅需要不断重复相同的位姿估计过程，然后将其分别配准到模板图像上即可。

如图3所示，为利用上述位姿估计器进行单组异构图像的位姿估计和配准的一个具体实例。该单组异构图片中含有一张模板图像和一张待匹配图像，通过上述位姿估计器估计4个自由度的估计值(X、Y、theta、scale)后即可进行4自由度匹配，输入左侧两张图片，输出右侧匹配结果，可见该方法可以较好地实现两张异构图像的匹配配准。

如图4所示，为利用上述位姿估计器进行多组异构图像的位姿估计和配准的另一个具体实例。该多组异构图片中含有一张模板图像和两张待匹配图像，通过上述位姿估计器估计4个自由度的估计值(X、Y、theta、scale)后即可进行4自由度匹配，将多个观测图片匹配在一张作为模板图像的全局地图中，从而实现多源数据融合。

为了进一步评估本发明上述方法的技术效果，在不同实物数据集中进行了详尽的评估，评估结果如表1所示，其中模拟数据集为计算机随机生成的图形及其4自由度以及样貌变换；真实数据集1为地面机器人利用黑白相机所采集的地图以及空中无人机彩色相机彩色相机所采集的地面地图；真实数据集2为地面机器人利用激光雷达所采集的地图以及空中无人机彩色相机彩色相机所采集的地面地图；真实数据集3为地面机器人利用彩色相机所采集的地图以及空中无人机彩色相机所采集的地面地图。

表1 本发明在不同实物数据集中的评估结果

数据集	X精度％	Y精度％	旋转精度％	缩放精度％	运行时间ms
模拟数据集	98.7	97.9	99.3	98.1	102
真实数据集1	95.2	92.3	99.1	97.5	101
真实数据集2	97.6	91.4	98.9	95.0	105
真实数据集3	92.9	94.7	99.1	98.6	99

从表中结果可见，本发明能够准确实现异构图片的准确位姿估计和配准，而且所需的时间较短，具有较高的准确率和实时性，能够满足实际应用需求，可应用与机器人自定位等领域。

另外，在本发明的其他实施例中，还可以提供一种基于神经网络的异构图像位姿估计装置，其包括存储器和处理器；

所述存储器，用于存储计算机程序；

所述处理器，用于当执行所述计算机程序时，实现前述的基于神经网络的异构图像位姿估计方法。

另外，在本发明的其他实施例中，还可以提供一种计算机可读存储介质，所述存储介质上存储有计算机程序，当所述计算机程序被处理器执行时，实现前述的基于神经网络的异构图像位姿估计方法。

另外，在本发明的其他实施例中，还可以提供一种基于神经网络的异构图像配准装置，其包括存储器和处理器；

所述存储器，用于存储计算机程序；

所述处理器，用于当执行所述计算机程序时，实现前述的基于神经网络的异构图像配准方法。

另外，在本发明的其他实施例中，还可以提供一种计算机可读存储介质，所述存储介质上存储有计算机程序，当所述计算机程序被处理器执行时，实现前述的基于神经网络的异构图像配准方法。

需要注意的是，上述存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。上述处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital Signal Processing，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。当然，装置中还应当具有实现程序运行的必要组件，例如电源、通信总线等等。

以上所述的实施例只是本发明的一种较佳的方案，然其并非用以限制本发明。有关技术领域的普通技术人员，在不脱离本发明的精神和范围的情况下，还可以做出各种变化和变型。因此凡采取等同替换或等效变换的方式所获得的技术方案，均落在本发明的保护范围内。

Claims

一种基于神经网络的异构图像位姿估计方法，其特征在于，步骤如下：

S1：以预先经过训练的第一U-Net网络和第二U-Net网络作为两个特征提取器，分别以异构的模板图像和待匹配图片作为两个特征提取器各自的原始输入图片，提取两张原始输入图片中的同构特征，得到同构的第一特征图和第二特征图；

S2：将S1中得到的第一特征图和第二特征图分别进行傅里叶变换后取各自的幅度谱；

S3：将S2中得到的两个幅度谱分别进行对数极坐标变换，使其从笛卡尔坐标系转换到对数极坐标系中，从而使两个幅度谱之间笛卡尔坐标系下的旋转变换被映射成对数极坐标系中y方向上的平移变换；

S4：将S3中两个坐标变换后的幅度谱进行相位相关求解，得到二者之间的平移变换关系，再按照S3中笛卡尔坐标系和对数极坐标系之间的映射关系重新转换，得到所述模板图像和所述待匹配图片之间的旋转变换关系；

S5：以预先经过训练的第三U-Net网络和第四U-Net网络作为两个特征提取器，分别以异构的模板图像和待匹配图片作为两个特征提取器各自的原始输入图片，提取两张原始输入图片中的同构特征，得到同构的第三特征图和第四特征图；

S6：将S5中得到的第三特征图和第四特征图分别进行傅里叶变换后取各自的幅度谱；

S7：将S6中得到的两个幅度谱分别进行对数极坐标变换，使其从笛卡尔坐标系转换到对数极坐标系中，从而使两个幅度谱之间笛卡尔坐标系下的缩放变换被映射成对数极坐标系中x方向上的平移变换；

S8：将S7中两个坐标变换后的幅度谱进行相位相关求解，得到二者之间的平移变换关系，再按照S7中笛卡尔坐标系和对数极坐标系之间的映射关系重新转换，得到所述模板图像和所述待匹配图片之间的缩放变换关系；

S9：将所述待匹配图片按照S4和S8中得到的旋转变换关系和缩放变换关系进行对应的旋转和缩放变换，得到一张新的待匹配图片模板图像；

S10：以预先经过训练的第五U-Net网络和第六U-Net网络作为两个特征提取器，分别以模板图像和新的待匹配图片作为两个特征提取器各自的原始输入图片，提取两张原始输入图片中的同构特征，得到同构的第五特征图和第六特征图；

S11：将S10中得到的第五特征图和第六特征图进行相位相关求解，得到所述模板图像和所述待匹配图片之间的x方向上的平移变换关系；

S12：以预先经过训练的第七U-Net网络和第八U-Net网络作为两个特征提取器，分别以模板图像和新的待匹配图片作为两个特征提取器各自的原始输入图片，提取两张原始输入图片中的同构特征，得到同构且仅保留有原始输入图片之间的平移变换关系的第七特征图和第八特征图；

S13：将S12中得到的第七特征图和第八特征图进行相位相关求解，得到所述模板图像和所述待匹配图片之间的y方向上的平移变换关系，完成异构的模板图像和待匹配图片之间旋转、缩放和平移三种变换关系的位姿估计。
如权利要求1所述的基于神经网络的异构图像位姿估计方法，其特征在于，所述估计方法中的8个U-Net网络均预先进行训练，训练的总损失函数为所述模板图像和所述待匹配图片之间的旋转变换关系损失、缩放变换关系损失、x方向上的平移变换关系损失和y方向上的平移变换关系损失的加权和。
如权利要求2所述的基于神经网络的异构图像位姿估计方法，其特征在于，所述总损失函数中四种损失的加权权值均为1。
如权利要求1所述的基于神经网络的异构图像位姿估计方法，其特征在于，所述总损失函数中四种损失均采用L1损失。
如权利要求1所述的基于神经网络的异构图像位姿估计方法，其特征在于，所述估计方法中的8个U-Net网络相互独立，各自通过4个下采样的编码器层和4个上采样的解码器层来提取特征。
一种基于神经网络的异构图像配准方法，其特征在于，按照如权利要求1～5任一所述异构图像位姿估计方法得到模板图像和待匹配图片之间的位姿估计，然后将待匹配图片按照估计的变换关系同时进行旋转、缩放和平移变换，使其配准至模板图像，实现模板图像和待匹配图片之间的匹配拼接。
一种基于神经网络的异构图像位姿估计装置，其特征在于，包括存储器和处理器；

所述存储器，用于存储计算机程序；

所述处理器，用于当执行所述计算机程序时，实现如权利要求1～5任一项所述的基于神经网络的异构图像位姿估计方法。
一种计算机可读存储介质，其特征在于，所述存储介质上存储有计算机程序，当所述计算机程序被处理器执行时，实现如权利要求1～5任一项所述的基于神经网络的异构图像位姿估计方法。
一种基于神经网络的异构图像配准装置，其特征在于，包括存储器和处理器；

所述存储器，用于存储计算机程序；

所述处理器，用于当执行所述计算机程序时，实现如权利要求6所述的基于神经网络的异构图像配准方法。
一种计算机可读存储介质，其特征在于，所述存储介质上存储有计算机程序，当所述计算机程序被处理器执行时，实现如权利要求6所述的基于神经网络的异构图像配准方法。