WO2023207266A1

WO2023207266A1 - 图像配准方法、装置、设备和存储介质

Info

Publication number: WO2023207266A1
Application number: PCT/CN2023/076415
Authority: WO
Inventors: 陈嘉顺; 卢东焕; 魏东; 宁慕楠; 施新宇; 徐哲; 郑冶枫
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2022-04-29
Filing date: 2023-02-16
Publication date: 2023-11-02
Also published as: CN115115676A

Abstract

本申请实施例提供了一种图像配准方法、装置、设备和计算机可读存储介质。该方法通过在多个尺度下提取待配准图像对中移动图像和固定图像的特征图，在每个尺度下，基于相应特征图中与移动图像中的每个体素相对应的特征向量，将移动图像中的每个体素的位移向量转换为多个位移基向量的组合，以从成对的特征图中学习位移场，并基于所有尺度下的位移场生成最终位移场，从而充分利用不同尺度下的图像特征信息实现高效准确的图像配准。通过本申请实施例的方法能够基于不同尺度学习从粗到细的位移场，以通过对所有尺度下的位移场进行融合，在不引入密集的连续网络计算的情况下，充分利用不同表示子空间的潜在信息。

Description

图像配准方法、装置、设备和存储介质

本申请要求于2022年04月29日提交中国专利局、申请号为2022104789745、申请名称为“图像配准方法、装置、设备和存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及人工智能及图像处理技术领域，具体涉及图像配准技术。

背景技术

图像配准作为数字图像处理的基础，用于对不同时间、不同类型或不同成像设备采集的两幅或多幅对应于相同区域的图像进行空间变换(诸如平移、旋转或尺度变换等操作)，使之达成一致，其目的是寻找最优空间变换(即最优形变场或位移场)。图像配准技术可以实现图像变换和特征点提取、匹配等功能，在医学影像处理领域具有重要应用。医学图像配准的目的是找到一个最佳的空间变换，最好地对齐基础解剖结构，从而帮助医生更容易地从多个角度观察、分析器官和病灶的生长变化情况，使临床诊断结果更加可靠准确。

传统的非基于学习的图像配准方法将配准任务定义为一个具有各种约束条件的优化问题，以结合期望的特性，诸如逆一致性、对称性和拓扑保序。但是这些方法需要对每对配准图像进行迭代式的密集型计算，优化速度慢、且实现困难。近年来，越来越多的研究开始用深度学习方法处理图像配准问题，获得了优于传统算法的效果。但是，现有的基于无监督学习的图像配准方法由于卷积神经网络在捕捉空间关系方面的能力有限等原因，无法获得期望的配准性能，即难以准确地实现图像配准。

发明内容

为了解决上述问题，本申请实施例提供了一种图像配准方法、装置、设备和存储介质，能够更有效地从图像特征中学习空间关系，从而实现准确的图像配准。

本申请实施例提供了一种图像配准方法，包括：

获取待配准的固定图像和移动图像；

获得所述固定图像和所述移动图像各自在多个尺度下的特征图；

对于所述多个尺度中的每个尺度，根据所述固定图像和所述移动图像在所述尺度下各自的特征图，确定所述尺度对应的位移场，所述位移场用于指示在所述尺度下从所述移动图像到所述固定图像的映射，在所述位移场中，所述移动图像中的每个体素到所述固定图像中的相应体素的位移向量为多个位移基向量的组合，所述多个位移基向量是基于所述移动图像在所述尺度下的特征图中与所述体素对应的特征向量获得的；

基于所述多个尺度各自对应的位移场生成最终位移场，并基于所述最终位移场对所述移动图像进行变换处理，以使变换后的移动图像与所述固定图像配准。

本申请实施例提供了一种图像配准装置，包括：

图像获取模块，被配置为获取待配准的固定图像和移动图像；

特征图提取模块，被配置为获得所述固定图像和所述移动图像各自在多个尺度下的特征图；

位移场确定模块，被配置为对于所述多个尺度中的每个尺度，根据所述固定图像和所述移动图像各自在所述尺度下的特征图，确定所述尺度对应的位移场，所述位移场用于指示在所述尺度下从所述移动图像到所述固定图像的映射，在所述位移场中，所述移动图像中的每个体素到所述固定图像中的相应体素的位移向量为多个位移基向量的组合，所述多个位移基向量是基于所述移动图像在所述尺度下的特征图中与所述体素对应的特征向量获得的；；

位移场合成模块，被配置为基于所述多个尺度各自对应的位移场生成最终位移场，并基于所述最终位移场对所述移动图像进行变换处理，以使变换后的移动图像与所述固定图像配准。

本申请实施例提供了一种计算机设备，包括：一个或多个处理器；以及一个或多个存储器，其中，所述一个或多个存储器中存储有计算机可执行程序，当由所述处理器执行所述计算机可执行程序时，执行如上所述的图像配准方法。

本申请实施例提供了一种计算机可读存储介质，其上存储有计算机可执行指令，所述指令在被处理器执行时用于实现如上所述的图像配准方法。

本申请实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行根据本公开的实施例的图像配准方法。

本申请实施例提供的方法相比于传统的图像配准方法而言，通过采用基于无监督神经网络学习的图像配准模型，极大地提高了配准速度和配准精度，同时缓解了图像数据集标注信息稀缺的问题。此外，与现有的基于无监督学习的配准方法相比，本申请实施例提供的方法通过促进从图像表示到空间关系的映射，而不是将图像表示直接转换为空间对应，提高配准网络的可解释性，且减小了配准所需的计算量。

本申请实施例提供的方法，通过在多个尺度下提取待配准图像对中移动图像和固定图像的特征图，在每个尺度下，基于相应特征图中与移动图像中的每个体素相对应的特征向量，将移动图像中的每个体素的位移向量转换为多个位移基向量的组合，以从成对的特征图中学习位移场，并基于所有尺度下的位移场生成最终位移场，从而充分利用不同尺度下的图像特征信息，实现高效准确的图像配准。通过本申请实施例的方法能够基于不同尺度学习从粗到细的位移场，并通过对所有尺度下的位移场进行融合，在不引入密集的连续网络计算的情况下，充分利用不同表示子空间的潜在信息。

附图说明

图1是示出本申请实施例中的对来自用户终端的配准请求进行处理的场景示意图；

图2A是示出本申请实施例中的图像配准方法的流程图；

图2B是示出本申请实施例中的图像配准方法的多尺度配准网络的示意图；

图2C是示出本申请实施例中的多尺度配准网络的应用的示意图；

图3A是示出本申请实施例中的从待配准图像对的特征图中确定位移场的流程图；

图3B是示出本申请实施例中的从待配准图像对的特征图中确定位移场的示意图；

图3C是示出本申请实施例中的从待配准图像对的特征图中确定位移场的示意性流程框图；

图4A是示出本申请实施例中的对多个尺度下确定的多个位移场的级联融合的示意图；

图4B是示出本申请实施例中的级联融合中的每级融合的流程图；

图4C是示出本申请实施例中的级联融合中的第l级融合的示意图；

图5是示出本申请实施例中的不同方法下的图像配准结果及不同尺度下的形变场的可视化结果的示意图；

图6是示出本申请实施例中的图像配准方法的应用的示意图；

图7是示出本申请实施例中的图像配准装置的示意图；

图8示出了本申请实施例中的图像配准设备的示意图；

图9示出了本申请实施例中的示例性计算设备的架构的示意图；

图10示出了本申请实施例中的存储介质的示意图。

具体实施方式

为便于描述本申请，以下介绍与本申请有关的概念。

本申请实施例提供的图像配准方法可以基于人工智能(Artificial intelligence，AI)实现。对于基于人工智能的图像配准方法而言，其能够以类似于人类通过肉眼识别待配准图像对之间的关联，并基于该关联对待配准图像对进行对齐的方式，从待配准图像对中提取潜在特征，并基于这些特征来确定图像的位移场，从而实现图像配准。人工智能通过研究各种智能机器的设计原理与实现方法，使本申请实施例提供的图像配准方法能够快速准确地提取图像中的各种潜在特征，从而建立待配准图像对中体素对之间的空间映射关系。

本申请实施例提供的图像配准方法可以基于计算机视觉(Computer Vision，CV)技术实现。基于计算机视觉技术，本申请实施例提供的图像配准方法可以从输入的图像中提取特征信息，通过从图像特征中有效学习空间关系，实现准确的图像配准。

本申请实施例提供的图像配准方法可以基于深度学习(deep learning)技术。深度学习技术以其强大的学习能力和特征提取能力在医学图像分析领域(诸如器官或肿瘤分割、病灶检测和疾病诊断等)有出色的表现，近年来，一些研究者开展了基于深度学习的医学图像配准研究。这些研究大致包括：深度网络与传统配准算法相结合、基于有监督学习模型的直接配准以及基于无监督学习模型的直接配准。对于深度网络与传统配准算法相结合的图像配准方法，尽管深度网络一定程度地提升了配准的效率，但仍然是在传统图像配准的迭代优化框架中。此外，深度网络的特征提取过程与图像配准任务是分离的，因此，不能确保网络提取出的特征对于配准问题具有适配的描述性。在基于有监督学习的配准模型研究中，通过使用金标准形变与预测形变的差异损失作为目标函数来训练配准模型的参数，但有监督配准模型的性能通常受限于监督标签信息(即金标准形变场)的准确度，对于临床医学图像，训练数据中金标准形变场的获取是非常困难且十分耗时的。基于无监督学习模型的直接配准方法，利用配准网络输出的形变场对待配准图像进行空间变换，产生形变后的图像，然后，通过最大化形变图像和参考图像间的相似性来训练配准网络，避免了对金标准形变场的需求，实现了端到端的无监督训练配准模型。因此，在本申请实施例中，可以基于无监督学习方法，通过训练无监督配准网络来实现图像配准。

可选地，本申请实施例提供的图像配准方法可以基于神经网络。神经网络(例如前馈网络)是学习模拟人脑视觉系统分级处理信息的机制，通过构建多隐含层的模型，为输入图像中的信息分配不同权值，自动提取多层次、多角度的图像特征，从而更好地理解输入图像。卷积神经网络(Convolutional Neural Network，CNN)是一类包含卷积计算且具有深度结构的前馈神经网络(Feedforward Neural Network，FNN)，其是深度学习的代表算法之一。卷积神经网络具有表征学习(representation learning)能力，能够按其阶层结构对输入信息进行平移不变分类(shift-invariant classification)。本申请实施例提供的图像配准方法可以基于神经网络训练学习到配准网络中的所有参数，以用于后续对配准网络的直接使用，无需在每次配准时都对配准度量函数进行优化。

可选地，本申请实施例提供的图像配准方法还可以基于注意力机制。注意力机制的本质源于人类视觉机制，属于人类视觉特有的大脑信号处理机制，即人类的注意力。注意力机制只是将学习到的特征进行平均处理，存在一定的局限性。多头注意力机制(multi-head attention)是注意力机制的一种特殊变形，其利用函数计算相似度，通过多次变换，从模型中的不同方面进行特征的全面学习，相当于多个单个注意力机制学习不同子空间的特征后，通过线性变换组合将这些特征拼接起来。多头注意力机制利用多个查询，来平行地从输入信息中选取多个信息，其中，每个注意力机制关注输入信息的不同部分。在本申请实施例中，可以利用多头注意力机制，帮助配准模型对输入的每个特征赋予不同的权重，抽取出更加关键的信息，从而，从输入图像的特征向量获取用于描述图像的空间变换关系的多个位移基向量及其权重，充分考虑待配准图像之间的关联，自动学习这些图像的特征之间的隐藏关系，以提高图像配准的准确性。

综上所述，本申请实施例提供的方案涉及人工智能、无监督图像配准、多头注意力机制等技术，下面将结合附图对本申请实施例进行进一步地描述。

图1是本申请实施例中对来自用户终端的配准请求进行处理的场景示意图。

在图1中，用户可以通过其用户终端发起图像配准请求，例如，通过用户终端上的特定接口上传成对的待配准图像。接着，用户终端可以响应该图像配准请求，通过网络(或者直接地)向对应的服务器传输这些图像数据。

可选地，用户终端具体可以包括智能手机、平板电脑、膝上型便携计算机、车载终端、可穿戴设备等等。用户终端可以安装有浏览器或各种应用(包括系统应用及第三方应用)的客户端。网络可以是基于互联网和/或电信网的物联网(Internet of Things)，其可以是有线网也可以是无线网，例如，其可以是局域网(LAN)、城域网(MAN)、广域网(WAN)、蜂窝数据通信网络等能实现信息交换功能的电子网络。服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是云服务器。

如图1所示，服务器可以基于接收的图像数据(例如，待配准图像对的数据)实时进行图像配准处理。随后，服务器可将经处理得到的图像配准结果(例如，经配准的图像对及相应结果数据)通过网络返回到用户终端并进行显示，作为对用户的图像配准请求的响应。

如今，图像配准是图像处理领域的一个重点、难点任务，它主要研究针对同一对象在不同条件下获取的图像的对齐和融合算法。日常生活中，针对同一对象获得的图像经常来自于不同的采集设备，拍摄于不同的时间，不同的视角等。因此，需要对这些图像进行配准。具体地，对于成对的两幅图像，需要通过图像配准寻找这两幅图像之间的空间映射关系，从而将两图中对应于同一位置的点一一对应起来，进而，为后续的识别、分割、融合等操作提供便利。在计算机视觉、医学图像处理、以及材料力学等各种领域中，图像配准算法都有广泛的应用和深远的影响。例如，近年来，医学成像技术发展迅速，逐渐从静态成像发展到动态成像，从形态拓展到功能，从平面图像到三维立体图像。由于人体器官易变形，不同时期的人体解剖结构存在生长变化，医生往往需要通过肉眼观察不同的医学图像来配准，这对于缺乏空间想象力和主观医疗经验的医生较为困难。医学图像配准的目的是找到一个最佳的空间变换，最好地对齐基础解剖结构，从而帮助医生更容易地从多个角度观察、分析器官和病灶的生长变化情况，使得临床诊断结果更加可靠准确。医学图像配准通过将一幅图像(移动图像)的坐标转换到另一幅图像(固定图像)中，使得两幅图像中的相应位置匹配，得到配准图像。

根据配准方法依赖的算法不同，可以将配准方法分为传统的配准方法和基于学习的配准方法。传统的配准方法是基于数学迭代优化的方法，其首先定义一个相似性指标(例如，L2范数)，将配准任务定义为一个具有各种约束条件的优化问题，以结合期望的特性(诸如逆一致性、对称性和拓扑保序)，通过参数化转换或非参数化转换进行不断迭代优化，使得配准后的移动图像与固定图像相似性最高。但是，这样的配准方法需要每次针对新的配准图像对进行迭代式的密集型计算，其优化速度慢且实现困难。

相较于传统的配准方法，基于学习的配准方法具有很大的优势与潜力，因此，有越来越多的研究人员研究该方法，近几年来有不少相关的工作发表。基于学习的配准方法是指通过神经网络训练的配准方法，该方法中参数是共享的，首先利用大量的数据来训练模型，然后用训练好的模型对新的图像进行配准。随着深度学习在医学图像分析研究中的应用逐渐增多，其在器官分割、病灶检测与分类任务中取得了相当好的效果，越来越多的研究开始用深度学习方法处理图像配准问题，并获得了优于传统算法的效果。其中，无监督神经网络在图像配准的过程中极大地提高了配准速度和配准精度，同时缓解了图像数据集标注信息稀缺的问题。近年的基于无监督学习的配准方法中，通常以无监督医学图像配准模型(VoxelMorph)作为基准，以语义分割网络(U-Net)体系结构为主体，学习输入图像对之间的密集非线性对应关系。但这些基于无监督学习的配准方法由于卷积神经网络在捕捉空间关系方面的能力有限等因素，无法获得期望的配准性能，即难以准确地实现图像配准。此外，还存在配准方法提出采用注意机制来更好地表征空间关系，但由于其过于关注图像间的长程依赖，忽视了配准的局部性，即忽略了在配准任务中需要在局部区域找到相应的体素。

本申请实施例为了解决上述问题，提供了一种图像配准方法，其通过将图像中每个体素处的位移向量转换为基于图像特征确定的多个位移基向量的组合的位移场，更有效地从图像特征中学习到空间关系，从而实现准确的图像配准。

本申请实施例提供的方法相比于传统的图像配准方法而言，通过采用基于无监督神经网络学习的图像配准模型，极大地提高了配准速度和配准精度，同时缓解了图像数据集标注信息稀缺的问题。此外，与现有的基于无监督学习的配准方法相比，本申请实施例提供的方法通过促进从图像表示到空间关系的映射，而不是将图像表示直接转换为空间对应，提高了配准网络的可解释性，且减小了图像配准所需的计算量。

本申请实施例提供的方法，在多个尺度下提取待配准图像对的特征图，在每个尺度下，将待配准图像对中移动图像包括的每个体素的位移向量转换为多个位移基向量的组合，该多个位移基向量的组合是基于相应特征图中与该体素对应的特征向量确定的，以从成对特征图中学习位移场，并基于所有尺度下的位移场生成最终位移场，如此充分利用不同尺度下的图像特征信息实现高效准确的图像配准。通过本申请实施例的方法能够基于不同尺度学习从粗到细的位移场，通过对所有尺度下的位移场进行融合，在不引入密集的连续网络计算的情况下，充分利用不同表示子空间的潜在信息。

图2A是示出本申请实施例提供的图像配准方法200的流程图。图2B是示出本申请实施例提供的图像配准方法的多尺度配准网络的示意图。图2C是示出本申请实施例中的多尺度配准网络的应用的示意图。应理解，本申请实施例提供的图像配置方法可以由计算机设备执行，该计算机设备具体可以为终端设备或服务器。

在步骤201中，可以获取待配准的固定图像和移动图像。

如上所述，图像配准的目的在于，对待配准图像对中的移动图像中的每个体素(此处的体素对应于三维图像，例如，替代地，在二维图像中为像素)的坐标进行空间变换，以使其与固定图像中的对应体素的坐标对齐，即确定移动图像中的每个体素的位移向量，从而确定移动图像的位移场。其中，体素是指体积元素(Volume Pixel)，其在概念上类似于二维图像空间中的最小单位——像素，是三维图像空间的最小单位，体素通常用于三维成像与医学影像等领域，而像素用在二维计算机图像的影像数据上。

对于如上所述的诸如医学图像配准的场景，考虑到随着成像技术从平面图像到三维图像的发展，对图像的处理也需要适应于所获得的三维图像。因此，在本申请的后文中，主要针对三维图像的图像配准场景进行描述，但这并不意味着对本申请实施例提供的图像配准方法的适用范围的限制，本申请实施例提供的图像配准方法同样可以适用于其他更高或更低维度的图像处理，以下对于三维图像的操作仅用作示例而非限制。

可选地，在本申请实施例中，针对三维医学图像配准场景(其中移动图像和固定图像为三维医学图像)，可以将所获取的待配准图像对表示为其中，M为移动图像，F为固定图像，D、W和H分别表示移动图像和固定图像的深度、宽度和高度。因此，图像配准过程可以表示为：针对移动图像M中的每个体素，在固定图像F中找到最相似的体素，移动图像M与固定图像F之间的映射函数通常可以用由其中每对体素之间的位移向量构成的形变场φ来表示。

因此，本申请实施例提供的图像配准方法旨在确定移动图像M的形变场通过采用空间变换网络，根据所确定的形变场φ，将移动图像M映射到固定图像F上，使得形变后的移动图像可以配准至固定图像F，其中，形变场φ的维度表示三维空间维度，其对应于移动图像M中的每个体素的三维空间变换。具体地，形变场φ可以被表示为Id+u，其中，Id代表对于移动图像M的恒等变换，u表示位移场，其是由待配准图像对{M,F}中的每对体素之间的位移向量构成的。例如，对于大小为[W,H]的二维图像，其位移场大小为[W,H,2]，而对于大小为[D,W,H]的三维图像，其位移场大小为[D,W,H,3]，其中，位移场可以表示每个体素/像素在各个方向(例如，x、y、z轴)上的位移。空间变换网络可以根据位移场生成归一化后的采样网络，利用该网络对移动图像进行采样，可以获得配准后的移动图像。

在步骤202中，可以获得所述固定图像和所述移动图像各自在多个尺度下的特征图。

考虑到对于同一图像，可以从其不同尺度下的特征图获得不同的图像信息。在本申请实施例中，获得所述固定图像和所述移动图像各自在多个尺度下的特征图，可以包括：利用基于卷积神经网络的编码器，通过所述编码器中的不同卷积块提取固定图像和移动图像各自在不同尺度下的特征图，获得所述固定图像和所述移动图像各自在多个尺度下的特征图。

卷积神经网络通过逐层抽象的方式来提取目标的特征，其中，浅层网络特征图分辨率高，感受野较小，几何信息表征能力强，语义表征能力弱，适合处理小目标；深层网络感受野大，语义信息表征能力强，但是特征图分辨率低，几何信息表征能力弱，适合处理大目标。对于三维医学图像，低层次的细节特征图捕获了丰富的空间信息，突出了器官的边界；而高层次的语义特征图包含了位置信息，定位了器官所在的位置。因此，移动图像M和固定图像F可以被送入基于卷积神经网络的同一编码器(共享权重)进行特征提取，使得编码器可以通过不同的卷积块提取出一序列不同尺度下的中间特征映射即获得多个尺度下的特征图。例如，图2B中示出了四个尺度(尺度数量L＝4)的情况，其中，B表示该批待配准图像对的数量，如图2B所示，编码器可以通过不同的卷积块(卷积核个数分别为C₁、C₂、C₃和C₄)，基于移动图像M和固定图像F分别提取四个尺度下的特征图(对于移动图像M为并且对于固定图像F为)，其中，对于同一尺度l，移动图像和固定图像的特征图的维度相同，例如对于尺度l＝3，和的维度都为B*D₃*W₃*H₃*C₃。

应当理解，本申请实施例中仅以尺度为4的情况作为示例来描述图像配准过程，但这并不是对于尺度数量的限制，本申请实施例提供的图像配准方法同样可以采用其他数量的尺度实现图像配准。

根据本申请实施例，所述固定图像或所述移动图像在特定尺度下的特征图的尺寸，可以为按照相应比例对所述固定图像或所述移动图像进行缩小后的尺寸。可选地，为了增加感受野，尺度l下的特征图的尺寸可以按比例缩小到原始图像的尺寸的1/2^l。例如，对于上述L＝4的情况，尺度l＝3下的移动图像的特征图的尺寸可以移动图像的原始尺寸的1/8，即D₃*W₃*H₃＝(D*W*H)/8。当然，对于特征图的尺寸的缩小还可以基于其他方式，上述按比例缩小的方式在本申请中仅用作示例而非限制。

因此，可以从固定图像和移动图像在多个尺度下的成对特征图中学习多个位移场并且对在所有尺度下学习的位移场进行融合，以结合低层次的细节特征图和高层次的语义特征图的特性，获得更准确的位移场。

在步骤203中，可以对于所述多个尺度中的每个尺度，根据所述固定图像和所述移动图像各自在所述尺度下的特征图，确定所述尺度对应的位移场，所述位移场用于指示在所述尺度下从所述移动图像到所述固定图像的映射。

如上所述，可以针对每个尺度下的成对特征图确定一个位移场，其中，该位移场由待配准图像对中的体素对间的位移向量构成。根据本申请实施例，在所述位移场中，所述移动图像中的每个体素到所述固定图像中的相应体素的位移向量可以为多个位移基向量的组合，所述多个位移基向量可以是基于所述移动图像在所述尺度下的特征图中与所述体素对应的特征向量获得的。

与将图像表示直接转换为空间对应的方法不同，为了促进从图像表示到空间关系的映射，并且提高图像配准网络中的空间转换的可解释性，在本申请实施例提供的图像配准方法中，对于如图2B所示的位移场确定部分，根据线性代数理论，将两个体素之间的位移向量分解为多个位移基向量的组合表示，从而避免复杂且可解释性差的空间对应直接转换。根据本申请实施例，根据所述固定图像和所述移动图像各自在所述尺度下的特征图，确定所述尺度对应的位移场，可以包括如图3A所示的步骤。

图3A是示出本申请实施例中根据待配准图像对的特征图确定位移场的流程图。图3B是示出本申请实施例中从待配准图像对的特征图中确定位移场的示意图。图3C是示出本申请实施例中从待配准图像对的特征图中确定位移场的示意性流程框图。

如图3A所示，在步骤2031中，可以对于所述移动图像在所述尺度下的特征图中的每个特征向量，基于所述特征向量生成多个位移基向量。

可选地，对于同一尺度下的移动图像的特征图和固定图像的特征图，上述多个位移基向量的组合表示，可以通过图3B所示的采用多头注意力机制的两个独立分支来获得。具体地，在本申请实施例中，所述多个位移基向量及其各自的权重可以是利用K个注意力头基于所述特征向量生成的，其中，利用每个注意力头可以生成N个位移基向量，其中，K可以是大于1的整数，N可以是正整数。

如图3B所示，利用每个注意力头生成N个位移基向量，可以对应于图3B中的上半部分的分支，该分支针对移动图像的特征图进行操作。在该分支中，可以采用线性投影，将移动图像的特征图中的每个特征向量转换为N个(例如，图3B中示为5个)位移基向量，其中，每个位移基向量可以由三个元素组成，这三个元素可以分别对应于三个空间方向上的位移，即x、y、z轴上的位移。为了获得来自不同表示子空间的信息，本申请实施例提供的图像配准方法基于多头注意力机制，对于每个特征向量采用K个注意力头，并且每个注意力头的位移基向量数为N，从而，为每个体素生成K×N个位移基向量。具体地，对于移动图像M在尺度l下的特征图其可以被视作包括B*D₃*W₃*H₃个C₃维的特征向量，对于其中每个特征向量，在每个注意力头中，通过一个全连接层输出一个N×3维向量，其可以视作N个三维位移基向量，因此，通过K个注意力头，可以针对每个特征向量提取K×N个位移基向量。其中，该分支仅使用移动图像的特征图来生成位移基向量，这足以提取出最具代表性的位移基向量，来表示每个体素最可能的形变方向。

在步骤2032中，可以基于所述固定图像和所述移动图像各自在所述尺度下的特征图，针对所述特征向量，确定所述多个位移基向量各自的权重。

如图3B所示，确定多个位移基向量各自的权重可以对应于图3B中的下半部分的分支，该分支针对固定图像和移动图像的特征图进行操作。在本申请实施例中，对于所述K个注意力头中的每个注意力头，利用所述注意力头，基于所述固定图像和所述移动图像各自在所述尺度下的特征图的拼接，生成的N个位移基向量各自的权重。

可选地，在此分支中，通过对移动图像和固定图像的拼接(图中示为C)特征图进行线性投影，来学习每一个注意力头对应的N个位移基向量各自的注意力权重。具体地，在此分支中，可以通过线性层和归一化指数函数(softmax函数)来学习移动图像和固定图像的体素之间的相似性，从而确定该N个位移基向量各自的注意力权重(例如，在图3B中，上述5个位移基向量所对应的注意力权重分别为0.2、0.2、0.4、0.1和0.1)。

需要注意，上述两种线性投影都是独立地针对每对特征向量进行的，与标准CNN或Transformer块相比，产生的参数较少。此外，由于通过基于CNN的编码器，已经将体素的附近体素的潜在信息整合到与该体素相对应的特征向量中，因此，相似性度量不再局限于同一位置的体素，感受野随着特征图分辨率的降低而扩大。

因此，基于上述两个独立分支，可以确定与特征向量对应的体素的位移向量。

在步骤2033中，可以对于所述移动图像在所述尺度下的特征图中的每个特征向量，基于所述特征向量对应的多个位移基向量及其权重，确定所述尺度对应的位移场。

基于移动图像中的特征向量确定其中每个体素最可能发生形变的方向，并基于移动图像和固定图像之间的相似性，确定最可能发生形变的每个方向上的相对位移量，进而可以基于这些方向和在这些方向上的相对位移量来确定相应体素的位移向量。

在本申请实施例中，基于所述特征向量对应的多个位移基向量及其权重，确定所述尺度对应的位移场，可以包括：对于所述K个注意力头，基于N个位移基向量与其各自的权重的相应乘积的平均值，确定所述尺度对应的位移场；其中，所述移动图像中的每个体素到所述固定图像中的相应体素的位移向量可以为所述多个位移基向量的加权和。

可选地，上述多个位移基向量的组合表示可以是多个位移基向量的加权和，其中，这些位移基向量的权重是通过对同一特征向量对应的所有位移基向量的注意力权重进行归一化后确定的。

如上所述，尺度l(l＝1...L)对应的位移场中的每个位移向量(其中，k表示该位移向量在该位移场中的编号)可以通过将在所有注意力头对其注意力权重与相应位移基向量的乘积和的平均值。例如，可以表示为：

其中，为第j个注意力头中的第i个位移基向量，w_i,j为该位移基向量的注意力权重，[·]表示拼接操作，fc₁和fc₂分别表示两个分支的映射函数。因此，通过确定位移场中的每个位移向量可以确定尺度l下的位移场u_l(l＝1...L)。

在本申请实施例中，如参考图3A至图3C所描述的确定每个尺度对应的位移场的过程中，通过使用非全局的多头注意力机制，在遵循了配准的局部性的同时，相比采用标准CNN或Transformer块的方案具有更少的参数。

图3C以流程框图的形式，针对移动图像和固定图像的特征图的维度，示出了基于移动图像和固定图像在尺度l下的特征图确定位移场u_l的过程。如图3C所示，该流程框图中的两条过程流分别对应于上述两个独立分支。其中，对于左侧过程流，移动图像的特征图通过线性投影被转换为K个N×3维的位移基向量，因此，其特征图的维度从B*D_l*W_l*H_l*C_l改变为B*D_l*W_l*H_l*(K*N*3)，而在右侧过程流，移动图像和固定图像的特征图经过拼接，拼接后的特征图的维度为B*D_l*W_l*H_l*2C_l，该拼接后的特征图经过上述线性投影，被转换为上述K个N×3维的位移基向量的注意力权重，因此该拼接后的特征图改变为B*D_l*W_l*H_l*(K*N*1)。通过对这两个过程流各自的结果进行重塑变换(诸如转置变换等)，可以获得K个注意力头中的位移场，其维度为B*D_l*W_l*H_l*K*3。因此，通过如上所述在所有注意力头中对位移场取平均，可以确定尺度l下的位移场u_l，其维度为B*3*D_l*W_l*H_l。

在步骤204中，可以基于所述多个尺度各自对应的位移场生成最终位移场，并基于所述最终位移场对所述移动图像进行变换处理，以使变换后的移动图像与所述固定图像配准。

在针对多个尺度下的特征图确定了对应的多个位移场后，这些不同尺度下的位移场不能直接作为最终配准结果，因为细尺度的位移场感受野有限，无法表征大的形变，而粗尺度的位移场太粗糙，无法为原始图像提供精确的体素级位移向量。因此，在本申请实施例提供的图像配准方法中，可以采用细化融合网络，对这些位移场进行融合，以结合低层次的细节特征图和高层次的语义特征图的特性，获得更准确的最终位移场。

在本申请实施例中，基于所述多个尺度各自对应的位移场生成最终位移场，可以包括：根据尺度大小，对所述多个尺度各自对应的位移场进行级联融合，以将所述多个尺度各自对应个位移场转换为所述移动图像的原始尺寸下的最终位移场。

在本申请实施例提供的图像配准方法中，可以采用如图4A所示的级联融合网络来基于多个位移场生成最终位移场，该级联融合网络重复应用融合块和卷积头，以将L个尺度下的位移场转换为原始分辨率下的最终位移场。

图4A是示出本申请实施例中的对多个尺度各自对应的位移场的级联融合的示意图。图4B是示出本申请实施例的级联融合中的每级融合的流程图。图4C是示出本申请实施例的级联融合中的第l级融合的示意图。

可选地，对于L＝4的情况，可以按照尺度l从大到小的顺序进行级联融合，该级联融合包括L-1级融合，其中，将第l级融合的融合块的输出特征图记作g^l，对于第l级融合，可以基于上级融合的输出g^l+1和该级融合对应的位移场(表示为B*3*D_l*W_l*H_l)、以及移动图像和固定图像各自的特征图和通过融合块生成该级融合的融合结果g^l。如图4A所示，对于L＝4的情况，在4个尺度下确定的位移场可以经过3级融合得到最终位移场B*3*D*W*H。其中，对于第L-1级融合，其输入中除了该级融合对应的位移场以及移动图像和固定图像各自的特征图和外，不存在上级融合的输入，而是还包括对尺度L下的位移场的特征提取g^L。

在本申请实施例中，根据尺度大小，对所述多个尺度各自对应的位移场进行级联融合，可以包括如图4B所示的步骤2041-2044。

在步骤2041中，可以在所述级联融合中的每级融合中，对上级融合输出的具有特定通道数的特征图进行上采样，得到第一特征图。

可选地，如图4C中的(a)所示，可以对上级融合输出的特征图g^l+1进行上采样，以得到该第一特征图，例如，对于尺度l下对应的特征图的尺寸按比例缩小到原始图像的尺寸的1/2^l，可以对上级融合的输出g^l+1进行双线性插值上采样，得到的第一特征图的维度为B*3*D_l*W_l*H_l。应当理解，其他可以实现相同效果的数据处理方式同样可以适用于本申请实施例的方法，该上采样方法在本申请实施例中仅用作示例而非限制。

在步骤2042中，可以对该级融合对应的位移场进行特征提取，将所述位移场转换为具有所述特定通道数的第二特征图。

可选地，可以通过预定卷积块将尺度l上的位移场u^l转换为具有特定通道数C(例如，C＝128，该固定通道数可以根据实际需要进行设置)的特征图h^l，即第二特征图。类似地，在上述第L-1级融合中，对尺度L下的位移场的特征提取g^L也可以是通过这样的方式获得的。其中，作为示例，该预定卷积块可以包含三个卷积层(例如，通道数分别为16、64和128，每个卷积层的尺度为1)，并且其后可以跟随组归一化和激活函数(例如，ReLU激活函数)。需要注意的是，不同尺度的卷积块不共享权值，由尺度从大到小，它们的卷积核大小可以被设置为诸如(5,5,5)、(5,5,3)、(5,3,3)、(3,3,3)。应当理解，该预定卷积块的具体参数可以根据实际需要设置，上述具体参数设置在本申请实施例中仅用作示例而非限制。

在步骤2043中，可以将所述第一特征图与所述第二特征图相加，并与所述固定图像和所述移动图像各自在该级融合对应的尺度下各自的特征图进行拼接。

可选地，可以将上级融合的结果结合当前融合对应的位移场信息和特征图，来生成融合结果。例如，可以将上级融合的结果g^l+1加到从当前融合对应的位移场中提取的特征图h^l中(其相加的结果的维度仍为B*3*D_l*W_l*H_l)。此后，可以将相加的结果与潜在表示和进行拼接，该拼接的结果可以表示为其中，upsample(·)表示对(·)进行上采样。因此，通过对该拼接的结果应用如图4C中的(b)所示的卷积块提取特征信息，可以得到该级融合的图像信息g^l。

在步骤2044中，可以对所述拼接的结果进行特征提取，生成具有所述特定通道数的特征图，作为该级融合的输出。

如图4C中的(b)所示，融合块的最后一个组成部分可以是另一个卷积块，其可以将输出的高阶潜在表示的通道数(C+2C_l)减小为固定通道数C，该卷积块可以具有与如上所述的预定卷积块具有相同的结构和参数，此处不再赘述，但应理解，其他可以实现相同目的或效果的方式同样可以适用于本申请实施例提供的图像配准方法。

在本申请实施例中，根据尺度大小，对所述多个尺度各自对应的位移场进行级联融合，还可以包括：对于所述级联融合中的第一级融合输出的具有所述特定通道数的特征图进行特征提取，生成所述最终位移场。

如上所述，对于L＝4的情况，通过L-1个融合块的级联融合，需要输出通道数为3的最终位移场。可选地，可以对第一级融合输出的特征图g¹应用类似的卷积头(例如，包含三个解码块的卷积头，每个解码块有两个连续结构，包含一个卷积层和一个激活函数(例如，ReLU激活函数))，从而生成最终位移场，其维度为B*3*D*W*H。

在本申请实施例提供的图像配准方法中，通过采用如参考图4A至图4C所描述的细化融合网络，对在多个尺度下确定的中间位移场进行融合，生成最终位移场，以基于低层次的细节特征图和高层次的语义特征图的特性，结合位移场信息和多尺度下的特征图，提供高分辨率的大形变映射能力。

因此，如上参考步骤201至204所描述的图像配准方法可以表示为如图2C所示的示意性流程图。其中，通过将待配准图像对输入本申请实施例中的多尺度配准网络，可以得到待配准图像对中的移动图像的形变场，因此，通过对该移动图像施加所得到的形变场，可以输出最终的配准图像。

在本申请实施例提供的图像配准方法中，上述多尺度配准网络的训练可以基于对配准损失函数的最优化。其中，通过在该多尺度配准网络中基于训练数据针对配准损失函数的最优化，可以确定该多尺度配准网络的最优参数。所确定的最优参数可以在后续图像配准任务中直接应用，而无需每次针对实时任务重新进行最优化计算，本申请实施例的图像配准方法中诸如卷积等操作所涉及的参数，都可以通过基于对配准损失函数的最优化而预先确定。

因此，根据本公开的实施例，所述最终位移场的生成可以基于对配准损失函数的最优化，所述配准损失函数可以包括用于度量变换后的移动图像(即基于最终位移场对移动图像进行变换处理得到的)与所述固定图像之间的相似性的第一项、以及用于对位移场施加惩罚以惩罚所述移动图像的局部空间变化的第二项。

可选地，本申请实施例提供的图像配准方法可以使用大多数的配准损失函数，例如以下配准损失函数：

其中，λ为正则化权衡参数。

其中，第一项通过局部归一化互相关，来度量变换后的移动图像与固定图像之间的相似性，该项可以表示为：

其中，Ω为整个体素集，P表示体素p的近邻体素。

如果用和表示固定图像和变换后的移动图像在体素p的近邻体素的值的期望，则ΔF(q)和可以分别定义为和以排除绝对灰度值带来的影响，从而更好地体现待配准图像对之间的结构差异。

在本公开的实施例中，第二项可以是对形变场施加的正则化，以惩罚移动图像中的局部空间变化，该项可以表示为：

其中，表示两个相邻体素之间的位移向量的近似空间梯度。

可选地，可以通过u(p_(x+1),p_y,p_z)-u(p_x,p_y,p_z)计算得到并分别应用类似的运算得到和因此，通过如上约束位移量的大小，可以保证移动图像不会产生太大的畸变。

如上所述，本申请实施例提供的图像配准方法通过在每个尺度下对位移场施加惩罚，为每个尺度下的位移场确定以及特征提取器提供直接指导。

应当注意，为了计算目标函数，需要将每个尺度下确定的位移场上采样到原始尺寸，以使移动图像形变。

因此，本申请实施例提供的图像配准方法所采用的总配准损失函数可以表示为：

其中，β_l表示尺度l下的中间配准损失函数的权重。

如上所述，通过在每个尺度下的位移场确定的输出上施加辅助损失，如图2B所示，可以为充分利用每个尺度的表示子空间提供额外的指导，以避免移动图像中的过大畸变。

图5是示出本申请实施例中的不同方法下的图像配准结果、及不同尺度下的形变场的可视化结果的示意图。其中，图5中的(a)示出了采用不同方法下的医学图像配准结果对比，图5中的(b)示出了采用本申请实施例提供的图像配准方法在不同尺度下的形变场的可视化结果。

图5中(a)和(b)所示的图像配准结果为对大脑的磁共振成像(MRI)图像的配准结果，其中，不同深度的曲线表示不同大脑结构的边界(例如，MRI图像中的最下方呈对称分布的两个封闭曲线对应于尾状核(caudate)的边界)。如图5中(a)所示，与其他图像配准方法(诸如SyN、NiftyReg、VoxelMorph等方法)相比，本申请实施例中的图像配准方法能够更好地保留医学图像的细节信息，并且形变之后的移动图像(图中标记为“本公开”)能和不同大脑结构的分割标注吻合得更好。

图5中(a)和(b)中的形变场的不同颜色代表了形变的程度，也就是该体素点的位移量，其中，颜色越深表示位移量越大，而形变场中的曲线变化方向指示体素点的位移方向。如图5中(b)所示，随着尺度由小变大，所得到的形变场逐渐模糊，分辨率逐渐降低。通过本申请实施例的图像配准方法，可以结合低层次的细节特征图和高层次的语义特征图的特性，获得更准确的位移场。

图6是示出本申请实施例的图像配准方法的应用的示意图。

如图6所示，本申请实施例提供的图像配准方法可以作为模型直接应用。例如，在图6中的(a)中，用户可以上传成对的待配准的图像(例如，在前端A上)，而后台在接收到待配准图像对后，可以使用基于本申请实施例提供的图像配准方法所训练好的模型，直接对该待配准图像对进行配准(后端)，并将配准结果输出(例如，在前端B上)。

如图6中的(b)所示，本申请实施例提供的图像配准方法还可以通过智能开放实验室平台部署，用户可通过向显示界面中拖入相关模块(例如，图像配准模块)，而直接使用该图像配准方法并输出配准后的图像。

图7是示出本申请实施例中的图像配准装置700的示意图。

所述图像配准装置700可以包括图像获取模块701、特征图提取模块702、位移场确定模块703和位移场合成模块704。

图像获取模块701可以被配置为获取待配准的固定图像和移动图像。

特征图提取模块702可以被配置为获得所述固定图像和所述移动图像各自在多个尺度下的特征图。

位移场确定模块703可以被配置为对于所述多个尺度中的每个尺度，根据所述固定图像和所述移动图像在所述尺度下各自的特征图，确定所述尺度对应的位移场，所述位移场用于指示在所述尺度下从所述移动图像到所述固定图像的映射，在所述位移场中，所述移动图像中的每个体素到所述固定图像中的相应体素的位移向量为多个位移基向量的组合，所述多个位移基向量是基于所述移动图像在所述尺度下的特征图中与所述体素对应的特征向量获得的。

位移场合成模块704可以被配置为基于在所述多个尺度下确定的多个位移场生成最终位移场，并基于所述最终位移场对所述移动图像进行变换处理，以使变换后的移动图像与所述固定图像配准。

可选的，所述位移场确定模块703具体可以被配置为：

对于所述移动图像在所述尺度下的特征图中的每个特征向量，基于所述特征向量生成所述特征向量对应的多个位移基向量；基于所述固定图像和所述移动图像各自在所述尺度下的特征图，确定所述多个位移基向量各自的权重；

对于所述移动图像在所述尺度下的特征图中的每个特征向量，基于所述特征向量对应的多个位移基向量及其权重，确定所述尺度对应的位移场。

可选的，所述多个位移基向量及其各自的权重是利用K个注意力头基于所述特征向量生成的，所述K为大于1的整数；

其中，利用每个所述注意力头生成N个位移基向量；所述N为大于或等于1的整数；

其中，对于所述K个注意力头中的每个注意力头，利用所述注意力头，基于所述固定图像和所述移动图像各自在所述尺度下的特征图的拼接，生成所述N个位移基向量各自的权重。

可选的，所述位移场确定模块703具体可以被配置为：

对于所述K个注意力头，基于所述N个位移基向量与其各自的权重的相应乘积的平均值，确定所述尺度对应的位移场；

其中，所述移动图像中的每个体素到所述固定图像中的相应体素的位移向量为所述多个位移基向量的加权和。

可选的，所述特征图提取模块702具体可以被配置为：

利用基于卷积神经网络的编码器，通过所述编码器中的不同卷积块提取所述固定图像和所述移动图像各自在不同尺度下的特征图，获得所述固定图像和所述移动图像各自在多个尺度下的特征图；

其中，所述固定图像或所述移动图像在特定尺度下的特征图的尺寸，是按照相应比例对所述固定图像或所述移动图像进行缩小后的尺寸。

可选的，所述位移场合成模块704具体可以被配置为：

根据尺度大小，对所述多个尺度各自对应的位移场进行级联融合，以将所述多个尺度各自对应的位移场转换为所述移动图像的原始尺寸下的最终位移场。

可选的，所述位移场合成模块704具体可以被配置为：

在所述级联融合中的每级融合中，对上级融合输出的具有特定通道数的特征图进行上采样，得到第一特征图；

对该级融合对应的位移场进行特征提取，将所述位移场转换为具有所述特定通道数的第二特征图；

将所述第一特征图与所述第二特征图相加，并与所述固定图像和所述移动图像各自在该级融合对应的尺度下的特征图进行拼接；

对所述拼接的结果进行特征提取，生成具有所述特定通道数的特征图，作为该级融合的输出。

可选的，所述位移场合成模块704具体可以被配置为：

对于所述级联融合中的第一级融合输出的具有所述特定通道数的特征图进行特征提取，生成所述最终位移场。

可选的，所述最终位移场的生成基于对配准损失函数的最优化，所述配准损失函数包括用于度量所述变换后的移动图像与所述固定图像之间的相似性的第一项、以及用于对位移场施加惩罚以惩罚所述移动图像的局部空间变化的第二项。

根据本申请实施例的又一方面，还提供了一种图像配准设备，该图像配准设备为计算机设备。图8示出了本申请实施例中的图像配准设备2000的示意图。

如图8所示，所述图像配准设备2000可以包括一个或多个处理器2010，和一个或多个存储器2020。其中，所述存储器2020中存储有计算机可读代码，所述计算机可读代码当由所述一个或多个处理器2010运行时，可以执行如上所述的图像配准方法。

本申请实施例中的处理器可以是一种集成电路芯片，具有信号的处理能力。上述处理器可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，可以是X86架构或ARM架构的。

一般而言，本申请的各种示例实施例可以在硬件或专用电路、软件、固件、逻辑，或其任何组合中实施。某些方面可以在硬件中实施，而其他方面可以在可以由控制器、微处理器或其他计算设备执行的固件或软件中实施。当本公开的实施例的各方面被图示或描述为框图、流程图或使用某些其他图形表示时，将理解此处描述的方框、装置、系统、技术或方法可以作为非限制性的示例在硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其他计算设备，或其某些组合中实施。

例如，根据本申请实施例的方法或装置也可以借助于图9所示的计算设备3000的架构来实现。如图9所示，计算设备3000可以包括总线3010、一个或多个CPU 3020、只读存储器(ROM)3030、随机存取存储器(RAM)3040、连接到网络的通信端口3050、输入/输出组件3060、硬盘3070等。计算设备3000中的存储设备，例如ROM 3030或硬盘3070可以存储本公开提供的图像配准方法的处理和/或通信使用的各种数据或文件以及CPU所执行的程序指令。计算设备3000还可以包括用户界面3080。当然，图8所示的架构只是示例性的，在实现不同的设备时，根据实际需要，可以省略图9示出的计算设备中的一个或多个组件。

根据本申请实施例的又一方面，还提供了一种计算机可读存储介质。图10示出了本申请实施例中的存储介质的示意图4000。

如图10所示，所述计算机存储介质4020上存储有计算机可读指令4010。当所述计算机可读指令4010由处理器运行时，可以执行参照以上附图描述的根据本公开的实施例的图像配准方法。本申请实施例中的计算机可读存储介质可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM)、可编程只读存储器(PROM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)或闪存。易失性存储器可以是随机存取存储器(RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、同步动态随机存取存储器(SDRAM)、双倍数据速率同步动态随机存取存储器(DDRSDRAM)、增强型同步动态随机存取存储器(ESDRAM)、同步连接动态随机存取存储器(SLDRAM)和直接内存总线随机存取存储器(DR RAM)。应注意，本文描述的方法的存储器旨在包括但不限于这些和任意其它适合类型的存储器。应注意，本文描述的方法的存储器旨在包括但不限于这些和任意其它适合类型的存储器。

本申请实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行本申请实施例的图像配准方法。

在上面详细描述的本申请的示例实施例仅仅是说明性的，而不是限制性的。本领域技术人员应该理解，在不脱离本申请的原理和精神的情况下，可对这些实施例或其特征进行各种修改和组合，这样的修改应落入本申请的范围内。

Claims

一种图像配准方法，由计算机设备执行，包括：

获取待配准的固定图像和移动图像；

获得所述固定图像和所述移动图像各自在多个尺度下的特征图；

对于所述多个尺度中的每个尺度，根据所述固定图像和所述移动图像各自在所述尺度下的特征图，确定所述尺度对应的位移场，所述位移场用于指示在所述尺度下从所述移动图像到所述固定图像的映射，在所述位移场中，所述移动图像中的每个体素到所述固定图像中的相应体素的位移向量为多个位移基向量的组合，所述多个位移基向量是基于所述移动图像在所述尺度下的特征图中与所述体素对应的特征向量获得的；

基于所述多个尺度各自对应的位移场生成最终位移场，并基于所述最终位移场对所述移动图像进行变换处理，以使变换后的移动图像与所述固定图像配准。
如权利要求1所述的方法，所述根据所述固定图像和所述移动图像各自在所述尺度下的特征图，确定所述尺度对应的位移场，包括：

对于所述移动图像在所述尺度下的特征图中的每个特征向量，基于所述特征向量生成所述特征向量对应的多个位移基向量；基于所述固定图像和所述移动图像各自在所述尺度下的特征图，确定所述多个位移基向量各自的权重；

对于所述移动图像在所述尺度下的特征图中的每个特征向量，基于所述特征向量对应的多个位移基向量及其权重，确定所述尺度对应的位移场。
如权利要求2所述的方法，所述多个位移基向量及其各自的权重是利用K个注意力头基于所述特征向量生成的，所述K为大于1的整数；

其中，利用每个所述注意力头生成N个位移基向量；所述N为大于或等于1的整数；

其中，对于所述K个注意力头中的每个注意力头，利用所述注意力头，基于所述固定图像和所述移动图像各自在所述尺度下的特征图的拼接，生成所述N个位移基向量各自的权重。
如权利要求3所述的方法，所述基于所述特征向量对应的多个位移基向量及其权重，确定所述尺度对应的位移场，包括：

对于所述K个注意力头，基于所述N个位移基向量与其各自的权重的相应乘积的平均值，确定所述尺度对应的位移场；

其中，所述移动图像中的每个体素到所述固定图像中的相应体素的位移向量为所述多个位移基向量的加权和。
如权利要求1所述的方法，所述获得所述固定图像和所述移动图像各自在多个尺度下的特征图，包括：

利用基于卷积神经网络的编码器，通过所述编码器中的不同卷积块提取所述固定图像和所述移动图像各自在不同尺度下的特征图，获得所述固定图像和所述移动图像各自在多个尺度下的特征图；

其中，所述固定图像或所述移动图像在特定尺度下的特征图的尺寸，是按照相应比例对所述固定图像或所述移动图像进行缩小后的尺寸。
如权利要求5所述的方法，所述基于所述多个尺度各自对应的位移场生成最终位移场，包括：

根据尺度大小，对所述多个尺度各自对应的位移场进行级联融合，以将所述多个尺度各自对应的位移场转换为所述移动图像的原始尺寸下的最终位移场。
如权利要求6所述的方法，所述根据尺度大小，对所述多个尺度各自对应的位移场进行级联融合，包括：

在所述级联融合中的每级融合中，对上级融合输出的具有特定通道数的特征图进行上采样，得到第一特征图；

对该级融合对应的位移场进行特征提取，将所述位移场转换为具有所述特定通道数的第二特征图；

将所述第一特征图与所述第二特征图相加，并与所述固定图像和所述移动图像各自在该级融合对应的尺度下的特征图进行拼接；

对所述拼接的结果进行特征提取，生成具有所述特定通道数的特征图，作为该级融合的输出。
如权利要求7所述的方法，所述根据尺度大小，对所述多个尺度各自对应的位移场进行级联融合，还包括：

对于所述级联融合中的第一级融合输出的具有所述特定通道数的特征图进行特征提取，生成所述最终位移场。
如权利要求1所述的方法，所述最终位移场的生成基于对配准损失函数的最优化，所述配准损失函数包括用于度量所述变换后的移动图像与所述固定图像之间的相似性的第一项、以及用于对位移场施加惩罚以惩罚所述移动图像的局部空间变化的第二项。
一种图像配准装置，包括：

图像获取模块，被配置为获取待配准的固定图像和移动图像；

特征图提取模块，被配置为获得所述固定图像和所述移动图像各自在多个尺度下的特征图；

位移场确定模块，被配置为对于所述多个尺度中的每个尺度，根据所述固定图像和所述移动图像各自在所述尺度下的特征图，确定所述尺度对应的位移场，所述位移场用于指示在所述尺度下从所述移动图像到所述固定图像的映射；在所述位移场中，所述移动图像中的每个体素到所述固定图像中的相应体素的位移向量为多个位移基向量的组合，所述多个位移基向量是基于所述移动图像在所述尺度下的特征图中与所述体素对应的特征向量获得的；

位移场合成模块，被配置为基于所述多个尺度各自对应的位移场生成最终位移场，并基于所述最终位移场对所述移动图像进行变换处理，以使变换后的移动图像与所述固定图像配准。
如权利要求10所述的装置，所述根据所述固定图像和所述移动图像各自在所述尺度下的特征图，确定所述尺度对应的位移场，包括：

对于所述移动图像在所述尺度下的特征图中的每个特征向量，基于所述特征向量生成所述特征向量对应的多个位移基向量；基于所述固定图像和所述移动图像各自在所述尺度下的特征图，确定所述多个位移基向量各自的权重；

对于所述移动图像在所述尺度下的特征图中的每个特征向量，基于所述特征向量对应的多个位移基向量及其权重，确定所述尺度对应的位移场。
如权利要求10所述的装置，所述基于所述多个尺度各自对应的位移场生成最终位移场，包括：

根据尺度大小，对所述多个尺度各自对应的位移场进行级联融合，以将所述多个尺度各自对应的位移场转换为所述移动图像的原始尺寸下的最终位移场；

其中，所述根据尺度大小，对所述多个尺度各自对应的位移场进行级联融合，包括：

在所述级联融合中的每级融合中，对上级融合输出的具有特定通道数的特征图进行上采样，得到第一特征图；

对该级融合对应的位移场进行特征提取，将所述位移场转换为具有所述特定通道数的第二特征图；

将所述第一特征图与所述第二特征图相加，并与所述固定图像和所述移动图像各自在该级融合对应的尺度下的特征图进行拼接；

对所述拼接的结果进行特征提取，生成具有所述特定通道数的特征图，作为该级融合的输出。
一种计算机设备，包括：

一个或多个处理器；以及

一个或多个存储器，其中存储有计算机可执行程序，当由所述处理器执行所述计算机可执行程序时，执行权利要求1-9中任一项所述的方法。
一种计算机程序产品，所述计算机程序产品存储在计算机可读存储介质上，并且包括计算机指令，所述计算机指令在由处理器运行时使得计算机设备执行权利要求1-9中任一项所述的方法。
一种计算机可读存储介质，其上存储有计算机可执行指令，所述指令在被处理器执行时用于实现如权利要求1-9中任一项所述的方法。