WO2024011835A1

WO2024011835A1 - 一种图像处理方法、装置、设备及可读存储介质

Info

Publication number: WO2024011835A1
Application number: PCT/CN2022/138163
Authority: WO
Inventors: 司伟鑫; 李才子
Original assignee: 深圳先进技术研究院
Priority date: 2022-07-15
Filing date: 2022-12-09
Publication date: 2024-01-18
Also published as: CN115330813A

Abstract

本申请提供的一种图像处理方法、装置、设备及可读存储介质，涉及图像处理技术领域，在一定程度上解决现有的图像处理方法中图像分割结果不准确的问题。该方法包括获取待处理图像；通过已训练的图像分割模型对待处理图像进行处理，得到分割图像。在该图像分割模型中，M个第一编码特征层与M个第一解码特征层之间通过注意力机制模块一一对应连接，N个第二编码特征层与N个第二解码特征层之间通过自注意力机制模块一一对应连接。其中，注意力机制模块用于对对应的第一编码特征层输出的低级特征进行特征增强处理，得到目标区域特征；自注意力机制模块用于从对应的第二编码特征层输出的高级语义特征中提取全局上下文信息。

Description

一种图像处理方法、装置、设备及可读存储介质

技术领域

本申请属于图像处理技术领域，尤其涉及一种图像处理方法、装置、设备及可读存储介质。

背景技术

图像分割技术能够将待处理图像分割成若干个特定的、具有独特性质的区域，并从这些区域中提取出目标区域。图像分割技术被广泛的应用于医学、军事、遥感以及气象等领域。例如，在医学领域中，可以通过图像分割技术对脑部磁共振图像中丘脑底核以及红核的分割，进而确定丘脑底核脑深部电刺激术(Deep Brain Stimulation，DBS)中刺激电极的植入位置。

目前，通常使用基于深度学习分割网络(U-Net)的图像分割模型，将待处理图像经过“编码器-瓶颈层-解码器”结构进行下采样以及上采样等多级卷积操作，提取该待处理图像中的低级特征以及高级语义特征，并根据提取到的特征输出分割结果。然而在现有的图像分割模型中，编码器提取到的低级特征以及高级语义特征通常存在丢失信息的情况，从而造成待处理图像的语义信息提取出现偏差，且各部分关联程度不够。基于此，解码器在解码的过程中一方面会将该种偏差继续放大，另一方面图像中各部分关联程度不够对于模糊目标的影响较大，使得图像分割模型的分割性能受到限制，尤其是针对形状多变、边界模糊的小目标的待处理图像进行分割时，普遍存在假阳性区域的问题，从而导致图像分割结果不准确。

发明内容

有鉴于此，本申请实施例提供了一种图像处理方法、装置、设备及可读存储介质，以解决现有的图像处理方法中图像分割结果不准确的问题。

本申请实施例的第一方面提供了一种图像处理方法，该方法包括：获取待处理图像；通过已训练的图像分割模型对待处理图像进行处理，得到分割图像；其中，图像分割模型包括依次连接的M个第一编码特征层、N个第二编码特征层、N个第二解码特征层和M个第一解码特征层，M≥1，N≥1；M个第一编码特征层与M个第一解码特征层之间一一对应，第一编码特征层与对应的第一解码特征层之间设置有注意力机制模块，注意力机制模块用于对对应的第一编码特征层输出的低级特征进行特征增强处理，得到目标区域特征，并将目标区域特征输入到对应的第一解码特征层中；N个第二编码特征层与N个第二解码特征层之间一一对应，第二编码特征层与对应的第二解码特征层之间设置有自注意力机制模块，自注意力机制模块用于从对应的第二编码特征层输出的高级语义特征中提取全局上下文信息，并将全局上下文信息输入到对应的第二解码特征层中。

结合第一方面，在第一方面的第一种可能实现方式中，注意力机制模块为注意力门结构模块；自注意力机制模块为Transformer结构模块。

结合第一方面，在第一方面的第二种可能实现方式中，将目标区域特征输入到对应的第一解码特征层中，包括：将目标区域特征与对应的第一解码特征层的输入信息进行点乘后输入到第一解码特征层中，输入信息为第一解码特征层的前一层的输出信息。

结合第一方面，在第一方面的第三种可能实现方式中，将全局上下文信息输入到对应的第二解码特征层中，包括：将全局上下文信息与对应的第二解码特征层的输入信息进行相加后输入到第二解码特征层中，输入信息为第二解码特征层的前一层的输出信息。

结合第一方面，在第一方面的第四种可能实现方式中，待处理图像包括脑部磁共振图像，分割图像为包括有丘脑底核和红核分割结果的图像。

结合第一方面，在第一方面的第五种可能实现方式中，该方法还包括：基于分割图像确定靶点位置坐标。

结合第一方面，在第一方面的第六种可能实现方式中，图像分割模型是通过以下方式训练的：获取训练集图像，训练及图像为标注有目标区域的图像；将训练集图像输入待训练的图像分割模型中，并基于损失函数对图像分割模型进行训练，损失函数是根据交叉熵损失和Dice损失之和确定的。

本申请实施例的第二方面提供了一种图像处理装置，该装置包括：获取单元，用于获取待处理图像；处理单元，用于通过已训练的图像分割模型对待处理图像进行处理，得到分割图像；其中，图像分割模型包括依次连接的M个第一编码特征层、N个第二编码特征层、N个第二解码特征层和M个第一解码特征层，M≥1，N≥1；M个第一编码特征层与M个第一解码特征层之间一一对应，第一编码特征层与对应的第一解码特征层之间设置有注意力机制模块，注意力机制模块用于对对应的第一编码特征层输出的低级特征进行特征增强处理，得到目标区域特征，并将目标区域特征输入到对应的第一解码特征层中；N个第二编码特征层与N个第二解码特征层之间一一对应，第二编码特征层与对应的第二解码特征层之间设置有自注意力机制模块，自注意力机制模块用于从对应的第二编码特征层输出的高级语义特征中提取全局上下文信息，并将全局上下文信息输入到对应的第二解码特征层中。

本申请实施例的第三方面提供了一种电子设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如第一方面任一项所述方法的步骤。

本申请实施例的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面任一项所述方法的步骤。

本申请实施例与现有技术相比存在的有益效果是：基于本申请所提供的图像处理方法、装置、设备及可读存储介质，该方法基于图像分割模型对待处理图像进行分割，得到分割图像。该图像分割模型为编码器-解码器结构，编码器中的M个第一编码特征层与解码器中的M个第一解码特征层之间，通过注意力机制模块一一对应连接，编码器中的N个第二编码特征层与解码器中的N个第二解码特征层之间，通过自注意力机制模块连接。其中，注意力机制模块用于对对应的第一编码特征层输出的低级特征进行特征增强处理，得到目标区域特征，并将该目标区域特征输入到对应的所述第一解码特征层中，以使得解码器根据该目标区域特征以及对应的输入信息生成第一解码特征图；自注意力机制模块用于从对应的第二编码特征层输出的高级语义特征中提取全局上下文信息，并将全局上下文信息输入到对应的第二解码特征层中，以使解码器根据该全局上下文信息以及对应的输入信息生成第二解码特征图。该方法能够针对不同层次的特征，以层次化注意力机制为导向进行针对性的处理，从而提高图像的分割精度。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的脑部MRI图像中丘脑底核与红核分割结果示意图；

图2是本申请实施例提供的传统基于U-Net的图像分割模型示意图；

图3是本申请一个实施例提供的图像分割模型的示意图；

图4是本申请实施例提供的注意力门结构的处理过程的示意图；

图5是本申请实施例提供的Transformer结构的处理过程的示意图；

图6是本申请一个实施例提供的图像分割方法示意性流程图；

图7是本申请实施例提供的通过图像分割模型得到分割图像的过程示意图；

图8是本申请实施例提供的部分分割结果展示图；

图9是本申请实施例提供的靶点定位方法的流程示意图；

图10是本申请实施例提供的靶点定位方法的定位过程示意图；

图11是本申请实施例提供的图像分割装置的示意图；

图12是本申请实施例提供的电子设备的示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

以下结合具体的实施例对本申请提供的技术方案进行详细的解释说明。

目前，基于U-Net的图像分割模型在医学图像分割领域中得到了广泛的应用，但是其存在分割结果不准确的问题。在一个示例中，以对图1中的(a)所示的脑部(Magnetic Resonance Imaging，MRI)图像中的红核和丘脑底核进行标注为例，通过临床专家人工勾画的方式可以获得如图1中的(b)所示的标注结果，通过基于U-Net的图像分割模型处理脑部MRI图像可以得到如图1中的(c)所示的标注结果。可以看出，相对于人工标注的方式，通过基于U-Net的图像分割模型获得的标注结果存在假阳性区域，即模型检测为目标区域，实际为非目标区域的区域。

参见图2，假阳性区域的出现是由于基于U-Net的图像分割模型在进行图像分割时，通常将待处理图像经过“编码器-瓶颈层-解码器”结构进行下采样以及上采样等多级卷积操作，提取该待处理图像中的低级特征以及高级语义特征，并根据提取到的特征输出分割结果。然而在该模型中，编码器提取到的低级特征以及高级语义特征通常存在丢失信息的情况，从而造成待处理图像的语义信息提取出现偏差，且各部分关联程度不够。基于此，解码器在解码的过程中一方面会将该种偏差继续放大，另一方面图像中各部分关联程度不够对于模糊目标的影响较大，使得图像分割模型的分割性能受到限制，尤其是针对形状多变、边界模糊的小目标的待处理图像进行分割时，普遍存在假阳性区域的问题，从而导致图像分割结果不准确。

基于此，本申请实施例提供一种图像处理方法，该方法基于图像分割模型，在获取到待处理图像后，将待处理图像通过设置有层次化注意力机制的图像分割模型(HAU-Net)进行处理，得到分割图像。该方法能够针对不同层次的特征(低级特征以及高级语义特征)，以层次化注意力机制为导向进行针对性的处理，从而提高待处理图像的分割精度。其中，层次化注意力机制包括：在图像分割模型中，将待处理图像的低级特征与高级语义特征依据各自的特性在该模型中进行分层处理。

图3是本申请的一个实施例提供的图像分割模型的示意图。参见图3所示，按照图像处理的流程，该图像分割模型依次包括输入端、编码器、瓶颈层、解码器和输出端。

输入端用于向编码器输入待处理图像。在一个示例中，该待处理图像为脑部磁共振图像。

编码器，包括靠近图像分割模型输入端且依次连接的M个第一编码特征层(也可称为M个浅层编码特征层)和N个第二编码特征层(也可称为N个深层编码特征层)。其中，沿编码器输入端至瓶颈层的方向上，M个第一编码特征层和N个第二编码特征层中，依次通过每层编码特征层对各自的输入信息(例如输入图像)进行下采样的卷积操作后，所得到的编码特征图尺寸逐渐减小，从而输出不同尺寸的编码特征图(包括第一编码特征图和第二编码特征图)。在本申请的一个示例中，每层编码特征层的卷积核大小一致，示例性的，卷积核的大小为3*3。

示例性的，在编码器中，首先通过M个第一编码特征层对待处理图像进行降维处理下采样的多级卷积操作，提取待处理图像中的低级特征，然后生成对应大小的第一编码特征图。以待处理图像为脑部MRI图像大小是512*512为例，脑部MRI图像通过第一编码特征层之后所输出的第一编码特征图的大小可能为128*128。然后将得到的第一编码特征图通过N个第二编码特征层继续进行降维处理的下采样，提取该特征图中的高级语义特征，得到对应大小的高级语义特征图，即每个第二编码特征层输出的第二编码特征图。

需要说明的是，待处理图像的低级特征包括待处理图像中目标区域的色彩、轮廓、具体位置等具有实体意义的特征。高级语义特征包括目标区域在待处理图像中的意义，是对待处理图像中各个目标区域的语义抽象，反映出神经网络对于待处理图像中各个目标区域的语义理解。

瓶颈层，为编码器与解码器之间的连接层，参见图3所示，其为该图像分割模型中输出的特征图最小的卷积层。瓶颈层用于对编码器中第二编码特征层所得到的第二编码特征图进行卷积操作，提取第二编码特征图的高级语义特征，生成瓶颈层特征图，然后将该瓶颈层特征图输入至解码器中。

解码器，包括靠近图像分割模型输出端且依次连接的M个第一解码特征层(也可称为M个浅层解码特征层)和N个第二解码特征层(也可称为N个深层解码特征层)，N个第二解码特征层与N个第二编码特征层通过瓶颈层连接。其中，沿瓶颈层至解码器输出端的方向上，N个第二解码特征层和M个第一解码特征层中，依次通过每层解码特征层对各自的输入信息(例如输入图像)进行上采样的卷积操作后，所得到的解码特征图尺寸逐渐增大，从而输出不同尺寸的解码特征图(包括第一解码特征图和第二解码特征图)。在本申请的一个示例中，每层解码特征层的卷积核大小一致，示例性的，卷积核的大小为3*3。需要说明的是，解码器中，M个第一解码特征层中每一层所输出的解码特征图与对应连接的M个第一编码特征层中每一层所输出的编码特征图尺寸相同，N个第二解码特征层中每一层所输出的解码特征图与对应的N个第二编码特征层中每一层所输出的编码特征图尺寸相同。

示例性的，参见图3所示，本实施例中的图像分割模型整体上遵循U-Net的结构，图像分割模型的编码器中包含五次下采样的操作，形成六个不同尺度的编码特征图。相应地，解码器中同样包含五次上采样的操作，形成六个不同尺度的解码特征图。在该模型中，将该模型靠近输入端以及输出端的三个尺度的卷积层所处理的待处理图像的特征视为低级特征，将另外三个尺度的卷积层所处理的待处理图像的特征视为高级语义特征，二者用于构建层次化注意力机制，以此分层处理不同类型特征。

跳跃连接，包括M个第一编码特征层与M个第一解码特征层之间为一一对应的第一跳跃连接；N个第二编码特征层与N个第二解码特征层之间为一一对应的第二跳跃连接。

在本实施例中，第一跳跃连接中设置有注意力机制模块。该注意力机制模块用于对对应的第一编码特征层输出的低级特征进行特征增强处理，得到目标区域特征，并将目标区域特征输入到对应的第一解码特征层中。本实施例提供的特征增强处理中，由于在图像分割模型进行低级特征提取时，待处理图像的其他区域(即与目标区域不相关的区域或者目标区域以外的区域)内可能会存在与目标区域的特征轮廓相似的特征轮廓。因此，在进行目标区域提取时，可以通过强化待处理图像中的目标特征，降低图像分割模型对于目标区域的分割误差。例如，在图像分割模型训练的过程中，根据目标区域的标注结果，对待处理图像中目标区域以外的非目标区域，降低其在图像分割模型中的权重，使得其对于分割结果的影响降低，从而降低对于目标区域的分割误差。

在本实施例中，第二跳跃连接中设置有自注意力机制模块，用于从对应的第二编码特征层输出的高级语义特征中提取全局上下文信息，并将全局上下文信息输入到对应的第二解码特征层中。

在一些实施例中，注意力机制包括注意力门结构(Attention gate，AG)；自注意力机制包括Transformer结构。在本实施例中，通过在第一编码特征层与第一解码特征层之间的跳跃连接中内嵌AG，用于强化待处理图像中的目标特征。通过在第二编码特征层与第二解码特征层之间的跳跃连接中内嵌Transformer结构，用于提取待处理图像中高级语义特征的全局上下文信息。本实施例中提供的层次化注意力机制的图像分割模型，利用了AG对于像素级注意力机制，而Transformer对于构建全局上下文关联的自注意力机制的区别，能够有效地针对不同特性的特征挖掘相应的有价值信息。

本实施例中，采用注意力门结构AG的目的是对输入的待处理图像特征的每一个像素级特征进行乘积加权，以达到强化有效特征的目的，如图4中所示，AG模块的输入x与权重α进行逐像素乘，得到加权后的输出结果。AG的核心在于生成注意力权重。如图4所示，将输入x的相邻小尺度的解码器中的特征标记为g，将x与g分别施加1×1×1的卷积操作，然后将卷积结果相加后输入ReLU激活函数以及Sigmoid函数，得到的权重矩阵通过插值算法重采样(Resampler)得到与输入x尺度一致的注意力权重α。其中，ReLU激活函数的本质是将特征值大于0的特征原样输出，特征值小于0的特征归零，从而将特征值较小的特征进行过滤。Sigmoid函数为归一化的函数，用于将积特征归一化到0-1，得到一个加权矩阵的概率值。

示例性的，在医学图像处理领域，注意力门结构AG，能够通过自动学习的方式把注意力集中在各种形状和大小的目标区域上。加入该注意力门结构的图像分割模型可以突出显示特定的图像特征区域。

本实施例中，如图5所示，Transformer结构作为一种基于自注意力机制的结构，能够对各个待处理图像中特征之间的全局上下文关系信息进行特征提取。具体实施方式，包括：首先将编码器生成的高级语义特征表示为{f _l} ^(D,H,W,C)，将其转化为二维序列E∈R ^N×C，其中N＝D×H×W，C代表特征通道数，D，H，W分别代表输入的深度、高度以及宽度。为进行待处理图像空间位置的编码，在Transformer结构中加入一个形状与E相同的可学习的参数矩阵，用于对序列中各个元素之间的位置关系进行表征，该参数矩阵称为位置编码(Position Embedding，PE)。在Transformer结构中，将位置编码PE与二维序列E直接相加获得最终的二维序列T：T＝E+PE。而后将二维序列T通过多头自注意力模块(Multi-head Attention,MSA)和多层感知机(MLP)实现全局上下文信息的提取。对二维序列T，MSA模块首先通过多层感知机进行线性投影(Linear Projection)，使用三个线性映射层获得Q，K，V，如公式(1)中所示。

Q＝TW _Q,K＝TW _K,V＝TW _V (1)

式(1)中，W _Q,W _K,W _V∈R ^c×d是三个线性层的可学习参数，自注意力模块可以表示为：

式(2)中，Z _i,Q _i∈R ^1×d分别是Z和Q的第i行，

代表注意度图，表示每个空间体素与其他体素之间的相似性，相似性越高，两点之间的联系越强。然后对V与S进行矩阵乘法，得到注意增强特征，MSA是SA的扩展，包含多个SA操作，将得到的结果组合在一起，用线性映射得到MSA的结果，其流程如下式(3)所示。

MSA(Z)＝[SA ₁(Z)；SA ₂(Z)；...；SA _m(Z)]W _o (3)

式(3)中，W _o∈R ^mh×d，h＝C/m，m是MSA中头的个数，MSA的输出将被输入至MLP中，整个过程可以由下式表示，

Z＝MSA(T)+MLP(MSA(T))∈R ^n×d (4)

需要说明的是，Transformer结构中的特征输入至MSA和MLP之前均经过层标准化(Layer Norm)进行归一化，最终得到Transformer结构能够输出的进行特征加权的高级语义特征。

在本实施例中，注意力机制模块将目标区域特征输入到对应的第一解码特征层中，包括：将目标区域特征与对应的第一解码特征层的输入信息进行点乘后输入到第一解码特征层中，其中，输入信息为第一解码特征层的前一层的输出信息。示例性的，参见图3所示，第一解码特征层e的输入信息为第一解码特征层d的输出信息；第一解码特征层f的输入信息为第一解码特征层e的输出信息。

在本实施例中，自注意力机制模块将全局上下文信息输入到对应的第二解码特征层中，包括：将全局上下文信息与对应的第二解码特征层的输入信息进行相加后输入到第二解码特征层中，输入信息为第二解码特征层的前一层的输出信息。示例性的，参见图3所示，第二解码特征层b的输入信息为第一解码特征层a的输出信息；第二解码特征层c的输入信息为第一解码特征层b的输出信息。

本实施例中，第二解码特征层在生成对应的第二解码特征图时，是根据对应的第二跳跃连接中的自注意力机制模块所提取的全局上下文信息与对应的第二解码特征层的输入信息进行特征合并后生成的。也就是说，通过自注意力机制模块在第二编码特征图中构建了目标区域的全局上下文关系，能够使得解码器在进行特征合并时，对于边界模糊的目标区域的目标特征进行准确获取。第一解码特征层在生成对应的第一解码特征图时，是根据对应的第一跳跃连接中的注意力机制模块所得到的目标区域特征与对应的第一解码特征层的输入信息进行特征合并后生成的。

在本实施例中，解码器通过“上采样-特征合并-卷积”操作的方式进行特征合并时，需要连续进行多次，直至输出的第一解码特征图大小与输入的待处理图像的大小一致。

在本实施例中，解码器所输出的第一解码特征图即为经过自注意力机制模块确定后的目标区域的高级语义特征(目标区域的含义，例如目标区域为丘脑底核或者红核)以及经过自注意力机制模块确定后的目标区域的低级特征(目标区域在待处理图像中的具体位置)所生成的分割图像。

输出端，用于对第一解码特征图，经过一次大小为1×1的卷积核的卷积层以及Softmax函数的卷积操作，对第一解码特征图中的特征进行分类，得到分割结果，并输出分割图像。示例性的，该分割图像为包括有丘脑底核和红核分割结果的图像。

图6为本申请一个实施例提供的图像分割方法示意性流程图，应用于电子设备，参见图6所示，该方法包括以下步骤S601-S602。

S601、电子设备获取待处理图像。

在本实施例中，待处理图像包括各个领域(例如医学、军事、遥感以及气象等)中用于进行分割操作的所有图像。示例性的，在医学领域，通过核磁共振成像仪所得到的人体各个部位的MRI图像(例如脑部MRI图像)。

在一些实施例中，电子设备在获取待处理图像时，可以通过用于采集需要进行分割操作图像的第二设备进行获取。例如，该第二设备可以是用于采集脑部MRI图像的脑部核磁共振成像仪。

在一些实施例中，电子设备可以与第二设备是同一设备，也可以是不同的设备。

S602、电子设备将待处理图像通过图像分割模型进行处理，得到分割图像。

本实施例中，电子设备通过图像分割模型对待处理图像进行处理，得到基于目标区域的分割图像。

示例性的，参见图7所示，为电子设备通过图像分割模型得到分割图像的过程示意图。如图7所示，电子设备输入的待处理图像为医学领域中的脑部MRI图像，经过图像分割模型对该脑部MRI图像中的丘脑底核和红核进行分割处理后，得到输出的分割图像。该分割图像中可以明显的突出丘脑底核和红核的所在位置和形状大小。

本申请提供的图像分割模型可以应用于如医学图像分割等各个领域，也可以应用于任何需要实现对待处理图像中的目标区域进行分割的技术中。

以下以医学图像分割领域中脑部MRI图像中丘脑底核和红核的分割任务为例，通过(一)训练样本集的选取、(二)图像分割模型的训练过程、(三)图像分割模型的可行性验证三个部分，对本申请提供的图像分割模型的训练过程和效果进行示例性的说明。

(一)训练样本集的选取

本实施例中以所有被诊断患有帕金森氏病的受试者的脑部MRI图像为训练样本，该训练样本中的所有图像均为通过在3T MRI扫描仪获取的T2模态图像，层厚为2mm，分辨率为0.6875×0.6875×2，数据大小为320×320×70。每张训练样本图像中的丘脑底核和红核均由两名具有6年以上神经放射学经验的放射科医生手动勾画。本实施例中共选择99例MRI图像样本以及对应的标签，其中选择80例用作训练样本集，剩余的19例用作测试样本集。在训练样本集上进行5次交叉验证，利用每一次验证的图像分割模型分别获得测试样本集上的分割结果，并利用测试样本集上的平均结果来评价图像分割模型的性能。

(二)图像分割模型的训练过程

在本实施例中，图像分割模型在训练之前，所有的训练样本图像均被重采样至相同的空间分辨率并且裁剪至[192,192,48]作为图像分割模型的输入图像。在图像分割模型训练的过程中，可以采用数据增强的方式对训练样本集中的数据进行扩展，其中，数据增强的方式包括随机旋转、弹性形变、高斯噪声、镜像转换以及缩放。随机旋转的角度为(-π/12,π/12)，缩放的范围为(0.85，1.25)。

在图像分割模型的训练阶段，以交叉熵损失和Dice损失之和作为损失函数，使用随机梯度下降(Stochastic Gradient Descent，SGD)优化器，学习率设置为0.01，动量设置为0.99，权重衰减设置为3e-5。示例性的，该图像分割模型整体的训练过程可使用Python实现，并基于PyTorch 1.8.0框架，在NVIDIA GeForce GTX 3090 GPU上进行训练和测试。训练批次大小设置为2，所有模型基于nnU-Net框架进行训练迭代150轮，每一轮迭代250个批次。

需要说明的是，采用上述已训练的图像分割模型进行图像分割的方法，和上述训练图像分割模型的方法可以是同一电子设备执行的，也可以是不同电子设备执行。该电子设备可以不限于各种智能手机、便携式笔记本，平板电脑、智能可穿戴设备、计算机、机器人等。

(三)图像分割模型的可行性验证

在本实施例中，将通过本实施例中提供的图像分割方法得到的分割图像结果与传统的U-Net，Attention U-Net，R2U-Net，CS2-Net以及全卷积神经网络(Fully Convolutional Networks，FCN)进行比较，将19个测试样本集上得到的结果进行比较。比较的指标包括Dice系数(Dice Similarity Coefficient，DSC)，Jaccard系数(JA)，灵敏度(Sensitivity，SEN)和95％Hausdorff距离(HD95)，其中，该指标均用于评估模网络分割结果与标准分割结果之间的相似度，Dice 系数(DSC)、Jaccard系数(JA)、灵敏度(SEN)指标越大，HD95指标越小，表明相似度越高，拟合性能越好。

比较结果展示如表1，如表1所示，通过本实施例提供的图像分割方法在所有指标上均优于其他方法。具体来说，针对丘脑底核和红核，Dice系数分别达到88.20％和92.36％，相较基准方法U-Net分别提高了2.94％和3.20％。本实施例提供的图像分割方法在Jaccard系数有更大的优势，相较基准方法在丘脑底核和红核分别提升了4.9％和5.55％。相较Attention U-Net，本实施例提供的图像分割方法在两个目标上也分别有3.57％和4.75％的性能提升，这些提升表明本实施例中提出的HAU-Net针对丘脑底核分割任务有更好的学习能力和泛化能力。

表1不同方法的实验结果

参见图8中部分分割结果展示，分割的重点难点区域由边框标出，如图8所示，通过本实施例中的方法与手动分割的标注一致性更高，有效性更强。

另外，在本实施例中，同样分别针对本实施例提供的图像分割模型(HAU-Net)中加入的Transformer结构和注意力门结构进行消融实验探究其对实验结果的影响。实验结果展示如表2。当从图像分割模型(HAU-Net)中去除Transformer结构或是注意力门结构后，均会造成模型性能的降低，如表2所示，对于丘脑底核和红核，Dice系数分别降低了2.11％/1.03％和2.17％/0.89％。

表2消融实验结果

可见，通过在本实施例中提供的图像分割模型(HAU-Net)中加入Transformer结构和注意力门结构，能够有效提高图像分割模型的分割性能。

本实施例提供的图像分割模型(HAU-Net)，其可以应用在医学图像分割领域，例如，在脑深部电刺激术(DBS)的电极植入过程中的靶点定位。基于此，本实施例还提供一种靶点定位方法，参见图9所示，包括以下步骤S901-S902。

S901、电子设备获取分割图像。

在本实施例中，电子设备通过将待处理图像(例如脑部MRI图像)输入至上述实施例中提供的图像分割模型中进行图像分割后，得到分割图像。

S902、电子设备基于分割图像确定靶点位置坐标。

电子设备在分割图像中，测量靶点的位置坐标，然后在原图(即脑部MRI图像)中将靶点的位置坐标标出。参见图10所示，为本实施例提供的靶点定位方法的定位过程示意图。

需要说明的是，本实施例中执行靶点定位方法的电子设备与上述执行图像分割模型(HAU-Net)训练过程以及执行图像分割方法的电子设备可以是同一个电子设备，也可以不同的电子设备。

本申请实施例中提供的图像处理方法，针对不同层次的特征(低级特征以及高级语义特征)，以层次化注意力机制为导向进行针对性的处理，利用注意力门控机制以及基于自注意力的Transformer结构提升神经网络模型中低级特征和高级特征的提取效率，对神经网络模型局部特征和全局上下文信息进行更高效地挖掘，从而提高图像的分割精度。通过本方法中提供的图像分割模型能够实现对脑部MRI图像中丘脑底核和红核的自动特征提取，实现丘脑底核以及红核的精准分割，并且能够针对分割图像能够定位丘脑底核脑深部电刺激术DBS中靶点的位置坐标，从而确定刺激电极的植入位置，能够提升手术效率。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

图11为本申请实施例提供的一种图像分割装置的示意图，如图11所示，该装置包括：获取单元，用于获取待处理图像；处理单元，用于将待处理图像通过已训练的图像分割模型进行处理，得到分割图像；其中，图像分割模型包括编码器和解码器，编码器和解码器通过跳跃连接对应连接；编码器用于对待处理图像进行编码处理，依次生成第一编码特征图和第二编码特征图；跳跃连接中配置有注意力机制模块和自注意力机制模块，注意力机制模块用于对第一编码特征图的低级特征进行特征增强处理，并将处理后的低级特征发送给解码器，其中，特征增强处理包括强化低级特征中的目标区域特征；自注意力机制模块用于提取第二编码特征图中高级语义特征的全局上下文信息，并将高级语义特征和全局上下文信息发送给解码器；解码器用于根据处理后的低级特征、高级语义特征和全局上下文信息，确定分割图像。

图12是本申请一实施例提供的电子设备的示意图。如图12所示，该实施例的电子设备12包括：处理器120、存储器121以及存储在所述存储器121中并可在所述处理器120上运行的计算机程序122，例如图像分割程序。所述处理器120执行所述计算机程序122时实现上述各个图像分割方法实施例中的步骤。或者，所述处理器120执行所述计算机程序122时实现上述各装置实施例中各模块/单元的功能。

示例性的，所述计算机程序122可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器121中，并由所述处理器120执行，以完成本申请。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序122在所述电子设备12中的执行过程。

所述电子设备12可以是平板电脑、平板电脑、桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述电子设备可包括，但不仅限于，处理器120、存储器121。本领域技术人员可以理解，图12仅仅是电子设备12的示例，并不构成对电子设备12的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述电子设备还可以包括输入输出设备、网络接入设备、总线等。

所称处理器120可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器121可以是所述电子设备12的内部存储单元，例如电子设备12的硬盘或内存。所述存储器121也可以是所述电子设备12的外部存储设备，例如所述电子设备12上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，所述存储器121还可以既包括所述电子设备12的内部存储单元也包括外部存储设备。所述存储器121用于存储所述计算机程序以及所述电子设备所需的其他程序和数据。所述存储器121还可以用于暂时地存储已经输出或者将要输出的数据。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的实施例中，应该理解到，所揭露的装置/终端设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/终端设备实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，也可以通过计算机程序指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括是电载波信号和电信信号。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

一种图像处理方法，其特征在于，所述方法包括：

获取待处理图像；

通过已训练的图像分割模型对所述待处理图像进行处理，得到分割图像；

其中，所述图像分割模型包括依次连接的M个第一编码特征层、N个第二编码特征层、N个第二解码特征层和M个第一解码特征层，M≥1，N≥1；

M个所述第一编码特征层与M个所述第一解码特征层之间一一对应，所述第一编码特征层与对应的所述第一解码特征层之间设置有注意力机制模块，所述注意力机制模块用于对对应的所述第一编码特征层输出的低级特征进行特征增强处理，得到目标区域特征，并将所述目标区域特征输入到对应的所述第一解码特征层中；

N个所述第二编码特征层与N个所述第二解码特征层之间一一对应，所述第二编码特征层与对应的所述第二解码特征层之间设置有自注意力机制模块，所述自注意力机制模块用于从对应的所述第二编码特征层输出的高级语义特征中提取全局上下文信息，并将所述全局上下文信息输入到对应的所述第二解码特征层中。
根据权利要求1所述的方法，其特征在于，所述注意力机制模块为注意力门结构；所述自注意力机制模块为Transformer结构。
根据权利要求1所述的方法，其特征在于，所述将所述目标区域特征输入到对应的所述第一解码特征层中，包括：

将所述目标区域特征与对应的所述第一解码特征层的输入信息进行点乘后输入到所述第一解码特征层中，所述输入信息为所述第一解码特征层的前一层的输出信息。
根据权利要求3所述的方法，其特征在于，所述将所述全局上下文信息输入到对应的所述第二解码特征层中，包括：

将所述全局上下文信息与对应的所述第二解码特征层的输入信息进行相加后输入到所述第二解码特征层中，所述输入信息为所述第二解码特征层的前一层的输出信息。
根据权利要求1所述的方法，其特征在于，所述待处理图像包括脑部磁共振图像，所述分割图像为包括标记有丘脑底核和红核分割结果的图像。
根据权利要求5所述的方法，其特征在于，所述方法还包括：

基于所述分割图像确定靶点位置坐标。
根据权利要求1～6任一项所述的方法，其特征在于，所述图像分割模型是通过以下方式训练的：

获取训练集图像，所述训练及图像为标注有目标区域的图像；

将所述训练集图像输入待训练的所述图像分割模型中，并基于损失函数对所述图像分割模型进行训练，所述损失函数是根据交叉熵损失和Dice损失之和确定的。
一种图像处理装置，其特征在于，所述装置包括：

获取单元，用于获取待处理图像；

处理单元，用于通过已训练的图像分割模型对所述待处理图像进行处理，得到分割图像；

其中，所述图像分割模型包括依次连接的M个第一编码特征层、N个第二编码特征层、N个第二解码特征层和M个第一解码特征层，M≥1，N≥1；

M个所述第一编码特征层与M个所述第一解码特征层之间一一对应，所述第一编码特征层与对应的所述第一解码特征层之间设置有注意力机制模块，所述注意力机制模块用于对对应的所述第一编码特征层输出的低级特征进行特征增强处理，得到目标区域特征，并将所述目标区域特征输入到对应的所述第一解码特征层中；

N个所述第二编码特征层与N个所述第二解码特征层之间一一对应，所述第二编码特征层与对应的所述第二解码特征层之间设置有自注意力机制模块，所述自注意力机制模块用于从对应的所述第二编码特征层输出的高级语义特征中提取全局上下文信息，并将所述全局上下文信息输入到对应的所述第二解码特征层中。
一种电子设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述方法的步骤。
一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述方法的步骤。