WO2022198808A1

WO2022198808A1 - 基于双线性注意力网络的医学影像数据分类方法及系统

Info

Publication number: WO2022198808A1
Application number: PCT/CN2021/099784
Authority: WO
Inventors: 马凤英; 纪鹏; 曹茂永; 姚辉; 薛景瑜
Original assignee: 齐鲁工业大学
Priority date: 2021-03-24
Filing date: 2021-06-11
Publication date: 2022-09-29
Also published as: CN113065588A

Abstract

本公开提出了基于双线性注意力网络的医学影像数据分类方法及系统，包括：提取单张静态图像的空间特征图；将上述空间特征图作为第一输入特征图，利用通道注意力机制处理第一输入特征图生成最终的通道注意力特征图；将通道注意力特征图和第一输入特征图做元素级乘法操作生成第二输入特征图；针对第二输入特征图应用空间注意力机制处理后输出二维空间注意力图；其中，所述通道注意力机制及空间注意力机制基于双线性注意力网络实现数据的处理，得到融合特征，用于分类器分类。在保证收敛速度的基础上提高了阿尔兹海默症医学影像数据分类的准确率。

Description

基于双线性注意力网络的医学影像数据分类方法及系统

技术领域

本公开属于图像数据处理技术领域，尤其涉及基于双线性注意力网络的医学影像数据分类方法及系统。

背景技术

本部分的陈述仅仅是提供了与本公开相关的背景技术信息，不必然构成在先技术。

在医学影像数据领域中，由于其数据为多模态数据，目前的数据处理中大多数传统的细粒度视觉识别方法忽略了层间部分特征交互和特征学习是相互关联并可以相互加强的这一问题，因此，医学影像数据的分类不够准确，在辅助诊断过程中，现有的分类结果不精确继而影响后续的判断。

例如，在阿尔茨海默症相关的诊断中，大多数诊断主要依据临床指标和医学图像，在医学图中观察大脑相关区域的形态，临床指标中通过测定脑脊液的生物标志物等等来进行诊断评估，一般还需要结合相应的神经心理学进行评估，由于病情需要结合的原因较多，所以目前为止要想准确的对阿尔茨海默症进行有效诊断具有一定的挑战性。

在辅助诊断过程中，最常采用是利用磁共振成像来作为计算机辅助阿尔茨海默症的诊断依据，通过对特定的区域医学影像进行测量来做出相应的诊断结果。但是大多属传统的阿尔茨海默症医学影像数据的处理方式存在着一定的不足，无法对相应的数据进行准确分析和利用。

发明内容

为克服上述现有技术的不足，本公开提供了基于双线性注意力网络的医学影像数据分类方法，能够有效利用和处理影像数据，改善提高数据分类精度。

为实现上述目的，本公开的一个或多个实施例提供了如下技术方案：

第一方面，公开了基于双线性注意力网络的医学影像数据分类方法，包括：

提取单张静态图像的空间特征图；

将上述空间特征图作为第一输入特征图，利用通道注意力机制处理第一输入特征图生成最终的通道注意力特征图；

将通道注意力特征图和第一输入特征图做元素级乘法操作生成第二输入特征图；

针对第二输入特征图应用空间注意力机制处理后输出二维空间注意力图；

其中，所述通道注意力机制及空间注意力机制基于双线性注意力网络实现数据的处理，得到融合特征，用于分类器分类。

进一步的技术方案，利用通道注意力机制处理第一输入特征图时，先将第一输入特征图分别经过全局最大池化层和全局平均池化层，然后再分别经过多层感知机，经过函数进行激活操作，生成最终的通道注意力特征图。

进一步的技术方案，针对第二输入特征图应用空间注意力机制处理时，将第二输入特征图应用最大池化层和平均池化层操作，生成两个特征映射的二维通道信息图，将结果做聚合操作生成有效的特征描述符，再经过标准卷积层将上述信息连接并进行卷积，最后输出二维空间注意力图。

进一步的技术方案，所述双线性注意力网络包括残差学习模块，用于将原始输入信息通过跳跃连接方式直接传输至下一层网络，同时梯度在反向传播时也是通过跳跃连接直接传递至上一层。

进一步的技术方案，所述双线性注意力网络为采用ResNet50作为骨架网络来构建的双线性网络，ResNet50是基于Bottleneck搭成的网络，每个层都由若干的块搭建而成，再由层组成整个网络。

进一步的技术方案，在ResNet50的骨架网络中添加双线性池化层，对于卷积网络从输入图像在某一位置上提取的两个特征，将输出矩阵通过矩阵运算，之后通过池化层得到关于两个特征的线性向量，最后通过归一化操作得到融合特征，用于分类器分类。

第二方面，公开了基于双线性注意力网络的医学影像数据分类系统，包括：

二维卷积CNN模块，用于提取单张静态图像的空间特征图；

注意力机制模块，包括通道注意力模块及空间注意力模块；

所述通道注意力模块用于将上述空间特征图作为第一输入特征图，利用通道注意力机制处理第一输入特征图生成最终的通道注意力特征图；

所述空间注意力模块，针对第二输入特征图应用空间注意力机制处理后输出二维空间注意力图；

所述通道注意力机制及空间注意力机制基于双线性注意力网络实现数据的处理，得到融合特征，用于分类器分类。

进一步的技术方案，还包括：双线性残差网络结构模块，基于双线性注意力网络将原始输入信息通过跳跃连接方式直接传输至下一层网络，同时梯度在反向传播时也是通过跳跃连接直接传递至上一层。

进一步的技术方案，所述注意力机制模块嵌入双线性注意力网络每个块最后卷积层的后面；

嵌入时，将每个块断开，卷积层间不直接相连，每个块第一个卷积层的输出作为通道注意力模块的输入，用于保证在主干网络中，充分提取输入图像的特征，同时去掉冗余信息。

以上一个或多个技术方案存在以下有益效果：

本公开针对医学影像的多模态数据，解决了大多数传统的细粒度视觉识别方法忽略了层间部分特征交互和特征学习是相互关联并可以相互加强的这一问题，并且协同注意力扩展为双线性注意力，对不同模态的数据可以进行多注意力分布的分析，可比使用单个压缩注意力分布的分析，更好的利用数据的多样性。能够在接受多模态输入图像数据的基础上，充分提取多模态输入图像数据的特征，同时去掉冗余信息，在保证收敛速度的基础上提高了阿尔兹海默症医学影像数据分类的准确率。

本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

构成本公开的一部分的说明书附图用来提供对本公开的进一步理解，本公开的示意性实施例及其说明用于解释本公开，并不构成对本公开的不当限定。

图1是本公开实施例子二维卷积结构图；

图2是本公开实施例子混合注意力模块示意图；

图3是本公开实施例子通道注意力模块示意图；

图4是本公开实施例子空间注意力模块示意图；

图5是本公开实施例子卷积块(Conv Block)结构示意图；

图6是本公开实施例子特性块(Identity Block)结构示意图；

图7是本公开实施例子采用的ResNet50骨架网络结构示意图；

图8是本公开实施例子改进的双线性残差网络结构模块示意图；

图9是本公开实施例子将混合注意力模块嵌入网络结构示意图；

图10是本公开实施例子的整体结构组成图。

图11是本公开实施例子的提取的特征图。

具体实施方式

应该指出，以下详细说明都是示例性的，旨在对本公开提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本公开的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合。

实施例一

本实施例公开了基于双线性注意力网络的医学影像数据分类方法，包括：

提取单张静态图像的空间特征图；

利用通道注意力机制处理第一输入特征图时，先将第一输入特征图分别经过全局最大池化层和全局平均池化层，然后再分别经过多层感知机，经过函数进行激活操作，生成最终的通道注意力特征图。

针对第二输入特征图应用空间注意力机制处理时，将第二输入特征图应用最大池化层和平均池化层操作，生成两个特征映射的二维通道信息图，将结果做聚合操作生成有效的特征描述符，再经过标准卷积层将上述信息连接并进行卷积，最后输出二维空间注意力图。

实施例二

本实施例公开了基于双线性注意力网络的医学影像数据分类系统，包括：

二维卷积CNN模块，用于提取单张静态图像的空间特征；

注意力机制模块，用于将原本为输入的每个模态数据建立的独立注意力分布联系起来，专注于多模态输入数据之间的相互作用；

双线性残差网络结构模块，将原始输入信息通过跳跃连接方式直接传输至下一层网络，同时梯度在反向传播时也是通过跳跃连接直接传递至上一层。

具体实施例子中，关于二维卷积CNN模块，深度学习在图像分类领域的应用广泛及其取得的成就是有目共睹。卷积神经网络与普通神经网络的区别在于，卷积神经网络包含了一个由卷积层和子采样层构成的特征抽取器。在卷积神经网络的卷积层中，一个神经元只与部分邻层神经元连接。在CNN的一个卷积层中，通常包含若干个特征平面(featureMap)，每个特征平面由一些矩形排列的的神经元组成，同一特征平面的神经元共享权值，这里共享的权值就是卷积核。卷积核一般以随机小数矩阵的形式初始化，在网络的训练过程中卷积核将学习得到合理的权值。共享权值(卷积核)带来的直接好处是减少网络各层之间的连接，同时又降低了过拟合的风险。子采样也叫做池化(pooling)，通常有均值子采样(mean pooling)和最大值子采样(max pooling)两种形式。子采样可以看作一种特殊的卷积过程。卷积和子采样大大简化了模型复杂度，减少了模型的参数。卷积分为一维卷积、二维卷积和三维卷积，根据实验数据的要求，本公开实施例子使用的是目前最为常用的二维卷积CNN，用于提取单张静态图像的空间特征，如图1所示，图1为二维卷积提取特征的模拟图，根据模板矩阵排列，对原图像素数据进行转换，并获得相应尺寸的特征图。

视觉注意力机制是人类视觉所特有的大脑信号处理机制。人类视觉通过快速扫描全局图像，获得需要重点关注的目标区域，也就是一般所说的注意力焦点，而后对这一区域投入更多注意力资源，以获取更多所需要关注目标的细节信息，而抑制其他无用信息。深度学习中的注意力机制从本质上讲和人类的选择性视觉注意力机制类似，核心目标也是从众多信息中选择出对当前任务目标更关键的信息。根据注意力机制在神经网络的作用可分为两种类型，通道注意力机制和空间注意力机制。通道注意力机制在于让网络关注于不同滤波器上，空间注意力机制在于关注图片信息的重点区域。在本发明将二者进行结合的基础上加入了双线性思想，形成了一种新的注意力机制，如图2，该混合注意力机制将原本为输入的每个模态数据建立的独立注意力分布联系起来，专注于多模态输入数据之间的相互作用。

关于通道注意力模块，通道注意力专注于输入图像的哪一部分是有意义的。先将输入的特征图(feature map)分别经过全局最大池化层(global max pooling)和全局平均池化层(global average pooling)，然后再分别经过多层感知机(Multilayer Perceptron，MLP)，经过sigmoid函数进行激活操作，生成最终的通道注意力特征图(channel attention feature map)如图3。最后将通道注意力特征图和输入特征图(input feature map)做元素级(element wise)乘法操作，生成空间注意力模块需要的输入特征，具体计算如2.1.1和2.1.2所示。

X _c(F)＝σ(MLP(gavgP(F)+MLP(gmaxP(F))) 2.1.1

＝σ(W ₁(W ₀(F _gavg))+W ₁(W ₀(F _gmax))) 2.1.2

其中W ₀，W ₁为MLP的共享权重，W ₀∈R ^C/r×C，W ₁∈R ^C×C/r，σ为sigmoid函数，r为减少率。

关于空间注意力模块，利用特征之间的空间关系生成空间注意力模块。与通道注意力模块不同的是，空间注意力关注的是特征间的位置，空间信息，是对通道注意力的补充。将通道注意力模块输出的特征图作为本模块的输入特征图。首先将特征图应用最大池化层和平均池化层操作，生成两个特征映射的二维通道信息图F _max和F _avg，将结果做聚合操作生成一个有效的特征描述符，再经过一个标准卷积层将这些信息连接起来并进行卷积，最后输出一个二维空间注意力图，如图4，具体计算如2.2.1和2.2.2所示。

X _s(F)＝σ(f ^n×n([avgP(F)；maxP(F)]) 2.2.1

＝σ(f ^n×n(F _avg；F _max)) 2.2.2

其中σ为sigmoid函数，n为卷积核大小，根据前人经验这里选择n＝7。

将二者进行拼接形成混合注意力模块，如图2所示。

关于双线性残差网络结构搭建，本实施例子采用ResNet50作为骨架网络来构建双线性网络。ResNet在传统卷积神经网络中加入了残差学习(residual learning)模块，即将原始输入信息通过跳跃连接方式直接传输至下一层网络，同时梯度在反向传播时也是通过跳跃连接直接传递至上一层。ResNet解决了深层网络中随着网络的加深出现的训练集和测试集准确率均下降的问题，即梯度弥散和梯度下降问题，从而使得神经网络能在保证精度与运算速度的条件下越来越深。ResNet50是基于Bottleneck搭成的网络，每个层(layer)都由若干的块(Block)搭建而成，再由层组成整个网络，基础网络结构如表1所示。

表1 基础网络结构

卷积2_x对应层(layer)1，卷积3_x对应layer2，卷积4_x对应layer3，卷积5_x对应layer4。方框中的“×2\times2×2”、“×3\times3×3”等指的是该layer由几个相同的结构组成。

ResNet使非线性层满足H(x,w _h)，采用短连接(shortcut)结构从输入直接引入一个短连接到非线性层的输出上，整个映射变为如式3.1所示，这也是ResNet的核心公式。

y＝H(x,w _h)+x 3.1

ResNet有两个基本的块，一个是特性块(Identity Block)，输入和输出的维度(dimension)是一样的，可以串联多个；另一个是卷积块(Conv Block)，输入和输出的维度是不一样的，不可以连续串联，其作用是为了改变特征向量的维度，如图5卷积块结构，图6所示特性块结构。整体ResNet50骨架结构搭建如图7所示。

本发明我们在前人提出在同一位置上的两个特征经过双线性融合后得到特征矩阵b，对所有位置的b进行加和池化(sumpooling)得到矩阵ξ，最后把ξ张成一个向量x。对x进行矩归一化操作和L2归一化操作后，就得到融合后的特征z，最后把z用于细粒度(fine-grained)分类的思想基础上，在ResNet50的骨架网络中添加双线性池化层。对于卷积网络从输入图像A在位置a上提取的两个特征f _m(a,A)和f _n(a,A)，进行下式3.2和3.3操作，这里暂不规定提取特征的尺寸只进行理论推导。

将输出矩阵b通过矩阵运算得到矩阵ξ，之后通过的池化层得到线性向量x＝vec(ζ(A))。最后通过归一化操作得到融合特征z，用于分类器分类。改进后的网络结构如图8所示。

注意力机制模块在双线性注意力网络中的嵌入

本发明在将混合注意力机制模块嵌入搭建好的改进后的ResNet50的网络结构中。注意力机制模块能够提升网络模型的性能，可应用于各种网络之中，但其在不同网络中的嵌入位置不同、方式不同，对模型产生的性能也不相同。基于前一小节搭建的改进后的ResNet50网络，需要将混合注意力模块加在每个块最后卷积层的后面，如图9所示，首先，将每个块断开，卷积层间不直接相连，每个块第一个卷积层的输出作为混合通道注意力模块的输入，这样的连接方式能够保证在主干网络中，模型能够充分提取输入图像的特征，同时去掉冗余信息，提高模型训练的准确度并加快收敛速度，整体结构如图10所示。

在具体实施例子中，将图像视觉识别中的细粒度分类方法的思想应用到阿尔兹海默症的医学影像数据分类中。并提出了一个新的分层双线性池化框架来获取层间部分特征关系，并整合多个跨层双线性特征以增强其表示能力，对分类效果有明显的提高。本公开基于该思想设计了以ResNet50为骨架网络的双线性池化网络，为了进一步提升网络分类准确率且去除冗余信息，加入了混合注意力机制，并将双线性思想应用到了注意力机制中，针对阿尔兹海默症医学影像的多模态数据，解决了大多数传统的细粒度视觉识别方法忽略了层间部分特征交互和特征学习是相互关联并可以相互加强的这一问题，并且协同注意力扩展为双线性注意力，对不同模态的数据可以进行多注意力分布的分析，可比使用单个压缩注意力分布的分析，更好的利用数据的多样性。通过本实例提取的实例特征图如图11所示。

实施例二

本实施例的目的是提供一种计算装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述实施例子一中的方法的步骤。

实施例三

本实施例的目的是提供一种计算机可读存储介质。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时执行上述实施例子一中的方法的步骤。

以上实施例二、三和四的装置中涉及的各步骤与方法实施例一相对应，具体实施方式可参见实施例一的相关说明部分。术语“计算机可读存储介质”应该理解为包括一个或多个指令集的单个介质或多个介质；还应当被理解为包括任何介质，所述任何介质能够存储、编码或承载用于由处理器执行的指令集并使处理器执行本公开中的任一方法。

本领域技术人员应该明白，上述本公开的各模块或各步骤可以用通用的计算机装置来实现，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。本公开不限制于任何特定的硬件和软件的结合。

以上所述仅为本公开的优选实施例而已，并不用于限制本公开，对于本领域的技术人员来说，本公开可以有各种更改和变化。凡在本公开的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

上述虽然结合附图对本公开的具体实施方式进行了描述，但并非对本公开保护范围的限制，所属领域技术人员应该明白，在本公开的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本公开的保护范围以内。

Claims

基于双线性注意力网络的医学影像数据分类方法，其特征是，包括：

提取单张静态图像的空间特征图；

将上述空间特征图作为第一输入特征图，利用通道注意力机制处理第一输入特征图生成最终的通道注意力特征图；

将通道注意力特征图和第一输入特征图做元素级乘法操作生成第二输入特征图；

针对第二输入特征图应用空间注意力机制处理后输出二维空间注意力图；

其中，所述通道注意力机制及空间注意力机制基于双线性注意力网络实现数据的处理，得到融合特征，用于分类器分类。
如权利要求1所述的基于双线性注意力网络的医学影像数据分类方法，其特征是，利用通道注意力机制处理第一输入特征图时，先将第一输入特征图分别经过全局最大池化层和全局平均池化层，然后再分别经过多层感知机，经过函数进行激活操作，生成最终的通道注意力特征图。
如权利要求1所述的基于双线性注意力网络的医学影像数据分类方法，其特征是，针对第二输入特征图应用空间注意力机制处理时，将第二输入特征图应用最大池化层和平均池化层操作，生成两个特征映射的二维通道信息图，将结果做聚合操作生成有效的特征描述符，再经过标准卷积层将上述信息连接并进行卷积，最后输出二维空间注意力图。
如权利要求1所述的基于双线性注意力网络的医学影像数据分类方法，其特征是，所述双线性注意力网络包括残差学习模块，用于将原始输入信息通过跳跃连接方式直接传输至下一层网络，同时梯度在反向传播时也是通过跳跃连接直接传递至上一层。
如权利要求4所述的基于双线性注意力网络的医学影像数据分类方法，其特征是，所述双线性注意力网络为采用ResNet50作为骨架网络来构建的双线性网络，ResNet50是基于Bottleneck搭成的网络，每个层都由若干的块搭建而成，再由层组成整个网络。
如权利要求5所述的基于双线性注意力网络的医学影像数据分类方法，其特征是，在ResNet50的骨架网络中添加双线性池化层，对于卷积网络从输入图像在某一位置上提取的两个特征，将输出矩阵通过矩阵运算，之后通过池化层得到关于两个特征的线性向量，最后通过归一化操作得到融合特征，用于分类器分类。
基于双线性注意力网络的医学影像数据分类系统，其特征是，包括：

二维卷积CNN模块，用于提取单张静态图像的空间特征图；

注意力机制模块，包括通道注意力模块及空间注意力模块；

所述通道注意力模块用于将上述空间特征图作为第一输入特征图，利用通道注意力机制处理第一输入特征图生成最终的通道注意力特征图；

将通道注意力特征图和第一输入特征图做元素级乘法操作生成第二输入特征图；

所述空间注意力模块，针对第二输入特征图应用空间注意力机制处理后输出二维空间注意力图；

所述通道注意力机制及空间注意力机制基于双线性注意力网络实现数据的处理，得到融合特征，用于分类器分类。
如权利要求7所述的基于双线性注意力网络的医学影像数据分类系统，其特征是，还包括：双线性残差网络结构模块，基于双线性注意力网络将原始输入信息通过跳跃连接方式直接传输至下一层网络，同时梯度在反向传播时也是通过跳跃连接直接传递至上一层；

优选的，所述注意力机制模块嵌入双线性注意力网络每个块最后卷积层的后面；

嵌入时，将每个块断开，卷积层间不直接相连，每个块第一个卷积层的输出作为通道注意力模块的输入，用于保证在主干网络中，充分提取输入图像的特征，同时去掉冗余信息。
一种计算装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征是，所述处理器执行所述程序时实现上述权利要求1-7任一所述的方法的步骤。
一种计算机可读存储介质，其上存储有计算机程序，其特征是，该程序被处理器执行时执行上述权利要求1-7任一所述的方法的步骤。