WO2023160157A1

WO2023160157A1 - 三维医学图像的识别方法、装置、设备、存储介质及产品

Info

Publication number: WO2023160157A1
Application number: PCT/CN2022/139576
Authority: WO
Inventors: 江铖; 庞建业; 姚建华
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2022-02-28
Filing date: 2022-12-16
Publication date: 2023-08-31
Also published as: CN114581396A; US20240046471A1

Abstract

一种三维医学图像的识别方法、装置、设备、计算机可读存储介质及计算机程序产品，涉及人工智能领域。方法包括:在第i轮特征提取过程中，对第i-1轮的三维医学图像特征进行视角重排处理，得到二维图像特征，其中，第i-1轮的三维医学图像特征是对三维医学图像进行第i-1轮特征提取得到的特征、且不同的二维图像特征是第i-1轮的三维医学图像特征在不同视角下的特征；对各个二维图像特征进行语义特征提取处理,得到不同视角下的图像语义特征;对不同视角下的图像语义特征进行特征融合处理，得到第i轮的三维医学图像特征；基于第Ⅰ轮特征提取得到的第Ⅰ轮的三维医学图像特征进行图像识别处理，得到三维医学图像的图像识别结果，其中，i 为依次递增的正整数，1<i≤I，Ⅰ为正整数。

Description

三维医学图像的识别方法、装置、设备、存储介质及产品

相关申请的交叉引用

本申请实施例基于申请号为202210191770.3、申请日为2022年02月28日的中国专利申请提出，并要求该中国专利申请的优先权，该中国专利申请的全部内容在此引入本申请实施例作为参考。

技术领域

本申请实施例涉及人工智能领域，特别涉及一种三维医学图像的识别方法、装置、设备、计算机可读存储介质及计算机程序产品。

背景技术

在医学领域中，利用计算机视觉技术对三维医学图像进行识别，有助于对疾病病情状态进行预测。

目前，在对三维医学图像进行识别过程中，可利用图像密集预测方法对三维医学图像进行图像分析，其中，密集预测方法是指对图像中每个像素进行预测的方法。相关技术中，在对三维医学图像进行密集预测时，将基于整体三维医学图像进行图像识别，得到图像识别结果。

然而，基于三维医学图像直接进行图像识别的方式计算量较大，识别效率较低，且还需大量数据进行预训练，方式较为复杂。

发明内容

本申请实施例提供了一种三维医学图像的识别方法、装置、设备、计算机可读存储介质及计算机程序产品，可提高三维医学图像的识别效率，降低计算复杂度。所述技术方案如下：

本申请实施例提供了一种三维医学图像的识别方法，由计算机设备执行，所述方法包括：

在第i轮特征提取过程中，对第i-1轮的三维医学图像特征进行视角重排处理，得到二维图像特征，其中，所述第i-1轮的三维医学图像特征是对三维医学图像进行第i-1轮特征提取得到的特征、且不同的二维图像特征是所述第i-1轮的三维医学图像特征在不同视角下的特征；

对各个所述二维图像特征进行语义特征提取处理，得到不同视角下的图像语义特征；

对不同视角下的所述图像语义特征进行特征融合处理，得到第i轮的三维医学图像特征；

基于第I轮特征提取得到的第I轮的三维医学图像特征进行图像识别处理，得到所述三维医学图像的图像识别结果，其中，i为依次递增的正整数，1＜i≤I，I为正整数。

本申请实施例提供了一种三维医学图像的识别装置，所述装置包括：

视角重排模块，配置为在第i轮特征提取过程中，对第i-1轮的三维医学图像特征进行视角重排处理，得到二维图像特征，其中，所述第i-1轮的三维医学图像特征是对三维医学图像进行第i-1轮特征提取得到的特征、且不同的二维图像特征是所述第i-1轮的三维医学图像特征在不同视角下的特征；

特征提取模块，配置为对各个所述二维图像特征进行语义特征提取处理，得到不同视角下的图像语义特征；

特征融合模块，配置为对不同视角下的所述图像语义特征进行特征融合处理，得到第i轮的三维医学图像特征；

图像识别模块，配置为基于第I轮特征提取得到的第I轮的三维医学图像特征进行图像识别处理，得到所述三维医学图像的图像识别结果，其中，i为依次递增的正整数，1＜i≤I，I为正整数。

本申请实施例提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述方面所述的三维医学图像的识别方法。

本申请实施例提供了一种计算机可读存储介质，所述可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上述方面所述的三维医学图像的识别方法。

本申请实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述方面提供的三维医学图像的识别方法。

本申请实施例提供的技术方案带来的有益效果至少包括：

本申请实施例中，在每个特征提取阶段中，首先对三维医学图像特征进行视角重排，从而将其划分为不同视角下的二维图像特征，并分别对二维图像特征进行特征提取，得到不同视角下的图像语义特征，从而对不同视角下的图像语义特征进行融合，得到特征提取后的三维医学图像特征。在该过程中，由于通过对不同视角下的二维图像特征进行特征提取，相较于相关技术中直接提取三维图像特征进行图像识别的方式，本申请实施例通过精简的局部计算单元进行不同视角的特征提取，可降低计算复杂度，从而提高三维医学图像的识别效率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本申请实施例提供的三维医学图像识别方法的原理示意图；

图2示出了本申请实施例提供的实施环境的示意图；

图3示出了本申请实施例提供的三维医学图像的识别方法的流程图；

图4示出了本申请实施例提供的三维医学图像的识别方法的流程图；

图5示出了本申请实施例提供的整体图像识别结构的结构示意图；

图6示出了本申请实施例示出的空间特征提取过程的结构示意图；

图7示出了本申请实施例示出的语义特征提取过程的结构示意图；

图8示出了本申请实施例示出的特征融合过程的结构示意图；

图9示出了本申请实施例示出的TR-MLP网络的结构示意图；

图10示出了本申请实施例示出的跳连融合网络的结构示意图；

图11示出了本申请实施例提供的三维医学图像的识别装置的结构框图；

图12示出了本申请实施例提供的计算机设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

人工智能(AI，Artificial Intelligence)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

计算机视觉技术(CV，Computer Vision)是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像分割、图像语义理解、图像检索、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

本申请实施例涉及的三维医学图像的识别方法，即计算机视觉技术在图像识别领域的应用，通过对不同视角下三维医学图像特征对应的二维图像特征分别进行特征提取，可降低计算复杂度，提高三维医学图像识别效率。

示意性的，如图1所示，在第i轮特征提取过程中，首先对第i-1轮特征提取得到的第i-1轮的三维医学图像特征101进行视角重排，分别得到第一视角下的第一二维图像特征102、第二视角下的第二二维图像特征103以及第三视角下的第三二维图像特征104，分别对不同视角下的第一二维图像特征102、第二二维图像特征103以及第三二维图像特征104进行语义特征提取，得到第一图像语义特征105、第二图像语义特征106以及第三图像语义特征107，从而对三者进行融合得到第i轮的三维图像语义特征108。

由于将三维医学图像特征分解为不同视角下的二维图像特征，从而对二维图像特征进行特征提取，因此，有助于降低计算量，从而提高三维医学图像的识别效率。

本申请实施例提供的方法，可应用于对任意三维医学图像的图像识别过程中。示意性的，可识别三维医学图像中各部位所属类别，从而辅助对病灶与器官的分析。

本申请实施例提供的用于三维医学图像识别的计算机设备可以是各种类型的终端设备或服务器，其中，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云计算服务的云服务器；终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。

以服务器为例，例如可以是部署在云端的服务器集群，向用户开放人工智能云服务(AiaaS，AI as a Service)，AIaaS平台会把几类常见的AI服务进行拆分，并在云端提供独立或者打包的服务，这种服务模式类似于一个AI主题商城，所有的用户都可以通过应用程序编程接口的方式来接入使用AIaaS平台提供的一种或者多种人工智能服务。

例如，其中的一种人工智能云服务可以为三维医学图像识别服务，即云端的服务器封装有本申请实施例提供的三维医学图像识别的程序。用户通过终端(运行有客户端，例如病灶分析客户端等)调用云服务中的三维医学图像识别服务，以使部署在云端的服务器调用封装的三维医学图像识别的程序，将三维医学图像特征分解为不同视角下的二维图像特征，从而对二维图像特征进行特征提取，以进行三维医学图像的识别，得到图像识别结果，后续基于图像识别结果辅助医生、研究人员进行疾病的诊断、复诊和治疗方法的研究，例如，基于图像识别结果包括的水肿指标进行辅助诊断，以确定目标对象是否可能是炎症或者外伤或者过敏、水喝多了。

需要说明的是，本申请实施例提供的三维医学图像的识别方法不是以获得疾病诊断结果或者健康状况为直接目的，不能根据图像识别结果直接获得疾病的诊断结果或健康状况，即图像识别结果不直接用于疾病诊断，仅作为中间数据，以辅助患者进行疾病的预测，辅助医生、研究人员进行疾病的诊断、复诊和治疗方法的研究

图2示出了本申请实施例提供的实施环境的示意图。该实施环境中包括终端210和服务器220。其中，终端210与服务器220之间通过通信网络进行数据通信，在一些实施例中，通信网络可以是有线网络也可以是无线网络，且该通信网络可以是局域网、城域网以及广域网中的至少一种。

终端210是运行有三维医学图像识别程序的电子设备，该电子设备可以是智能手机、平板电脑或个人计算机等等，本申请实施例并此不作限定。当需要对三维医学图像进行识别时，可将三维医学图像输入终端210的程序中，终端210将三维医学图像上传至服务器220，由服务器220执行本申请实施例提供的三维医学图像的识别方法进行图像识别，并反馈图像识别结果至终端210。

服务器220可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(CDN，Content Delivery Network)、以及大数据和人工智能平台等基础云计算服务的云服务器。

在一些实施例中，服务器220用于为终端210中安装的应用程序提供图像识别服务。在一些实施例中，服务器220中设置有图像识别网络，用于对终端210发送的三维医学图像进行分类。

当然，在一些实施例中，图像识别网络也可以部署在终端210侧，由终端210在本地实现本申请实施例提供的三维医学图像的识别方法(即图像识别网络)，无需借助服务器220，相应的，图像识别网络可在终端210侧完成训练，本申请实施例对此不作限定。为了方便表述，下述各个实施例以三维医学图像的识别方法由计算机设备执行为例进行说明。

请参考图3，其示出了本申请实施例提供的三维医学图像的识别方法的流程图，该方法包括如下步骤。

步骤301，在第i轮特征提取过程中，对第i-1轮的三维医学图像特征进行视角重排处理，得到二维图像特征，其中，第i-1轮的三维医学图像特征是对三维医学图像进行第i-1轮特征提取得到的特征，且不同二维图像特征是第i-1轮的三维医学图像特征在不同视角下的特征。

其中，三维医学图像特征是对待识别三维医学图像提取得到的特征。待识别三维医学图像可为计算机断层扫描(CT，Computed Tomography)图像、磁共振成像(MRI，Magnetic Resonance Imaging)或正电子发射断层成像(PET，Positron Emission Computed Tomography)等三维医学图像。

其中，第1轮的三维医学图像特征为通过对初始三维医学图像特征进行特征提取得到的特征，初始三维医学图像特征为对三维医学图像进行初始嵌入处理得到的特征。其中，初始嵌入处理用于将三维医学图像这种高维数据映射到低维空间，从而得到低维度的初始三维医学图像特征。

本申请实施例中，通过多轮特征提取过程，进行三维医学图像的识别。其中，每轮特征提取过程均采用相同的特征提取网络进行特征提取，且每轮特征提取过程中，特征提取网络的输入是根据上一轮特征提取网络的输出结果确定得到，即在第i轮特征提取过程中，是基于第i-1轮的三维医学图像特征进行特征提取的。

由于三维医学图像特征为3D数据，直接对整体三维医学图像特征进行特征提取时，计算量较大，过程较为复杂。因此，本申请实施例中，在每轮特征提取过程中，首先对三维医学图像特征进行划分，即在第i轮特征提取过程中，对第i-1轮特征提取得到的特征进行视角重排。其中，视角重排是将三维医学图像特征划分为不同视角下的二维图像特征，从而基于不同视角下的二维图像特征进行特征提取，降低计算复杂度。

在一些实施例中，视角重排的处理过程通过以下方法实现：对第i-1轮的三维医学图像特征的多个维度进行视觉重排处理，得到多个视角下的二维图像特征，即对第i-1轮的三维医学图像特征的多个维度进行排列组合处理，得到多个视角，分别提取各个视角下的二维图像特征。

在一种实施方式中，对第i-1轮的三维医学图像特征的(H，W，D)维度进行视角重排，得到(H，W)，(H，D)以及(W，D)三个视角下的二维图像特征，每个视角对应三维医学图像特征中的一个二维方向。不同的二维图像特征即为不同二维图像切片对应的图像特征，其中，二维图像切片为三维医学图像进行视觉重排后，在二维空间上的二维图像。

需要说明的是，在第i轮特征提取过程中，基于第i-1轮的三维医学图像特征进行特征提取时，可能存在对第i-1轮的三维医学图像特征进行上采样或下采样的过程，此时，将对上采样或下采样后的第i-1轮的三维医学图像特征进行视角重排，得到二维图像特征。

步骤302，对各个二维图像特征进行语义特征提取处理，得到不同视角下的图像语义特征。

例如，当得到各个二维图像特征后，将对二维图像特征进行语义特征提取，从而学习对应二维图像切片中的图像信息。其中，对二维图像特征进行语义特征提取的过程包括对二维图像切换空间信息的学习以及基于对应视角的图像语义学习。

在对各个二维图像特征进行语义特征提取后，可得到不同视角下分别对应的图像语义特征。即得到(H，W)，(H，D)以及(W，D)三个视角下分别对应的图像语义特征。

步骤303，对不同视角下的图像语义特征进行特征融合处理，得到第i轮的三维医学图像特征。

在一种实施方式中，当得到不同视角下的图像语义特征后，可将不同视角下的图像语义特征进行融合，从而完成该轮特征提取过程，得到第i轮的三维医学图像特征，再基于第i轮的三维医学图像特征进行第i+1轮三维医学图像特征的特征提取过程。

在本申请实施例中，通过对不同视角下的图像语义特征进行特征融合，实现全视角学习的丰富语义的聚合，从而完成三维医学图像特征的特征学习过程。

步骤304，基于第I轮特征提取得到的第I轮的三维医学图像特征进行图像识别处理，得到三维医学图像的图像识别结果，其中，i为依次递增的正整数，1＜i≤I，I为正整数。

通过多轮特征提取过程中，将结束特征提取过程，在第I轮特征提取过程结束后，基于第I轮的三维医学图像特征进行图像识别。

综上所述，本申请实施例中，在每个特征提取阶段中，首先对三维医学图像特征进行视角重排，从而将其划分为不同视角下的二维图像特征，并分别对二维图像特征进行特征提取，得到不同视角下的图像语义特征，从而对不同视角下的图像语义特征进行融合，得到特征提取后的三维图像语义特征。在该过程中，由于通过对不同视角下的二维图像特征进行特征提取，相较于相关技术中直接提取三维图像特征的方式，本申请实施例通过精简的局部计算单元进行不同视角的特征提取，可降低计算复杂度，从而提高三维医学图像的识别效率。

在一些实施例中，对不同视角下的二维图像特征进行特征提取过程中，将对各个二维图像特征进行划分，从而进行局部窗口对应特征的学习，以及对各个二维图像特征对应切片的上下文特征进行学习，从而得到不同视角下的图像语义特征，下面将以示例性实施例进行说明。

请参考图4，其示出了本申请实施例提供的三维医学图像方法的流程图，该方法包括如下步骤。

步骤401，在第i轮特征提取过程中，对第i-1轮的三维医学图像特征进行视角重排处理，得到二维图像特征。

当获取到三维医学图像后，首先对三维医学图像进行初始嵌入处理(Patch Embedding)，例如，可利用卷积茎(Convolutional Stem)结构进行初步嵌入处理，得到初始三维医学图像特征，之后以初始三维医学图像特征为起点，进行多轮特征提取过程，其中，Convolutional Stem为卷积神经网络的初始卷积层。其中，初始嵌入处理用于将三维医学图像这种高维数据映射到低维空间，从而得到低维度的初始三维医学图像特征。

本申请实施例中，特征提取过程包括特征编码过程以及特征解码过程，其中，特征编码过程包括对三维医学图像特征的下采样过程，即减小三维医学图像特征的维度，而特征解码过程包含对三维医学图像特征的上采样过程，即增加三维医学图像特征的维度，其中，下采样过程使用内核大小(Kernel Size)为3，步长(Stride)为2的3D卷积，每次降采样两倍，而上采样过程使用Kernel Size为2、Stride为2的3D转置卷积，每次上采样两倍。进行多轮特征编码以及特征解码后，利用得到的三维医学图像特征进行医学图像的识别。其中，每轮特征提取过程均采用相同的变压多层感知机(TR-MLP，Transformer-Multilayer Perceptron)结构实现。

示意性的，如图5所示，输入大小为C _i×H×W×D的三维医学图像，首先进行初始嵌入处理(Patch Embedding)501，其中，图像块(Patch)大小为2×2，得到C×H/4×W/4×D/4的三维医学图像特征，将C×H/4×W/4×D/4的三维医学图像特征输入第一个TR-MLP块(Block)中进行第1轮特征提取，在第1轮特征提取结束后，将得到的第1轮的三维医学图像特征进行下采样，得到2C×H/8×W/8×D/8的三维医学图像特征，并将2C×H/8×W/8×D/8的三维医学图像特征输入第二个TR-MLPBlock中进行第2轮特征提取，得到第2轮三维医学图像特征，之后，直接将第2轮三维医学图像特征输入第三个TR-MLP Block中进行第3轮特征提取，第3轮结束后再次将得到的第3轮的三维医学图像特征进行下采样，直至下采样至8C×H/32×W/32×D/32，再进行上采样过程。其中，在TR-MLP Block 502中进行的特征提取过程以及之前TR-MLP Block中特征提取过程为特征编码过程，而之后则为特征解码过程。

需要说明的是，每一轮的特征编码过程或者特征解码过程均是通过视觉重排处理、语义特征处理、特征融合处理实现。

需要说明的是，图3中的步骤302可通过图4中的步骤402-步骤403实现。

步骤402，对二维图像特征进行空间特征提取处理，得到二维图像空间特征。

在得到各个视角对应的二维图像特征后，首先对二维图像特征进行空间特征提取，其中，空间特征提取过程即为对各个对应二维图像切片的特征学习的过程。其中，基于三个视角进行空间特征提取的过程中，网络参数共享，即网络参数相同。该过程可包括步骤402a-步骤402c(图中未示出)：

步骤402a，对二维图像特征进行窗口划分处理，得到N个窗口分别对应的局部二维图像特征，其中，N个窗口互不重叠，N为大于1的正整数。

在该过程中，主要利用基于窗口的多头自注意力(W-MSA，Window-Multi-head Self-Attention)网络结构对二维图像切片中长距离与局部空间语义信息进行建模。其中，在利用W-MSA网络结构对二维图像特征进行处理时，首先对二维图像特征Z进行窗口划分处理，将其划分为N个互不重叠的窗口对应的局部二维图像特征Z ⁱ，划分过程可如公式(1)所示：

Z＝{Z ¹,Z ²,…,Z ^N},N＝HW/M ² (1)

其中，M是W-MSA设置的窗口大小，HW是指二维图像特征的尺寸大小，即为(H，W)视角下切分得到的二维图像尺寸大小。

之后，基于窗口进行注意力计算，得到输出结果，即局部二维图像空间特征。

需要说明的是，注意力处理是通过注意力机制实现的。在认知科学中，注意力机制(Attention Mechanism)用于选择性地关注所有信息的一部分，同时忽略其他信息。注意力机制可以使得神经网络具备专注于部分输入的能力，即选择特定的输入。在计算能力有限情况下，注意力机制是解决信息超载问题的主要手段的一种资源分配方案，将计算资源分配给更重要的任务。其中，本申请实施例并不局限于注意力机制的形式，例如注意力机制可以是多头注意力、键值对注意力、结构化注意力等。

步骤402b，对N个局部二维图像特征进行特征提取处理，得到二维图像窗口特征。

当得到N个互不重叠的窗口分别对应的局部二维图像特征Z ⁱ后，对各个局部二维图像特征进行特征提取，得到N个二维图像窗口特征。其中，该特征提取处理的方式包括如下步骤：

步骤一、对N个局部二维图像特征进行自注意力处理，得到N个局部二维图像特征的自注意力特征。

需要说明的是，首先分别对每个局部二维图像特征进行自注意力处理，其中，自注意力处理过程为多头自注意力处理。每个局部二维图像特征对应多个自注意力头。

例如，基于局部二维图像特征对应的查询项Q、健项K以及值项V进行自注意力处理，得到N个所述局部二维图像特征的自注意力特征。

其中，第k个自注意力头对应的查询项(Q，Query)、键项(K，Key)以及值项(V，Value)分别为

其中，k为大于1的正整数，则第i个窗口对应的局部二维图像特征Z ⁱ的第k个自注意力特征计算方式如公式(2)所示：

其中，RPE为相对位置编码信息，即窗口位置编码，表示窗口可感知的空间位置信息。

则第k个自注意力头对应的自注意力特征包含N个窗口所对应的特征，如公式(3)所示：

步骤二、对N个局部二维图像特征的自注意力特征进行特征融合处理，得到第一图像窗口内部特征。

当得到各个窗口对应的各个自注意力头对应的自注意力特征后，将所有自注意力头对应的自注意力特征进行合并，且通过参数矩阵进行线性映射，以实现特征融合处理，得到对应的第一图像窗口内部特征，方式如公式(4)所示：

W-MSA(Z)＝Concat[H ₁,H ₂,…,H _k]W ^H (4)

其中，W ^H即为参数矩阵，Concat表示合并操作。

在一些实施例中，在基于W-MSA结构进行自注意力处理之前，首先需对来自视角v的第l个局部二维图像特征

进行归一化处理，例如，归一化处理可采用批量归一化(BN，Batch Normalization)方式进行。其中，视角v即为视角(H，W)，(H，D)以及(W，D)中的其中一种。归一化处理后，将归一化后的局部二维图像特征

输入W-MSA结构中进行自注意力处理。

示意性的，如图6所示，首先将

进行BN处理之后，再输入至W-MSA中进行自注意力处理，且W-MSA包含残差结构，即将W-MSA输出结果与原始输入特征

进行融合，以实现特征融合处理，得到第一图像窗口内部特征

(即积处理后的特征)，如公式(5)所示：

步骤三、对第一图像窗口内部特征进行卷积处理，得到第一图像窗口交互特征。

其中，利用W-MSA结构是对划分的各个局部二维图像特征的特征学习，而为进一步加强对二维图像特征的学习，将利用Kernel Size为5的深度可分离卷积块(DWConv2D)的结构进行卷积处理，从而增加空间相邻窗口间局部性的学习。例如，将第一图像窗口内部特征输入DWConv2D网络中进行卷积处理，得到第一图像窗口交互特征。

在一些实施例中，DWConv2D同样可以包含残差结构，即将卷积处理后的第一图像窗口内部特征与第一图像窗口内部特征进行融合，得到第一图像窗口交互特征

如公式(6)所示：

示意性的，如图6所示，将第一图像窗口内部特征

输入DWConv2D进行卷积处理，并将卷积处理后的特征与

进行融合，得到第一图像窗口交互特征

步骤四、通过多层感知机MLP对第一图像窗口交互特征进行特征提取处理，得到二维图像窗口特征。

为进一步加强在对应视角下二维图像切换的学习，对卷积处理后的第一图像窗口交互特征利用BN进行归一化处理，并使用多层感知机(MLP，Multilayer Perceptron)学习通道特征，即对应视角下的二维图像切片的特征，从而得到二维图像窗口特征

如公式(7)所示：

其中，MLP表示多层感知机结构。

步骤402c，对N个窗口进行窗口重排处理，并对窗口重排后的N个窗口分别对应的二维图像窗口特征进行特征提取处理，得到二维图像空间特征，其中，窗口重排用于改变N个窗口的空间位置。

在利用W-MSA结构进行窗口自注意力学习后，还需学习跨窗口间的图像特征信息。因此，在一种可能的实施方式中，对N个窗口进行窗口重排，从而再次对窗口重排后的二维图像窗口特征进行学习。

例如，可利用洗牌操作(Shuffle)进行窗口重排，从而对空间信息进行打乱，增强跨窗口信息间的交互。窗口重排后，对N个窗口对应的二维图像窗口特征进行学习，得到最终的二维图像空间特征。其中，该方式可包括如下步骤：

步骤一、对窗口重排后的N个窗口分别对应的二维图像窗口特征进行自注意力处理，得到N个窗口分别对应的自注意力特征。

首先对窗口重排后的N个窗口各自对应的二维图像窗口特征进行自注意力处理，得到自注意力特征。其中，方式可参考上述步骤，在此不再赘述。

步骤二、对N个自注意力特征进行特征融合处理，得到第二图像窗口内部特征。

其中，特征融合得到第二图像窗口内部特征的过程可参考融合得到第一图像窗口内部特征的过程，在此不再赘述。

步骤三、对第二图像窗口内部特征进行位置翻转处理，并对位置翻转后的第二图像窗口内部特征进行卷积处理，得到第二图像窗口交互特征。

例如，重新对窗口进行位置打乱，从而再利用W-MSA结构进行一次窗口自注意力学习，增强跨窗口间信息学习，之后，再对第二图像窗口内部特征进行位置翻转，即恢复各个窗口对应的位置信息，将其恢复至原始位置，得到第二图像窗口交互特征。

示意性的，如图6所示，首先对二维图像窗口特征进行BN归一化处理之后，进行窗口重排操作(Transpose)，并基于W-MSA结构对窗口重排后的N个窗口分别对应的二维图像窗口特征进行特征学习(包括自注意力处理、特征融合处理)，得到第二图像窗口交互特征，并再次对N个窗口进行位置翻转，恢复各个窗口对应的位置信息，如公式(8)所示：

其中，

表示对第二图像窗口交互特征进行位置翻转后的特征，即位置翻转后的第二图像窗口内部特征，T表示窗口重排操作，R表示位置翻转操作，

表示二维图像窗口特征。

而在进行位置翻转后，再次利用DWConv2D进行卷积处理，得到第二图像窗口交互特征，该过程可参考上述步骤中卷积处理得到第一图像窗口交互特征的过程，在此不再赘述。

示意性的，如图6所示，将

输入DWConv2D结构进行卷积处理，得到第二图像窗口交互特征

如公式(9)所示。

步骤四、通过MLP对第二图像窗口交互特征进行特征提取处理，得到二维图像空间特征。

例如，卷积处理过程后，再次利用MLP进行通道学习，得到最终的二维图像空间特征。

示意性的，如图6所示，首先将第二图像窗口交互特征

进行归一化处理，并将归一化后的

输入MLP中进行特征提取，得到最终的二维图像空间特征

如公式(10)所示。

对二维图像特征进行空间特征提取，得到二维图像空间特征是一次全视角切片空间洗牌块(FVSSSB，Full-View Slice Spatial Shuffle Block)过程，其整体过程如图6所示，从而充分学习二维图像特征，以便提取到准确的二维图像空间特征，便于后续进行准确的图像识别。

步骤403，基于主视角以及辅视角，对二维图像空间特征进行语义特征提取处理，得到图像语义特征，其中，主视角是二维图像特征对应的视角，辅视角是三维视角中与主视角不同的视角。

由于二维图像空间特征仅表示对应二维视角(即主视角)的特征，因此，在对各个二维图像特征进行空间特征提取，得到二维图像空间特征后，将捕获剩余第三视角(即辅视角)的剩余语义信息，从而进行信息的补充学习。其中，对二维图像空间特征进行语义特征提取，得到图像语义特征的过程是切片可感知的上下文混合(SAVCM，Slice-Aware Volume Context Mixing)过程，其中，各个视角下SAVCM网络的网络参数共享，即网络参数相同。该过程可包括如下步骤：

步骤403a，对二维图像空间特征与位置编码特征进行特征融合处理，得到第一图像语义特征，其中，位置编码特征用于指示二维图像特征对应的位置信息。

在一种可能的实施方式中，首先对每个二维图像空间特征

添加绝对位置编码(APE，Absolute Position Encoding)特征(即位置编码特征)，用于表示对应二维图像特征的空间位置信息，即对应二维图像切片的空间位置信息，也就是用于指示二维图像特征对应的位置信息，位置编码特征是可自动学习的参数，从而将二维图像切片的位置信息注入至二维图像空间特征

内，实现切片位置感知学习。

示意性的，如图7所示，将二维图像空间特征与位置编码特征进行特征融合，得到第一图像语义特征

如公式(11)所示：

其中，APE _S表示

对应的空间位置编码。

步骤403b，在主视角下，通过MLP对第一图像语义特征进行语义特征提取，得到主图像语义特征。

在一种可能的实施方式中，将分别在主视角与辅视角下进行语义特征提取。其中，主视角是指二维图像特征对应的视角，辅视角是三维视角中与主视角不同的视角。比如，

是对(H，W)视角下的二维图像特征提取得到的二维图像空间特征，则主视角为(H，W)，辅视角则为剩余的D视角。

例如，利用残差轴向多层感知机(axial-MLP)在主视角下对第一图像语义特征进行语义特征提取，得到主图像语义特征

如图7所示，首先对第一图像语义特征

(B，SP，C，TH)进行位置重排得到(B，SP，TH，C)，之后，利用MLP沿通道C方向提取，其中，先升维为4C，提取后重新恢复为原始通道数C，再对提取得到的主图像语义特征进行位置恢复，恢复为(B，SP，C，TH)，其中，SP表示主视角下的空间维度。

步骤403c，在辅视角下，通过MLP对第一图像语义特征进行语义特征提取，得到辅图像语义特征。

在基于主视角进行语义特征提取的同时，基于辅视角利用MLP对第一图像语义特征进行语义特征提取，得到辅图像语义特征

如图7所示，对第一图像语义特征沿辅视角进行语义特征提取，即先升维为4TH，提取第一图像语义特征后，再恢复为原始维度TH，其中，TH表示辅视角下的空间维度。

步骤403d，对主图像语义特征与辅图像语义特征进行特征融合处理，得到图像语义特征。

例如，得到主图像语义特征与辅图像语义特征后，将对二者进行特征融合，从而得到图像语义特征，在一种可能的实施方式中，如图7所示，将主图像语义特征

辅图像语义特征

以及原始特征

在通道上进行合并，合并后得到合并特征，再利用MLP将合并特征进行映射，恢复为原始通道数，得到图像语义特征

该过程通过融合第三视角下的图像特征信息，从而可感知二维图像切片的上下文信息，提高特征学习准确性，如公式(12)所示：

其中，Axial-MLP表示轴向多层感知机操作，Concat表示合并操作，MLP _cp表示特征融合操作。

需要说明的是，图3中的步骤303可通过图4中的步骤404-步骤405实现。

步骤404，对图像语义特征与视角特征进行融合处理，得到视角图像语义特征。

在进行特征融合的过程中，首先对每个视角的图像语义特征

上添加APE，以实现对图像语义特征与视角特征进行融合处理，得到视角图像语义特征

由于对全视角学习的丰富语义进行聚合的过程是在通道上处理的，因此APE加在全视角特征的通道上，实现聚合时的视角可感知，如公式(13)所示。其中，APE是通道对应的编码，用于指示对应视角，即视角特征，比如，(H，W)视角。

步骤405，对各个视角图像语义特征进行特征融合处理，得到第i轮的三维医学图像特征。

接着对三个通道的全视角特征

(即视角图像语义特征)进行合并，得到合并特征，其中，通道数×3，再对合并特征使用自然对数(LN)做归一化，最后使用MLP视角聚合器MLP _va将归一化的特征映射回原始通道数，得到MLP-Transformer当前块的医学体特征输出Z _l+1，即第i轮的三维医学图像特征。即：

其中，Concat表示合并操作，LN表示归一化操作，MLP _va表示映射操作。

如图8所示，首先对各个图像语义特征与APE编码进行融合，再对三个视角进行拼接，得到最终的三维医学图像特征。

需要说明的是，图3中的步骤304可通过图4中的步骤406-步骤407实现。其中，特征提取过程包括特征编码过程或特征解码过程，其中，特征编码过程包括对三维医学图像特征的下采样过程，即减小三维医学图像特征的维度，而特征解码过程包含对三维医学图像特征的上采样过程，即增加三维医学图像特征的维度。

步骤406，在上采样结果达到原始尺寸的情况下，将提取得到的三维医学图像特征确定为第I轮特征提取得到的第I轮的三维医学图像特征。

在一种可能的实施方式中，当上采样结果达到三维医学图像的原始尺寸时，则确定为第I轮特征提取过程。示意性的，如图5所示，当达到C _o′×H×W×D时，将对应的结果确定为第I轮的三维医学图像特征，利用第I轮的三维医学图像特征进行目标预测503(即图像识别)，得到图像识别结果。而为进一步加强图像识别准确性，将对目标预测结果与初始输入的三维医学图像对应特征进行融合，从而基于融合后的特征进行图像识别。如图5所示，首先对输入三维医学图像C _i×H×W×D进行卷积得到初始图像的初始三维医学图像特征C _I′×H×W×D，将C′ _O×H×W×D与C′ _I×H×W×D进行融合并进行卷积，得到最后的输出结果。

步骤407，基于第I轮的三维医学图像特征进行图像识别处理，得到图像识别结果。

最终基于第I轮三维医学图像特征进行图像识别，从而后续可对三维医学图像进行图像配准、分类等。

在一种可能的实施方式中，TR-MLP网络结构可如图9所示，首先对当前块输入的三维医学图像特征Z _l的(H，W，D)维度进行视角重排，重排为(H，W)，(H，D)，(W，D)三个视角的二维图像切片，每个视角对应3D中的一个二维切片方向；对重排后的全视角2D图像切片使用FVSSB充分学习2D切片信息，得到二维图像特征；接着使用切片可感知的医学体上下文混合SAVCM捕获沿着第三视角上的剩余图像语义信息；最后使用视角可感知的聚合器对全视角学习的丰富语义进行聚合，最终得到Transformer-MLP块的三维医学图像特征Z _l+1输出，并作为下一个Transformer-MLP块的输入特征。其中，三个视角并行计算，并且全视角切片空间洗牌块网络和切片可感知的医学体上下文混合块网络在各个视角中都是参数共享的，即分别利用相同网络参数对应的特征提取网络，对各个视角下的二维图像特征进行语义特征提取，得到不同视角下的图像语义特征。

本申请实施例中，通过先学习全视角2D空间信息，再学习第三上的剩余图像语义，之后对全视角语义进行融合实现了三维医学图像特征的上下文可感知能力，并大幅增强了归纳偏置能力，从而提高三维医学图像识别的准确性，且通过精简的局部视觉Transformer-MLP计算单元取代了计算量大的三维卷积神经网络(3D CNN)和纯视觉变换(Transformer)，从而降低了计算复杂度，提高识别效率。

其中，特征提取过程中包含特征编码过程或特征解码过程，在提取过程中，包含自注意力处理过程，其中，自注意力处理过程为基于Q、K、V进行自注意力的计算。在一种可能的实施方式中，为融合多尺度的视觉特征，将特征编码过程(由编码器实现)的特征与特征解码过程(由解码器实现)的特征进行融合，得到特征解码过程中的Q、K、V值。

在一些实施例中，第t轮特征解码过程中的K值基于第t-1轮特征解码中的K值、与对应特征编码过程中的K值融合得到，第t轮特征解码过程中的V值基于第t-1轮特征解码中的V值、与对应特征编码过程中的V值融合得到，第t轮解码过程中的Q值为第t-1轮特征解码中的Q值。

在一种可能的实施方式中，第t轮特征解码输入特征与对应编码过程的输出特征分辨率相同，即对分辨率相同的图像特征进行跳连融合。示意性的，如图5所示，第2轮特征解码过程对应的分辨率为4C×H/16×W/16×D/16，对应跳连融合的特征编码过程为分辨率同样为4C×H/16×W/16×D/16的最后1轮编码过程，在进行跳连融合时，对第2轮特征解码输入的特征(即对第1轮特征解码输出特征进行上采样后的特征)与最后一轮特征编码过程的输出特征进行跳连融合。

以第t轮特征解码对应特征编码过程输出特征为E ^v，第t轮特征解码过程输入特征为D ^v为例进行说明，其中，v是指某视角，即分别在不同视角下进行跳连融合。首先对E ^v、D ^v用Kernel Size为1的标准卷积(PWConv2D)进行卷积。其中，特征解码过程中，Q值仅来自于上一轮特征解码过程，而对于编码器与解码器的跳连融合，仅对K值、V值进行融合。因此，如图10所示，利用PWConv2D将编码器特征E ^v的原始通道数分为两份，得到编码器E ^v的K值

以及V值

如公式(14)所示：

如图10所示，而利用PWConv2D将解码器特征D ^v的原始通道数分为3份，得到解码器Q值

K值

以及V值

如公式(15)所示：

之后，对来自编码器的

与来自解码器的

进行融合，以及对来自编码器的

与来自解码器的

进行融合，如公式(16)所示：

其中，

即为第t轮特征解码过程中对应的K值，

即为第t轮特征解码过程中对应V值，而第t轮特征解码过程中对应Q值

即为

其中，三者用于第t轮特征解码过程中的W-MSA的学习，如公式(17)所示：

其中，CrossMerge表示跳连融合操作。

本申请实施例中，引入跳连融合网络，将编码器与解码器对应的特征进行跳连融合，从而融合多尺度信息，丰富图像特征语义学习。

图11是本申请实施例提供的三维医学图像的识别装置的结构框图，如图11所示，该装置包括：

视角重排模块1101，配置为在第i轮特征提取过程中，对第i-1轮的三维医学图像特征进行视角重排处理，得到二维图像特征，其中，所述第i-1轮的三维医学图像特征是对三维医学图像进行第i-1轮特征提取得到的特征、且不同的二维图像特征是所述第i-1轮的三维医学图像特征在不同视角下的特征；特征提取模块1102，配置为对各个所述二维图像特征进行语义特征提取处理，得到不同视角下的图像语义特征；特征融合模块1103，配置为对不同视角下的所述图像语义特征进行特征融合处理，得到第i轮的三维医学图像特征；图像识别模块1104，配置为基于第I轮特征提取得到的第I轮的三维医学图像特征进行图像识别处理，得到所述三维医学图像的图像识别结果，其中，i为依次递增的正整数，1＜i≤I，I为正整数。

在一些实施例中，所述特征提取模块1102，包括：

第一提取单元，配置为对所述二维图像特征进行空间特征提取处理，得到二维图像空间特征；

第二提取单元，配置为基于主视角以及辅视角，对所述二维图像空间特征进行语义特征提取处理，得到所述图像语义特征，其中，所述主视角是所述二维图像特征对应的视角，所述辅视角是三维视角中与所述主视角不同的视角。

在一些实施例中，所述第一提取单元，还配置为：对所述二维图像特征进行窗口划分处理，得到N个窗口分别对应的局部二维图像特征，其中，所述N个窗口互不重叠，N为大于1的正整数；对N个所述局部二维图像特征进行特征提取处理，得到二维图像窗口特征；对所述N个窗口进行窗口重排处理，并对窗口重排后的N个窗口分别对应的所述二维图像窗口特征进行特征提取处理，得到二维图像空间特征，其中，所述窗口重排用于改变N个窗口的空间位置。

在一些实施例中，所述第一提取单元，还配置为：

对N个所述局部二维图像特征进行自注意力处理，得到N个所述局部二维图像特征分别对应的自注意力特征；对N个所述自注意力特征进行特征融合处理，得到第一图像窗口内部特征；对所述第一图像窗口内部特征进行卷积处理，得到第一图像窗口交互特征；通过多层感知机MLP对所述第一图像窗口交互特征进行特征提取处理，得到所述二维图像窗口特征。

在一些实施例中，所述第一提取单元，还配置为：

对窗口重排后的N个窗口分别对应的所述二维图像窗口特征进行自注意力处理，得到N个窗口分别对应的自注意力特征；对N个所述自注意力特征进行特征融合处理，得到第二图像窗口内部特征；对所述第二图像窗口内部特征进行位置翻转处理，并对位置翻转后的所述第二图像窗口内部特征进行卷积处理，得到第二图像窗口交互特征；通过多层感知机MLP对所述第二图像窗口交互特征进行特征提取处理，得到所述二维图像空间特征。

在一些实施例中，所述第一提取单元，还配置为：

基于所述局部二维图像特征对应的查询项Q、键项K以及值项V进行自注意力处理，得到N个所述局部二维图像特征的自注意力特征。

在一些实施例中，所述特征提取过程包括特征编码过程或特征解码过程，第t轮特征解码过程中的所述K值基于第t-1轮特征解码中的K值、与对应特征编码过程中的K 值融合得到，第t轮特征解码过程中的所述V值基于第t-1轮特征解码中的V值、与对应特征编码过程中的V值融合得到，所述第t轮解码过程中的所述Q值为所述第t-1轮特征解码中的所述Q值。

在一些实施例中，所述第二提取单元，还配置为：

对所述二维图像空间特征与位置编码特征进行特征融合处理，得到第一图像语义特征，其中，所述位置编码特征用于指示所述二维图像特征对应的位置信息；在所述主视角下，通过MLP对所述第一图像语义特征进行语义特征提取处理，得到主图像语义特征；在所述辅视角下，通过所述MLP对所述第一图像语义特征进行语义特征提取处理，得到辅图像语义特征；对所述主图像语义特征与所述辅图像语义特征进行特征融合处理，得到所述图像语义特征。

在一些实施例中，所述特征融合模块1103，还包括：

第一融合单元，配置为对所述图像语义特征与视角特征进行融合处理，得到视角图像语义特征；

第二融合单元，配置为对各个所述视角图像语义特征进行特征融合处理，得到所述第i轮的三维医学图像特征。

在一些实施例中，所述特征提取模块1102，还配置为：

分别利用相同网络参数对应的特征提取网络，对各个视角下的所述二维图像特征进行语义特征提取处理，得到不同视角下的所述图像语义特征。

在一些实施例中，所述特征提取过程包括特征编码过程或特征解码过程，所述特征编码过程包括对三维医学图像特征的下采样过程，所述特征解码过程包括对三维医学图像特征的上采样过程。

所述图像识别模块1104，还包括：

确定单元，配置为在上采样结果达到原始尺寸的情况下，将提取得到的所述三维医学图像特征确定为所述第I轮特征提取得到的第I轮的三维医学图像特征；

识别单元，配置为基于所述第I轮三维医学图像特征进行图像识别处理，得到所述图像识别结果。

在一些实施例中，三维医学图像是CT图像、MRI图像或PET图像。

综上所述，本申请实施例中，在每个特征提取阶段中，首先对三维医学图像特征进行视角重排，从而将其划分为不同视角下的二维图像特征，并分别对二维图像特征进行特征提取，得到不同视角下的图像语义特征，从而对不同视角下的图像语义特征进行融合，得到特征提取后的三维医学图像特征。在该过程中，由于通过对不同视角下的二维图像特征进行特征提取，相较于相关技术中直接提取三维图像特征进行图像识别的方式，本申请实施例通过精简的局部计算单元进行不同视角的特征提取，可降低计算复杂度，从而提高三维医学图像的识别效率。

需要说明的是：上述实施例提供的装置，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的装置与方法实施例属于同一构思，其实现过程详见方法实施例，这里不再赘述。

请参考图12，其示出了本申请实施例提供的计算机设备的结构示意图。具体来讲：所述计算机设备1200包括中央处理单元(CPU，Central Processing Unit)1201、包括随机存取存储器1202和只读存储器1203的系统存储器1204，以及连接系统存储器1204和中央处理单元1201的系统总线1205。所述计算机设备1200还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(I/O系统，Input/Output)1206，和用于存储操作系统1213、应用程序1214和其他程序模块1215的大容量存储设备1207。

所述基本输入/输出系统1206包括有用于显示信息的显示器1208和用于用户输入信息的诸如鼠标、键盘之类的输入设备1209。其中所述显示器1208和输入设备1209都通过连接到系统总线1205的输入输出控制器1210连接到中央处理单元1201。所述基本输入/输出系统1206还可以包括输入输出控制器1210以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器1210还提供输出到显示屏、打印机或其他类型的输出设备。

所述大容量存储设备1207通过连接到系统总线1205的大容量存储控制器(未示出)连接到中央处理单元1201。所述大容量存储设备1207及其相关联的计算机可读介质为计算机设备1200提供非易失性存储。也就是说，所述大容量存储设备1207可以包括诸如硬盘或者驱动器之类的计算机可读介质(未示出)。

不失一般性，所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括随机存取记忆体(RAM，Random Access Memory)、只读存储器(ROM，Read Only Memory)、闪存或其他固态存储其技术，只读光盘(CD-ROM，Compact Disc Read-Only Memory)、数字通用光盘(DVD，Digital Versatile Disc)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的系统存储器1204和大容量存储设备1207可以统称为存储器。

存储器存储有一个或多个程序，一个或多个程序被配置成由一个或多个中央处理单元1201执行，一个或多个程序包含用于实现上述方法的指令，中央处理单元1201执行该一个或多个程序实现上述各个方法实施例提供的方法。

根据本申请的各种实施例，所述计算机设备1200还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即计算机设备1200可以通过连接在所述系统总线1205上的网络接口单元1211接到网络1212，或者说，也可以使用网络接口单元1211来连接到其他类型的网络或远程计算机系统(未示出)。

所述存储器还包括一个或者一个以上的程序，所述一个或者一个以上程序存储于存储器中，所述一个或者一个以上程序包含用于进行本申请实施例提供的方法中由计算机设备所执行的步骤。

本申请实施例还提供一种计算机可读存储介质，该可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述任一实施例所述的三维医学图像的识别方法。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，该计算机可读存储介质可以是上述实施例中的存储器中所包含的计算机可读存储介质；也可以是单独存在，未装配入终端中的计算机可读存储介质。该计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现上述任一方法实施例所述的三维医学图像的识别方法。

在一些实施例中，该计算机可读存储介质可以包括：ROM、RAM、固态硬盘(SSD，Solid State Drives)或光盘等。其中，RAM可以包括电阻式随机存取记忆体(ReRAM， Resistance Random Access Memory)和动态随机存取存储器(DRAM，Dynamic Random Access Memory)。上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的一些实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

一种三维医学图像的识别方法，由计算机设备执行，所述方法包括：

在第i轮特征提取过程中，对第i-1轮的三维医学图像特征进行视角重排处理，得到二维图像特征，其中，所述第i-1轮的三维医学图像特征是对三维医学图像进行第i-1轮特征提取得到的特征、且不同的二维图像特征是所述第i-1轮的三维医学图像特征在不同视角下的特征；

对各个所述二维图像特征进行语义特征提取处理，得到不同视角下的图像语义特征；

对不同视角下的所述图像语义特征进行特征融合处理，得到第i轮的三维医学图像特征；

基于第I轮特征提取得到的第I轮的三维医学图像特征进行图像识别处理，得到所述三维医学图像的图像识别结果，其中，i为依次递增的正整数，1＜i≤I，I为正整数。
根据权利要求1所述的方法，其中，所述对各个所述二维图像特征进行语义特征提取，得到不同视角下的图像语义特征，包括：

对所述二维图像特征进行空间特征提取处理，得到二维图像空间特征；

基于主视角以及辅视角，对所述二维图像空间特征进行语义特征提取处理，得到所述图像语义特征，其中，所述主视角是所述二维图像特征对应的视角，所述辅视角是三维视角中与所述主视角不同的视角。
根据权利要求2所述的方法，其中，所述对所述二维图像特征进行空间特征提取处理，得到二维图像空间特征，包括：

对所述二维图像特征进行窗口划分处理，得到N个窗口分别对应的局部二维图像特征，其中，所述N个窗口互不重叠，N为大于1的正整数；

对N个所述局部二维图像特征进行特征提取处理，得到二维图像窗口特征；

对所述N个窗口进行窗口重排处理，并对窗口重排后的N个窗口分别对应的所述二维图像窗口特征进行特征提取处理，得到二维图像空间特征，其中，所述窗口重排用于改变N个窗口的空间位置。
根据权利要求3所述的方法，其中，所述对窗口重排后的N个窗口分别对应的所述二维图像窗口特征进行特征提取处理，得到二维图像空间特征，包括：

对窗口重排后的N个窗口分别对应的所述二维图像窗口特征进行自注意力处理，得到N个窗口分别对应的自注意力特征；

对N个所述自注意力特征进行特征融合处理，得到第二图像窗口内部特征；

对所述第二图像窗口内部特征进行位置翻转处理，并对位置翻转后的所述第二图像窗口内部特征进行卷积处理，得到第二图像窗口交互特征；

通过多层感知机MLP对所述第二图像窗口交互特征进行特征提取处理，得到所述二维图像空间特征。
根据权利要求3所述的方法，其中，所述对N个所述局部二维图像特征进行特征提取处理，得到二维图像窗口特征，包括：

对N个所述局部二维图像特征进行自注意力处理，得到N个所述局部二维图像特征分别对应的自注意力特征；

对N个所述自注意力特征进行特征融合处理，得到第一图像窗口内部特征；

对所述第一图像窗口内部特征进行卷积处理，得到第一图像窗口交互特征；

通过多层感知机MLP对所述第一图像窗口交互特征进行特征提取处理，得到所述二维图像窗口特征。
根据权利要求5所述的方法，其中，所述对N个所述局部二维图像特征进行自注意力处理，得到N个所述局部二维图像特征分别对应的自注意力特征，包括：

基于所述局部二维图像特征对应的查询项Q、键项K以及值项V进行自注意力处理，得到N个所述局部二维图像特征的自注意力特征。
根据权利要求6所述的方法，其中，所述特征提取过程包括特征编码过程或特征解码过程，第t轮特征解码过程中的所述K值基于第t-1轮特征解码中的K值、与对应特征编码过程中的K值融合得到，第t轮特征解码过程中的所述V值基于第t-1轮特征解码中的V值、与对应特征编码过程中的V值融合得到，所述第t轮解码过程中的所述Q值为所述第t-1轮特征解码中的所述Q值。
根据权利要求2所述的方法，其中，所述基于主视角以及辅视角，对所述二维图像空间特征进行语义特征提取处理，得到所述图像语义特征，包括：

对所述二维图像空间特征与位置编码特征进行特征融合处理，得到第一图像语义特征，其中，所述位置编码特征用于指示所述二维图像特征对应的位置信息；

在所述主视角下，通过MLP对所述第一图像语义特征进行语义特征提取处理，得到主图像语义特征；

在所述辅视角下，通过所述MLP对所述第一图像语义特征进行语义特征提取处理，得到辅图像语义特征；

对所述主图像语义特征与所述辅图像语义特征进行特征融合处理，得到所述图像语义特征。
根据权利要求1至8任一所述的方法，其中，所述对不同视角下的所述图像语义特征进行特征融合处理，得到第i轮的三维医学图像特征，包括：

对所述图像语义特征与视角特征进行融合处理，得到视角图像语义特征；

对各个所述视角图像语义特征进行特征融合处理，得到所述第i轮的三维医学图像特征。
根据权利要求1至8任一所述的方法，其中，所述对各个所述二维图像特征进行语义特征提取处理，得到不同视角下的图像语义特征，包括：

分别利用相同网络参数对应的特征提取网络，对各个视角下的所述二维图像特征进行语义特征提取处理，得到不同视角下的所述图像语义特征。
根据权利要求1至8任一所述的方法，其中，

所述特征提取过程包括特征编码过程或特征解码过程，所述特征编码过程包括对三维医学图像特征的下采样过程，所述特征解码过程包括对三维医学图像特征的上采样过程；

所述基于第I轮特征提取得到的第I轮的三维医学图像特征进行图像识别处理，得到所述三维医学图像的图像识别结果之前，所述方法还包括：

在上采样结果达到原始尺寸的情况下，将提取得到的所述三维医学图像特征确定为所述第I轮特征提取得到的第I轮的三维医学图像特征。
根据权利要求1至8任一所述的方法，其中，所述三维医学图像是计算机断层扫描图像CT、磁共振成像MRI或正电子发射断层成像PET。
一种三维医学图像的识别装置，所述装置包括：

视角重排模块，配置为在第i轮特征提取过程中，对第i-1轮的三维医学图像特征进行视角重排处理，得到二维图像特征，其中，所述第i-1轮的三维医学图像特征是对三维医学图像进行第i-1轮特征提取得到的特征、且不同的二维图像特征是所述第i-1轮的三维医学图像特征在不同视角下的特征；

特征提取模块，配置为对各个所述二维图像特征进行语义特征提取处理，得到不同视角下的图像语义特征；

特征融合模块，配置为对不同视角下的所述图像语义特征进行特征融合处理，得到第i轮的三维医学图像特征；

图像识别模块，配置为基于第I轮特征提取得到的第I轮的三维医学图像特征进行图像识别处理，得到所述三维医学图像的图像识别结果，其中，i为依次递增的正整数，1＜i≤I，I为正整数。
一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至12任一所述的三维医学图像的识别方法。
一种计算机可读存储介质，所述可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至12任一所述的三维医学图像的识别方法。
一种计算机程序产品，所述计算机程序产品包括计算机指令，所述计算机指令存储在计算机可读存储介质中，计算机设备的处理器从所述计算机可读存储介质读取所述计算机指令，所述处理器执行所述计算机指令以实现如权利要求1至12任一所述的三维医学图像的方法。