WO2023207743A1

WO2023207743A1 - 图像检测方法、装置、计算机设备、存储介质及程序产品

Info

Publication number: WO2023207743A1
Application number: PCT/CN2023/089441
Authority: WO
Inventors: 刘洪�; 魏东; 卢东焕; 王连生; 郑冶枫
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2022-04-27
Filing date: 2023-04-20
Publication date: 2023-11-02
Also published as: CN115115575A

Abstract

一种图像检测方法、装置、计算机设备、存储介质及程序产品，可以应用于人工智能领域，如智能医学，其中，方法包括：获取第一图像集合，所述第一图像集合包括至少一个模态的图像，每个模态的图像为相应模态的医学影像；检测所述第一图像集合是否处于图像缺失状态；若所述第一图像集合处于图像缺失状态，则确定缺失描述信息；获取第一参考图像集合，所述第一参考图像集合包括所述N个模态的参考图像；基于第一参考图像集合，在所述第一图像集合中补齐所述缺失描述信息对应的缺失部分，以得到第二图像集合；根据所述第二图像集合，检测图像异常区域。通过该方法，可对多模态图像进行检测，能够辅助进行病灶等异常区域的检测。

Description

图像检测方法、装置、计算机设备、存储介质及程序产品

本申请要求于2022年04月27日提交中国专利局、申请号为202210456475.6、申请名称为“一种图像检测方法、装置、计算机设备及存储介质”的中国专利申请的优先权，该申请的全部内容通过引用结合在本申请中。

技术领域

本申请涉及人工智能领域，尤其涉及一种图像检测方法、装置、计算机设备、存储介质及程序产品。

背景技术

核磁共振图像(magnetic resonance imaging,MRI)是通过磁共振成像技术得到的，磁共振成像技术采用静磁场和射频磁场使人体组织成像，在成像过程中，既不用电离辐射、也不用造影剂就可获得高对比度的清晰图像。MRI能够从人体分子内部反映出人体器官失常和早期病变。核磁共振图像一般包含多个序列，例如核磁共振图像可以包括：液体衰减反转恢复序列FLAIR序列、T1序列、T1c序列、T2序列等，这些不同的序列下所包括的多个序列图像可以呈现不同的组织图像，突出不同的病灶区域。

在实际的运用过程中，对MRI的病灶或者异常区域识别一般是医生通过其工作台和MRI进行人工识别，存在一定的误检或者漏检的情况。

发明内容

本申请实施例提供了一种图像检测方法、装置、计算机设备及存储介质，可对多模态图像进行智能检测，能够辅助进行病灶或异常区域的识别。

一方面，本申请实施例公开了一种图像检测方法，在计算机设备中执行，该方法包括：

获取第一图像集合，所述第一图像集合包括至少一个模态的图像，每个模态的图像为相应模态的医学影像；

检测所述第一图像集合是否处于图像缺失状态，其中，所述图像缺失状态是指所述第一图像集合满足下述条件中至少一个：所述第一图像集合对应的模态少于预定的N个模态，N为大于1的正整数；以及所述第一图像集合中的至少一个模态的图像中缺失局部图像；

若所述第一图像集合处于图像缺失状态，则确定缺失描述信息，其中，所述缺失描述信息用于指示下述中至少一个：所述第一图像集合对应的模态相对于所述N个模态缺失的至少一个模态，和所述第一图像集合中的至少一个模态的图像中缺失图像的区域；

获取第一参考图像集合，所述第一参考图像集合包括所述N个模态的参考图像，所述第一参考图像集合中每个模态的参考图像用于表示每个模态对应的特异信息；

基于所述第一参考图像集合，在所述第一图像集合中补齐所述缺失描述信息对应的缺失部分，以得到第二图像集合；

根据所述第二图像集合，检测图像异常区域。

另一方面，本申请实施例公开了一种图像检测装置，该装置包括：

获取单元，用于获取第一图像集合，所述第一图像集合包括至少一个模态的图像，每个模态的图像为相应模态的医学影像；

确定单元，用于检测所述第一图像集合是否处于图像缺失状态，其中，所述图像缺失状态是指所述第一图像集合满足下述条件中至少一个：所述第一图像集合对应的模态少于预定的N个模态，N为大于1的正整数；以及所述第一图像集合中的至少一个模态的图像缺失局部图像；

处理单元，用于：

若所述第一图像集合处于图像缺失状态，则确定缺失描述信息，其中，所述缺失描述信息用于指示下述中至少一个：所述第一图像集合对应的模态相对于所述N个模态缺失的至少一个模态，和所述第一图像集合中的至少一个模态中缺失图像的局部区域；

基于第一参考图像集合，在所述第一图像集合中补齐所述缺失描述信息对应的缺失部分，以得到第二图像集合；

根据所述第二图像集合，检测图像异常区域。

另一方面，本申请实施例还公开了一种计算机设备，所述计算机设备包括：处理器，适于实现一条或多条计算机程序；以及，计算机存储介质，所述计算机存储介质存储有一条或多条计算机程序，所述一条或多条计算机程序适于由所述处理器加载并执行上述的图像检测方法。

另一方面，本申请实施例还公开了一种计算机可读存储介质，所述计算机存储介质存储有一条或多条计算机程序，所述一条或多条计算机程序适于由处理器加载并执行上述的图像检测方法。

另一方面，本申请实施例还公开了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述的图像检测方法。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例公开的一种图像检测系统的架构示意图；

图2是本申请实施例公开的一种图像检测的应用场景示意图；

图3a是本申请实施例公开的其中一种图像集合关系的示意图；

图3b是本申请实施例公开的多种模态缺失情况的示意图；

图4是本申请实施例公开的一种图像检测方法的流程示意图；

图5是本申请实施例公开的一种图像分割结果示意图；

图6是本申请实施例公开的另一种图像分割结果的示意图；

图7是本申请实施例公开的一种图像检测方法的界面示意图；

图8是本申请实施例公开的一种针对图像检测方法的训练框架图；

图9是本申请实施例公开的针对图像检测模型的预训练的流程示意图；

图10a是本申请实施例公开的一种合成的全模态合成图像数据；

图10b是本申请实施例公开的一种实现效果图；

图11是本申请实施例公开的针对图像检测模型的微调的流程示意图；

图12是本申请实施例公开的一种图像检测装置的结构示意图；

图13是本申请实施例公开的一种计算机设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提供的图像检测方法，用于对一些待检测的图像进行异常区域识别，考虑到待检测图像存在图像缺失的可能，设计了第一参考图像集合和图像检测模型。一方面通过第一参考图像集合对存在缺失的图像进行补齐操作，另一方面通过图像检测模型还能够恢复(重建)缺失的图像数据，并进行对象识别，以确定图像中的异常区域，例如为病灶部分。如此可以较好地对诸如MRI等多模态图像进行异常检测，通过AI(Artificial Intelligence，人工智能)技术协助医生等用户对图像的观察和病灶识别，减低对MRI等图像的异常(例如病灶区域)的漏判或者误判的可能性。

AI是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

AI所涉及的网络模型等可以通过机器学习来训练优化，机器学习(Machine Learning，ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

同时，为了更清楚地对本申请进行阐述，先对本申请涉及的一些专业术语进行简单的描述，具体可以包括：

(1)核磁共振图像(magnetic resonance imaging，MRI)：磁共振成像是一种较新的医学成像技术，它采用静磁场和射频磁场使人体组织成像，在成像过程中，既不用电离辐射、也不用造影剂就可获得高对比度的清晰图像。它能够从人体分子内部反映出人体器官失常和早期病变，在很多地方优于X线CT。核磁共振图像一般包含多个模态的图像，模态类型例如为FLAIR、T1、T1c、T2等，这些不同的模态可以用于突出不同的病灶区域。(2)缺失模态(missing modality)：在临床应用中，由于图像损坏、伪影、获取协议成本等原因，MRI通常会出现一种或多种模态缺失的情况。(3)掩膜自编码器(Masked Autoencoder，MAE)：掩膜自编码器作为一个图像自监督框架，在自监督领域取得了很大的成功，其代理任务是引导模型根据一个图像中可见的部分小块还原出图像原本的像素值。(4)模型反衍(Model Inversion，MI)：模型反衍长期被用于深度学习的可解释性领域，该技术的目标是合成最具代表性的某些网络预测的图像，例如用于分类的显著性图。(5)自蒸馏(Self Distillation，SD)：自蒸馏是采用有监督学习进行知识蒸馏。相较于原始的知识蒸馏方法，其teacher模型和student模型是一个模型，也就是一个模型来指导自己进行学习，完成知识蒸馏。(6)多模态掩膜自编码器(multimodal masked autoencoder，M³AE)：是本申请所提出的图像检测模型的简称，是一种对多模态影像数据进行掩模处理并进行还原的自编码器，以此来同时学习不同模态之间的关联以及影像中的结构关系。(7)GFLOPS(Giga Floating-point Operations Per Second)：即每秒10亿次的浮点运算次数，浮点(floating-point)指的是带有小数的数值，浮点运算即是小数的四则运算，常用来测量电脑运算速度或被用来估算电脑性能，尤其是在使用到大量浮点运算的科学计算领域中，主要用于本申请模型的训练过程。

请参见图1，图1为本申请实施例公开的一种图像检测系统的架构示意图，如图1所示，该图像检测系统的架构图100可以包括终端设备101以及服务器102，其中，服务器102可以设置在云端103中。终端设备101主要用于接收本申请实施例中的待检测图像集合(例如第一图像集合)以及待检测图像集合对应的分割结果(例如病灶区域)，服务器102主要用于部署本申请实施例中的图像检测模型，以使得图像检测模型可以对待检测图像集合进行检测分割，得到分割结果，同时，服务器102还可以负责对图像检测模型进行训练。

在一种实现方式中，终端设备101获取待检测图像集合，该待检测图像集合包括N个模态，每个模态包括一个或者多个图像，每个模态的图像为一个图像的序列，N为大于或等于1的整数；终端设备101再将待检测图像集合发送给服务器102，服务器102对待检测图像集合进行检测，若检测到待检测图像集合处于图像缺失状态，则确定待检测图像集合中的缺失图像区域；进一步，服务器102利用参考图像集合对待检测图像集合中的缺失图像区域进行补齐操作，得到目标检测图像集合，其中，参考图像集合包括N个模态，每个模态包括一个或者多个参考图像，每个模态的参考图像用于表示每个模态对应的特异信息；服务器102再调用图像检测模型对目标检测图像集合进行图像检测分割，得到待检测图像集合对应的分割结果。

以图3a为例，图3a是本申请实施例公开的其中一种图像集合关系的示意图，待检测图像集合处于图像缺失状态可以是缺少了一个或者多个模态的图像，在图3a中，处于缺失状态的待检测图像缺失了左上角的模态的图像，即虚线框的位置。补齐操作则是通过一个经优化的参考图像集合(例如第一参考图像集合)将这些缺失的部分补齐，具体是将处于缺失状态的图像集合中的缺失模态由参考图像集合中相应位置处的模态的图像填充，例如在图3a中待检测图像集合的左上角的序列，由参考图像集合中左上角的参考图像序列1填充，得到最后的目标检测图像集合(例如为第二图像集合)。

其中，图像检测模型和参考图像集合是服务器102通过训练优化得到的，图像检测模型是根据全模态训练图像集合、和将全模态训练图像集合进行区域掩盖处理后得到的缺失训练图像集合训练得到的；参考图像集合是对缺失训练图像集合和初始参考图像集合进行优化得到的，初始参考图像集合包括N个模态，每个模态包括一个或者多个参考图像，每个参考图像上的像素点的值为待优化值，对每个参考图像上的像素点的待优化值进行值优化，以得到第一参考图像集合。

在一种应用场景中，针对MRI数据或脑肿瘤数据，以服务器102为云端103为例，阐述了一种图像检测场景，如图2，当用户上传需要分割的待检测图像集合(即输入图像)时，待检测图像集合可以是多模态的影像数据，其中任意的零到多个模态可能缺失，基于本申请，利用训练好的图像检测模型可以直接得出分割好的脑肿瘤区域等异常或者病灶区域的分割结果(即输出)，分割结果具体是以不同颜色用以区分的，尽管图2所示的区域200、区域201和区域203是灰度图，但实际上区域200、区域201和区域203中不同区域的颜色是不同的，其中的区域200(例如是紫色)是与病变无关的背景色，区域201(例如是蓝色)代表水肿，区域202(例如是黄色)代表增强肿瘤，在一些情况下，还会出现代表坏死和非增强肿瘤核心的区域(例如是绿色)，图2中并未示出。又或者，在一种实现方式中，在最终确定图像检测模型之前，也会得到一个预训练的图像检测模型，基于此，分割结果除了标记信息，还可以包括对处于图像缺失状态的待检测图像集合进行补齐处理之后恢复得到的全模态恢复图像集合，该全模态恢复图像集合是由预训练的图像检测模型得到的。

在一个实施例中，图3b是本申请实施例公开的多种模态缺失的情况示意图，示例性的给出了在全模态包括4个模态的情况下，可能出现14种模态缺失的情况以及一种全模态(即无模态缺失)的情况，一共15种情况，利用本申请实施例训练出来的图像检测模型，可以对这15种情况中的任意一种进行处理，均可以得到分割结果，以此体现出了本申请实施例的图像检测模型关于模态缺失的图像和全模态的图像的检测分割的通用性。

本申请实施例中所涉及的终端设备101，包括但不限于用户设备、具有无线通信功能的手持式设备、车载设备、可穿戴设备或计算设备。示例性地，终端设备可以是手机(mobile phone)、平板电脑或带无线收发功能的电脑。终端设备还可以是虚拟现实(virtual reality，VR)终端设备、增强现实(augmented reality，AR)终端设备、工业控制中的无线终端设备、无人驾驶中的无线终端设备、远程医疗中的无线终端设备、智能电网中的无线终端设备、智慧城市(smart city)中的无线终端设备、智慧家庭(smart home)中的无线终端设备等等。本申请实施例中，用于实现终端设备还可以是能够支持终端设备实现该功能的装置，例如芯片系统，该装置可以被安装在终端设备中。本申请实施例提供的技术方案中，以用于实现终端设备的功能的装置是终端设备为例，对本申请实施例提供的技术方案进行描述。

本申请实施例中所提及的对服务器102，具体可以是服务器，这里的服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集合群或者分布式系统，还可以是提供云计算服务的云服务器，如图1实例性指出的云端103，本申请实施例在此不作限制。本申请实施例提供的技术方案中，以服务器为例，对本申请实施例提供的技术方案进行描述。

在一个实施例中，还可以存在一个计算机设备，该计算机设备能够实现上述提及的终端设备101和服务器102的相关功能，即既能与医生等用户进行交互，获取到所需的待检测图像集合并呈现分割结果，也能够对待检测图像集合实施本申请实施例所提及的图像检测方法。

请参见图4，图4是本申请实施例公开的一种图像检测方法的流程示意图，该方法可以在一个或多个计算机设备中执行，主要可以包括以下步骤。

S401：获取第一图像集合，第一图像集合包括至少一个模态的图像，每个模态的图像为相应模态的医学影像。这里，第一图像集合为待检测的图像集合。每个模态的图像为一个图像序列。模态可以用于指示一个图像序列的类型，该类型取决于被检测对象(例如脑部，胸部等被检测部位)、检测工具类型(例如MRI、PET、CT等)和检测参数类型(例如FLAIR、T1、T1c、T2等)。简言之，模态可以认为是类型。不同模态的图像例如可以突出不同的病灶区域。如果第一图像集合不存在模态缺失，则第一图像集合可以包括N个模态的图像，N为大于1的整数，表示全模态(即不存在模态缺失)情况下图像集合包括的模态的数量。第一图像集合例如为核磁共振图像，可以包含4个模态的图像，即包括4个图像的序列。例如，I是一个第一图像集合，其中，W是每个模态的图像中单张图像的宽，H是每一张图像的高，D是每个模态的图像数量，例如为MRI数据的切片数量，。第一图像集合可以是从数据库中获取的，以用于检测图像异常区域；又或者，第一图像集合可以是对病人进行检查时所获取的医学影像。

S402：检测第一图像集合是否处于图像缺失状态。其中，图像缺失状态是指第一图像集合满足下述条件中至少一个：所述第一图像集合对应的模态少于预定的N个模态，N为大于1的正整数；以及所述第一图像集合中的至少一个模态的图像中缺失局部图像。当第一图像集合对应的模态少于预定的N个模态时，可以确定第一图像集合存在模态缺失的情况。至少一个模态的图像中缺失局部图像例如为一个模态的一个或多个图像的局部区域缺失像素值。预定的N个模态可以是关于医学影像的多种模态的组合，N个模态例如包括同一被检测对象(例如脑部或者胸部)的FLAIR、T1、T1c、T2。又例如，N个模态为PET、CT和MRI的组合。又例如，N个模态为不同被检测对象各自的模态的组合，例如为脑部的MRI和胸部的CT的组合。

S403：若第一图像集合处于图像缺失状态，则确定缺失描述信息。所述缺失描述信息用于指示下述中至少一个：第一图像集合对应的模态相对于所述N个模态缺失的至少一个模态，和第一图像集合中的至少一个模态中缺失图像的区域。例如，在全模态包括4个模态的情况下，如果第一图像集合包括3个模态的图像，可以确定第一图像集合缺失1个模态的图像。在一些情况中，第一图像集合可能不存在缺失情况，这种情况下，可以将第一图像集合直接视为待检测的全模态图像集合。本申请实施例可以直接通过图像检测模型对待检测的全模态图像集合进行检测，以确定图像异常区域。而不需要利用参考图像集合对待检测图像集合的全模态进行补齐。

S404：获取第一参考图像集合。第一参考图像集合包括N个模态的参考图像。第一参考图像集合中每个模态的参考图像用于表示每个模态对应的特异信息。在一个实施例中，一种模态对应的特异信息是指该种模态的图像所具有的区别于其他模态的图像的显著特征。换言之，N个模态的参考图像可以表征N个模态的特异信息。

S405：基于第一参考图像集合，在所述第一图像集合中补齐所述缺失描述信息对应的缺失部分，以得到第二图像集合。

在一个实施例中，步骤S405所执行的补齐可以包括：基于第一参考图像集合，在所述第一图像集合中添加所述缺失的至少一个模态对应的参考图像或者与所述缺失图像的区域对应的图像，以得到所述第二图像集合，其中添加的参考图像为所述第一参考图像集合中相应模态的参考图像，添加的与所述缺失图像的区域对应的图像为所述第一参考图像集合中与所述缺失图像的区域的位置相对应的局部图像。

在一种实现方式中，利用参考图像集合对缺失部分进行补齐，是一种既可以节约时间和空间，又能以极低的代价得到补齐缺失模态方法，该方法可以消除对额外模块的需求，提高图像检测效率。

在一个实施例中，第一参考图像集合是经过训练优化得到的，第一参考图像集合可以是对初始参考图像集合进行优化后得到的，初始参考图像集合可以包括N个模态的参考图像，即包括N个初始参考序列，每个初始参考序列包括一个或者多个参考图像，每个初始参考序列图像上的像素点的值为待优化值，对每个初始参考序列图像上的像素点的待优化值进行值优化，以得到参考图像集合，第一参考图像集合的获得具体可以参见图9和图11所对应实施例描述的训练过程。

S406：根据第二图像集合，检测图像异常区域。图像异常区域表示被检测出的异常对象，异常对象例如为病灶区域等。对于第二图像集合，后续可以通过图像检测模型进行检测，确定出图像异常区域以便于显示给用户。本申请对图像异常区域的检测，可以认为是对一些医疗图像的病灶区域的检测，也可以是对一些图像中存在的和其他区域的图像内容或者正常区域的图像内容不一致的图像区域进行检测，也可以是对其他一些特殊情况的图像区域进行的检测处理，具体的异常区域检测用途可以根据训练时所使用的相应训练数据中的训练图像集合和监督图像集合来决定。

综上，根据本申请实施例的方案中，针对多模态的图像(即第一图像集合)存在模态缺失的场景，可以利用第一参考图像集合对缺失的图像进行补齐，进而利用经过补齐的多模态的图像(即第二图像集合)对图像异常区域进行检测。由于第一参考图像集合中每个模态的参考图像用于表示每个模态对应的特异信息，因此第二图像集合可以有效对多模态的图像中缺失部分进行补齐，从而有助于提高图像检测的效率和准确性。特别是，在医学影像检测场景中，本申请的实施例有助于提升模态缺失情况下的图像异常的检测效率和准确性，进而能辅助医生用户对MRI等医学检测影像的病灶区域等异常区域进行观察，有助于降低对病灶区域等异常的漏判或者误判。

在一个实施例中，步骤S406可以包括如下操作：

提取第二图像集合的特征表示，所述特征表示包括第二图像集合中不同模态之间的第一相关性和同一模态中图像区域之间的第二相关性；

基于所述特征表示，为第一图像集合重建与所述缺失描述信息对应的图像数据，以得到第三图像集合，第三图像集合为在第一图像集合上添加重建的图像数据后得到的结果；

识别出所述第三图像集合中异常区域，并将所述异常区域作为所述图像异常区域。

综上，步骤S406可以获取不同模态之间的第一相关性和同一模态中图像区域之间的第二相关性，从而可以获取多模态图像的缺失部分与未缺失部分之间的相关性，从而能够准确重建缺失部分的图像数据，进而能够提高检测异常区域的准确性。特别是，由于在提取特征表示之前利用表征特异信息的第一参考图像集合补齐第一图像集合，从而能够提高通过重建来恢复图像(即生成第三图像集合)的准确性(真实度)和效率，进而能够提高异常区域检测的准确性和效率。

在一种实现方式中，S406可以包括：基于用于对象识别的图像检测模型，利用所述第二图像集合确定出所述图像异常区域。

在一种实现方式中，所述S406可以包括：调用图像检测模型对第二图像集合进行图像检测，得到第一图像集合对应的图像异常区域。

具体地，可以将第二图像集合输入到图像检测模型中，图像检测模型负责对第二图像集合进行检测，得到分割结果，分割结果具体可以是关于图像异常区域的标记信息(例如包括异常区域的轮廓线)，也可以是对第一图像集合进行异常区域标记后得到的结果。同时，在一些实现方式中，分割结果还可以包括第三图像集合。

在一种实施例中，图像检测模型包括第一模型和分类器。第一模型例如包括编码器和解码器。第一模型也可以称为图像检测模型的主干网络。第一模型例如为MAE结构，但不限于此。图像检测模型整体例如为VT-UNet结构，但不限于此。

其中，编码器用于提取所述第二图像集合的特征表示，所述特征表示包括第二图像集合中不同模态之间的第一相关性和同一模态中图像区域之间的第二相关性。

解码器用于基于所述特征表示，为所述第一图像集合重建与所述缺失描述信息对应的图像数据，以得到第三图像集合。

分类器用于分割出所述第三图像集合中异常区域，并将所述异常区域作为所述图像异常区域。

在一个实施例中，图像检测模型是经过训练优化得到的，具体的，图像检测模型是根据全模态训练图像集合、缺失训练图像集合以及组合训练图像集合得到的，组合训练图像集合是对缺失训练图像集合和初始参考图像集合进行组合后得到的，缺失训练图像集合是对全模态训练图像集合通过遮罩技术进行区域掩盖处理后得到的，图像检测模型的获得具体可以参见图9和图11所对应实施例描述的训练过程。

例如，针对MRI数据或脑肿瘤数据，可以利用图像检测模型得到四个单独模态图像和一个全模态图像的分割结果，参见图5，是本申请实施例公开的一种图像分割结果示意图，具体是使用四个单独模态图像和一个全模态图像对BraTS 2018(多模态脑部肿瘤分割比赛的数据集合)的数据进行的癌区分割结果，另外根据提供的金标准(Groundtruth)可以精确的对分割结果进行解读。FLAIR模态是核磁共振(MR)的一种常用的模态，全称是液体衰减反转恢复模态，也称为水抑制成像技术，通俗地说，它是压水像。在该模态上，脑脊液呈现低信号(暗一些)，实质性病灶和含有结合水的病灶显示为明显的高信号(亮一些)；T1、T2是用于测量电磁波的物理量，它们可以作为成像的数据，不同的模态可以突出病灶不同的子区域，以此来协助医生用户最终确定病变情况。

值得指出的是，本申请的应用场景并不仅仅局限于MRI数据或脑肿瘤数据，亦可是其他类型的多模态医学影像数据组合(比如PET(Positron Emission Computed Tomography，正电子发射型计算机断层显像)、CT(Computed Tomography，电子计算机断层扫描)、MRI等的各种组合)和其他身体部位(如肺部肿瘤)，如图6所示，(a)是基于PET的多模态影像的肺部肿瘤分割，(b)是基于CT的多模态影像的肺部肿瘤分割。也就是说，待检测图像集合可能是MRI模态、PET模态、或CT模态等等，还可能是MRI模态、PET模态以及CT模态中的两组或多种的组合，通过将多个模态(例如MRI、PET、CT)的模态组合到一起来进行综合AI识别，协助诸如医生等用户更为全面检测病变情况。需要说明的是，在MRI模态、PET模态以及CT模态中的两组或多种的组合的情况下，第一参考图像集合和图像检测模型是基于相应的组合图像来构成训练数据，例如，MRI和PET组合，那么在后续提及的预训练阶段和微调阶段，均是采用的MRI和PET组合得到的训练数据来进行优化训练，得到第一参考图像集合和图像检测模型。

在一种实现方式中，本申请的图像检测方法可以在可视化界面中进行显示，具体的，在用户界面上的第一显示区域显示第一图像集合，同时，在用户界面的第二显示区域显示第一图像集合对应的分割结果；同样的，在本申请中，分割结果可以包括下述中至少一个：所述图像异常区域；关于图像异常区域的标记信息；在第一图像集合中标记所述图像异常区域之后得到的结果；在第一图像集合中标记所述图像异常区域之后得到的结果。

如图7所示，是本申请实施例公开的一种图像检测方法的界面示意图，其中，701是第一显示区域，702是第二显示区域，用户可以通过点击第一显示区域701中的导入按钮导入第一图像集合，例如703所示，然后点击第一显示区域701中开始按钮，便可以在第二显示区域702中看到相应的分割结果，如图7所示，704为恢复得到第一图像集合对应的全模态图像集合，即第三图像集合，705为标记信息。该标记信息还可以直接与全模态图像集合704叠加一起显示。

本申请实施例，计算机设备先获取包括至少一个模态的第一图像集合，具体的，每个模态的图像包括一个或者多个图像；然后再对第一图像集合进行检测，若检测到第一图像集合处于图像缺失状态，则可以确定出第一图像集合中的缺失描述信息，再利用第一参考图像集合对缺失描述信息对应的的缺失部分进行补齐操作，得到第二图像集合进一步的，计算机设备再调用图像检测模型对第二图像集合进行图像检测，得到第一图像集合对应的分割结果。

本申请实施例，计算机设备先根据第一参考图像集合对有缺失模态情况的图像进行补齐，可以更好的得到第一图像集合的特征表示，从而可以有助于提升缺失模态情况下的多模态图像检测效果，进一步，利用已经训练好的图像检测模型对第二图像集合进行检测，由于该图像检测模型已经经过了不断的优化，可以更快的对第二图像集合进行检测，得到分割结果，从而提升整体的图像检测效率。

请参见图8，是本申请实施例公开的一种针对图像检测方法的训练框架图，大致分成两部分，一部分为预训练(图8示出的直线的上半部分)，一部分为微调(图8示出的直线的下半部分)。

在预训练阶段，以一对全模态训练图像集合和初始参考图像集合为例，主要可以包括：对全模态训练图像进行区域掩盖处理得到缺失训练图像集合，此处的区域掩盖处理具体可以是掩盖多个模态中的任意一个或多个模态，也可以是掩盖一个或多个模态后，再对剩余模态中至少一个模态的图像进行局部掩盖。进而，将缺失训练图像集合和初始参考图像集合进行组合得到组合训练图像集合。进一步，将组合训练图像集合输入到初始的第一模型进行训练得到预测图像集合，根据预测图像集合与作为监督图像的全模态训练图像集合之间的差异，对第一模型和初始参考图像集合进行优化，以便于得到预训练参考图像集合和预训练的第一模型。在此基础上，可以得到包含预训练的第一模型和未训练的分类器的预训练的图像检测模型。差异例如可以被表征为预测图像集合和初始参考图像集合之间的损失值，并根据损失值对第一模型和初始参考图像集合进行调整，经过迭代训练，当损失值达到收敛条件，可以得到预训练的图像检测模型，其中预训练的目的是学习缺失模态情况下多模态图像的特征表示。同时，在预训练过程中，通过不断的反向传播对模型进行优化(模型反衍)时，也优化出了一个预训练参考图像集合(即初始参考图像被不断优化后得到的)，可以用于补齐在训练和推理过程中可能缺失的图像数据。

需要说明的是，初始参考图像集合可以是最初生成的一个N个模态的图像集合，也可以是在基于上一全模态训练图像集合和缺少训练图像集合进行训练后得到的一个需要进一步优化的N个模态的第一参考图像集合。也即，除了最终得到的可用的第一参考图像集合之外，需要被训练优化的都可以称之为初始参考图像集合。

在微调阶段，以一对全模态训练图像集合和该全模态训练图像集合对应的分割监督信息为例，主要可以包括：先将全模态训练图像集合输入到预训练阶段得到的预训练的图像检测模型中进行分割预测，得到第一分割预测信息，并将其存储到存储空间中，然后将全模态训练图像集合和预训练参考图像集合进行随机组合，得到组合微调图像集合，并将该组合微调图像集合输入预训练的图像检测模型进行分割预测，得到第二分割预测信息，而后根据第一分割预测信息与第二分割预测信息之间的差异、第二分割预测信息与为全模态训练图像集合配置的分割监督信息之间的差异，对预训练参考图像集合和预训练的图像检测模型进行优化，以得到第一参考图像集合和图像检测模型。分割监督信息例如为与图像异常区域有关的标记信息。

在一个实施例中，第一分割预测信息与第二分割预测信息之间的差异、第二分割预测信息与为全模态训练图像集合配置的分割监督信息之间的差异均是以损失值体现的，即先计算第一分割预测信息与第二分割预测信息之间损失值，计算第二分割预测信息与为全模态训练图像集合配置的分割监督信息之间损失值，然后再计算二者损失值之和，并根据该值对预训练的图像检测模型以及预训练参考图像集合进行微调，经过反复的调整，当损失值达到收敛条件，就可以实现图像检测模型能够在缺失模态情况下达到更高精度的异常或者病灶区域的分割效果，从而得到最终的图像检测模型和参考图像集合。经过以上两个阶段训练的得到的图像检测模型和参考图像集合属于通用型，在测试(使用)时可用于处理任何缺失模态情况下的MRI图像数据。

本申请在训练过程中所采用的网络模型的主干网络可以为VT-UNet，该网络是一个纯Transformer(一种自注意力变换网络)的架构，对应的参数量和计算量低于常用的3DUnet(一种影像分析模型)或者Vnet(一种影像分析模型)。同时，本申请使用Adam(Adaptive momentum，一种优化算法)算法作为网络训练时的优化器，设定第一阶段和第二阶段的训练轮数分别为600和400轮。训练初始学习率为3e-4，并且在训练的过程中采用余弦退火学习率调度机制，其对应的收敛性较好。本申请在两张2080Ti英伟达显卡上训练模型，批处理大小为2。为了标准化所有数据，在训练时可以将像素值剪切到强度值的百分之一到百分之九十九，然后进行最小或者最大缩放，最后随机裁剪到128×128×128像素的固定大小以进行训练。随机三维小块的边长可以设置为的16个像素。对应的初始参考图像集合中的图像由高斯噪声初始化，λ可以被设置为0.1。

需要说明的是：1.在进行缺失模态补齐时，还可以直接使用预训练模型生成缺失模态的合成数据；2.本申请中的网络模型除了使用VT-UNet作为主干网络以外，还可以使用其他常用分割网络作为主干网络；3.可以将本申请拓展到其他具有相似应用场景的多模态图像或者其他组织结构的分割任务，并不仅仅局限于MIR数据或脑肿瘤数据。

根据图8所阐述的训练框架图，其中，预训练阶段的流程图可以参见图9，是本申请实施例公开的一种针对图像检测模型的预训练的流程示意图，图9可以包括S901-S905，具体步骤如下：

S901：获取用于训练图像检测模型的训练数据，训练数据可以包括：多个全模态训练图像集合、初始参考图像集合。每个全模态训练图像集合包括N个模态的图像，并且每个模态的图像不缺失局部图像，所述初始参考图像集合包括N个模态的参考图像，所述初始参考图像集合中每个模态的参考图像表示每个模态对应的初始的特异信息。初始的特异信息是指最开始得到的特异信息，后续可以对初始参考图像集合(即初始的特异信息)进行优化。这些训练数据可以是从数据库中获取的，也可以是从相关机构获取的，比如MIR数据或脑肿瘤数据是可以从医院获取的。

S902：将每个全模态训练图像集合进行掩码处理，得到相应的缺失训练图像集合。所述缺失训练图像集合缺失至少一个模态的图像。在一个实施例中，可以通过遮罩处理等方式掩盖全模态训练图像集合中的一个或多个模态的图像，得到缺失训练图像集合，例如，全模态训练图像集合有四个模态，对其进行区域掩盖处理，可以是掩盖其中的一个模态、两个模态或者三个模态得到缺失训练图像集合；又或者，掩盖全模态训练图像集合中的一个或多个模态，并对剩余的模态中的图像进行局部掩盖处理，得到缺失训练图像集合。

例如，全模态训练图像集合有四个模态，对其进行掩盖处理，可以是掩盖其中的一个模态，然后对剩余的三个模态的部分区域进行覆盖，从而得到缺失训练图像集合。其中，缺失训练数据集合可以包括M个缺失序列，M为大于或等于1，且小于N的整数。

S903：利用初始参考图像集合对所述缺失训练图像集合中缺失的图像进行补齐，得到组合训练图像集合。在一个实施例中，可以根据缺失训练图像集合和初始参考图像集合得到组合训练图像集合，具体可以将初始参考图像集合中相应模态(即与缺失训练图像集合缺失的模态相同的模态)的参考图像添加到缺失训练图像集合中，以及，将初始参考图像集合中相应区域(该区域的位置与缺失训练图像集合中至少一个模态中缺失图像的区域的位置对应)的图像数据添加到缺失训练图像集合中的缺失图像的区域，从而得到组合训练图像集合

例如，对于MRI而言，如果缺失训练图像集合缺失了T1模型，则可以通过参考图像中对应于T1的参考图像覆盖在该缺失训练图像集合T1模态的位置处，得到补齐后的组合训练图像集合。

S904：将所述组合训练图像集合输入所述第一模型，以得到所述第一模型输出的预测图像集合。在得到组合训练图像集合后，将组合训练图像集合输入到初始的第一模型中进行处理，得到预测图像集合。其中，第一模型是基于掩模自编码器构建的，对应的第一模型可以基于MAE或者VT-UNet，当然还可以使用其他常用深度神经网络，本申请不对其进行限定。

S905：根据所述预测图像集合与所述全模态训练图像集合之间的差异，对所述第一模型进行优化，以得到预训练的第一模型。

S906:基于所述差异，优化所述初始参考图像集合，以得到预训练参考图像集合。

在一种实现方式中，根据预测图像集合与全模态训练图像集合之间的差异，对第一模型和所述初始参考图像集合进行优化，可以根据预测图像集合与全模态训练图像集合之间的损失值对初始模型(即为训练的图像检测模型)的第一模型和所述初始参考图像集合进行优化。

在一个实施例中，可以是计算预测图像集合与全模态训练图像集合之间的损失值，若是大量的预测图像集合与全模态训练图像集合之间的损失值小于或者等于第一阈值时，则确定出预训练参考图像集合和预训练的第一模型，又或者是在第一模型处于某组模型参数情况下，针对大量的缺失训练图像集合或者全模态训练图像集合而言，对应的损失值最小，确定此时对应的第一模型为预训练的第一模型，并得到对应的预训练参考图像集合。

在一个实施例中，基于预测图像集合与所述全模态训练图像集合之间的差异，通过模型反衍方式优化所述初始参考图像集合，以得到预训练参考图像集合。在另一种实现方式中，根据预测图像集合与全模态训练图像集合之间的差异，对第一模型进行优化的优化目标表达式如公式(1)：

其中，x表示全模态训练图像集合，x′表示缺失训练图像集合，x^sub表示初始参考图像集合，S(x′,x^sub)表示组合训练图像集合，F是重构函数，是L₂的正则项，γ是权重，是均方误差损失函数。通过该优化公式，可以确定在是损失值最小时对应的模型，并将其确定为预训练的图像检测模型，该目标优化公式可以使得第一模型在没有任何标注的情况下学习到数据中模态间的关系以及解剖的完整性。根据预测图像集合与全模态训练图像集合之间的差异，对初始参考图像集合进行优化的优化目标表达式如公式(2)：

其中，x表示全模态训练图像集合，x′表示缺失训练图像集合，x^sub表示初始参考图像集合，表示预训练参考图像集合，S(x′,x^sub)表示组合训练图像集合，F是重构函数，是L₂的正则项，γ是权重，是均方误差损失函数。通过该优化公式，用中对应的内容来补全预训练过程中x中被掩盖掉的内容，而不是用0直接进行掩盖，可以更好的重建具有缺失内容(模态或者部分块)的多模态，补全的内容必须捕捉能代表性特定模态的特异信息，这也将有助于提升缺失部分模态情况下的多模态分割的效果。通俗的理解即是通过反向传播对初始参考图像集合进行优化的，可以称之为模型反衍，通过这种方式，模型不用引入新的模块，并且初始参考图像集合的优化代价极低。请参见图10a，是一种通过该优化方式优化后得到的全模态恢复图像集合。

在本申请中，公式(1)和公式(2)可以使用一个很小的正则权重，即γ＝0.005，同时，采用均方误差损失函数可以使得模型更好地重建原图像，而正则项可以让得到的x^sub的可信度更高。

值得注意的是，针对步骤S902中区域掩盖处理，本申请做了相应的实验并证明采用本申请的掩盖方法在各类方法中可以取得更好的效果，请参见图10b，是本申请的方法在不同掩模概率下的实验效果，在MAE方法中，模型只能通过参考图像周围的内容还原被掩盖的区域，而在本申请训练过程中，模型还可以通过参考其他模态的图像来还原被掩盖的区域。因此，本申请选择了较大的掩模概率，来使得本申请的自监督任务更加的困难，从而使模型能够学到更好的特征。如图10b所示，使用0.8125或0.875得到的最终模型表现均比0.75(在MAE相关论文中的掩膜概率)效果更好，其中，使用Dice指标(一种集合相似度度量指标，如DSC(Dice Similarity Coefficient，Dice相似系数))来衡量实验效果，Dice越高越好，其中，WT(whole tumor)为肿瘤整体，包括所有肿瘤区域；TC(tumor core)为肿瘤核心，由增强肿瘤、坏死区域和非增强肿瘤核心组成；ET(enhancing tumor)为增强肿瘤。

本申请主要阐述的是模型训练过程中的预训练过程，目的是得到预训练的第一模型和预训练参考图像集合，本申请通过一种多模态掩膜自编码器来学习缺失模态情况下多模态MRI中丰富的特征表示，该模型(即第一模型)是一个单一编码器-解码器结构，减低了对模型的训练难度。同时，预训练阶段是根据训练数据和基于模型反衍的模态补齐规则，对第一模型和初始参考图像集合进行训练，得到预训练参考图像集合和预训练的第一模型的，预训练参考图像集合和预训练的第一模型可以用于补齐在训练和推理过程中可能缺失的模态，从而提升了本申请对图像进行检测的效率。

根据图8所阐述的训练框架图，其中，微调阶段的流程图可以参见图11，图11可以包括S1101-S1104，具体步骤如下：

S1101：将预训练参考图像集合与全模态训练图像集合进行组合，得到组合微调图像集合。

在一个实施例中，所述组合微调图像集合包括的N个模态的图像，N个模态的图像中的x个模态的图像来自于所述预训练参考图像集合，y个模态的图像来自于所述全模态训练图像集合，其中，x和y为正整数，且x+y＝N。

在一种实现方式中，根据规则表示信息将预训练参考图像集合与全模态训练图像集合进行组合，得到组合微调图像集合；又或者随机的将预训练参考图像集合与全模态训练图像集合进行组合从而得到组合微调图像集合。其中，N个模态的图像中的x个模态的图像来自于所述预训练参考图像集合，y个模态的图像来自于所述全模态训练图像集合，其中，x和y为正整数，且x+y＝N。

例如，图8所示，显示有规则表示信息，根据该规则表示信息可以将全模态训练图像集合和预训练参考图像集合进行组合得到组合微调图像集合，可见，规则表示信息中深色的部分，表示将全模态训练图像集合对应的位置进行覆盖，浅色的部门表示不覆盖全模态训练图像集合对应的位置，根据该规则进行组合，从而得到组合微调图像集合。

S1102：将所述全模态训练图像集合输入预训练的图像检测模型，得到图像检测模型输出的第一分割预测信息。预训练的图像检测模型包括预训练的第一模型和分类器。分类器的输入端与所述第一模型的输出端连接。在一种实现方式中，为了更好的得到分割结果，先将全模态训练图像集合输入到预训练的图像检测模型中进行分割预测，得到第一分割预测信息，并将其存储在一个存储空间中，还可以将该存储空间存储到CPU内存中，也更适用于由于缺乏GPU内存而不能实现联合训练的硬件。同时，在对模型进行微调时，还可以对第一分割预测信息进行实时地更新。

S1103：将所述组合微调图像集合输入预训练的图像检测模型，得到图像检测模型输出的第二分割预测信息。

S1104：根据第一分割预测信息与第二分割预测信息之间的差异、第二分割预测信息与为全模态训练图像集合配置的分割监督信息之间的差异，对预训练参考图像集合和预训练的图像检测模型进行优化，以得到第一参考图像集合和经训练的图像检测模型。

在一种实现方式中，根据第一分割预测信息与第二分割预测信息之间的差异、第二分割预测信息与为全模态训练图像集合配置的分割监督信息之间的差异，对预训练参考图像集合和预训练的图像检测模型进行优化，可以是计算第一分割预测信息与第二分割预测信息之间的损失值以及计算第二分割预测信息与分割监督信息之间的损失值，从而根据这两个损失值对预训练参考图像集合和预训练的图像检测模型进行参数值优化，得到第一参考图像集合和经训练的图像检测模型的。

具体的，对预训练参考图像集合和预训练的图像检测模型进行优化的优化目标表达式为公式(3)：

其中，表示第一分割预测信息(全模态时对应的分割结果)，表示第二分割预测信息(缺失模态时对应的分割结果)，s^gt表示全模态训练图像集合配置的分割监督信息，f为代表第一模型的函数，f_s为代表分类器的分割头，λ是权重，λ可以设置成0.1，为Dice损失与交叉损失之和，为一致性损失函数，如公式(4)：

是计算的全模态下分割结果和缺失模态下分割结果的KL距离(Kullback-Leibler Divergence，它衡量的是相同事件空间里的两个概率分布的差异情况)，具体的， W是图像集合中每一张图像的宽，H是图像集合中每一张图像的高，D是图像集合中每一张图像的切片数量，C是图像集合分割的总类别。

步骤S1102-S1104是一种计算高效的自蒸馏方法，该方法能够在同一个网络中将任务相关的知识从全模态的数据迁移到缺失模态的数据，可以将模型微调为可以同时处理各种缺失模态的多模态分割模型，同时也降低训练和部署时的计算开销。

本申请主要阐述的是模型训练过程中的微调过程，目的是得到最终的图像检测模型和参考图像集合，可以针对任何情况的模态图像进行处理，从而得到对应的分割结果。本申请的微调任务是一种计算高效的自蒸馏方法，在分割任务的微调过程中将全模态数据的信息蒸馏到缺失模态，以实现在缺失模态情况下更高精度的分割效果。

经过图9以及图11两个阶段的训练后，生成的图像检测模型和参考图像集合均具有较强的通用性，在使用(即预测过程)时可以用于处理任何缺失模态情况下的MRI数据。基于此，本申请做了具体的实验，具体是在PyTorch神经网络框架上完成的实验，并得到对应的实验效果。具体的，本申请的图像检测方法对应的技术在脑部肿瘤分割比赛BraTS 2018和BraTS 2019上都分别进行了实验用于验证其有效性。BraTS系列的数据集合由多对包括四个模态的MRI组成，分别是T1，T1c，T2和FLAIR。这些数据经过了比赛方的整理组织，进行了包括剥去颅骨，重新采样到统一分辨率(1mm³)，并在同一模板上进行共配准等预处理。

在这项比赛中，四种肿瘤内结构(水肿，增强肿瘤，坏死和非增强肿瘤核心)被分为三个肿瘤区域并作为比赛的分割目标：1.肿瘤整体(whole tumor，WT)，包括所有肿瘤区域；2.肿瘤核心(tumor core，TC)，由增强肿瘤、坏死区域和非增强肿瘤核心组成；3.增强肿瘤(enhancing tumor，ET)。BraTS 2018和BraTS 2019数据集合分别包括285例和335例数据和对应的肿瘤区域标注。在实验中，可以随机将两份数据集合分别以80:20的比例分成训练集合和测试集合。在本申请中，可以采用Dice系数和95％豪斯多夫距离(HD95)作为评测指标，另外，还可以使用线上评测系统验证本申请技术在全模态情况下在数据库中存储的验证集合中的表现情况。上述的BraTS 2018和BraTS 2019是目前数据库中已存在的两个数据集合，可以直接拿来使用。

表1给出了本申请图像检测方法和三个缺失模态情况下脑部MRI肿瘤分割通用型方法在BraTS 2018数据集上的对比情况，这三个方法分别是：HVED，LCRL和FGMF。其中FGMF是目前指标最高的通用型方法。由于这些方法都是在20％数据上展现的分割结果，所以可以直接从数据库摘抄这些方法所对应的结果。在表1中可以发现，本申请所提出的图像检测方法在测试集上的整体表现是最好的，在三个肿瘤区都取得了最好的中位数，并且本申请提出的图像检测方法在大部分的情况下都取得了最好的结果(本申请的图像检测方法在三个肿瘤区域中分别在14、11、10个情况中都取得了最好的结果，总共有15种缺失情况)。值得一提的是，本申请提出的图像检测方法所采用的技术采用了基础的单一编码器-解码器框架，而与之对比的上述三种方法无一例外都采用了多编码器或者多解码器的框架，其计算量大于本申请所提出的图像检测方法。

表1

其中，已有的和缺失的模态分别用·和ο表示，p值通过Wilcoxon分别测试相应方法和本申请的图像检测方法的显著性给出，上述三种方法的具体解释：HVED(Hetero-Modal Variational Encoder-Decoder for Joint Modality Completion and Segmentation，用于联合模态完成和分割的异模态变分编解码器)，LCRL(Latent correlation representation learning for brain tumor segmentation with missing MRI modalities，缺失MRI模式下的潜在相关表征学习在脑肿瘤分割中的应用)和FGMF(Feature-enhanced generation and multimodality fusion based deep neural network for brain tumor segmentation with missing MR modalities，基于特征增强生成和多模态融合的深度神经网络，用于缺少MR模态的脑肿瘤分割)。

表2给出了本申请的图像检测方法在BraTS 2019数据集上和唯一在这个数据集上做了对比实验的LCRL的对比情况。结果表明本申请的图像检测方法在所有肿瘤区域的所有缺失情况下都优于LCRL，说明了本申请的图像检测方法具有比较好的泛化性。

表2

其中，已有的和缺失的模态分别用·和ο表示，p值通过Wilcoxon分别测试相应方法和本申请的图像检测方法的显著性给出。

另外，虽然本申请的图像分割方法提出的是一个“通用”型模型，但为了体现本申请的图像检测方法的效果，也跟目前最好的专用模型ACN(Adversarial Co-training Network，对抗性联合分割网络)进行了对比，该方法使用的训练测试比例跟本申请的图像检测方法并不相同，可以直接摘抄了其论文中展示的结果作为参考。

具体结果在表3中可以看到，本申请的图像检测方法在仅需训练一个模型的情况下跟针对每一种缺失情况都单独训练模型的ACN(该方法在本申请的实验中需要训练15个模型)整体表现几乎一致。

表3

进一步的，为了客观地展现本申请的图像检测方法在全模态情况下的表现情况，如表4所示，在表4中比较了本申请的图像检测方法和几个目前的方法在两个数据集的线上测试结果，包括LCRL、VT-UNet-T(本申请的图像检测方法使用的主干网络)、TransBTS(另一个针对脑部MRI肿瘤分割的Transformer模型)。另外，相应比赛的优选方案的结果(从已有数据库中获取的)也被包含在表4中作为参照；值得指出的是，这些优选方案通常都经过了大量的工程化，比如精细地调参。结果显示，对比其他非比赛方案，本申请的图像检测方法在9种情况下都取得了最好的结果(两个数据集×两个指标×三个肿瘤区域，共12种情况)。并且本申请的图像检测方法的结果在部分情况下几乎超过了相应比赛的优选方案，而这些优选方案通常都经过了大量的调参。这些结果表明，本申请的图像检测方法学习的多模态表示不仅对缺失模态具有鲁棒性，而且对全模态也具有有效性。

表4

其中，本申请的图像检测方法在BraTS 2018(左)和BraTS 2019(右)数据中全模态条件下与现有最优方法的比较结果，challenge表示相应比赛的优选方案，NA表示无法获取。

更进一步的，为了验证本申请的图像检测方法提出的技术中各个模块的有效性，可以通过逐一去掉整体方案中的某个模块的方法来完成消融实验。结果显示如表5所示，可以总结出以下几个结论：

1.在第1、2行(a,b)中，去掉了训练过程中的预训阶段，并在后者中加入在ImageNet数据集上的预训练参数，这两行的结果都明显的下降，表明预训练出来的预训练的图像检测模型在本申请的图像检测方法提出的框架中有着不可或缺的作用。

2.在第三行(c)中，将本申请中通过模型反衍学习到的全模态图像替换为全0的图像使得结果得到了下降，而第四行(d)中将全模态图像替换为相应模态中所有数据的平均值使得结果明显恶化，说明本申请的图像检测方法提出的基于模型反衍的缺失模态补齐方案捕捉到了更有用的模态特征信息，可以有效地作为脑瘤分割中缺失模态的补充。

3.最后，对比第五行(e)，本申请所提出的框架的评估指标在所有肿瘤区域都更好，验证了全模态到缺失模态自蒸馏的有效性。另外，本申请所提出的自蒸馏框架相比于联合训练的方式节约了大约52GFLOPS(浮点运算)的计算量。

表5

基于上述的方法实施例，本申请实施例还提供了一种图像检测装置的结构示意图。参见图12，为本发明实施例提供的一种图像检测装置的结构示意图。所述装置可以应用于上述提及的服务器，也可以应用于一个计算机设备中，图12所示的图像检测装置1200可运行如下单元：

获取单元1201，用于获取第一图像集合，所述第一图像集合包括至少一个模态的图像，每个模态的图像为相应模态的医学影像；

确定单元1202，用于检测所述第一图像集合是否处于图像缺失状态，其中，所述图像缺失状态是指所述第一图像集合满足下述条件中至少一个：所述第一图像集合对应的模态少于预定的N个模态， N为大于1的正整数；以及所述第一图像集合中的至少一个模态的图像中缺失局部图像；

处理单元1203，用于：

根据所述第二图像集合，检测图像异常区域。

在一种实现方式中，所述处理单元1203根据所述第二图像集合，检测图像异常区域，具体可用于：

基于用于对象识别的图像检测模型，利用所述第二图像集合确定出所述图像异常区域。

在一种实现方式中，所述图像检测装置还包括：

显示单元1204，用于在用户界面上的第一显示区域显示所述第一图像集合；在所述用户界面的第二显示区域显示所述第一图像集合对应的分割结果；其中，所述分割结果包括下述中任一个：所述图像异常区域；在第一图像集合中标记所述图像异常区域之后得到的结果；或者在第一图像集合中标记所述图像异常区域之后得到的结果，和所述第三图像集合。

在一种实现方式中，所述获取单元1201，还用于获取用于训练所述图像检测模型的训练数据，所述训练数据包括：多个全模态训练图像集合、初始参考图像集合；每个全模态训练图像集合包括N个模态的图像，并且每个模态的图像不缺失局部图像，所述初始参考图像集合包括N个模态的参考图像，所述初始参考图像集合中每个模态的参考图像表示每个模态对应的初始的特异信息。

所述处理单元1203，还用于：

将每个全模态训练图像集合进行掩码处理，得到相应的缺失训练图像集合，所述缺失训练图像集合缺失至少一个模态的图像；

利用初始参考图像集合对所述缺失训练图像集合中缺失的图像进行补齐，得到组合训练图像集合；

将所述组合训练图像集合输入所述第一模型，以得到所述第一模型输出的预测图像集合；

根据所述预测图像集合与所述全模态训练图像集合之间的差异，对所述第一模型进行优化，以得到预训练的第一模型；

基于所述差异，优化所述初始参考图像集合，以得到预训练参考图像集合。

在一种实现方式中，所述处理单元1203将每个全模态训练图像集合进行掩码处理，得到相应的缺失训练图像集合，具体包括：

掩盖所述全模态训练图像集合中的一个或多个模态的图像，得到缺失训练图像集合；或者掩盖所述全模态训练图像集合中的一个或多个模态的图像，并对剩余的至少一个模态的图像进行局部掩盖处理，以得到缺失训练图像集合。

在一种实现方式中，所述处理单元1203根据所述预测图像集合与所述全模态训练图像集合之间的差异，对所述第一模型进行优化的优化目标表达式为：

其中，x表示全模态训练图像集合，x′表示缺失训练图像集合，x^sub表示初始参考图像集合，S(x′,x^sub)表示组合训练图像集合，F是重构函数，是L₂的正则项，γ是权重，是均方误差损失函数。

在一种实现方式中，所述处理单元1203基于所述差异，优化所述初始参考图像集合的优化目标表达式为：

其中，x表示全模态训练图像集合，x′表示缺失训练图像集合，x^sub表示初始参考图像集合，表示预训练参考图像集合，S(x′,x^sub)表示组合训练图像集合，F是重构函数，是L₂的正则项，γ是权重，是均方误差损失函数。

在一种实现方式中，所述处理单元1203还用于：

将所述预训练参考图像集合与所述全模态训练图像集合进行组合，得到组合微调图像集合，所述组合微调图像集合包括的N个模态的图像，N个模态的图像中的x个模态的图像来自于所述预训练参考图像集合，y个模态的图像来自于所述全模态训练图像集合，其中，x和y为正整数，且x+y＝N；

将全模态训练图像集合输入预训练的图像检测模型，得到图像检测模型输出的第一分割预测信息；

将组合微调图像集合输入预训练的图像检测模型，得到图像检测模型输出的第二分割预测信息；

根据第一分割预测信息与第二分割预测信息之间的差异、第二分割预测信息与为全模态训练图像集合配置的分割监督信息之间的差异，对所述预训练参考图像集合和所述预训练图像检测模型进行优化，以得到所述第一参考图像集合和经训练的图像检测模型。

在一种实现方式中，所述处理单元1203对所述预训练参考图像集合和所述预训练的图像检测模型进行优化的优化目标表达式为：

其中，表示第一分割预测信息，表示第二分割预测信息，s^gt表示全模态训练图像集合配置的分割监督信息，λ是权重，为Dice损失与交叉损失之和，为一致性损失函数。f为代表第一模型的函数，f_s为代表分类器的分割头。

在一种实现方式中，通过对第一模型和初始参考图像集合进行训练优化得到对应的图像检测模型和参考图像集合；

对所述第一模型和所述初始参考图像集合进行训练优化包括预训练和微调；所述第一模型是基于掩模自编码器构建的；

在预训练时，是根据训练数据和基于模型反衍的模态补齐规则，对所述第一模型和所述初始参考图像集合进行训练，得到预训练参考图像集合和预训练的图像检测模型的；

在微调时，是根据所述全模态训练图像集合到缺失序列数据集合的自蒸馏方法对所述预训练参考图像集合和所述预训练的图像检测模型进行训练，得到第一参考图像集合和图像检测模型的。

本申请的实施例先根据参考图像集合对有缺失模态情况的图像进行补齐，可以更好的得到第一图像集合的特征信息，从而可以有助于提升缺失模态情况下的多模态图像的分割效果，进一步，利用已经训练好的图像检测模型对目标检测图像集合进行检测，由于该图像检测模型已经经过了不断的优化，可以更快的对目标检测图像集合进行检测，得到分割结果，从而提升了图像检测效率。

基于上述方法以及装置实施例，本申请实施例提供了一种计算机设备。参见图13，为本申请实施例提供的一种计算机设备的结构示意图。图13所示的计算机设备1300至少包括处理器1301、输入接口1302、输出接口1303、计算机存储介质1304以及存储器1305。其中，处理器1301、输入接口1302、输出接口1303、计算机存储介质1304以及存储器1305可通过总线或其他方式连接。

计算机存储介质1304可以存储在是计算机设备1300的存储器1305中，所述计算机存储介质1304用于存储计算机程序，所述计算机程序包括程序指令，所述处理器1301用于执行所述计算机存储介质1304存储的程序指令。处理器1301(或称CPU(Central Processing Unit，中央处理器))是计算机设备1300的计算核心以及控制核心，其适于实现一条或多条计算机程序，具体适于加载并执行一条或多条计算机程序从而实现相应方法流程或相应功能。

本申请实施例还提供了一种计算机存储介质(Memory)，所述计算机存储介质是计算机设备中的记忆设备，用于存放程序和数据。可以理解的是，此处的计算机存储介质既可以包括计算机设备中的内置存储介质，当然也可以包括计算机设备支持的扩展存储介质。计算机存储介质提供存储空间，该存储空间存储了计算机设备的操作系统。并且，在该存储空间中还存放了适于被处理器1301加载并执行一个或一个以上的计算机程序(包括程序代码)。需要说明的是，此处的计算机存储介质可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器；可选的还可以是至少一个位于远离前述处理器的计算机存储介质。所述计算机存储介质可由处理器2701加载并执行计算机存储介质中存放的一条或多条计算机程序，以实现上述有关图4、图9以及图11所示的图像检测方法的相应步骤。具体实现中，计算机存储介质中的一条或多条指令由处理器1301加载并执行本申请实施例的图像检测方法。

本申请实施例中提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令被处理器执行时，可执行上述所有实施例中所执行的步骤。

本申请实施例还提供一种计算机程序产品或计算机程序，计算机程序产品或计算机程序包括计算机指令，计算机指令存储在计算机可读存储介质中，计算机指令被计算机设备的处理器执行时，执行上述所有实施例中的方法。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random Access Memory，RAM)等。

以上所揭露的仅为本申请一种较佳实施例而已，当然不能以此来限定本申请之权利范围，本领域普通技术人员可以理解实现上述实施例的全部或部分流程，并依本申请权利要求所作的等同变化，仍属于发明所涵盖的范围。

Claims

一种图像检测方法，在计算机设备中执行，所述方法包括：

获取第一图像集合，所述第一图像集合包括至少一个模态的图像，每个模态的图像为相应模态的医学影像；

检测所述第一图像集合是否处于图像缺失状态，其中，所述图像缺失状态是指所述第一图像集合满足下述条件中至少一个：所述第一图像集合对应的模态少于预定的N个模态，N为大于1的正整数；以及所述第一图像集合中的至少一个模态的图像中缺失局部图像；

若所述第一图像集合处于图像缺失状态，则确定缺失描述信息，其中，所述缺失描述信息用于指示下述中至少一个：所述第一图像集合对应的模态相对于所述N个模态缺失的至少一个模态，和所述第一图像集合中的至少一个模态的图像中缺失图像的区域；

获取第一参考图像集合，所述第一参考图像集合包括所述N个模态的参考图像，所述第一参考图像集合中每个模态的参考图像用于表示每个模态对应的特异信息；

基于所述第一参考图像集合，在所述第一图像集合中补齐所述缺失描述信息对应的缺失部分，以得到第二图像集合；

根据所述第二图像集合，检测图像异常区域。
如权利要求1所述的方法，其中，所述基于第一参考图像集合，在所述第一图像集合中补齐所述缺失描述信息对应的缺失部分，以得到第二图像集合，包括：

基于第一参考图像集合，在所述第一图像集合中添加所述缺失的至少一个模态对应的参考图像或者与所述缺失图像的区域对应的图像，以得到所述第二图像集合，其中添加的参考图像为所述第一参考图像集合中相应模态的参考图像，添加的与所述缺失图像的区域对应的图像为所述第一参考图像集合中与所述缺失图像的区域的位置相对应的局部图像。
如权利要求1所述的方法，根据所述第二图像集合，检测图像异常区域，包括：

提取所述第二图像集合的特征表示，所述特征表示包括第二图像集合中不同模态的图像之间的第一相关性和同一模态中图像区域之间的第二相关性；

基于所述特征表示，为所述第一图像集合重建与所述缺失描述信息对应的图像数据，以得到第三图像集合，所述第三图像集合为在所述第一图像集合上添加重建的图像数据后得到的结果；

识别出所述第三图像集合中异常区域，并将所述异常区域作为所述图像异常区域。
如权利要求1-3任一项所述的方法，根据所述第二图像集合，检测图像异常区域，包括：

基于用于对象识别的图像检测模型，利用所述第二图像集合确定出所述图像异常区域。
如权利要求4所述的方法，其中，所述图像检测模型包括第一模型和分类器，所述第一模型包括编码器和解码器；

所述编码器用于提取所述第二图像集合的特征表示，所述特征表示包括第二图像集合中不同模态的图像之间的第一相关性和同一模态中图像区域之间的第二相关性；

所述解码器用于基于所述特征表示，为所述第一图像集合重建与所述缺失描述信息对应的图像数据，以得到第三图像集合，所述第三图像集合为在所述第一图像集合上添加重建的图像数据后得到的结果；

所述分类器用于分割出所述第三图像集合中异常区域，并将所述异常区域作为所述图像异常区域。
如权利要求1-5任一项所述的方法，所述方法还包括：

在用户界面上的第一显示区域显示所述第一图像集合；

在所述用户界面的第二显示区域显示所述第一图像集合对应的分割结果；

其中，所述分割结果包括下述中至少一个：

所述图像异常区域；

在第一图像集合中标记所述图像异常区域之后得到的结果；和

所述第三图像集合。
如权利要求5所述的方法，所述方法还包括：

获取用于训练所述图像检测模型的训练数据，所述训练数据包括：多个全模态训练图像集合、初始参考图像集合；每个全模态训练图像集合包括N个模态的图像，并且每个模态的图像不缺失局部图像，所述初始参考图像集合包括N个模态的参考图像，所述初始参考图像集合中每个模态的参考图像表示每个模态对应的初始的特异信息；

将每个全模态训练图像集合进行掩码处理，得到相应的缺失训练图像集合，所述缺失训练图像集合缺失至少一个模态的图像；

利用初始参考图像集合对所述缺失训练图像集合中缺失的图像进行补齐，得到组合训练图像集合；

将所述组合训练图像集合输入所述第一模型，以得到所述第一模型输出的预测图像集合；

根据所述预测图像集合与所述全模态训练图像集合之间的差异，对所述第一模型进行优化，以得到预训练的第一模型；

基于所述差异，优化所述初始参考图像集合，以得到预训练参考图像集合。
如权利要求7所述的方法，所述基于所述差异，优化所述初始参考图像集合，以得到预训练参考图像集合，包括：

基于所述差异，通过模型反衍方式优化所述初始参考图像集合，以得到预训练参考图像集合。
如权利要求7所述的方法，所述将每个全模态训练图像集合进行掩码处理，得到相应的缺失训练图像集合，包括：

掩盖所述全模态训练图像集合中的一个或多个模态的图像，得到缺失训练图像集合；或者

掩盖所述全模态训练图像集合中的一个或多个模态的图像，并对剩余的至少一个模态的图像进行局部掩盖处理，以得到缺失训练图像集合。
如权利要求7所述的方法，通过下述方式执行所述根据所述预测图像集合与所述全模态训练图像集合之间的差异，对所述第一模型进行优化：

其中，x表示全模态训练图像集合，x′表示缺失训练图像集合，x^sub表示初始参考图像集合，S(x′,x^sub)表示组合训练图像集合，F是重构函数，是L₂的正则项，γ是权重，是均方误差损失函数。
如权利要求7所述的方法，根据下述方式执行所述基于所述差异，优化所述初始参考图像集合：

其中，x表示全模态训练图像集合，x′表示缺失训练图像集合，x^sub表示初始参考图像集合，表示预训练参考图像集合，S(x′,x^sub)表示组合训练图像集合，F是重构函数，是L₂的正则项，γ是权重，是均方误差损失函数。
如权利要求7所述的方法，所述方法还包括：

将所述预训练参考图像集合与所述全模态训练图像集合进行组合，得到组合微调图像集合，所述组合微调图像集合包括的N个模态的图像，N个模态的图像中的x个模态的图像来自于所述预训练参考图像集合，y个模态的图像来自于所述全模态训练图像集合，其中，x和y为正整数，且x+y＝N；

将所述全模态训练图像集合输入预训练的图像检测模型，得到所述预训练的图像检测模型输出的第一分割预测信息，所述预训练的图像检测模型包括所述预训练的第一模型和所述分类器；

将所述组合微调图像集合输入所述预训练的图像检测模型，得到所述预训练的图像检测模型输出的第二分割预测信息；

根据所述第一分割预测信息与所述第二分割预测信息之间的差异、所述第二分割预测信息与为所述全模态训练图像集合配置的分割监督信息之间的差异，对所述预训练参考图像集合和所述预训练的图像检测模型进行优化，以得到所述第一参考图像集合和经训练的图像检测模型。
如权利要求12所述的方法，根据下述方式对所述预训练参考图像集合和所述预训练的图像检测模型进行优化：

其中，表示第一分割预测信息，表示第二分割预测信息，s^gt表示全模态训练图像集合配置的分割监督信息，λ是权重，为Dice损失与交叉损失之和，为一致性损失函数，f为代表第一模型的函数，f_s为代表分类器的分割头。
一种图像检测装置，所述装置包括：

获取单元，用于获取第一图像集合，所述第一图像集合包括至少一个模态的图像，每个模态的图像为相应模态的医学影像；

确定单元，用于检测所述第一图像集合是否处于图像缺失状态，其中，所述图像缺失状态是指所述第一图像集合满足下述条件中至少一个：所述第一图像集合对应的模态少于预定的N个模态，N为大于1的正整数；以及所述第一图像集合中的至少一个模态的图像中缺失局部图像；

处理单元，用于：

若所述第一图像集合处于图像缺失状态，则确定缺失描述信息，其中，所述缺失描述信息用于指示下述中至少一个：所述第一图像集合对应的模态相对于所述N个模态缺失的至少一个模态，和所述第一图像集合中的至少一个模态的图像中缺失图像的区域；

获取第一参考图像集合，所述第一参考图像集合包括所述N个模态的参考图像，所述第一参考图像集合中每个模态的参考图像用于表示每个模态对应的特异信息；

基于所述第一参考图像集合，在所述第一图像集合中补齐所述缺失描述信息对应的缺失部分，以得到第二图像集合；

根据所述第二图像集合，检测图像异常区域。
一种计算机设备，所述计算机设备还包括：

处理器，适于实现一条或多条计算机程序；以及，计算机存储介质，所述计算机存储介质存储有一条或多条计算机程序，所述一条或多条计算机程序适于由所述处理器加载并执行如权利要求1-13任一项所述的图像检测方法。
一种非易失性计算机可读存储介质，所述存储介质存储有一条或多条计算机程序，所述一条或多条计算机程序适于由处理器加载并执行如权利要求1-13任一项所述的图像检测方法。
一种计算机程序产品，存储有一条或多条指令，所述一条或多条指令适于由处理器加载并执行如权利要求1-13任一项所述的方法。