WO2023030521A1

WO2023030521A1 - 内窥镜图像分类模型的训练方法、图像分类方法和装置

Info

Publication number: WO2023030521A1
Application number: PCT/CN2022/117048
Authority: WO
Inventors: 边成; 李永会; 杨延展
Original assignee: 北京字节跳动网络技术有限公司
Priority date: 2021-09-06
Filing date: 2022-09-05
Publication date: 2023-03-09
Also published as: CN113496489B; CN113496489A

Abstract

一种内窥镜图像分类模型的训练方法、图像分类方法和装置。所述方法包括：获取第一图像集合，所述第一图像集合是通过以第一模态操作的内窥镜获取的一个或多个对象的第一模态影像图像的集合；获取第二图像集合，所述第二图像集合是通过以与第一模态不同的第二模态操作的内窥镜获取的所述一个或多个对象的第二模态影像图像的集合，所述第二模态影像图像与所述第一模态影像图像一一对应；以及将所述第一图像集合和所述第二图像集合作为训练数据集输入到所述内窥镜图像分类模型中，对所述内窥镜图像分类模型进行训练，以获得训练完成的内窥镜图像分类模型。

Description

内窥镜图像分类模型的训练方法、图像分类方法和装置

本申请要求于2021年9月6日递交的中国专利申请第202111039387.8号的优先权，在此全文引用上述中国专利申请公开的内容以作为本申请的一部分。

技术领域

本公开的实施例涉及一种基于对比学习的内窥镜图像分类模型的训练方法、内窥镜图像分类方法、装置及计算机可读介质。

背景技术

在2020年，中国有超过55万人新患结直肠癌，占中国新确诊癌症人数的12.2％。而女性结直肠癌的死亡人数仅次于肺癌，已成为中国女性癌症死亡的第二大原因。大多数结直肠癌开始于结直肠内膜表面的赘生物，称为息肉，而有些息肉可以发展为癌症。因此，早期发现和识别息肉类型对癌症的预防和治疗至关重要。然而，息肉的视觉分类具有挑战性，不同的内窥镜照明条件，不同的纹理，外观都会导致识别的困难。

为了减轻医生的负担，有一些工作尝试研究使用深度学习的方式自动化的实现对息肉类型的识别。然而这些工作都是基于全监督的方法，即需要大量标注数据，而标注数据需要消耗的成本是巨大的。此外，它们都仅仅使用了单一模态的数据进行训练，而实际上在医学影像中，不同的模态观察到的信息有差异但都非常重要。

因此，期望一种改进的内窥镜图像分类模型的训练方法，能够在标注数据有限的情况下，以更好的学习到影像本身的抽象语义级别的特征，同时利用多模态的特征信。

发明内容

本公开的实施例提供一种基于对比学习的半监督训练内窥镜图像分类模型的训练方法、装置及计算机可读介质。

本公开的实施例提供了一种基于对比学习的内窥镜图像分类模型的训练方法，所述方法包括：获取第一图像集合，所述第一图像集合是通过以第一模态操作的内窥镜获取的一个或多个对象的第一模态影像图像的集合；获取第二图像集合，所述第二图像集合是通过以与第一模态不同的第二模态操作的内窥镜获取的所述一个或多个对象的第二模态影像图像的集合，所述第二模态影像图像与所述第一模态影像图像一一对应；以及将所述第一图像集合和所述第二图像集合作为训练数据集输入到所述内窥镜图像分类模型中，对所述内窥镜图像分类模型进行训练，以获得训练完成的内窥镜图像分类模型。

例如，根据本公开的实施例的方法，其中，所述训练方法是半监督的训练方法，所述第一图像集合的第一子集合的图像具有标记内窥镜图像类别的标签，以及所述第一图像集合的其他图像没有标记内窥镜图像类别的标签；以及所述第二图像集合中与所述第一子集合的图像一一对应的第二子集合的图像具有相同的标记内窥镜图像类别的标签，以及所述第二图像集合的其他图像没有标记内窥镜图像类别的标签。

例如，根据本公开的实施例的方法，其中，所述内窥镜图像分类模型包括：对比学习子模型，所述对比学习子模型包括：第一学习模块，用于接收所述第一图像集合并且学习所述第一图像集合，以获取所述第一图像集合的第一特征表示和第二特征表示；第二学习模块，用于接收所述第二图像集合并且学习所述第二图像集合，以获取所述第二图像集合的第一特征表示和第二特征表示；存储器队列，用于存储第一学习模块生成的第一图像集合的第二特征表示和第二学习模块生成的第二图像集合的第二特征表示；分类器子模型，包括：第一分类器子模型，用于根据所述第一学习模块生成的第一图像集合的第一特征表示进行分类学习，以生成所述第一图像集合中的每一个图像的分类预测概率分布；第二分类器子模型，用于根据第二学习模块生成的第二图像集合的第一特征表示进行分类学习，以生成所述第二图像集合中的每一个图像的分类预测概率分布。

例如，根据本公开的实施例的方法，其中，第一学习模块包括依次连接的第一编码器和第一非线性映射器，第二学习模块包括依次连接的第二编码器和第二非线性映射器，其中所述第一编码器和所述第二编码器的结构相同，并且所述第一非线性映射器和所述第二非线性映射器结构相同，

第一分类器子模型包括第一分类器，所述第一分类器连接到所述第一编码器的输出端，以及第一分类器子模型包括第二分类器，所述第二分类器连接到所述第二编码器的输出端，其中所述第一分类器和所述第二分类器结构相同。

例如，根据本公开的实施例的方法，其中，将所述第一图像集合和所述第二图像集合作为训练数据集输入到内窥镜图像分类模型中包括：在每次迭代训练时：从所述第一图像集合中选取第一批次的第一模态影像图像，并输入到所述第一学习模块中；以及从所述第二图像集合中选取与所述第一批次的第一模态影像图像一一对应的第二批次的第二模态影像图像，并输入到所述第二学习模块中。

例如，根据本公开的实施例的方法，其中，对所述内窥镜图像分类模型进行训练，以获得训练完成的内窥镜图像分类模型包括：对所述内窥镜图像分类模型进行训练，直到所述内窥镜图像分类模型的联合损失函数收敛，以获得训练完成的内窥镜图像分类模型。

例如，根据本公开的实施例的方法，其中对所述内窥镜图像分类模型进行训练，直到所述内窥镜图像分类模型的联合损失函数收敛包括：利用所述对比学习子模型进行无监督的对比学习，以针对所述第一批次的第一模态影像图像生成第一批次的第一特征表示和第一批次的第二特征表示，并针对所述第二批次的第二模态影像图像生成第二批次的第一特征表示和第二批次的第二特征表示；基于先进先出的规则，将所述第一批次的第二特征表示和所述第二批次的第二特征表示存储到所述存储器队列中；利用所述分类器子模型进行分类训练，以针对所述第一批次的第一模态影像图像中的每一个图像生成第一分类预测概率分布，从而得到第一批次的第一分类预测概率分布，并针对所述第二批次的第二模态影像图像中的每一个图像生成第二分类预测概率分布，从而得到第二批次的第二分类预测概率分布；基于所述第一批次的第二特征表示和所述第二批次的第二特征表示以及所述第一批次的第一分类预测概率分布和所述第二批次的第二分类预测概率分布，计算联合损失函数，并根据联合损失函数调整所述内窥镜图像分类模型的参数；确定是否为所述第一批次的第一模态影像图像中的无标签图像和所述第二批次的第二模态影像图像中的无标签图像生成可信伪标签；如果确定为所述第一批次的第一模态影像图像中的无标签图像和所述第二批次的第二模态影像图像中的无标签图像生成可信伪标签，将生成可信伪标签的第一模态影像图像和对应的第二模态影像图像分别加入到所述第一图像集合和所述第二图像集合中，以构成新的第一图像集合和新的第二图像集合，以更新训练数据集；以及将所述新的第一图像集合和所述新的第二图像集合作为新的训练数据集对调整后的所述内窥镜图像分类模型继续进行迭代训练。

例如，根据本公开的实施例的方法，其中，如果确定不为所述第一批次的第一模态影像图像中的无标签图像和所述第二批次的第二模态影像图像中的无标签图像生成可信伪标签，则继续基于所述第一图像集合和所述第二图像集合作为训练数据集对调整后的所述内窥镜图像分类模型继续进行迭代训练。

例如，根据本公开的实施例的方法，其中，所述内窥镜图像分类模型的联合损失函数是以下各损失函数的和：针对所述对比学习的损失函数、针对第一批次的第一模态影像图像中的有标签图像进行分类训练时的损失函数、以及针对第二批次的第二模态影像图像中的有标签图像进行分类训练时的损失函数。

例如，根据本公开的实施例的方法，其中，针对所述对比学习的损失函数是噪音对比估计损失函数InfoNCE，针对第一批次的第一模态影像图像中的有标签图像进行分类训练的损失函数和针对第二批次的第二模态影像图像中的有标签图像进行分类训练的损失函数是焦点损失函数。

例如，根据本公开的实施例的方法，其中，利用所述对比学习子模型进行无监督的对比学习，以针对所述第一批次的第一模态影像图像生成第一批次的第一特征表示和第一批次的第二特征表示，并针对所述第二批次的第二模态影像图像生成第二批次的第一特征表示和第二批次的第二特征表示包括：基于所述第一编码器，将所述第一批次的第一模态影像图像中的每一个图像转换为第一特征表示，以得到第一批次的第一特征表示，并基于所述第一非线性映射器，将所述第一批次的第一特征表示中的每一个第一特征表示进行非线性映射，以得到第一批次的第二特征表示；基于所述第二编码器，将所述第二批次的第二模态影像图像中的每一个图像转换为第一特征表示，以得到第二批次的第一特征表示，并基于所述第二非线性映射器，将所述第二批次的第一特征表示中的每一个第一特征表示进行非线性映射，以得到第二批次的第二特征表示。

例如，根据本公开的实施例的方法，其中，确定是否为所述第一批次的第一模态影像图像中的无标签图像和所述第二批次的第二模态影像图像中的无标签图像生成可信伪标签包括：对于每一个无标签的第一模态影像图像，基于为该无标签的第一模态影像图像生成的第一分类预测概率分布，来确定该无标签的第一模态影像图像第一标签预测值；以及对于与该无标签的第一模态影像图像一一对应的无标签的第二模态影像图像，基于为该无标签的第二模态影像图像所生成的第二分类预测概率分布，来确定该无标签的第二模态影像图像的第二标签预测值；确定所述第一标签预测值和所述第二标签预测值是否一致；如果不一致，则不生成所述可信伪标签；如果一致，则将所述第一标签预测值和所述第二标签预测值进行融合，当所融合的标签预测值大于一预定阈值，则生成所述可信伪标签，否则，则不生成所述可信伪标签。

例如，根据本公开的实施例的方法，其中将所述第一标签预测值和所述第二标签预测值进行融合包括：对所述第一标签预测值和所述第二标签预测值进行加权平均以得到所述融合的标签预测值。

例如，根据本公开的实施例的方法，所述对象是息肉，并且所述内窥镜图像是息肉内窥镜图像。

例如，根据本公开的实施例的方法，其中，所述标签包括增生、腺瘤和癌症中的至少一个。

例如，根据本公开的实施例的方法，其中，所述第一模态影像图像是白光影像图像，所述第二模态影像图像是窄带光影像图像。

例如，根据本公开的实施例的方法，其中所述第一模态影像图像是白光影像图像，所述第二模态影像图像是自发荧光影像图像。

例如，根据本公开的实施例的方法，其中，所述编码器是残差神经网络ResNet的卷积层部分，所述非线性映射器由两层多层感知器MLP构成，所述分类器由两层多层感知器MLP构成。

本公开的实施例提供了还提供了一种内窥镜图像分类方法，包括：获取待识别的内窥镜图像；基于训练好的内窥镜图像分类模型中的编码器提取所述内窥镜图像的图像特征表示；将所提取的图像特征表示输入到内窥镜图像分类模型中的相应的分类器，获得所述内窥镜图像的分类结果；其中，所述训练好的内窥镜图像分类模型是基于根据本公开的实施例的基于对比学习的内窥镜图像分类模型的训练方法所获得的。

本公开的实施例提供了还提供了一种内窥镜图像分类系统，包括：图像获取部件，用于获取待识别的内窥镜图像；处理部件，用于基于训练好的内窥镜图像分类模型中的编码器提取所述内窥镜图像的图像特征表示，以及将所提取的图像特征表示输入到内窥镜图像分类模型中的相应的分类器，获得所述内窥镜图像的分类结果；以及输出部件，用于输出待识别图像的分类结果，其中，所述训练好的内窥镜图像分类模型是基于根据本公开的实施例的的基于对比学习的内窥镜图像分类模型的训练方法所获得的。

本公开的实施例还提供了还提供了一种基于对比学习的内窥镜图像分类模型的训练装置，所述装置包括：图像获取部件，用于获取第一图像集合，所述第一图像集合是通过以第一模态操作的内窥镜获取的一个或多个对象的第一模态影像图像的集合；以及获取第二图像集合，所述第二图像集合是通过以与第一模态不同的第二模态操作的内窥镜获取的所述一个或多个对象的第二模态影像图像的集合，所述第二模态影像图像与所述第一模态影像图像一一对应；以及训练部件，用于将所述第一图像集合和所述第二图像集合作为训练数据集输入到所述内窥镜图像分类模型中，对所述内窥镜图像分类模型进行训练，以获得训练完成的内窥镜图像分类模型。

本公开的实施例还提供了一种电子设备，包括存储器和处理器，其中，所述存储器上存储有处理器可读的程序代码，当处理器执行所述程序代码时，执行根据上述方法中任一项所述的方法。

本公开的实施例还提供了一种计算机可读存储介质，其上存储有计算机可执行指令，所述计算机可执行指令用于执行根据上述方法中任一项所述的方法。

根据本公开的实施例的基于对比学习的半监督内窥镜图像分类模型的训练方法提供了一种新的正负例的选择方式，更好的利用不同内镜模态图像的信息，以增强对内窥镜影像图像的分类准确率。此外，与传统的基于SimCLR的对比学习方式不同的是，为了减少模型的计算量，本公开的实施例还增加了一个存储器队列用于动态的存储负例。最后，本公开的实施例提出了一种新的半监督的学习方式，并通过伪标签的方式动态的增加数据标签辅助训练，从而能够节约标注成本。

附图说明

为了更清楚地说明本公开实施例的技术方案，下面将对本公开实施例的附图作简单地介绍。明显地，下面描述中的附图仅仅涉及本公开的一些实施例，而非对本公开的限制。

图1示出了本公开实施例中内窥镜图像分类模型训练及内窥镜图像分类方法的应用架构示意图；

图2示出了传统的基于SimCLR的对比学习网络架构示意图；

图3示出了根据本公开实施例所示的同一息肉的两种模态下的影像图像；

图4示出根据本公开实施例的基于对比学习的内窥镜图像分类模型400的示意性结构；

图5示出了根据本公开实施例的内窥镜图像分类模型的训练方法的流程图；

图6示出了图5中步骤S503中所描述的实现的具体的示例性说明；

图7描述了根据本公开实施例的内窥镜图像分类方法的流程图；

图8示出了本公开实施例中一种内窥镜图像分类系统的结构示意图；

图9示出了根据本公开实施例的内窥镜图像分类模型的训练装置；以及

图10示出了根据本公开的实施例的存储介质的示意图。

具体实施方式

下面将结合附图对本申请实施例中的技术方案进行清楚、完整地描述，显而易见地，所描述的实施例仅仅是本申请的部分实施例，而不是全部的实施例。基于本申请实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，也属于本申请保护的范围。

本说明书中使用的术语是考虑到关于本公开的功能而在本领域中当前广泛使用的那些通用术语，但是这些术语可以根据本领域普通技术人员的意图、先例或本领域新技术而变化。此外，特定术语可以由申请人选择，并且在这种情况下，其详细含义将在本公开的详细描述中描述。因此，说明书中使用的术语不应理解为简单的名称，而是基于术语的含义和本公开的总体描述。

虽然本申请对根据本申请的实施例的系统中的某些模块做出了各种引用，然而，任何数量的不同模块可以被使用并运行在用户终端和/或服务器上。所述模块仅是说明性的，并且所述系统和方法的不同方面可以使用不同模块。

本申请中使用了流程图来说明根据本申请的实施例的系统所执行的操作。应当理解的是，前面或下面操作不一定按照顺序来精确地执行。相反，根据需要，可以按照倒序或同时处理各种步骤。同时，也可以将其他操作添加到这些过程中，或从这些过程移除某一步或数步操作。

关于消化道疾病的诊断，通常基于内窥镜等诊断工具获取消化道内部的病灶影像，相关医疗人员通过人眼观察判断病变类别。为了减轻医生的负担，有一些工作尝试研究使用深度学习的方式自动识别病变类别，然而这些工作都是基于全监督的方法，即需要大量标注影像数据，而标注影像数据需要消耗的成本是巨大的。此外，它们都仅仅使用了单一模态的数据进行训练，而实际上在医学影像中，不同的模态观察到的信息有差异但都非常重要。

因此，本公开提出了一种基于对比学习的内窥镜图像分类模型的训练方法，采取新的正负例的选择方式，更好的利用不同内镜模态图像的信息，以学习到影像本身的抽象语义级别的特征，以增强对内窥镜影像图像的分类准确率。此外，在标注数据有限的情况下，同时通过伪标签的方式动态的增加数据标签辅助训练，更好地解决了人工收集并标注大量训练集的成本问题。

图1示出了本公开实施例中内窥镜图像分类模型训练及内窥镜图像分类方法的应用架构示意图，包括服务器100、终端设备200。

终端设备200可以是医疗设备，例如，用户可以基于终端设备200查看内窥镜图像分类结果。

终端设备200与服务器100之间可以通过互联网相连，实现相互之间的通信。可选地，上述的互联网使用标准通信技术和/或协议。互联网通常为因特网、但也可以是任何网络，包括但不限于局域网(Local Area Network，LAN)、城域网(Metropolitan AreaNetwork，MAN)、广域网(Wide Area Network，WAN)、移动、有线或者无线网络、专用网络或者虚拟专用网络的任何组合。在一些实施例中，使用包括超文本标记语言(Hyper Text MarkupLanguage，HTML)、可扩展标记语言(Extensible Markup Language，XML)等的技术和/或格式来代表通过网络交换的数据。此外还可以使用诸如安全套接字层(Secure SocketLayer，SSL)、传输层安全(Transport Layer Security，TLS)、虚拟专用网络(VirtualPrivate Network，VPN)、网际协议安全(Internet Protocol Security，IPsec)等常规加密技术来加密所有或者一些链路。在另一些实施例中，还可以使用定制和/或专用数据通信技术取代或者补充上述数据通信技术。

服务器100可以为终端设备200提供各种网络服务，其中，服务器100 可以是一台服务器、若干台服务器组成的服务器集群或云计算中心。

具体地，服务器100可以包括处理器110(Center Processing Unit，CPU)、存储器120、输入设备130和输出设备140等，输入设备130可以包括键盘、鼠标、触摸屏等，输出设备140可以包括显示设备，如液晶显示器(Liquid Crystal Display，LCD)、阴极射线管(Cathode Ray Tube，CRT)等。

存储器120可以包括只读存储器(ROM)和随机存取存储器(RAM)，并向处理器110提供存储器120中存储的程序指令和数据。在本公开实施例中，存储器120可以用于存储本公开实施例中内窥镜图像分类模型训练方法或内窥镜图像分类方法的程序。

处理器110通过调用存储器120存储的程序指令，处理器110用于按照获得的程序指令执行本公开实施例中任一种内窥镜图像分类模型训练方法或内窥镜图像分类方法的步骤。

例如，本公开实施例中，内窥镜图像分类模型训练方法或内窥镜图像分类方法主要由服务器100侧执行，例如，针对内窥镜图像分类方法，终端设备200可以将采集到的消化道病灶(例如，息肉)的多个模态的影像图像发送给服务器100，由服务器100对病灶影像进行类型识别，并可以将病灶分类结果返回给终端设备200。

如图1所示的应用架构，是以应用于服务器100侧为例进行说明的，当然，本公开实施例中内窥镜图像分类方法也可以由终端设备200执行，例如终端设备200可以从服务器100侧获得训练好的内窥镜图像分类模型，从而基于该内窥镜图像分类模型，对病灶影像进行类型识别，获得病灶分类结果，对此本公开实施例中并不进行限制。

另外，本公开实施例中的应用架构图是为了更加清楚地说明本公开实施例中的技术方案，并不构成对本公开实施例提供的技术方案的限制，当然，对于其它的应用架构和业务应用，本公开实施例提供的技术方案对于类似的问题，同样适用。

本公开各个实施例以应用于图1所示的应用架构图为例进行示意性说明。

首先，为了使本领域技术人员能更清楚地理解本公开的原理，下面对对比学习的基本概念进行一个简要的描述。

对比学习属于一种无监督学习，特点是不需要人工标注的类别标签信息，直接利用数据本身作为监督信息，来学习样本数据的特征表达，并用于下游任务，例如，对息肉影像的类型进行分类的任务。在对比学习中，通过在输入样本之间进行比较来学习表示。对比学习不是一次从单个数据样本中学习信号，而是通过在不同样本之间进行比较来学习。可以在“相似”输入的正例对和“不同”输入的负例对之间进行比较。对比学习通过同时最大化同一图像的不同变换视图(例如剪裁，翻转，颜色变换等)之间的一致性，以及最小化不同图像的变换视图之间的一致性来学习的。简单来说，就是对比学习要做到相同的图像经过各类变换之后，依然能识别出是同一张图像，所以要最大化各类变换后图像的相似度(因为都是同一个图像得到的)。相反，如果是不同的图像(即使经过各种变换可能看起来会很类似)，就要最小化它们之间的相似度。通过这样的对比训练，编码器(encoder)能学习到图像的更高层次的通用特征(例如，图像级别特征)，而不是图像级别的生成模型(例如，像素级别生成)。

图2示出了传统的基于SimCLR的对比学习网络架构示意图。

如图2所示，传统的SimCLR模型架构由对称的上下两个分支(Branch)构成，上下两个分支分别对称地设置有编码器和非线性映射器。SimCLR提出了一种构建正负例的方式，基本思想是：输入一个批次的N(N为大于1的正整数)张图像X＝x ₁,x ₂,x ₃,…,x _N，以其中的某张图像x _i来说，对其进行随机变换(图像增强，例如包括剪裁，翻转，颜色变换和高斯模糊等)得到两幅图像x′ _i和x″ _i，那么一个批次的N张图像X经过增强以后得到两个批次的图像X′和X″，这两个批次X′和X″各自包含N张图像，并且这两个批次的图像中之间一一对应。例如，图像x经过变换后的数据对<x′ _i,x″ _i>互为正例，而x′ _i和其余2N-2个图像都互为负例。在经过变换后，增强图像被投影到表示空间。以上分支为例进行说明，增强图像x′ _i首先经过特征编码器Encoder(一般采用深度残差网络(Deep residual network，ResNet)做为模型结构，这里以函数f _θ(x)代表)，被转换成对应的特征表示h′ _i。紧随其后，是另外一个非线性变换器Non-linear Projector(由两层的多层感知机(multi-layer perceptron，MLP)构成，这里以函数g _θ(·)代表)，进一步将特征表示h′ _i映射成另外一个空间里的向量z′ _i。这样，经过g _θ(f _θ(x))两次非线性变换，就将增强图像投影到了表示空间。下分支的过程类似，在此不做赘述。

通过计算并最大化正例映射特征之间的相似性，并最小化负例映射特征之间的相似性，可以实现对图像特征的无监督学习。SimCLR中用余弦相似度来计算两个增强的图像之间的相似度，对于两个增强的图像x′ _i和x″ _i，在其投影表示z′ _i和z″ _i上计算余弦相似度。在理想情况下，增强后的一对图像(这里可以称为一对正例，例如<x′ _i,x″ _i>)之间的相似度会很高，而该对图像和两个批次中的其他图像之间的相似度会较低。

可以基于正例与负例之间的相似度来定义对比学习的损失函数，SimCLR使用了一种对比损失InfoNCE，如下等式(1)所示：

其中，z _i表示经过非线性映射之后的特征，z _j(i)表示与z _i对应的正例，z _a表示除了z _i的所有其他特征(包括正例和负例)。I表示所有图像。(·)表示点乘操作。τ表示温度参数，用于在模型训练初期防止陷入局部最优解，并随着模型训练帮助收敛。

通过优化上面这个对比损失函数InfoNCE，可以实现最大化正例之间的相似性，同时最小化负例之间的相似性，在一种无监督的环境下可以学到图像的本质特征。

传统的对比损失模型(例如上面介绍的SimCLR模型)通过对同一张图像进行增强来得到一对正例，然而，图像增强方式，例如包括剪裁，翻转，颜色变换和高斯模糊等的方式，本质上只是真实图像的一种数据扩充，即生成的是假数据，其本身不会提供比原始图片更多的特征信息。然而这样的传统图像增强的方式并不适用于内窥镜影像的分类，由于不同的内窥镜照明条件，不同的纹理，外观都会导致识别的困难，以息肉为例，息肉在颜色、形状和大小方面的差异较大，息肉之间较大的颜色变化跟表面纹理的可见性受限，因此，仅基于图像增强的方式进行息肉检查的会导致较高的误检率。

由于在医学影像上，不同的模态观察到的信息有差异并且都非常重要，基于此，为了更好地学习内窥镜影像的本质特征，本公开提出了一种新的对比学习正负例的选择方式。具体地，与传统的基于图像增强的对比学习的方法不同的是，本公开将同一消化道病灶的不同模态的影像图像作为对比学习的一对正例，可以获取同一病灶在不同模态下的更加丰富的特征，更有利于学习病灶的本质特征。以下，以息肉影像为例，对本公开实施例的技术方案进行示意性说明。应当注意，本公开实施例提供的技术方案对于其他内窥镜影像同样适用。

图3示出了根据本公开实施例所示的同一息肉的两种模态下的影像图像。

如图3所示，左边的图像是在白光(white light，WL)成像模式下操作内窥镜所获取的息肉的观测结果，右边是在窄带光成像(Narrow Band Imaging，NBI)模式下操作的内窥镜所获取的同一息肉的另一观测结果。

白光的宽带光谱由R/G/B(红/绿/蓝)3种光组成的，其波长分别为605nm、540nm、415nm。在白光成像模式下呈现高亮度、锐利的白光内镜图像，有利于观察黏膜深层的构造。窄带光模式采用窄带滤光器代替传统的宽带滤光器，对不同波长的光进行限定，仅留下540nm和415nm波长的绿、蓝色窄带光波。在窄带光模式下生成的图像血管相对于粘膜的对比度显著增强，适合观察黏膜表层的血管形态和黏膜构造。血管与周围粘膜之间的高对比度意味着有助于检测和表征病变，甚至在更深的组织层中显示出高度血管化的可疑病变。与白光内窥镜检查相比，毛细血管的图像不那么模糊，并且减少了错过病变的可能性。

根据本公开的一个实施例，利用同一息肉的不同模态的影像图像(例如白光影像图像和窄带光影像图像)来代替传统的增强图像的方式，可以更好地学习到息肉的更丰富的特征，有利于基于所学习到的特征来对息肉影像进行分类。

应当理解，这里的模态影像还可以是任何其他类型的模态影像，例如自发荧光影像、I-SCAN影像等，本公开对此不作限制。

图4示出根据本公开实施例的基于对比学习的内窥镜图像分类模型400的示意性结构。

如图4所示，根据本公开实施例的内窥镜图像分类模型400的结构分为对比学习子模型401和分类器子模型402，如图所示，对比学习子模型401例如可以包括上下两个分支(branch)。这里，为了方便描述，可以将上下两个分支分别称为第一学习模块401-1和第二学习模块401-2。例如，第一学习模块401-1包括依次连接的第一编码器和第一非线性映射器，第二学习模块401-2包括依次连接的第二编码器和第二非线性映射器。

根据本公开的一个实施例，例如，所述第一编码器和所述第二编码器可以具有相同的结构。例如，这里的编码器可以是ResNet网络的卷积层部分。例如，第一非线性映射器和第二非线性映射器可以具有相同的结构。例如，这里的非线性映射器可以是一个两层的多层感知机(MLP，Multilayer Perceptron)。

此外，对比学习子模型401还包括一个存储器队列，用于存储多个近期所训练的批次的特征向量。

另一个分类器子模型402包括两个分类器，分别连接到对比学习子模型401中两个编码器的输出端，用于基于编码器所生成的特征表示进行进一步的分类任务。

根据本公开的一个实施例，例如，这里的分类器可以具有相同的结构。例如，这里的分类器可以是一个两层的多层感知机MLP。

本领域技术人员应当理解，这里所使用的编码器、非线性映射器和分类器可用其他架构替换，本公开在此不做限制。

下面通过几个示例或实施例对根据本公开至少一个实施例提供的内窥镜图像分类模型的训练方法和内窥镜分类方法进行非限制性的说明，如下面所描述的，在不相互抵触的情况下这些具体示例或实施例中不同特征可以相互组合，从而得到新的示例或实施例，这些新的示例或实施例也都属于本公开保护的范围。

目前基于深度学习的方式自动化地对息肉进行识别的主流的方法大多是全监督学习方法，这类方法依赖人工标注的标签。然而，实际情况下所获取的息肉影像都是没有标记的，而对这些数据进行标注需要消耗的成本是巨大的。因此，本公开提出了一种半监督的训练方式，通过伪标签的方式动态的增加数据标签来辅助训练。此外，通过利用同一息肉的不同模态的影像图像，能提取出更多丰富的特征信息。

图5示出了根据本公开实施例的内窥镜图像分类模型的训练方法的流程图。例如，该内窥镜图像分类模型是如上参考图4所示的内窥镜图像分类模型400。例如，该内窥镜图像分类模型400的训练方法可以由服务器来执行，该服务器可以是图1中所示的服务器100。

首先，在步骤S501中，获取第一图像集合，所述第一图像集合是通过以第一模态操作的内窥镜获取的一个或多个对象的第一模态影像图像的集合。接着，在S503中，获取第二图像集合，所述第二图像集合是通过以与第一模态不同的第二模态操作的内窥镜获取的所述一个或多个对象的第二模态影像图像的集合，所述第二模态影像图像与所述第一模态影像图像一一对应。

例如，这里的一个或多个对象可以是息肉。例如，这里的第一模态影像可以是白光影像，这里的第二模态影像可以是窄带光影像。当然，也可以使用其他模态的影像，例如，第一模态是白光影像，第二模态是自发荧光影像或I-SCAN影像等，本公开对此不作限制。例如，这里的多模态影像可以是通过操作内窥镜获得的，也可以是通过网络下载的方式获取的，也可以通过其他途径获取的，本公开的实施例对此不作限制。

应当理解，本公开实施例还可以同样适用于除息肉以外的其他消化道病灶的影像分类，例如炎症、溃疡、血管畸形以及憩室等，本公开对此不作限制。

例如，为了模仿真实息肉数据缺少标签的真实情况，这里的第一集合和第二集合中的数据有大量数据是无标签的，由于第一集合中的第一模态影像和第二集合中的第二模态影像是一一对应的，因此是否具有标签的情况也是一一对应的。例如，根据本公开实施例，这里可以根据NICE分类指标，可以将息肉分类为增生性息肉，腺瘤(包括黏膜癌及黏膜下浅层浸润癌)，黏膜下深层浸润癌，这里，我们可以将训练数据简略地标注为增生、腺瘤和癌症。

例如，根据本公开实施例的内窥镜图像分类模型的训练方法的一个实现中，第一集合和第二集合的数据可以分别包括1302张白光影像图像和相应的1302张窄带光影像图像。为了适应真实数据集中大量缺少标注的情况，可以随机的去除90％的标签，只保留10％的标签，以实现一种半监督的学习。

应当理解，用于训练根据本公开实施例的内窥镜图像分类模型的数据集的数量和标签比例可以根据实际情况进行调整，本公开对此不做限制。对于无标签的影像图像，本公开实施例基于伪标签的方式来动态的增加数据标签来辅助训练，具体细节将在稍后结合附图6来进行描述。

接着，在步骤S505中，将所述第一图像集合和所述第二图像集合作为训练数据集输入到所述内窥镜图像分类模型中，对所述内窥镜图像分类模型进行训练，以获得训练完成的内窥镜图像分类模型。

如本领域技术人员所熟知的，机器学习算法通常依赖于对目标函数最大化或者最小化的过程，常常把最小化的函数称为损失函数。例如，根据本公开实施例的内窥镜图像分类模型的训练方法中，对所述内窥镜图像分类模型进行训练，以获得训练完成的内窥镜图像分类模型可以包括：对内窥镜图像分类模型进行训练，直到内窥镜图像分类模型的联合损失函数收敛，以获得训练完成的内窥镜图像分类模型。

如上所述，在传统的对比学习中，在每次迭代训练时，随机从训练集中选取N张图像构成一个批次，对于一个批次中的每张图像，通过上述图像增强方法构造正例，即对每张图像生成两个图像增强视图。这样，将生成两个批次的图像，每个批次包括N张图像，这两个批次的图像之间一一对应，其中每一对图像都是同一个原始图像的增强视图。传统的对比学习中，两个批次的2N张图像是基于原始的图像进行图像增强技术得到的，但这样生成的数据是假数据。因此，本公开实施例利用同一消化道病灶(例如息肉)的两个不同模态的影像图像来代替传统对比学习中的两个增强视图，可以提供息肉更丰富的特征表示，以便于基于这样的训练集训练好的网络能够更准确的对息肉进行分类。

例如，在每次迭代训练时，从第一图像集合中选取第一批次的第一模态影像图像，并输入到图4的第一学习模块401-1中；以及从第二图像集合中选取与第一批次的第一模态影像图像一一对应的第二批次的第二模态影像图像，并输入到图4的第二学习模块401-2中。

本公开提出的基于对比学习的内窥镜分类方法，采取新的正负例的选择方式，更好的利用不同内镜模态图像的信息，以学习到影像本身的抽象语义级别的特征，以增强对内窥镜影像的分类准确率。并且在标注数据有限的情况下，同时通过伪标签的方式动态的增加数据标签辅助训练，更好地解决了人工收集并标注大量训练集的成本问题。

下面参考图6，结合图4所示的内窥镜图像模型400，来对步骤S505中所描述的实现进行具体的示例性说明。

如图6所示，在步骤S601中，利用所述对比学习子模型进行无监督的对比学习，以针对所述第一批次的第一模态影像图像生成第一批次的第一特征表示和第一批次的第二特征表示，并针对所述第二批次的第二模态影像图像生成第二批次的第一特征表示和第二批次的第二特征表示。

例如，这里的对比学习过程和上述传统SimCLR学习过程大体相似。具体地，结合图4来看，以第一学习模块401-1(即上分支)为例，当从第一图像集合中选取第一批次的第一模态影像图像、并输入到第一学习模块401-1中以后，第一编码器将第一批次的第一模态影像图像中的每一个图像转换为第一特征表示，以得到第一批次的第一特征表示，随后基于第一非线性映射器将这第一批次的第一特征表示中的每一个第一特征表示进行非线性映射，从而得到第一批次的第二特征表示。这里的第一特征表示例如可以是上面所述的h′ _i，这里的第二特征表示例如可以是上面所述的z′ _i。

第二学习模块(即下分支)的过程与第一学习模块的过程一样，当从第二图像集合中选取第二批次的第二模态影像图像、并输入到第二学习模块401-2中以后，基于第二编码器将第二批次的第二模态影像图像中的每一个图像转换为第一特征表示，以得到第二批次的第一特征表示，随后基于第二非线性映射器将第二批次的第一特征表示中的每一个第一特征表示进行非线性映射，以得到第二批次的第二特征表示。

例如，根据本公开实施例的无监督的对比学习采用上面所介绍的无监督的对比损失函数InfoNCE作为损失函数。例如，该对比学习的损失函数InfoNCE基于第一批次的第二特征表示和第二批次的第二特征表示之间的相似性以及第一批次的第二特征表示与存储器队列中所存储的在先前迭代训练过程中生成的多个第二特征表示之间的相似性。

在步骤603中，基于先进先出的规则，将所述第一批次的第二特征表示和所述第二批次的第二特征表示存储到所述存储器队列中。

如上所述，传统的SimCLR在每次迭代训练时，将输入的两个批次的2N张图像内的除了当前图片的两个增强视图之外的2N-2张图片作为负例。由于更多的负样本可以更有效地覆盖底层分布，从而给出更好的训练信号，因此，与传统的SimCLR不同的是，本公开实施例还增加了一个存储器队列，用于存储先前已训练的批次图像的图像特征(例如上述第一批次的第二特征表示和第二批次的第二特征表示)作为更多的负例，这有利于提取到很好的特征。例如，这里的存储器队列采用基于先进先出的规则，也就是说这个存储器队列是动态的，新的训练特征批次入队列后，最老的训练特征批次出队列。

在步骤S605中，利用所述分类器子模型进行分类训练，以针对所述第一批次的第一模态影像图像中的每一个图像生成第一分类预测概率分布，从而得到第一批次的第一分类预测概率分布，并针对所述第二批次的第二模态影像图像中的每一个图像生成第二分类预测概率分布，从而得到第二批次的第二分类预测概率分布。

如图4所示，对比学习子网络的两个编码器的输出端分别连接到两个分类器，例如，第一分类器可以从第一编码器接收第一批次的第一特征表示，第二分类器可以从第二编码器接收第二批次的第一特征表示。这样，第一分类器和第二分类器可基于所接收到的特征表示用于进行分类训练。

这里分类器针对每个输入图像都输出一个预测概率分布。具体地，第一分类器基于从第一编码器接收到的第一批次的第一特征表示，为第一批次的第一模态影像图像中的每一张图像都输出一个预测的概率分布。同理，第二分类器基于从第二编码器接收到的第二批次的第一特征表示，为第二批次的第二模态影像图像中的每一张图像都输出一个预测的概率分布。例如，假设我们需要将息肉分类为增生、腺瘤、癌症，当输入一张标签为增生的图像时，如果分类器的输出概率分布为：[0.6,0.3,0.1]，则表示该分类器预测的该图像是增生的概率为0.6、是腺瘤的概率为0.3、是癌症的概率为0.1。

对于有标签的图像，基于该图像的真实标签和预测概率分布可以确定分类训练的损失函数。虽然对于无标签的图像也进行了分类预测，但是这个预测结果仅用于后续对该无标签的图像确定伪标签，在确定了伪标签以后再加入训练集中以作为有标签的数据进行后续的迭代训练，因此无需针对无标签的图像计算损失值。此过程将在后续段落中更详细的描述。

例如，由于息肉分布的不均衡性，本公开实施例可以使用焦点损失(focal loss)函数作为分类训练的损失函数，如下方等式(2)所示。

其中，

为预测概率分布，γ≥0，为可调节的权重。

当然，根据训练集的分布不同，也可以采取其他类型的损失函数，例如交叉熵损失函数，本公开对此不作限制。

例如，这里将针对白光影像图像进行分类训练所确定的焦点损失函数确定为

将针对窄带光影像图像进行分类训练所确定的焦点损失函数确定为

在步骤S607中，基于所述第一批次的第二特征表示和所述第二批次的第二特征表示以及所述第一批次的第一分类预测概率分布和所述第二批次的第二分类预测概率分布，计算联合损失函数，并根据联合损失函数调整所述内窥镜图像分类模型的参数。

例如，这里的联合损失函数可以确定为所述对比学习子模型的损失函数和分类器子模型的损失函数的和，如下方等式(3)所示：

因此，基于上述联合损失函数可以对图4所示的内窥镜图像模型进行参数调整，以使得随着迭代训练的继续，联合损失函数最终最小化。

在步骤S609中，确定是否为所述第一批次的第一模态影像图像中的无标签图像和所述第二批次的第二模态影像图像中的无标签图像生成可信伪标签。

如上所述，由于真实数据集中存在大量缺少标签的情况，因此，本文提出了一种半监督的训练方法，在训练过程中为无标签的数据生成可信的伪标签，并将其加入到训练集中以作为有标签的数据继续训练。

例如，可以结合两个分类器输出为每一对输入图像生成可信伪标签。如上所述，第一分类器为第一批次的白光影像图像生成了第一批次的第一预测概率分布，第二分类器为第二批次的窄带光影像图像生成了第二批次的第二预测概率分布。对于无标签的图像，首先基于预测概率分布来确定一个标签预测值。例如，对于第一批次的白光影像图像中的其中一个无标签白光影像图像，第一分类器为该无标签的白光影像图像生成的预测概率分布是增生60％、腺瘤20％和癌症10％，可以选取概率最大的那个类别(例如这里是增生)的概率值(例如这里是60％)为当前无标签图像所对应的标签预测值。例如，对于与上述对于第一批次的白光影像图像中的其中一个无标签图像一一对应的一个无标签的窄带光影像图像，第二分类器为该无标签的窄带光影像图像生成的预测概率分布是增生60％、腺瘤10％和癌症20％，可以选取概率最大的那个类别(例如这里是增生)的概率值(例如这里是60％)为当前无标签窄带光影像图像所对应的标签预测值。对于一对一一对应的无标签图像，判断两个分类器所生成的标签预测值是否相同。如果不相同，则不为该对图像生成可信伪标签。如果两个分类器所生成的标签预测值相同(例如，上述两个标签预测值都是60％)，则将这两个标签预测值行融合。例如，这里可以是对两个对应的标签预测值线性相加再除以2，当然，这里还可以基于其他数据融合方式，本公开对此不作限制。当所融合的标签预测值大于一预定阈值(例如，0.85)时，则生成所述可信伪标签，如果小于该阈值，则不生成可信伪标签。

接下来，在步骤S611中，如果确定为所述第一批次的第一模态影像图像中的无标签图像和所述第二批次的第二模态影像图像中的无标签图像生成可信伪标签，将生成可信伪标签的第一模态影像图像和对应的第二模态影像图像分别加入到所述第一图像集合和所述第二图像集合中，以构成新的第一图像集合和新的第二图像集合，以更新训练数据集。

最后，在步骤S613中，将所述新的第一图像集合和所述新的第二图像集合作为新的训练数据集对调整后的所述内窥镜图像分类模型继续进行迭代训练。

在训练过程中不断优化联合损失函数，使其最小化并收敛，即确定图像分类模型训练完成。当然，如果没有为第一批次的第一影像图像中的任何无标签图像以及第二批次的第二影像图像中的任何无标签图像生成伪标签，则仍然基于原来的第一图像集合和第二图像集合作为训练集来进行下一次迭代训练。

本公开提出的基于对比学习的内窥镜分类方法，采取新的正负例的选择方式，更好的利用不同内镜模态图像的信息，以学习到影像本身的抽象语义级别的特征，以增强对白光图像的分类准确率。同时，在传统对比学习SimCLR模型上增加了一个动态的存储队列来存储更多负样本，更有效地覆盖底层分布，从而给出更好的训练效果。此外，在标注数据有限的情况下，同时通过伪标签的方式动态的增加数据标签辅助训练，更好地解决了人工收集并标注大量训练集的成本问题。

基于通过如上方式训练好的内窥镜图像分类模型，本公开实施例还提供了一种内窥镜图像分类方法。现以待识别图像为白光影像图像为例，参考图7来描述本公开实施例中内窥镜图像分类方法的流程图，该方法包括：

在步骤S701中，获取待识别的内窥镜图像。

例如，如果训练的图像分类模型是针对息肉类型识别，获取的待识别的内窥镜图像即是采集到的息肉影像。

经过上述实施例中内窥镜图像分类模型训练方法，本公开实施例仅利用所训练出的内窥镜图像分类模型中的编码器和分类器来进行内窥镜图像的分类。由于不同模态影像图像可以互相进行特征的补充以辅助识别。例如，如果上下分支分别是基于白光影像和窄带光影像训练的，基于所识别的内窥镜图像是属于白光影像还是窄带光影像，本公开实施例相应地利用上分支中的编码器及分类器或下分支中的编码器及分类器。

在步骤S703中，基于训练好内窥镜图像分类模型中的编码器提取所述内窥镜图像的图像特征表示。例如，这里的编码器可以是ResNet101网络。具体的特征表示提取过程是本领域技术人员所公知的，在此不做赘述。

在步骤S705中，将所提取的图像特征表示输入到内窥镜图像分类模型中的相应的分类器，获得所述内窥镜图像的分类结果。

这里的编码器和分类器是基于同一病灶不同模态的内窥镜图像互相辅助训练得到的。具体来说，例如，用于对白光影像进行分类的上分支中的编码器和分类器，是由下分支中的编码器和分类器基于窄带光影像图像进行辅助训练得到的，因此上分支中的编码器和分类器在对于白光影像分类时能达到更准确可靠的分类结果。例如，在利用本公开训练好的内窥镜图像分类模型来对在白光模式下操作的内窥镜获取的白光影像进行识别时，可以将该白光影像输入到训练好的内窥镜图像分类模型的上分支中的第一编码器以提取出第一特征表示，在将该第一特征表示输入到与第一编码器连接的第一分类器中以进行分类识别。例如，对于获取的腺瘤的白光影像，该第一分类器可以输出预测的概率分布为增生10％、腺瘤80％和癌症10％。

同理，下分支中的编码器和分类器对于窄带光影像图像进行分类时能达到更准确可靠的分类结果，这里不再赘述。此外，如果训练好的内窥镜影像是基于其他模态影像图像进行学习，例如第一模态影像图像是自发荧光影像、第二模态影像是I-SCAN影像时，该训练好的内窥镜影像的上分支中的编码器及与其连接的分类器在对自发荧光影像进行分类时达到更准确可靠的分类结果，而下分支中的编码器及与其连接的分类器在对I-SCAN影像进行分类时达到更准确可靠的分类结果。

基于上述实施例，参阅图8所示，为本公开实施例中一种内窥镜图像分类系统800的结构示意图。该内窥镜图像分类系统800至少包括图像获取部件801、处理部件802和输出部件803。本公开实施例中，图像获取部件801、处理部件802和输出部件803为相关的医疗器械，可以集成在同一医疗器械中，也可以分为多个设备，相互连接通信，组成一个医疗系统来使用等，例如针对消化道疾病诊断，图像获取部件801可以为内镜，处理部件802和输出部件803可以为与内镜相通信的计算机设备等。

具体地，图像获取部件801用于获取待识别图像。处理部件802用于提取待识别图像的图像特征信息，并基于待识别的图像的特征信息获得待识别图像的病变分类结果。输出部件803用于输出待识别图像的分类结果。

图9示出了根据本公开实施例的内窥镜图像分类模型的训练装置，具体包括训练数据集获取部件901和训练部件903。

训练数据集获取部件901用于：获取第一图像集合，所述第一图像集合是通过以第一模态操作的内窥镜获取的一个或多个对象的第一模态影像图像的集合；以及获取第二图像集合，所述第二图像集合是通过以与第一模态不同的第二模态操作的内窥镜获取的所述一个或多个对象的第二模态影像图像的集合，所述第二模态影像图像与所述第一模态影像图像一一对应；以及训练部件903用于：将所述第一图像集合和所述第二图像集合作为训练数据集输入到所述内窥镜图像分类模型中，对所述内窥镜图像分类模型进行训练，以获得训练完成的内窥镜图像分类模型。

例如，所述训练部件903是半监督的训练部件，所述第一图像集合的第一子集合的图像具有标记内窥镜图像类别的标签，以及所述第一图像集合的其他图像没有标记内窥镜图像类别的标签；以及所述第二图像集合中与所述第一子集合的图像一一对应的第二子集合的图像具有相同的标记内窥镜图像类别的标签，以及所述第二图像集合的其他图像没有标记内窥镜图像类别的标签。

例如，其中，所述内窥镜图像分类模型包括：对比学习子模型，所述对比学习子模型包括：第一学习模块，用于接收所述第一图像集合并且学习所述第一图像集合，以获取所述第一图像集合的第一特征表示和第二特征表示；第二学习模块，用于接收所述第二图像集合并且学习所述第二图像集合，以获取所述第二图像集合的第一特征表示和第二特征表示；存储器队列，用于存储第一学习模块生成的第一图像集合的第二特征表示和第二学习模块生成的第二图像集合的第二特征表示；分类器子模型，包括：第一分类器子模型，用于根据所述第一学习模块生成的第一图像集合的第一特征表示进行分类学习，以生成所述第一图像集合中的每一个图像的分类预测概率分布；第二分类器子模型，用于根据第二学习模块生成的第二图像集合的第一特征表示进行分类学习，以生成所述第二图像集合中的每一个图像的分类预测概率分布。

例如，其中第一学习模块包括依次连接的第一编码器和第一非线性映射器，第二学习模块包括依次连接的第二编码器和第二非线性映射器，其中所述第一编码器和所述第二编码器的结构相同，并且所述第一非线性映射器和所述第二非线性映射器结构相同，第一分类器子模型包括第一分类器，所述第一分类器连接到所述第一编码器的输出端，以及第一分类器子模型包括第二分类器，所述第二分类器连接到所述第二编码器的输出端，其中所述第一分类器和所述第二分类器结构相同。

例如，所述训练部件903包括输入部件903_1，在每次迭代训练时：所述输入部件903_1从所述第一图像集合中选取第一批次的第一模态影像图像，并输入到所述第一学习模块中；以及所述输入部件903_1从所述第二图像集合中选取与所述第一批次的第一模态影像图像一一对应的第二批次的第二模态影像图像，并输入到所述第二学习模块中。

例如，所述训练部件903对所述内窥镜图像分类模型进行训练，以获得训练完成的内窥镜图像分类模型包括：所述训练部件903对所述内窥镜图像分类模型进行训练，直到所述内窥镜图像分类模型的联合损失函数收敛，以获得训练完成的内窥镜图像分类模型。

例如，所述训练部件903还包括：无监督学习部件903_2，利用所述对比学习子模型进行无监督的对比学习，以针对所述第一批次的第一模态影像图像生成第一批次的第一特征表示和第一批次的第二特征表示，并针对所述第二批次的第二模态影像图像生成第二批次的第一特征表示和第二批次的第二特征表示；存储部件903_3，基于先进先出的规则，将所述第一批次的第二特征表示和所述第二批次的第二特征表示存储到所述存储器队列中；分类训练部件903_4，利用所述分类器子模型进行分类训练，以针对所述第一批次的第一模态影像图像中的每一个图像生成第一分类预测概率分布，从而得到第一批次的第一分类预测概率分布，并针对所述第二批次的第二模态影像图像中的每一个图像生成第二分类预测概率分布，从而得到第二批次的第二分类预测概率分布；参数调整部件903_5，基于所述第一批次的第二特征表示和所述第二批次的第二特征表示以及所述第一批次的第一分类预测概率分布和所述第二批次的第二分类预测概率分布，计算联合损失函数，并根据联合损失函数调整所述内窥镜图像分类模型的参数；可信伪标签确定部件903_6，确定是否为所述第一批次的第一模态影像图像中的无标签图像和所述第二批次的第二模态影像图像中的无标签图像生成可信伪标签；训练数据集更新部件903_7，如果确定为所述第一批次的第一模态影像图像中的无标签图像和所述第二批次的第二模态影像图像中的无标签图像生成可信伪标签，将生成可信伪标签的第一模态影像图像和对应的第二模态影像图像分别加入到所述第一图像集合和所述第二图像集合中，以构成新的第一图像集合和新的第二图像集合，以更新训练数据集；以及所述训练部件903将所述新的第一图像集合和所述新的第二图像集合作为新的训练数据集对调整后的所述内窥镜图像分类模型继续进行迭代训练。

例如，如果所述可信伪标签确定模块确定不为所述第一批次的第一模态影像图像中的无标签图像和所述第二批次的第二模态影像图像中的无标签图像生成可信伪标签，则继续基于所述第一图像集合和所述第二图像集合作为训练数据集对调整后的所述内窥镜图像分类模型继续进行迭代训练。

例如，所述内窥镜图像分类模型的联合损失函数是以下各损失函数的和：针对所述对比学习的损失函数、针对第一批次的第一模态影像图像中的有标签图像进行分类训练时的损失函数、以及针对第二批次的第二模态影像图像中的有标签图像进行分类训练时的损失函数。

例如，针对所述对比学习的损失函数是噪音对比估计损失函数InfoNCE，针对第一批次的第一模态影像图像中的有标签图像进行分类训练的损失函数和针对第二批次的第二模态影像图像中的有标签图像进行分类训练的损失函数是焦点损失函数。

例如，利用所述对比学习子模型进行无监督的对比学习，以针对所述第一批次的第一模态影像图像生成第一批次的第一特征表示和第一批次的第二特征表示，并针对所述第二批次的第二模态影像图像生成第二批次的第一特征表示和第二批次的第二特征表示包括：基于所述第一编码器，将所述第一批次的第一模态影像图像中的每一个图像转换为第一特征表示，以得到第一批次的第一特征表示，并基于所述第一非线性映射器，将所述第一批次的第一特征表示中的每一个第一特征表示进行非线性映射，以得到第一批次的第二特征表示；以及基于所述第二编码器，将所述第二批次的第二模态影像图像中的每一个图像转换为第一特征表示，以得到第二批次的第一特征表示，并基于所述第二非线性映射器，将所述第二批次的第一特征表示中的每一个第一特征表示进行非线性映射，以得到第二批次的第二特征表示。

例如，其中，所述可信伪标签确定部件903_6确定是否为所述第一批次的第一模态影像图像中的无标签图像和所述第二批次的第二模态影像图像中的无标签图像生成可信伪标签包括：对于每一个无标签的第一模态影像图像，基于为该无标签的第一模态影像图像生成的第一分类预测概率分布，来确定该无标签的第一模态影像图像第一标签预测值；以及对于与该无标签的第一模态影像图像一一对应的无标签的第二模态影像图像，基于为该无标签的第二模态影像图像所生成的第二分类预测概率分布，来确定该无标签的第二模态影像图像的第二标签预测值；确定所述第一标签预测值和所述第二标签预测值是否一致；如果不一致，则不生成所述可信伪标签；如果一致，则将所述第一标签预测值和所述第二标签预测值进行融合，当所融合的标签预测值大于一预定阈值，则生成所述可信伪标签，否则，则不生成所述可信伪标签。

例如，所述可信伪标签确定部件903_6将所述第一标签预测值和所述第二标签预测值进行融合包括：对所述第一标签预测值和所述第二标签预测值进行加权平均以得到所述融合的标签预测值。

例如，所述对象是息肉，并且所述内窥镜图像是息肉内窥镜图像。

例如，其中所述标签包括增生、腺瘤和癌症中的至少一个。

例如，所述第一模态影像图像是白光影像图像，所述第二模态影像图像是窄带光影像图像。

基于上述实施例，本公开实施例中还提供了另一示例性实施方式的电子设备。在一些可能的实施方式中，本公开实施例中电子设备可以包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，处理器执行程序时可以实现上述实施例中内窥镜图像分类模型训练方法或内窥镜图像识别方法的步骤。

例如，以电子设备为本公开图1中的服务器100为例进行说明，则该电子设备中的处理器即为服务器100中的处理器110，该电子设备中的存储器即为服务器100中的存储器120。

本公开的实施例还提供了一种计算机可读存储介质。图10示出了根据本公开的实施例的存储介质。如图10所示，所述计算机可读存储介质1000上存储有计算机可执行指令1001。当所述计算机可执行指令1001由处理器运行时，可以执行参照以上附图描述的根据本公开实施例的基于对比学习的内窥镜图像分类模型的训练方法和内窥镜图像分类方法。所述计算机可读存储介质包括但不限于例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。

本公开的实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行根据本公开实施例的基于对比学习的内窥镜图像分类模型的训练方法和内窥镜图像分类方法。

本领域技术人员能够理解，本公开所披露的内容可以出现多种变型和改进。例如，以上所描述的各种设备或组件可以通过硬件实现，也可以通过软件、固件、或者三者中的一些或全部的组合实现。

此外，虽然本公开对根据本公开的实施例的系统中的某些单元做出了各种引用，然而，任何数量的不同单元可以被使用并运行在客户端和/或服务器上。所述单元仅是说明性的，并且所述系统和方法的不同方面可以使用不同单元。

本领域普通技术人员可以理解上述方法中的全部或部分的步骤可通过程序来指令相关硬件完成，所述程序可以存储于计算机可读存储介质中，如只读存储器、磁盘或光盘等。可选地，上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现。相应地，上述实施例中的各模块/单元可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。本公开并不限制于任何特定形式的硬件和软件的结合。

除非另有定义，这里使用的所有术语(包括技术和科学术语)具有与本公开所属领域的普通技术人员共同理解的相同含义。还应当理解，诸如在通常字典里定义的那些术语应当被解释为具有与它们在相关技术的上下文中的含义相一致的含义，而不应用理想化或极度形式化的意义来解释，除非这里明确地这样定义。

以上是对本公开的说明，而不应被认为是对其的限制。尽管描述了本公开的如果干示例性实施例，但本领域技术人员将容易地理解，在不背离本公开的新颖教学和优点的前提下可以对示例性实施例进行许多修改。因此，所有这些修改都意图包含在权利要求书所限定的本公开范围内。应当理解，上面是对本公开的说明，而不应被认为是限于所公开的特定实施例，并且对所公开的实施例以及其他实施例的修改意图包含在所附权利要求书的范围内。本公开由权利要求书及其等效物限定。

Claims

一种基于对比学习的内窥镜图像分类模型的训练方法，包括：

获取第一图像集合，所述第一图像集合是通过以第一模态操作的内窥镜获取的一个或多个对象的第一模态影像图像的集合；

获取第二图像集合，所述第二图像集合是通过以与第一模态不同的第二模态操作的内窥镜获取的所述一个或多个对象的第二模态影像图像的集合，所述第二模态影像图像与所述第一模态影像图像一一对应；以及

将所述第一图像集合和所述第二图像集合作为训练数据集输入到所述内窥镜图像分类模型中，对所述内窥镜图像分类模型进行训练，以获得训练完成的内窥镜图像分类模型。
根据权利要求1所述的方法，其中，所述训练方法是半监督的训练方法，所述第一图像集合的第一子集合的图像具有标记内窥镜图像类别的标签，以及所述第一图像集合的其他图像没有标记内窥镜图像类别的标签；以及

所述第二图像集合中与所述第一子集合的图像一一对应的第二子集合的图像具有相同的标记内窥镜图像类别的标签，以及所述第二图像集合的其他图像没有标记内窥镜图像类别的标签。
根据权利要求1或2所述的方法，其中，所述内窥镜图像分类模型包括：

对比学习子模型，所述对比学习子模型包括：

第一学习模块，用于接收所述第一图像集合并且学习所述第一图像集合，以获取所述第一图像集合的第一特征表示和第二特征表示；

第二学习模块，用于接收所述第二图像集合并且学习所述第二图像集合，以获取所述第二图像集合的第一特征表示和第二特征表示；以及

存储器队列，用于存储第一学习模块生成的第一图像集合的第二特征表示和第二学习模块生成的第二图像集合的第二特征表示；

分类器子模型，包括：

第一分类器子模型，用于根据所述第一学习模块生成的第一图像集合的第一特征表示进行分类学习，以生成所述第一图像集合中的每一个图像的分类预测概率分布；以及

第二分类器子模型，用于根据第二学习模块生成的第二图像集合的第一特征表示进行分类学习，以生成所述第二图像集合中的每一个图像的分类预测概率分布。
根据权利要求3所述的方法，其中

第一学习模块包括依次连接的第一编码器和第一非线性映射器，

第二学习模块包括依次连接的第二编码器和第二非线性映射器，其中所述第一编码器和所述第二编码器的结构相同，并且所述第一非线性映射器和所述第二非线性映射器结构相同，

第一分类器子模型包括第一分类器，所述第一分类器连接到所述第一编码器的输出端，以及

第一分类器子模型包括第二分类器，所述第二分类器连接到所述第二编码器的输出端，其中所述第一分类器和所述第二分类器结构相同。
根据权利要求3或4所述的方法，其中，将所述第一图像集合和所述第二图像集合作为训练数据集输入到所述内窥镜图像分类模型中包括：

在每次迭代训练时：

从所述第一图像集合中选取第一批次的第一模态影像图像，并输入到所述第一学习模块中；以及

从所述第二图像集合中选取与所述第一批次的第一模态影像图像一一对应的第二批次的第二模态影像图像，并输入到所述第二学习模块中。
根据权利要求5所述的方法，其中，对所述内窥镜图像分类模型进行训练，以获得训练完成的内窥镜图像分类模型包括：

对所述内窥镜图像分类模型进行训练，直到所述内窥镜图像分类模型的联合损失函数收敛，以获得训练完成的内窥镜图像分类模型。
根据权利要求6所述的方法，其中对所述内窥镜图像分类模型进行训练，直到所述内窥镜图像分类模型的联合损失函数收敛包括：

利用所述对比学习子模型进行无监督的对比学习，以针对所述第一批次的第一模态影像图像生成第一批次的第一特征表示和第一批次的第二特征表示，并针对所述第二批次的第二模态影像图像生成第二批次的第一特征表示和第二批次的第二特征表示；

基于先进先出的规则，将所述第一批次的第二特征表示和所述第二批次的第二特征表示存储到所述存储器队列中；

利用所述分类器子模型进行分类训练，以针对所述第一批次的第一模态影像图像中的每一个图像生成第一分类预测概率分布，从而得到第一批次的第一分类预测概率分布，并针对所述第二批次的第二模态影像图像中的每一个图像生成第二分类预测概率分布，从而得到第二批次的第二分类预测概率分布；

基于所述第一批次的第二特征表示和所述第二批次的第二特征表示以及所述第一批次的第一分类预测概率分布和所述第二批次的第二分类预测概率分布，计算联合损失函数，并根据联合损失函数调整所述内窥镜图像分类模型的参数；

确定是否为所述第一批次的第一模态影像图像中的无标签图像和所述第二批次的第二模态影像图像中的无标签图像生成可信伪标签；

如果确定为所述第一批次的第一模态影像图像中的无标签图像和所述第二批次的第二模态影像图像中的无标签图像生成可信伪标签，则将生成可信伪标签的第一模态影像图像和对应的第二模态影像图像分别加入到所述第一图像集合和所述第二图像集合中，以构成新的第一图像集合和新的第二图像集合，以更新训练数据集；以及

将所述新的第一图像集合和所述新的第二图像集合作为新的训练数据集对调整后的所述内窥镜图像分类模型继续进行迭代训练。
根据权利要求7所述的方法，其中如果确定不为所述第一批次的第一模态影像图像中的无标签图像和所述第二批次的第二模态影像图像中的无标签图像生成可信伪标签，则继续基于所述第一图像集合和所述第二图像集合作为训练数据集对调整后的所述内窥镜图像分类模型继续进行迭代训练。
根据权利要求6-8任一项所述的方法，其中，所述内窥镜图像分类模型的联合损失函数是以下各损失函数的和：

针对所述对比学习的损失函数、针对第一批次的第一模态影像图像中的有标签图像进行分类训练时的损失函数、以及针对第二批次的第二模态影像图像中的有标签图像进行分类训练时的损失函数。
根据权利要求9所述的方法，其中，针对所述对比学习的损失函数是噪音对比估计损失函数InfoNCE，

针对第一批次的第一模态影像图像中的有标签图像进行分类训练的损失函数和针对第二批次的第二模态影像图像中的有标签图像进行分类训练的损失函数是焦点损失函数。
根据权利要求7或8所述的方法，其中，利用所述对比学习子模型进行无监督的对比学习，以针对所述第一批次的第一模态影像图像生成第一批次的第一特征表示和第一批次的第二特征表示，并针对所述第二批次的第二模态影像图像生成第二批次的第一特征表示和第二批次的第二特征表示包括：

基于所述第一编码器，将所述第一批次的第一模态影像图像中的每一个图像转换为第一特征表示，以得到第一批次的第一特征表示，并基于所述第一非线性映射器，将所述第一批次的第一特征表示中的每一个第一特征表示进行非线性映射，以得到第一批次的第二特征表示；以及

基于所述第二编码器，将所述第二批次的第二模态影像图像中的每一个图像转换为第一特征表示，以得到第二批次的第一特征表示，并基于所述第二非线性映射器，将所述第二批次的第一特征表示中的每一个第一特征表示进行非线性映射，以得到第二批次的第二特征表示。
根据权利要求7或8所述的方法，其中，确定是否为所述第一批次的第一模态影像图像中的无标签图像和所述第二批次的第二模态影像图像中的无标签图像生成可信伪标签包括：

对于每一个无标签的第一模态影像图像，基于为该无标签的第一模态影像图像生成的第一分类预测概率分布，来确定该无标签的第一模态影像图像第一标签预测值；以及

对于与该无标签的第一模态影像图像一一对应的无标签的第二模态影像图像，基于为该无标签的第二模态影像图像所生成的第二分类预测概率分布，来确定该无标签的第二模态影像图像的第二标签预测值；

确定所述第一标签预测值和所述第二标签预测值是否一致；

如果不一致，则不生成所述可信伪标签；

如果一致，则将所述第一标签预测值和所述第二标签预测值进行融合，当所融合的标签预测值大于一预定阈值，则生成所述可信伪标签，否则，则不生成所述可信伪标签。
根据权利要求12所述的方法，其中将所述第一标签预测值和所述第二标签预测值进行融合包括：

对所述第一标签预测值和所述第二标签预测值进行加权平均以得到所述融合的标签预测值。
根据权利要求1-13任一项所述的方法，其中，所述对象是息肉，并且所述内窥镜图像是息肉内窥镜图像。
根据权利要求2所述的方法，其中所述标签包括增生、腺瘤和癌症中的至少一个。
根据权利要求2所述的方法，其中所述第一模态影像图像是白光影像图像，所述第二模态影像图像是窄带光影像图像。
根据权利要求2所述的方法，其中所述第一模态影像图像是白光影像图像，所述第二模态影像图像是自发荧光影像影像图像。
根据权利要求4-13任一项所述的方法，其中，所述编码器是残差神经网络的卷积层部分，所述非线性映射器由两层的多层感知器构成，所述分类器由两层的多层感知器构成。
一种内窥镜图像分类方法，包括：

获取待识别的内窥镜图像；

基于训练好的内窥镜图像分类模型中的编码器提取所述内窥镜图像的图像特征表示；以及

将所提取的图像特征表示输入到训练好的内窥镜图像分类模型中的相应的分类器，获得所述内窥镜图像的分类结果；

其中，所述训练好的内窥镜图像分类模型是基于根据权利要求1-18任一项所述的基于对比学习的内窥镜图像分类模型的训练方法所获得的。
一种内窥镜图像分类系统，包括：

图像获取部件，用于获取待识别的内窥镜图像；

处理部件，用于基于训练好的内窥镜图像分类模型中的编码器提取所述内窥镜图像的图像特征表示，以及将所提取的图像特征表示输入到训练好的内窥镜图像分类模型中的相应的分类器，获得所述内窥镜图像的分类结果；以及

输出部件，用于输出待识别图像的分类结果，

其中，所述训练好的内窥镜图像分类模型是基于根据权利要求1-18任一项所述的基于对比学习的内窥镜图像分类模型的训练方法所获得的。
一种基于对比学习的内窥镜图像分类模型的训练装置，包括：

训练数据集获取部件，用于获取第一图像集合，所述第一图像集合是通过以第一模态操作的内窥镜获取的一个或多个对象的第一模态影像图像的集合；以及获取第二图像集合，所述第二图像集合是通过以与第一模态不同的第二模态操作的内窥镜获取的所述一个或多个对象的第二模态影像图像的集合，所述第二模态影像图像与所述第一模态影像图像一一对应；以及

训练部件，用于将所述第一图像集合和所述第二图像集合作为训练数据集输入到所述内窥镜图像分类模型中，对所述内窥镜图像分类模型进行训练，以获得训练完成的内窥镜图像分类模型。
一种电子设备，包括存储器和处理器，其中，所述存储器上存储有所述处理器可读的程序代码，当所述处理器执行所述程序代码时，执行根据权利要求1-19任一项所述的方法。
一种计算机可读存储介质，其上存储有计算机可执行指令，所述计算机可执行指令用于执行权利要求1-19任一项所述的方法。