WO2020088288A1

WO2020088288A1 - 内窥镜图像的处理方法、系统及计算机设备

Info

Publication number: WO2020088288A1
Application number: PCT/CN2019/112202
Authority: WO
Inventors: 付星辉; 孙钟前; 杨巍
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2018-10-30
Filing date: 2019-10-21
Publication date: 2020-05-07
Also published as: EP3876190B1; US12220102B2; JP7214291B2; EP3876190A1; US20210052135A1; CN109523522B; JP2021519663A; EP3876190A4; US20240081618A1; CN109523522A; US11849914B2

Abstract

本申请公开了一种内窥镜图像的处理方法、系统及计算机设备。该方法包括：获取待检用户的当前内窥镜图像；使用深度卷积网络基于训练参数对当前内窥镜图像进行预测，该训练参数根据至少一个第一内窥镜图像和对至少一个第一内窥镜图像进行变换后的至少一个第二内窥镜图像而确定，该至少一个内窥镜图像对应于人体部位；确定出当前内窥镜图像所对应的器官类别。本发明的这种方法，使得预测过程更加智能化，鲁棒性更强，提高了处理装置的资源利用率。

Description

内窥镜图像的处理方法、系统及计算机设备

本申请要求于2018年10月30日提交的申请号为201811276885.2、发明名称为“内窥镜图像的处理方法、装置、系统及存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本发明涉及图像处理技术领域，特别涉及一种内窥镜图像的处理方法、系统及计算机设备。

背景技术

当前，在我国以及全球高发的恶性肿瘤类型中，胃癌、食管癌位居前五。胃癌和食管癌，都是上消化道部位的恶性肿瘤。在实际临床中，医生通过内窥镜做电子检查，将内窥镜由口腔进入受检者的上消化道部位，藉由光源器发出的强光，经由导光纤维使光转弯，使得医生得以观察上消化道内各器官的健康状况。

但是，通过内窥镜拍摄得到医学图像，由于采集的环境、探测设备和医生拍摄习惯的差异，会导致同一个器官的内窥镜图像在视觉表现上千差万别，而不同器官的局部表现有可能会非常相似，因此，严重影响医生了进行疾病的诊断。

相关技术中，为了识别出医学图像中不同的器官，通常可以使用计算机视觉技术，抽取诸如颜色、纹理、梯度、局部二值模式(Local Binary Patterns，LBP)等特征，然后通过支持向量机(Support Vector Machine，SVM)分类方法进行器官的分类识别。但是，这种技术需要研究人员深刻理解医疗图像，才能根据图像的固有特点制定出可用的特征抽取方案，技术门槛较高。此外，所抽取的特征更偏向于通用特征，并非针对待诊断的具体身体部位而有目的的抽取特定的器官特征，使得覆盖面不全，方案的鲁棒性不够好。

发明内容

有鉴于此，本发明实施例提供了一种内窥镜图像的处理方法、系统及计算机设备，使得预测过程更加智能化，鲁棒性更强，提高了处理装置的资源利用率。

具体地，本发明实施例的技术方案是这样实现的：

本发明提供了一种内窥镜图像的处理方法，包括：

获取待检用户的当前内窥镜图像；

使用深度卷积网络基于训练参数对所述当前内窥镜图像进行预测，所述训练参数根据至少一个第一内窥镜图像和对所述至少一个第一内窥镜图像进行变换后的至少一个第二内窥镜图像而确定，所述至少一个第一内窥镜图像对应于人体部位；

确定出所述当前内窥镜图像所对应的器官类别。

本发明又提供了一种内窥镜图像处理系统，包括：人体探测设备和内窥镜图像处理装置，其中，

所述人体探测设备用于，对人体部位进行探测，将探测到的至少一个第一内窥镜图像发送给所述内窥镜图像处理装置；

所述内窥镜图像处理装置用于，从所述人体探测设备获取所述至少一个第一内窥镜图像；创建用于预测内窥镜图像的深度卷积网络，并根据所述至少一个第一内窥镜图像和对所述至少一个第一内窥镜图像进行变换后的至少一个第二内窥镜图像，确定所述深度卷积网络的训练参数；及，获取待检用户的当前内窥镜图像，使用所述深度卷积网络并基于所述训练参数对所述当前内窥镜图像进行预测，确定出所述当前内窥镜图像所对应的器官类别。

此外，本发明还提供了一种计算机可读存储介质，存储有计算机可读指令，所述计算机可读指令被至少一个处理器执行时，使得所述至少一个处理器加载并执行以实现下述步骤：

获取待检用户的当前内窥镜图像；

确定出所述当前内窥镜图像所对应的器官类别。

此外，本发明还提供了一种计算机设备，包括至少一个存储器和至少一个处理器，所述至少一个存储器存储有至少一条程序代码，所述至少一条程序代码由所述至少一个处理器加载并执行以实现下述步骤：

获取待检用户的当前内窥镜图像；

确定出所述当前内窥镜图像所对应的器官类别。

由上述技术方案可见，本发明实施例提供的方法，使得特征抽取过程完全由深度卷积网络的模型自主学习到，而无需研究人员深刻理解医疗图像，减少了对医生的专业水平的依赖，使得整个预测过程更加的智能化；同时，可以减少训练过程中所使用的标注数据的数量，提高了训练收敛的速度，为下一步的疾病诊断提供干净可用的数据，以及为不同器官下的疾病诊断提供可用的集成模块，提升了处理装置的资源使用率。

附图说明

图1为本发明一个实施例所涉及的内窥镜图像处理系统的结构示意图；

图2为本发明一个实施例中内窥镜图像的处理方法的流程示意图；

图3为本发明一个实施例中深度卷积网络的结构示意图；

图4为本发明另一个实施例中深度卷积网络的结构示意图；

图5为本发明又一个实施例中处理层的结构示意图；

图6为本发明另一个实施例中内窥镜图像的处理方法的流程示意图；

图7为本发明一个实施例中标签图像的示意图；

图8为本发明一个实施例中训练深度卷积网络的流程示意图；

图9为本发明一个实施例中内窥镜图像的处理装置的结构示意图；

图10为本发明另一个实施例中内窥镜图像的处理装置的结构示意图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，以下参照附图并举实施例，对本发明进一步详细说明。

图1为本发明一个实施例所涉及的内窥镜图像处理系统的结构示意图。如图1所示，在内窥镜图像处理系统100中包括待检用户101、包含有内窥镜1021 的人体探测设备102、内窥镜图像处理装置103以及医生104。其中，内窥镜图像处理装置103可以包括实时预测子装置1031、离线训练子装置1032以及内窥镜图像数据库1033。

根据本发明的实施例，人体探测设备102通过内窥镜1021对待检用户101的某个人体部位进行探测。人体探测设备102将采集到的内窥镜图像发送给内窥镜图像处理装置103，具体而言，可以发送给实时预测子装置1031作为待预测的当前内窥镜图像，也可以发送给内窥镜图像数据库1033进行存储，内窥镜图像数据库1033中存储的图像用于进行离线训练。

根据本发明的实施例，当医生104欲对待预测的当前内窥镜图像进行疾病诊断时，实时预测子装置1031首先需要从离线训练子装置1032获得训练参数，然后基于该训练参数以及创建的深度卷积网络对当前内窥镜图像进行预测，确定该当前内窥镜图像所对应的器官类别，例如，该器官类别可以是上消化道中的十二指肠。离线训练子装置1032在生成训练参数时，会使用和实时预测子装置1031相同的深度卷积网络，从内窥镜图像数据库1033获取到经由内窥镜采集到的图像以及经过标注的标签图像，根据内窥镜采集到的图像以及各个经过标注的标签图像进行离线训练，输出深度卷积网络的训练参数。

这里，上述人体探测设备102是指安装有内窥镜1021、具有图像采集功能的医学终端设备，其中，内窥镜1021可以包括图像传感器、光学镜头、光源照明、机械装置等。内窥镜图像处理装置103可以是服务器，或者云服务器，具备图像存储及处理功能。这些终端设备上都安装有操作系统，包括但不限于：Android操作系统、Symbian操作系统、Windows mobile操作系统、以及苹果iPhone OS操作系统等等。人体探测设备102和内窥镜图像处理装置103之间可以通过有线或者无线网络进行通信。

图2为本发明一个实施例中内窥镜图像的处理方法的流程示意图。该方法应用于计算机设备，以计算机设备为服务器为例进行说明，该实施例包括以下步骤。

步骤201，服务器获取针对人体部位的至少一个第一内窥镜图像。

也即是说，所述至少一个第一内窥镜图像对应于人体部位。

步骤202，服务器创建用于预测内窥镜图像的深度卷积网络。

步骤203，服务器根据至少一个第一内窥镜图像和对至少一个第一内窥镜图像进行变换后的至少一个第二内窥镜图像，确定深度卷积网络的训练参数。

步骤204，服务器获取待检用户的当前内窥镜图像，使用深度卷积网络并基于训练参数对当前内窥镜图像进行预测，确定出当前内窥镜图像所对应的器官类别。

也即是说，上述训练参数根据至少一个第一内窥镜图像和对至少一个第一内窥镜图像进行变换后的至少一个第二内窥镜图像而确定。

下面将基于实施例对上述步骤进行详细描述。

在上述步骤201中，可以通过使用包含有内窥镜的探测设备对人体部位进行探测，得到至少一张第一内窥镜图像。其中，人体部位包括一个或多个器官，例如，人体部位是上消化道部位，上消化道部位中包括5个器官，即咽部、食管、胃部、贲门、十二指肠。探测设备所拍摄到的可以为图片或者视频，而获取的第一内窥镜图像可以为白光RGB图像。

在上述步骤202中，用于对内窥镜图像进行分类的深度卷积网络是一种基于深度学习的卷积神经网络。具体地，深度卷积网络包括输入层、处理层和分类层。图3为本发明一个实施例中深度卷积网络的结构示意图。如图3所示，深度卷积网络中，输入层301确定作为输入的至少一个内窥镜图像；处理层302对输入的各个内窥镜图像进行特征提取；分类层303输出对输入的各个内窥镜图像预测得到的器官类别。其中，上述至少一个内窥镜图像可以包括探测设备拍摄的各个第一内窥镜图像，当然，也可以包括对各个第一内窥镜图像进行变换后得到的各个第二内窥镜图像，从而能够丰富样本容量。

其中，在处理层302中，卷积层3021通过卷积矩阵作为过滤器对内窥镜图像进行特征提取，获得特征图像；池化层3022用于简化卷积层输出的信息，减少数据维度，降低计算开销，以及控制过拟合。

在分类层303中，全连接层3031用于检测获取到的特征图像与哪种器官类别最相近。softmax层3032输出一个1×M维的分类向量，该softmax层用于进行指数归一化。其中，M为备选器官类别的个数，例如备选器官类别有六类：非器官图、咽部、食管、胃部、贲门、十二指肠。分类向量中的元素取值为[0,1]，第i个元素代表的是作为输入的内窥镜图像属于第i个备选器官类别的概率。

在本发明一实施例中，服务器在创建深度卷积网络时，可以在处理层中加入至少一个密集连接层，该密集连接层包括多个连接子层；对于每个连接子层，将处于该连接子层之前的其他连接子层所输出的特征作为该连接子层的输入。

图4为本发明另一个实施例中深度卷积网络的结构示意图。如图4所示，处理层312中包括Y个密集连接层3121～312Y。每个密集连接层包括多个连接子层，如图中3121～312Y方框内实心圆圈所示。在输出层313中输出如方框3131内所示的六个分类的概率。

图5为本发明又一个实施例中处理层的结构示意图。如图5所示，在处理层400的结构中，处于卷积层401和池化层404之间有K个密集连接层4021～402K，在同一密集连接层中，每个连接子层输出的特征都输入到后续的其他连接子层中。

假设密集连接层包括J个连接子层，第j个连接子层的处理函数为H _j，j＝1,…,J，那么，第j个连接子层输出的特征z _j可以按照如下公式计算得到：

z _j＝H _j([z ₀，z ₁，...，z _j-1]) (1)其中，[z ₀，z ₁，...，z _j-1]表示将序号为0到j-1的连接子层输出的特征进行级联。其中，H _j可以为块归一化(Batch Normalization，BN，也称为批量归一化)、ReLU激励和3×3卷积等操作。若输入该密集连接层的通道数为k ₀，那么第j层的通道数为k ₀+(j-1)×k，其中，k为成长率，随着连接子层数量的增加，通道数随着k线性增加。

在本发明一实施例中，在处理层中加入至少一个密集连接层时，为了进一步压缩参数，还可以在相邻两个密集连接层之间加入过渡层。如图5所示，在密集连接层4021和密集连接层4022之间加入了过渡层403。若有K个密集连接层，那么过渡层的个数为K-1。并且，可以根据预设的预测精度设置该过渡层的特征压缩比。由于压缩比会影响参数的数量以及预测的精度，那么根据针对内窥镜图像预设的预测精度，来设置特征压缩比采用的数值。例如，设置为0.5。

在本发明另一实施例中，服务器根据待预测的内窥镜图像的数量、预测精度以及训练过程中对超参数的调整，确定出深度卷积网络中处理层和分类层的具体参数。表1为一个深度卷积网络的结构和参数示例，一共包括4个密集连接层和3个过渡层。其中，每个密集连接层的成长率可以设置为24；在3×3卷积操作之前还可以先执行一个1×1卷积操作，从而可以减少输入的特征图的数量，也能融合各个通道的特征。而过渡层中的1×1卷积操作可以将输入的通道数量减半。

表1深度卷积网络结构及参数示例

在步骤203中，对深度卷积网络进行训练时，服务器可以根据至少一个第一内窥镜图像和对至少一个第一内窥镜图像进行变换后的至少一个第二内窥镜图像，确定深度卷积网络的训练参数。

具体而言，服务器先对至少一个第一内窥镜图像进行变换，得到变换后的至少一个第二内窥镜图像；再将至少一个第一内窥镜图像和至少一个第二内窥镜图像同时输入到深度卷积网络进行训练，获得深度卷积网络的训练参数。

在本发明实施例中，服务器对该至少一个第一内窥镜图像所做的变换可以包括剪裁、旋转、亮度抖动、颜色抖动或者对比度抖动中的至少一项。这种变换操作起到了数据增强的作用。在实际应用时，所做的变换的数量可以根据备选器官类别的数量和/或预设的预测精度来确定。

例如，如图3所示，在输入层301中，3011为从探测设备处获取到的第一内窥镜图像，将3011进行两种变换，包括：旋转变换，得到变换后的第二内窥镜图像3012；还有颜色变换，得到变换后的第二内窥镜图像3013，将3011、3012、3013同时作为输入的图像进入处理层302进行特征提取。

在步骤203中得到的训练参数以及步骤202中创建的深度卷积网络，用于后续的实时预测。在步骤204中，服务器获取待检用户的当前内窥镜图像，使用深度卷积网络并基于训练参数对当前内窥镜图像进行预测，确定出当前内窥镜图像所对应的器官类别。

例如，在输入层301中输入的当前内窥镜图像，经过预测，例如被分为“食管”类；或者，该图像为非有效的医学图像，不对应任何一个器官，属于“非器官图”类，这样医生在诊断疾病时无需参考该图像。

通过上述实施例，根据至少一个第一内窥镜图像和对至少一个第一内窥镜图像进行变换后的至少一个第二内窥镜图像，确定深度卷积网络的训练参数，将变换后的各个第二内窥镜图像作为辅助数据，可以用于对各个第一内窥镜图像的分类训练。从整体方案来看，可以获得如下技术效果：

1)使得特征抽取过程完全由深度卷积网络的模型自主学习到，而无需研究人员深刻理解医疗图像，减少了对医生的专业水平的依赖，使得整个预测过程更加的智能化；

2)可以减少训练过程中所使用的标注数据的数量，提高了训练收敛的速度，加快了图像分类的速度，提高了处理装置的资源利用率；

3)迭代结束后的训练参数会更加准确，进而通过该训练参数进行实时预测的分类结果更精准，为下一步的疾病诊断提供干净可用的数据；

4)通过这种深度卷积网络，既可以抽取到较低级的图片特征，如颜色、纹理等，也可抽取到更加抽象的语义特征，如粘膜光滑与否、是否存在大量褶皱等，具有很强的鲁棒性，可以适应不同医院不同医生拍摄同一部位的不同角度及拍摄手法等原因造成的干扰。

5)获得精准的分类结果后，可以为不同器官下的疾病诊断提供可用的集成模块，比如对于食管器官，将分类后属于食管类别的所有内窥镜图像用于诊断食管癌症筛查；对于胃部器官，将分类后属于胃部类别的所有内窥镜图像用于胃炎、胃癌等疾病的筛查；

此外，在创建深度卷积网络时，加入至少一个密集连接层，可以最大化网络中所有层之间的信息流，在一定程度上减轻了训练过程中梯度消散的问题，并且，由于大量的特征被复用，使得使用少量的卷积核就可以生成大量的特征，最终模型的尺寸也比较小，减少了参数数量。

图6为本发明另一个实施例中内窥镜图像的处理方法的流程示意图。如图6所示，包括如下步骤：

步骤501，服务器获取针对人体部位的至少一个第一内窥镜图像。

步骤502，服务器对至少一个第一内窥镜图像进行变换，得到变换后的至少一个第二内窥镜图像。

步骤503，服务器创建用于预测内窥镜图像的深度卷积网络。

这里，步骤501-503可参照上述步骤201、203、202，在此不再赘述。

步骤504，服务器根据人体部位的结构以及预设的诊断目标，确定至少一个备选器官类别。

本步骤中，人体部位可以包括多个器官，在利用深度卷积网络对内窥镜图像进行预测时，需要事先确定出多个备选器官类别。具体而言，对人体部位进行划分时，可以参照预设的诊断目标，划分出多个区域，进而确定出多个备选器官类别。例如，目前高发的恶性肿瘤类型中，胃癌、食管癌最为广泛，那么诊断目标被设置为对这两个器官进行确诊，那么备选器官类别可以设为胃、食管及其他这三类。

步骤505，服务器获取每个备选器官类别所对应的标签图像。

本发明实施例中，这些标签图像可以从医学图像数据库中获取，人工进行标注；或者，也可以从采集到的第一内窥镜图像中过滤出具备备选器官典型特征的那些图像。图7为本发明一个实施例中标签图像的示意图。如图7所示，分别给出了十二指肠、食管、胃和眼部的多张标签图像。

步骤506，在训练深度卷积网络时，服务器将至少一个第一内窥镜图像和至少一个第二内窥镜图像作为输入样本，将各个标签图像作为理想的输出样本(也即是目标输出样本)进行训练，得到深度卷积网络的训练参数。

本发明实施例中，深度神经网络在训练的过程中根据输入的图像样本和理想的输出样本，通过迭代的方式逐步进行权值的调整，直到收敛。

步骤507，服务器获取待检用户的当前内窥镜图像，使用深度卷积网络并基于训练参数对当前内窥镜图像进行预测，确定出当前内窥镜图像所对应的器官类别。

此步骤和上述步骤204相同，在此不再赘述。

通过上述实施例，考虑到同一器官的医学图像可能差异很大，通过合理的设计备选器官类别，以及输入样本中包含对各个第一内窥镜图像进行变换产生畸变了的各个第二内窥镜图像，可以大大减少标签图像的数量，解决了在训练深度卷积网络时作为标注数据的标签图像数量有限的问题。

图8为本发明一个实施例中训练深度卷积网络的流程示意图。如图8所示，包括如下步骤：

步骤701，服务器获取针对人体部位的至少一个第一内窥镜图像。

步骤702，服务器对至少一个第一内窥镜图像进行变换，得到变换后的至少一个第二内窥镜图像。

步骤703，服务器创建用于预测内窥镜图像的深度卷积网络，深度卷积网络包括输入层、处理层和分类层。

在训练深度卷积网络时，可以通过反向传播算法来调整参数，迭代至收敛。反向传播算法可以分成4个不同的部分：向前传递、计算损失函数、反向传递以及更新参数。在向前传递的过程中，输入初始样本数据，包括至少一个第一内窥镜图像和变换后的至少一个第二内窥镜图像，在处理层中传递它。通过构建损失函数，可以帮助深度卷积网络更新训练参数直至收敛。

步骤704，服务器预先构建用于训练深度卷积网络的损失函数。

本步骤中，根据预设的收敛策略构建损失函数。

在本发明一实施例中，针对输入的第一内窥镜图像以及变换后的第二内窥镜图像，收敛策略具体为一致性约束策略，即通过不同变换的同一张内窥镜图像，模型所抽取到的特征应该很接近。

在本发明另一实施例中，针对输入的第一内窥镜图像以及所归属的器官类别的特征中心，收敛策略具体为中心聚合策略，即属于同一器官类别的第一内窥镜图像之间的距离减少，即类内距离减少，同时，不同器官类别之间的内窥镜图像之间的距离变大，即类间距离变大。

步骤705，服务器输入至少一个第一内窥镜图像和至少一个第二内窥镜图像，并初始化深度卷积网络。

本步骤中，初始化深度卷积网络包括两个初始化过程：

1)初始化深度卷积网络的训练参数w，包括处理层和输出层中各个子层的权值。例如，采取随机初始化的方式，将训练参数的初始值确定为随机值[0.3,0.1, 0.4,0.2,0.3....]。

2)初始化第一内窥镜图像对应的中心特征，例如，将各个类别的标签图像的平均值作为中心特征的初始值。

在训练刚开始时，初始化的训练参数和中心特征会导致损失函数的取值很高。而训练深度神经网络的目的是希望预测值和真实值一样。为此，需要尽量减少损失函数的取值，损失值越小就说明预测结果越接近。在这一个过程中，将迭代调整训练参数和中心特征，在每次迭代时计算损失函数的取值，最终使整个网络的损失达到最小值。

在计算损失函数时，下述步骤706、707对应于上述的一致性约束策略；下述步骤708对应的是上述中心聚合策略。

步骤706，服务器获取处理层处理至少一个第一内窥镜图像得到的至少一个处理后特征。

步骤707，服务器根据至少一个处理后特征以及至少一个第二内窥镜图像的特征，计算此次迭代时损失函数的取值。

上述的一致性约束策略表现为在损失函数中，分别计算各个第一内窥镜图像的处理后特征与各个第二内窥镜图像的特征之间的多个第一距离，通过多个第一距离来约束第一内窥镜图像和第二内窥镜图像之间的一致性。

具体而言，若训练参数为w，输入的第i个第一内窥镜图像的特征向量为x _i，第i个标签图像的特征向量为y _i，损失函数L(w)可以按照如下公式进行迭代计算：

其中，n为输入的第一内窥镜图像的数量；m为对第一内窥镜图像进行变换得到的第二内窥镜图像的数量；y _ilogf(x _i；w)表示分类交叉熵损失；

表示参数L2正则；h ₀为第一内窥镜图像经由处理层输出的特征向量，即处理后特征的向量；h _k为第k个第二内窥镜图像的特征向量；r和λ为超参数，二者都为大于0的数值。

此外，i为大于或等于1且小于或等于n的整数，k为大于或等于1且小于或等于m的整数。

可见，上述公式(2)中，第一距离为h ₀-h _k，表达式

体现了变换前后的内窥镜图像之间的一致性约束。

步骤708，服务器计算各个第一内窥镜图像的特征以及各个第一内窥镜图像对应的中心特征之间的多个第二距离。

定义第一内窥镜图像对应的中心特征为

中心特征为L _C，那么有第二距离为

表征了中心损失。

步骤709，服务器根据该多个第一距离和该多个第二距离，计算损失函数的取值。

若只考虑一致性约束，则可以参照上述公式(2)计算得到损失函数的取值。

当同时考虑一致性约束和中心聚合策略，则根据第一距离和第二距离计算损失函数的取值，具体计算为

其中，有

步骤710，服务器根据损失函数的取值确定训练过程是否结束。若是，执行步骤713；否则，执行步骤711和712。

在逐次迭代的过程中，最小化损失函数，即min L(w)。通过判断损失函数的取值是否达到可接受的阈值，来判断是否停止迭代。在停止迭代后，整个训练过程则结束。

步骤711，服务器更新训练参数。然后，进一步执行步骤706，进行下一次的迭代处理。

步骤712，服务器更新中心特征。然后，进一步执行步骤708，进行下一次的迭代处理。

步骤713，服务器在训练结束后获得深度卷积网络的训练参数。

通过上述实施例，预先构建用于训练深度卷积网络的损失函数，根据第一内窥镜图像的处理后特征以及每个第二内窥镜图像的特征，计算每次迭代时损失函数的取值，引入了一致性约束，可以优先找到更稳定的特征，加速训练过程的收敛速度，直到获得最优解。此外，在损失函数中考虑中心聚合策略，可以保证模型针对每个类别学习的特征更加稳定和内聚，进一步提升模型在真实环境中的泛化能力。

图9为本发明一个实施例中内窥镜图像的处理装置的结构示意图。如图9所示，装置800包括：

获取模块810，用于经由包含有内窥镜的探测设备，获取针对人体部位的第一内窥镜图像；获取待检用户的当前内窥镜图像；

创建模块820，用于创建用于预测内窥镜图像的深度卷积网络，并根据获取模块810获取到的第一内窥镜图像和对第一内窥镜图像进行变换后的至少一个第二内窥镜图像，确定深度卷积网络的训练参数；及，

预测模块830，用于使用创建模块820创建的深度卷积网络并基于训练参数对当前内窥镜图像进行预测，确定出当前内窥镜图像所对应的器官类别。

在本发明一实施例中，装置800进一步包括：

确定模块840，用于根据人体部位的结构以及预设的诊断目标，确定至少一个备选器官类别；获取每个备选器官类别所对应的标签图像；

创建模块820用于，将第一内窥镜图像和至少一个第二内窥镜图像作为输入样本，将确定模块840确定的各个标签图像作为理想的输出样本，得到训练参数。

在本发明一实施例中，深度卷积网络包括输入层、处理层和分类层，创建模块820用于，在处理层中加入至少一个密集连接层，密集连接层包括多个连接子层；对于每个连接子层，将处于该连接子层之前的其他连接子层所输出的特征作为该连接子层的输入。

在本发明一实施例中，创建模块820用于，在相邻两个密集连接层之间加入过渡层，并根据预设的预测精度设置该过渡层的特征压缩比的数值。

在本发明一实施例中，深度卷积网络包括输入层、处理层和分类层，装置800进一步包括：

构建模块850，用于预先构建用于训练深度卷积网络的损失函数；

创建模块820用于，在训练深度卷积网络时，迭代执行如下处理：获取处理层处理第一内窥镜图像得到的处理后特征；根据处理后特征以及每个第二内窥镜图像的特征，计算此次迭代时损失函数的取值；根据损失函数的取值确定训练过程是否结束，其中，当确定训练过程结束时，获得训练参数。

在本发明一实施例中，创建模块820进一步用于，初始化第一内窥镜图像所属器官类别的中心特征；分别计算处理后特征以及每个第二内窥镜图像的特征之间的第一距离；计算第一内窥镜图像的特征以及第一内窥镜图像对应的中心特征之间的第二距离；根据第一距离和第二距离，计算取值。

在本发明一实施例中，对第一内窥镜图像所做的变换包括剪裁、旋转、亮度抖动、颜色抖动、对比度抖动中的至少一项。

图10为本发明另一个实施例中内窥镜图像的处理装置的结构示意图。如图10所示，装置900包括：处理器910、存储器920、端口930以及总线940。处理器910和存储器920通过总线940互联。处理器910可通过端口930接收和发送数据。其中，

处理器910用于执行存储器920存储的机器可读指令模块。

存储器920存储有处理器910可执行的机器可读指令模块。处理器910可执行的指令模块包括：获取模块921、创建模块922和预测模块923。其中，

获取模块921被处理器910执行时可以为：用于经由包含有内窥镜的探测设备，获取针对人体部位的第一内窥镜图像；获取待检用户的当前内窥镜图像；

创建模块922被处理器910执行时可以为：用于创建用于预测内窥镜图像的深度卷积网络，并根据获取模块921获取到的第一内窥镜图像和对第一内窥镜图像进行变换后的至少一个第二内窥镜图像，确定深度卷积网络的训练参数；

预测模块923被处理器910执行时可以为：使用创建模块922创建的深度卷积网络并基于训练参数对当前内窥镜图像进行预测，确定出当前内窥镜图像所对应的器官类别。

在本发明一实施例中，处理器910可执行的指令模块还包括：确定模块924，其中，确定模块924被处理器910执行时可以为：根据人体部位的结构以及预设的诊断目标，确定至少一个备选器官类别；在训练深度卷积网络之前，获取每个备选器官类别所对应的标签图像；

创建模块922被处理器910执行时可以为：将第一内窥镜图像和至少一个第二内窥镜图像作为输入样本，将确定模块924确定的各个标签图像作为理想的输出样本，得到训练参数。

在本发明一实施例中，处理器910可执行的指令模块还包括：构建模块925，其中，构建模块925被处理器910执行时可以为：预先构建用于训练深度卷积网络的损失函数；

创建模块922被处理器910执行时可以为：在训练深度卷积网络时，迭代执行如下处理：获取处理层处理第一内窥镜图像得到的处理后特征；根据处理后特征以及每个第二内窥镜图像的特征，计算此次迭代时损失函数的取值；根据损失函数的取值确定训练过程是否结束，其中，当确定训练过程结束时，获得训练参数。

由此可以看出，当存储在存储器920中的指令模块被处理器910执行时，可实现前述各个实施例中获取模块、创建模块、预测模块、确定模块和构建模块的各种功能。

上述装置实施例中，各个模块及单元实现自身功能的具体方法在方法实施例中均有描述，这里不再赘述。

另外，在本发明各个实施例中的各功能模块可以集成在一个处理单元中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

在一个实施例中，提供了一种内窥镜图像处理系统，包括：人体探测设备和内窥镜图像处理装置，其中，该人体探测设备用于，对人体部位进行探测，将探测到的至少一个第一内窥镜图像发送给该内窥镜图像处理装置；

该内窥镜图像处理装置用于，从该人体探测设备获取该至少一个第一内窥镜图像；创建用于预测内窥镜图像的深度卷积网络，根据该至少一个第一内窥镜图像和对该至少一个第一内窥镜图像进行变换后的至少一个第二内窥镜图像，确定该深度卷积网络的训练参数；及，获取待检用户的当前内窥镜图像，使用该深度卷积网络并基于该训练参数对该当前内窥镜图像进行预测，确定出该当前内窥镜图像所对应的器官类别。

在一个实施例中，该内窥镜图像处理装置进一步用于，根据该人体部位的结构以及预设的诊断目标，确定至少一个备选器官类别；获取每个备选器官类别所对应的标签图像；将该至少一个第一内窥镜图像和该至少一个第二内窥镜图像作为输入样本，将各个标签图像作为目标输出样本进行训练，得到该训练参数。

在一个实施例中，该深度卷积网络包括输入层、处理层和分类层，该内窥镜图像处理装置进一步用于，预先构建用于训练该深度卷积网络的损失函数；在训练该深度卷积网络时，迭代执行如下处理：获取该处理层处理该至少一个第一内窥镜图像得到的至少一个处理后特征；根据该至少一个处理后特征以及该至少一个第二内窥镜图像的特征，计算此次迭代时该损失函数的取值；根据该损失函数的取值确定训练过程是否结束，其中，当确定训练过程结束时，获得该训练参数。

在一个实施例中，在训练该深度卷积网络时，该内窥镜图像处理装置进一步用于，初始化该至少一个第一内窥镜图像所属器官类别的中心特征；分别计算各个处理后特征以及各个第二内窥镜图像的特征之间的多个第一距离；计算各个第一内窥镜图像的特征以及各个第一内窥镜图像对应的中心特征之间的多个第二距离；根据该多个第一距离和该多个第二距离，计算该损失函数的取值。

在一个实施例中，提供了一种计算机设备，包括至少一个存储器和至少一个处理器，该至少一个存储器存储有至少一条程序代码，该至少一条程序代码由该至少一个处理器加载并执行以实现下述步骤：

获取待检用户的当前内窥镜图像；

使用深度卷积网络基于训练参数对该当前内窥镜图像进行预测，该训练参数根据至少一个第一内窥镜图像和对该至少一个第一内窥镜图像进行变换后的至少一个第二内窥镜图像而确定，该至少一个第一内窥镜图像对应于人体部位；

确定出该当前内窥镜图像所对应的器官类别。

在一个实施例中，该至少一个处理器用于执行下述步骤：

获取针对人体部位的至少一个第一内窥镜图像；

创建用于预测内窥镜图像的深度卷积网络，根据该至少一个第一内窥镜图像和对该至少一个第一内窥镜图像进行变换后的至少一个第二内窥镜图像，确定该深度卷积网络的训练参数。

在一个实施例中，该至少一个处理器用于执行下述步骤：

根据该人体部位的结构以及预设的诊断目标，确定至少一个备选器官类别；

获取每个备选器官类别所对应的标签图像；

将该至少一个第一内窥镜图像和该至少一个第二内窥镜图像作为输入样本，将各个标签图像作为目标输出样本进行训练，得到该训练参数。

在一个实施例中，该深度卷积网络包括输入层、处理层和分类层，该至少一个处理器用于执行下述步骤：

在该处理层中加入至少一个密集连接层，该密集连接层包括多个连接子层；

对于每个连接子层，将处于该连接子层之前的其他连接子层所输出的特征作为该连接子层的输入。

在一个实施例中，该至少一个处理器用于执行下述步骤：

在相邻两个密集连接层之间加入过渡层，根据预设的预测精度设置该过渡层的特征压缩比。

预先构建用于训练该深度卷积网络的损失函数；

在训练该深度卷积网络时，迭代执行如下处理：

获取该处理层处理该至少一个第一内窥镜图像得到的至少一个处理后特征；

根据该至少一个处理后特征以及该至少一个第二内窥镜图像的特征，计算此次迭代时该损失函数的取值；

根据该损失函数的取值确定训练过程是否结束，其中，当确定训练过程结束时，获得该训练参数。

在一个实施例中，在训练该深度卷积网络时，该至少一个处理器用于执行下述步骤：

初始化该至少一个第一内窥镜图像所属器官类别的中心特征；

分别计算各个处理后特征以及各个第二内窥镜图像的特征之间的多个第一距离；

计算各个第一内窥镜图像的特征以及各个第一内窥镜图像对应的中心特征之间的多个第二距离；

根据该多个第一距离和该多个第二距离，计算该损失函数的取值。

在一个实施例中，对该至少一个第一内窥镜图像所做的变换包括剪裁、旋转、亮度抖动、颜色抖动或者对比度抖动中的至少一项。

另外，本发明的每一个实施例可以通过由数据处理设备如计算机执行的数据处理程序来实现。显然，数据处理程序构成了本发明。此外，通常存储在一个存储介质中的数据处理程序通过直接将程序读取出存储介质或者通过将程序安装或复制到数据处理设备的存储设备(如硬盘和或内存)中执行。因此，这样的存储介质也构成了本发明。存储介质可以使用任何类别的记录方式，例如纸张存储介质(如纸带等)、磁存储介质(如软盘、硬盘、闪存等)、光存储介质(如CD-ROM等)、磁光存储介质(如MO等)等。

因此，本发明还公开了一种存储介质，其中存储有数据处理程序，该数据处理程序用于执行本发明上述方法的任何一种实施例。

在一些实施例中，该存储介质可以为一种计算机可读存储介质，存储有计算机可读指令，当该计算机可读指令被至少一个处理器执行时，使得该至少一个处理器可以加载并执行以实现下述步骤：

获取待检用户的当前内窥镜图像；

确定出该当前内窥镜图像所对应的器官类别。

在一个实施例中，该至少一个处理器用于执行下述步骤：

获取针对人体部位的至少一个第一内窥镜图像；

在一个实施例中，该至少一个处理器用于执行下述步骤：

获取每个备选器官类别所对应的标签图像；

在一个实施例中，该至少一个处理器用于执行下述步骤：

预先构建用于训练该深度卷积网络的损失函数；

在训练该深度卷积网络时，迭代执行如下处理：

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

一种内窥镜图像的处理方法，其特征在于，包括：

获取待检用户的当前内窥镜图像；

使用深度卷积网络基于训练参数对所述当前内窥镜图像进行预测，所述训练参数根据至少一个第一内窥镜图像和对所述至少一个第一内窥镜图像进行变换后的至少一个第二内窥镜图像而确定，所述至少一个第一内窥镜图像对应于人体部位；

确定出所述当前内窥镜图像所对应的器官类别。
根据权利要求1所述的方法，其特征在于，所述使用深度卷积网络基于训练参数对所述当前内窥镜图像进行预测之前，所述方法还包括：

获取针对人体部位的至少一个第一内窥镜图像；

创建用于预测内窥镜图像的深度卷积网络，根据所述至少一个第一内窥镜图像和对所述至少一个第一内窥镜图像进行变换后的至少一个第二内窥镜图像，确定所述深度卷积网络的训练参数。
根据权利要求2所述的方法，进一步包括：

根据所述人体部位的结构以及预设的诊断目标，确定至少一个备选器官类别；

获取每个备选器官类别所对应的标签图像；

所述根据所述至少一个第一内窥镜图像和对所述至少一个第一内窥镜图像进行变换后的至少一个第二内窥镜图像，确定所述深度卷积网络的训练参数包括：

将所述至少一个第一内窥镜图像和所述至少一个第二内窥镜图像作为输入样本，将各个标签图像作为目标输出样本进行训练，得到所述训练参数。
根据权利要求2所述的方法，其中，所述深度卷积网络包括输入层、处理层和分类层，所述创建用于预测内窥镜图像的深度卷积网络包括：

在所述处理层中加入至少一个密集连接层，所述密集连接层包括多个连接子层；

对于每个连接子层，将处于该连接子层之前的其他连接子层所输出的特征作为该连接子层的输入。
根据权利要求4所述的方法，其中，所述在所述处理层中加入至少一个密集连接层包括：

在相邻两个密集连接层之间加入过渡层，根据预设的预测精度设置该过渡层的特征压缩比。
根据权利要求2所述的方法，其中，所述深度卷积网络包括输入层、处理层和分类层，所述方法进一步包括：

预先构建用于训练所述深度卷积网络的损失函数；

所述根据所述至少一个第一内窥镜图像和对所述至少一个第一内窥镜图像进行变换后的至少一个第二内窥镜图像，确定所述深度卷积网络的训练参数包括：

在训练所述深度卷积网络时，迭代执行如下处理：

获取所述处理层处理所述至少一个第一内窥镜图像得到的至少一个处理后特征；

根据所述至少一个处理后特征以及所述至少一个第二内窥镜图像的特征，计算此次迭代时所述损失函数的取值；

根据所述损失函数的取值确定训练过程是否结束，其中，当确定训练过程结束时，获得所述训练参数。
根据权利要求6所述的方法，其中，在训练所述深度卷积网络时，所述方法进一步包括：

初始化所述至少一个第一内窥镜图像所属器官类别的中心特征；

所述根据所述至少一个处理后特征以及所述至少一个第二内窥镜图像的特征，计算此次迭代时所述损失函数的取值包括：

分别计算各个处理后特征以及各个第二内窥镜图像的特征之间的多个第一距离；

计算各个第一内窥镜图像的特征以及各个第一内窥镜图像对应的中心特征之间的多个第二距离；

根据所述多个第一距离和所述多个第二距离，计算所述损失函数的取值。
根据权利要求1所述的方法，其中，对所述至少一个第一内窥镜图像所做的变换包括剪裁、旋转、亮度抖动、颜色抖动或者对比度抖动中的至少一项。
一种内窥镜图像处理系统，其特征在于，包括：人体探测设备和内窥镜图像处理装置，其中，

所述人体探测设备用于，对人体部位进行探测，将探测到的至少一个第一内窥镜图像发送给所述内窥镜图像处理装置；

所述内窥镜图像处理装置用于，从所述人体探测设备获取所述至少一个第一内窥镜图像；创建用于预测内窥镜图像的深度卷积网络，根据所述至少一个第一内窥镜图像和对所述至少一个第一内窥镜图像进行变换后的至少一个第二内窥镜图像，确定所述深度卷积网络的训练参数；及，获取待检用户的当前内窥镜图像，使用所述深度卷积网络并基于所述训练参数对所述当前内窥镜图像进行预测，确定出所述当前内窥镜图像所对应的器官类别。
根据权利要求9所述的系统，其中，所述内窥镜图像处理装置进一步用于，根据所述人体部位的结构以及预设的诊断目标，确定至少一个备选器官类别；获取每个备选器官类别所对应的标签图像；将所述至少一个第一内窥镜图像和所述至少一个第二内窥镜图像作为输入样本，将各个标签图像作为目标输出样本进行训练，得到所述训练参数。
根据权利要求9所述的系统，其中，所述深度卷积网络包括输入层、处理层和分类层，所述内窥镜图像处理装置进一步用于，预先构建用于训练所述深度卷积网络的损失函数；在训练所述深度卷积网络时，迭代执行如下处理：获取所述处理层处理所述至少一个第一内窥镜图像得到的至少一个处理后特征；根据所述至少一个处理后特征以及所述至少一个第二内窥镜图像的特征，计算此次迭代时所述损失函数的取值；根据所述损失函数的取值确定训练过程是否结束，其中，当确定训练过程结束时，获得所述训练参数。
根据权利要求11所述的系统，其中，在训练所述深度卷积网络时，所述内窥镜图像处理装置进一步用于，初始化所述至少一个第一内窥镜图像所属器官类别的中心特征；分别计算各个处理后特征以及各个第二内窥镜图像的特征之间的多个第一距离；计算各个第一内窥镜图像的特征以及各个第一内窥镜图像对应的中心特征之间的多个第二距离；根据所述多个第一距离和所述多个第二距离，计算所述损失函数的取值。
一种计算机设备，其特征在于，包括至少一个存储器和至少一个处理器，所述至少一个存储器存储有至少一条程序代码，所述至少一条程序代码由所述至少一个处理器加载并执行以实现下述步骤：

获取待检用户的当前内窥镜图像；

使用深度卷积网络基于训练参数对所述当前内窥镜图像进行预测，所述训练参数根据至少一个第一内窥镜图像和对所述至少一个第一内窥镜图像进行变换后的至少一个第二内窥镜图像而确定，所述至少一个第一内窥镜图像对应于人体部位；

确定出所述当前内窥镜图像所对应的器官类别。
根据权利要求13所述的计算机设备，其特征在于，所述至少一个处理器用于执行下述步骤：

获取针对人体部位的至少一个第一内窥镜图像；

创建用于预测内窥镜图像的深度卷积网络，根据所述至少一个第一内窥镜图像和对所述至少一个第一内窥镜图像进行变换后的至少一个第二内窥镜图像，确定所述深度卷积网络的训练参数。
根据权利要求14所述的计算机设备，其特征在于，所述至少一个处理器用于执行下述步骤：

根据所述人体部位的结构以及预设的诊断目标，确定至少一个备选器官类别；

获取每个备选器官类别所对应的标签图像；

将所述至少一个第一内窥镜图像和所述至少一个第二内窥镜图像作为输入样本，将各个标签图像作为目标输出样本进行训练，得到所述训练参数。
根据权利要求14所述的计算机设备，其特征在于，所述深度卷积网络包括输入层、处理层和分类层，所述至少一个处理器用于执行下述步骤：

在所述处理层中加入至少一个密集连接层，所述密集连接层包括多个连接子层；

对于每个连接子层，将处于该连接子层之前的其他连接子层所输出的特征作为该连接子层的输入。
根据权利要求16所述的计算机设备，其特征在于，所述至少一个处理器用于执行下述步骤：

在相邻两个密集连接层之间加入过渡层，根据预设的预测精度设置该过渡层的特征压缩比。
根据权利要求14所述的计算机设备，其特征在于，所述深度卷积网络包括输入层、处理层和分类层，所述至少一个处理器用于执行下述步骤：

预先构建用于训练所述深度卷积网络的损失函数；

在训练所述深度卷积网络时，迭代执行如下处理：

获取所述处理层处理所述至少一个第一内窥镜图像得到的至少一个处理后特征；

根据所述至少一个处理后特征以及所述至少一个第二内窥镜图像的特征，计算此次迭代时所述损失函数的取值；

根据所述损失函数的取值确定训练过程是否结束，其中，当确定训练过程结束时，获得所述训练参数。
根据权利要求18所述的计算机设备，其特征在于，在训练所述深度卷积网络时，所述至少一个处理器用于执行下述步骤：

初始化所述至少一个第一内窥镜图像所属器官类别的中心特征；

分别计算各个处理后特征以及各个第二内窥镜图像的特征之间的多个第一距离；

计算各个第一内窥镜图像的特征以及各个第一内窥镜图像对应的中心特征之间的多个第二距离；

根据所述多个第一距离和所述多个第二距离，计算所述损失函数的取值。
根据权利要求13所述的计算机设备，其特征在于，对所述至少一个第一内窥镜图像所做的变换包括剪裁、旋转、亮度抖动、颜色抖动或者对比度抖动中的至少一项。