WO2020224470A1

WO2020224470A1 - 医疗内窥镜图像的识别方法、系统和内窥镜影像系统

Info

Publication number: WO2020224470A1
Application number: PCT/CN2020/087184
Authority: WO
Inventors: 章子健; 孙钟前; 付星辉; 尚鸿; 王晓宁; 杨巍
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2019-05-06
Filing date: 2020-04-27
Publication date: 2020-11-12
Also published as: US20210390693A1; US11969145B2; EP3968272A4; CN110136106B; EP3968272A1; CN110490856A; CN110490856B; CN110136106A

Abstract

一种医疗内窥镜图像识别方法、系统、设备和内窥镜影像系统。该方法包括：根据医疗内窥镜视频流获取原始内窥镜图像（310）；通过神经网络过滤原始内窥镜图像，生成目标内窥镜图像（330）；通过神经网络识别目标内窥镜图像对应的器官信息（350）；根据所对应器官信息，通过分类网络识别目标内窥镜图像适用的图像类型（370）；在该图像类型对应的拍摄模式下，根据器官信息指示的部位定位目标内窥镜图像中的病灶区域，并识别病灶区域所属病灶类别（390）。该方法的鲁棒性强，并且该方法为内窥镜拍摄全过程实现分类预测，实现了系统而完整的影像识别。

Description

医疗内窥镜图像的识别方法、系统和内窥镜影像系统

本申请要求于2019年05月06日提交的申请号为201910372711.4、发明名称为“医疗内窥镜图像的识别方法、系统、设备和内窥镜影像系统”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请实施例涉及计算机应用技术领域，特别涉及一种医疗内窥镜图像的识别方法、系统和内窥镜影像系统。

背景技术

基于深度学习所进行的各类别识别，一直以来都是各应用场景下解决大量数据分类的重要工具。例如，在图像、自然语言处理等应用场景中，对大量数据所实现的大规模分类和识别，以此来快速准确的获得相关的分类预测结果，加速所在应用场景的功能实现。

在对图像所进行的分类预测中，所部署的应用场景不同，用于进行分类预测的图像以及进行分类预测的方法也各不相同。以AI(Artificial Intelligence，人工智能)+医疗场景为例，随着内窥镜在消化道内的不断拍摄，形成大量的内窥镜图像，需要借助于分类预测方法对大量的内窥镜图像进行分类和识别。

然而，现有医疗影像的分类预测功能单一，无法适用于产生医疗内窥镜视频流的内窥镜拍摄全过程，并且，由于医疗内窥镜图像的拍摄难免受到内窥镜的切换和晃动影响，且拍摄时内窥镜的镜头也难免会遇到各种液体和异物，使得所得到的内窥镜图像常常会存在大量的干扰和噪声，进而导致鲁棒性差。因此，亟待提供一种对医疗内窥镜图像进行识别的方法和系统，使得消化道的内窥镜拍摄能够适应于拍摄全过程，且鲁棒性较强。

发明内容

为了解决相关技术中医疗影像的分类预测无法适用于医疗内窥镜图像的内窥镜拍摄全过程且鲁棒性差的技术问题，本申请实施例提供一种医疗内窥镜图像的识别方法、系统和内窥镜影像系统医疗内窥镜图像的识别。

一种医疗内窥镜图像的识别方法，所述方法应用于内窥镜影像系统的工作站中，所述方法包括：

根据医疗内窥镜视频流获取原始内窥镜图像；

通过神经网络过滤所述原始内窥镜图像，生成目标内窥镜图像；

通过神经网络的识别所述目标内窥镜图像对应的器官信息；

根据所对应器官信息，通过分类网络识别所述目标内窥镜图像适用的图像类型；

在所述图像类型对应的拍摄模式下，根据所述器官信息指示的部位定位所述目标内窥镜图像中的病灶区域，并识别所述病灶区域所属病灶类别。

一种医疗内窥镜图像的识别系统，所述系统包括：

图像获取模块，用于根据医疗内窥镜视频流获取原始内窥镜图像；

图像过滤模块，用于通过神经网络过滤所述原始内窥镜图像，生成目标内窥镜图像；

器官部位识别模块，用于通过神经网络识别所述目标内窥镜图像对应的器官信息；

图像类型识别模块，用于根据所对应器官信息，通过分类网络识别所述目标内窥镜图像适用的图像类型；

详情识别模块，用于在所述图像类型对应的拍摄模式下，根据所述器官信息指示的部位定位所述目标内窥镜图像中的病灶区域，并识别所述病灶区域所属病灶类别

一种机器设备，包括：

处理器；以及

存储器，所述存储器上存储有计算机可读指令，所述计算机可读指令被所述处理器执行实现上述医疗内窥镜图像的识别方法。

一种存储介质，所述存储介质中存储有至少一条指令，所述至少一条指令由所述处理器加载并执行以实现上述医疗内窥镜图像的识别方法。

一种内窥镜影像系统，包括：

医疗内窥镜视频的显示设备；以及

工作站，所述工作站以内窥镜输出的医疗内窥镜视频流为输入，执行实现上述医疗内窥镜图像的识别方法。

本申请实施例提供的技术方案可以包括以下有益效果：

对给定医疗内窥镜视频流，首先从中获取原始内窥镜图像，然后通过神经网络过滤获取的原始内窥镜图像生成目标内窥镜图像，以此来消除内窥镜在拍摄时发生的切换和晃动、遇到各种液体和异物情况下存在的大量干扰，使得鲁棒性得到增强。

在对原始内窥镜图像过滤之后，便对生成的目标内窥镜图像识别对应的器官信息，由此即可根据对应器官信息通过分类网络来识别目标内窥镜图像适用的图像类型，最后在图像类型对应的拍摄模式下，根据器官信息指示的部位进行病灶区域的定位和所属病灶类别的识别，以此来为消化道所进行的内窥镜拍摄全过程实现分类预测，实现了系统而完整的影像识别。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性的，并不能限制本申请实施例。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请实施例，并于说明书一起用于解释本申请实施例的原理。

图1是根据本申请实施例所涉及的实施环境的示意图；

图2是根据一示例性实施例示出的一种装置的框图；

图3是根据一示例性实施例示出的一种医疗内窥镜图像的识别方法的流程图；

图4是根据图3对应实施例示出的对步骤330进行描述的流程图；

图5是根据图3对应实施例示出的对步骤390进行描述的流程图；

图6是根据图5对应实施例示出的对步骤393进行描述的流程图；

图7是根据图3对应实施例示出的对步骤390进行描述的流程图；

图8是根据图7对应实施例示出的对步骤390进行描述的流程图；

图9是根据图3对应实施例示出的对步骤5003b进行描述的流程图；

图10是根据一示例性实施例示出的对以消化道内窥镜所拍摄低质图像和非低质图像为样本，训练神经网络得到对应低质和非低质两大图像类别输出概率的神经网络步骤进行描述的流程图；

图11是根据一示例性实施例示出的消化道内窥镜拍摄下影像识别的整体架构示意图；

图12是根据一示例性实施例示出的白光拍摄模式下的内窥镜图像示意图；

图13是图12所对应实施例示出的NBI模式下的内窥镜图像示意图；

图14是图12所对应实施例的碘染模式下的内窥镜图像示意图；

图15是根据一示例性实施例示出的一种医疗内窥镜图像的识别系统的框图。

具体实施方式

这里将详细地对示例性实施例执行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请实施例相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请实施例的一些方面相一致的装置和方法的例子。

图1是本申请实施例所涉及实施环境的示意图。在一个示例性实施例中，该实施环境包括内窥镜110、显示设备130和工作站150组成的内窥镜影像系统。内窥镜110作为所进行影像识别的数据来源，随着内窥镜110在消化道内的移动和拍摄，显示设备130将不断进行视频影像显示，即通过内窥镜110拍摄的每一帧内窥镜图像来进行影像显示。

在此基础上，也将通过工作站150对本申请实施例中消化道内窥镜拍摄的影像进行识别，以此来对消化道内窥镜进行检查，以实现系统而全面的分类预测，从而得到内窥镜图像中的病灶区域分布以及所分布病灶区域归属的类别。

工作站150是为内窥镜部署的主机，即微型计算机，其体积可大可小，满足性能上的要求即可。

由此，本申请提供了一种实体医疗设备，即内窥镜影像系统，其至少包括：

医疗内窥镜视频的显示设备；以及

工作站，所述工作站以内窥镜输出的医疗内窥镜视频流为输入，执行如下所述的医疗内窥镜图像的识别方法实施例。

示例性的，内窥镜影像系统中，向工作站所输入的医疗内窥镜视频流可以是内窥镜当前所实时拍摄的，也可以是任意时间所拍摄得到的，在此不进行限定。

在一个示例性实施例中，内窥镜影像系统也包括了内窥镜，所接入的内窥镜将向工作站提供数据源，进而由内窥镜向工作站输入医疗内窥镜视频，进而实现视频影像的实时识别。

图2是根据一示例性实施例示出的一种装置的框图。例如，装置200可以是图1所示实施环境中的工作站150。该工作站150可以是任意形式的微型计算机，只要满足性能上的要求即可。例如，该工作站150可以是一连接内窥镜的主机。

参照图2，装置200至少包括以下组件：处理组件202，存储器204，电源组件206，多媒体组件208，音频组件210，传感器组件214以及通信组件216。

处理组件202通常控制装置200的整体操作，诸如与显示，电话呼叫，数据通信，相机操作以及记录操作相关联的操作等。处理组件202至少包括一个或多个处理器218来执行指令，以完成下述的方法的全部或部分步骤。此外，处理组件202至少包括一个或多个模块，便于处理组件202和其他组件之间的交互。例如，处理组件202可以包括多媒体模块，以方便多媒体组件208和处理组件202之间的交互。

存储器204被配置为存储各种类型的数据以支持在装置200的操作。这些数据的示例包括用于在装置200上操作的任何应用程序或方法的指令。存储器204至少由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(Static Random Access Memory，简称SRAM)，电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，简称EEPROM)，可擦除可编程只读存储器(Erasable Programmable Read Only Memory，简称EPROM)，可编程只读存储器(Programmable Red-Only Memory，简称PROM)，只读存储器(Read-Only Memory，简称ROM)，磁存储器，快闪存储器，磁盘或光盘。存储器204中还存储有一个或多个模块，该一个或多个模块被配置成由该一个或多个处理器218执行，以完成下述图3、图4、图5、图6、图7、图8、图9或图10任一所示方法中的全部或者部分步骤。

电源组件206为装置200的各种组件提供电力。电源组件206至少包括电源管理系统，一个或多个电源，及其他与为装置200生成、管理和分配电力相关联的组件。

多媒体组件208包括在所述装置200和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(Liquid Crystal Display，简称LCD)和触摸面板。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。屏幕还包括有机电致发光显示器(Organic Light Emitting Display，简称OLED)。

音频组件210被配置为输出和/或输入音频信号。例如，音频组件210包括一个麦克风(Microphone，简称MIC)，当装置200处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器204或经由通信组件216发送。在一些实施例中，音频组件210还包括一个扬声器，用于输出音频信号。

传感器组件214包括一个或多个传感器，用于为装置200提供各个方面的状态评估。例如，传感器组件214检测到装置200的打开/关闭状态，组件的相对定位，传感器组件214还检测装置200或装置200一个组件的位置改变以及装置200的温度变化。在一些实施例中，该传感器组件214还包括磁传感器，压力传感器或温度传感器。

通信组件216被配置为便于装置200和其他设备之间有线或无线方式的通信。装置200接入基于通信标准的无线网络，如WiFi(WIreless-Fidelity，无线保真)。在一个示例性实施例中，通信组件216经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，通信组件216还包括近场通信(Near Field Communication，简称NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(Radio Frequency Identification，简称RFID)技术，红外数据协会(Infrared Data Association，简称IrDA)技术，超宽带(Ultra Wideband，简称UWB)技术，蓝牙技术和其他技术来实现。

在示例性实施例中，装置200被一个或多个应用专用集成电路(Application Specific Integrated Circuit，简称ASIC)、数字信号处理器、数字信号处理设备、可编程逻辑器件、现场可编程门阵列、控制器、微控制器、微处理器或其他电子元件实现，用于执行下述方法。

图3是根据一示例性实施例示出的一种医疗内窥镜图像的识别方法的流程图，以图1所示的工作站执行该方法为例。在一个示例性实施例中，该医疗内窥镜图像的识别方法，如图3所示，至少包括以下步骤。

在步骤310中，根据医疗内窥镜视频流获取原始内窥镜图像。

其中，医疗内窥镜视频流是在医疗环境，例如医院真实使用环境下，经由内窥镜所拍摄的视频流。在内窥镜的移动和拍摄下，医疗内窥镜视频流将呈现内窥镜的镜头捕获的视频内窥。因此，可根据医疗内窥镜视频流，获取一帧帧原始内窥镜图像。由于每一帧原始内窥镜图像均描绘了内窥镜在一时间点所拍摄的视频内窥，因此，基于每一帧原始内窥镜图像，能够进行医疗内窥镜图像的识别。

可以理解的，在所实现的医疗内窥镜图像识别中，内窥镜在生物体，例如人体内部拍摄医疗内窥镜视频流。示例性的，内窥镜在与外界相通的腔道或密闭体腔拍摄医疗内窥镜视频流。例如，所指的与外界相通的腔道可以是消化道、呼吸道、泌尿道等，密闭体腔可以是胸腔、腹腔、关节腔等需要通过切口来送入内窥镜的腔体。通过内窥镜进行医疗内窥镜视频流的拍摄和识别，能够获知相应腔道内的器官状况。

在使用内窥镜检查腔道的过程中，获取的医疗内窥镜视频流被接入工作站进行医疗内窥镜图像的识别。除此之外，还可将之前所获取的医疗内窥镜视频流，例如，历史医疗内窥镜视频流进行医疗内窥镜图像的识别。也即是，可基于实时拍摄的图像进行识别，还可以基于存储的大量医疗内窥镜视频流进行识别。下面将以内窥镜在消化道中实时拍摄得到的医疗视频流为例进行详细说明。

在使用内窥镜检查消化道的过程中，所获取的医疗内窥镜视频流被接入至工作站，从当前的消化道影像获取所对应的原始内窥镜图像，进而基于原始内窥镜图像进行实时识别。

可以理解的，内窥镜影像系统的显示设备130所显示的当前影像即为消化道影像。随着内窥镜在消化道内的移动和拍摄，显示设备130通过接入的医疗内窥镜视频流进行着消化道影像的视频显示，此时，对当前影像获取影像识别所需要的原始内窥镜图像。原始内窥镜图像是在内窥镜拍摄下直接获得的原始图像，将以此为基础进行医疗内窥镜图像的识别。

在一个示例性实施例中，步骤310包括：随着内窥镜在腔道或密闭体腔内的移动和拍摄，从接入的医疗内窥镜视频流中获取原始内窥镜图像。

其中，与外界相通的腔道和密闭腔道内部都并非只有单一器官，以消化道为例，消化道包括着多个子器官，例如，胃部、食管、咽部和十二指肠。在对消化道进行的检查中，内窥镜在消化道内移动且不断进行拍摄，以此来获取所在子器官相关的视频流。与之相对应的，构成此视频流的原始内窥镜图像便是内窥镜所在子器官相关的图像，描述了所在子器官的状态。

应当说明的是，在对腔道进行的检查时，随着内窥镜移动且不断拍摄，内窥镜对所处子器官进行的拍摄并不限于单张原始内窥镜图像，也就是说，获取得到的多张原始内窥镜图像都对应于一子器官，因此，后续以原始内窥镜图像为输入所进行的医疗内窥镜图像识别，实际上是对内窥镜所在的子器官进行分类预测。

在另一个示例性实施例中，输入的医疗内窥镜视频流并非实时所拍摄得到，即基于存储的医疗内窥镜视频流进行本申请实施例所述的医疗内窥镜图像的识别，在此场景下，该步骤310包括：

获取存储的医疗内窥镜视频流；

从医疗内窥镜视频流中获取原始内窥镜图像，该原始内窥镜图像用于识别内窥镜所拍摄腔道或密闭体腔中存在的病灶区域，并识别病灶区域所属病灶类别。

其中，对存储的医疗内窥镜视频流，采用本申请实施例提供的医疗内窥镜图像的识别方法逐一进行识别，从而识别出原始内窥镜图像所相关器官部位的病灶区域和病灶类别，以实现大量历史医疗内窥镜视频流的处理。

在此示例性实施例中，不再由内窥镜的输出而获取医疗内窥镜视频流，而是获取存储的医疗内窥镜视频流，进而从中获得原始内窥镜图像。

通过此示例性实施例的实现，使得大量存储的医疗内窥镜视频流也能够得到识别，进而便于进行医学研究，为真实的医疗环境提供了自动化的视频影像识别。

在步骤330中，通过神经网络过滤原始内窥镜图像，生成目标内窥镜图像。

其中，首先应当说明的是，对于从医疗内窥镜视频流中获取的原始内窥镜图像，都需要进行过滤，以过滤掉图像中存在的干扰。可以理解的，从医疗内窥镜视频流中获取的大量原始内窥镜图像，并非所有原始内窥镜图像都能够用于医疗内窥镜图像的识别，有的原始内窥镜图像由于拍摄时各种因素影响导致无法用于识别，这些图像将作为干扰存在，因此需要过滤掉。

例如，内窥镜发生切换、晃动或切换及晃动时拍摄所得到的原始内窥镜图像，以及拍摄时镜头遇到各种液体和异物所得到的原始内窥镜图像等，这些原始内窥镜图像为低质图像，对于所进行的识别而言，都是干扰的存在，需要通过神经网络识别并过滤掉。

具体而言，将通过神经网络对获取得到的原始内窥镜图像进行是否为低质图像的识别，将属于低质图像的内窥镜图像过滤掉。与之相对应的，所使用的神经网络，便是以低质图像作为样本而训练得到的。

在内窥镜实际使用过程中，内窥镜在消化道内难免经常切换和晃动，并且拍摄镜头也难免会遇到各种液体和异物，因此，所拍摄得到的原始内窥镜图像中存在着大量的低质、噪音图像，对步骤310获取的原始内窥镜图像经由神经网络进行低质图像的识别和过滤，将屏蔽了低质图像对影像识别的影响，进而大幅提高了鲁棒性。此外，由于通过低质图像的识别和过滤，将无用、不必要的图像提前过滤掉了，减少了后续步骤执行中耗费的计算资源，故能够有效提高速度和实时性。

对原始内窥镜图像进行的低质图像识别，是通过训练的神经网络实现的。而此神经网络则是根据属于低质图像的内窥镜图像样本以及属于非低质图像的内窥镜图像样训练的，所训练的神经网络能够对所输入原始内窥镜图像输出其属于低质图像的概率以及属于非低质图像的概率，进而最终确认此原始内窥镜图像是低质图像还是非低质图像，将确认为低质图像的原始内窥镜图像过滤掉，不再采用后续步骤进行处理。

对获取的若干原始内窥镜图像都通过神经网络对低质图像进行识别，以此来过滤掉所获取的若干原始内窥镜图像中包含的低质图像，完成低质图像的过滤，生成目标内窥镜图像，从而对进入的器官部位进行识别。

在一个示例性实施例中，所输入神经网络进行低质图像识别的原始内窥镜图像必须是与神经网络相适应的，以此来保证实际预测的一致性和准确性，因此，在执行低质图像的预测之前，还需对原始内窥镜图像执行预处理，例如，尺寸调整和裁剪等，以此来获取尺寸适用于神经网络的原始内窥镜图像。

目标内窥镜图像是原始视频图像中剔除了低质图像后余下的其它原始内窥镜图像。至此，通过对原始内窥镜图像进行过滤，所生成的目标内窥镜图像能够屏蔽干扰，减小数据量，同时也能增强识别的精准性。

应当理解，在对原始内窥镜图像过滤时，用于训练神经网络的低质图像和非低质图像，作为原始内窥镜图像的两大类是相对而言的，对于所要求的不同过滤精度，同一原始内窥镜图像可能为低质图像，也可能为非低质图像。

在步骤350中，通过神经网络识别目标内窥镜图像对应的器官信息。

其中，随着内窥镜在腔道内的移动和不断拍摄，内窥镜虽处于腔道，例如消化道的某一子器官上，但是，内窥镜并不会输出自身所处的器官部位，往往需要采用人工方式通过内窥镜图像的查看进行识别，以便于在获知内窥镜所处器官部位的前提下，针对于所处的器官部位实现内窥镜图像的精准分类预测。

而在本示例性实施例所实现的识别中，则是通过对过滤低质图像生成的目标内窥镜图像，识别内窥镜当前所处消化道部位，即识别得到目标内窥镜图像对应的器官信息，该器官信息指示了内窥镜拍摄目标内窥镜图像时在腔道所处的器官部位。

在一个示例性实施例中，对目标内窥镜图像所进行的器官信息识别，也是通过构建的神经网络实现的，以目标内窥镜图像为输入，输出内窥镜拍摄此目标内窥镜图像时所处的器官信息。

具体而言，以消化道为例，所构建的神经网络可以是四分类网络。适配于消化道上的子器官，即胃部、食管、咽部和十二指肠，预构建四分类网络，以通过对目标内窥镜图像进行识别，识别出内窥镜所处的器官位置。

与之相对应的，四分类网络是通过标注了所对应消化道部位，即消化道上的子器官的原始内窥镜图像训练得到的。与消化道部位相适应的四分类网络执行内窥镜当前所处消化道部位的识别，用于网络训练的内窥镜图像，即四分类网络样本是覆盖了所有消化道部位的，因此不再限于单一子器官的识别，增强了消化道上内窥镜拍摄的影像识别性能。

在步骤370中，根据所对应器官信息，通过分类网络识别目标内窥镜图像适用的图像类型。

其中，在通过前述步骤的执行，对目标内窥镜图像完成了所处器官部位的定位及器官信息的识别，之后即可根据器官信息，对目标内窥镜图像进行拍摄模式的切换。

目标内窥镜图像所适用的图像类型，是指最能增强目标内窥镜图像中图像内窥的图像类型。通过对图像类型进行识别，能够为目标内窥镜图像确定其最为适用的拍摄模式，即以图像类型为依据，切换该图像类型对应的拍摄模式。

示例性的，目标内窥镜图像所适用图像类型的识别，将通过分类网络实现。在一个示例性实施例中，与图像类型划分相对应的，该分类网络可以是三分类网络，即划分为三种图像类型，进而对这三种图像类型实现目标内窥镜图像识别的分类网络。

应当理解的，不同的拍摄模式对应着不同的图像类型，因此，在拍摄模式设定为三种，即白光、NBI(Narrow Band Imaging，内镜窄带成像)和碘染三种模式时，便对应存在着三种图像类型，因此，可通过图像类型的识别来确定目标内窥镜图像中的图像内容所适用的拍摄模式，即识别图像类型对应的拍摄模式。

举例说明的，根据器官信息所指示的消化道部位，以及目标内窥镜图像中存在可疑病灶或者病变区域的图像内容，经由神经网络的识别，得到此目标内窥镜图像应当为NBI对应的图像类型，此图像类型对应于NBI的拍摄模式。

在步骤390中，在该图像类型对应的拍摄模式下，根据器官信息指示的部位定位目标内窥镜图像中的病灶区域，并识别病灶区域所属病灶类别。

其中，在通过前述步骤的执行，获知内窥镜拍摄目标内窥镜图像时所处的子器官，即所处的器官部位之后，就能够为该子器官对应的目标内窥镜图像获取所适应拍摄模式下的目标内窥镜图像，从而在此基础之上实现病灶区域的定位和该病灶区域所属病灶类别的识别。

应当说明的是，器官信息所指示的器官部位与多张目标内窥镜图像对应，因而可从该器官部位上拍摄得到的多张目标内窥镜图像中，获取适应拍摄模式的目标内窥镜图像，进而为此器官部位在目标内窥镜图像上定位病灶区域并识别病灶区域所属病灶类别。

拍摄模式是针对于对器官部位成像的目标内窥镜图像而言的。示例性的，拍摄模式包括成像类型和染色类型等，例如，拍摄模式包括白光、NBI和碘染三种模式。对于器官部位的成像而言，目标内窥镜图像上不同的病灶状况将适用于不同的拍摄模式。

比如，在一般情况下采用白光模式，发现器官部位上存在可疑病灶、病变区域时，将白光模式切换为NBI模式。由于不同拍摄模式下的目标内窥镜图像，所对应的图像色彩、纹路和细节差异巨大，通过对拍摄模式进行切换，能够更精准地定位病灶区域，从而识别出病灶区域所属的病灶类别。

在对目标内窥镜图像识别得到其所适应的图像类型之后，根据识别得到的图像类型确定对应的拍摄模式，进而直接将目标内窥镜图像切换为确定的拍摄模式，由此获取内窥镜当前所处器官部位所适应拍摄模式下的目标内窥镜图像，进而增强了目标内窥镜图像表现图像内容的精准性。通过此示例性实施例，对目标内窥镜图像进行拍摄模式的动态调整，进而增强了影像识别的准确率。

在内窥镜当前所处器官部位所适应拍摄模式下，通过对目标内窥镜图像进行病灶区域的定位和所属病灶类别的识别，极大地提升了系统性能和识别结果的准确率。

通过前述步骤350的执行获取了器官信息，该器官信息与已经过滤了低质图像的目标内窥镜图像对应，基于该器官信息，能够在所适应模式下，对目标内窥镜图像进行病灶区域的定位和所属病灶类别的识别。器官信息所对应的已经过滤了低质图像的目标内窥镜图像，具有以下两方面的含义，一方面，过滤了低质图像的目标内窥镜图像就已经与当前所处消化道部位所适应的拍摄模式相适配，例如，所适应的拍摄模式为白光模式，而过滤了低质图像的目标内窥镜图像是对应于白光模式的，与所需要使用的拍摄模式相一致；另一方面，过滤了低质图像的目标内窥镜图像，其拍摄模式与当前所处器官部位适应的拍摄模式不相适配，例如，内窥镜图像使用的拍摄模式为白光模式，而所需要使用的拍摄模式为NBI模式，因此，需要对目标内窥镜图像进行拍摄模式切换。

示例性的，所进行的病灶区域定位和所属病灶类别识别，都将通过深度学习网络实现。其中，病灶区域的定位可采用定位检测网络，例如，端到端的实时目标定位网络YOLO(You Only Look Once，一种用于目标检测的深度学习网络)，也可采用其他检测网络(如FasterRCNN)；病灶类别的识别则采用分类网络实现，此分类网络可以是深度卷积网络(Densely Connected Convolutional，简称DenseNet)。

应当进一步说明的是，为病灶区域定位部署的定位检测网络，可统一部署，即不同器官采用相同的定位检测网络，也可按所对应的器官信息，即消化道部位分开部署，而为病灶类别识别所部署的分类网络也是如此，根据实验效果决定即可。如若按照消化道部位分开部署，仅需要分开进行深度学习网络的训练即可。

通过如上所述的示例性实施例，得以实现了一套完整可用、鲁棒性强的医疗内窥镜图像识别系统，进而全方位地辅助医生诊断，提高了诊断效率。病灶区域的定位和所定位病灶区域所属病灶类别的识别，有效的避免了内窥镜的消化道检查的漏诊，有效辅助医生实时判别病灶性质，提升了判别的准确率。

此外，采用神经网络对内窥镜图像进行低质图像的过滤，有效的提高了抗噪能力，系统可用性也得到提升。

上述示例性实施例所述的医疗内窥镜图像识别，由于是借助于深度学习所实现的，不再需要人工介入去深刻理解医疗图像，也不需要人工制定特征抽取方案，避免了特征抽取不全面而导致的遗漏和错判。

图4是根据图3对应实施例示出的对步骤330进行描述的流程图。在一个示例性实施例中，步骤330，如图4所示，至少包括以下步骤。

在步骤331中，按照设定尺寸，对原始内窥镜图像进行处理，生成标准内窥镜图像。

其中，标准内窥镜图像相对即将输入的神经网络而言，是适配于神经网络所要求尺寸的内窥镜图像。对于面向原始内窥镜图像进行的低质图像识别和过滤，首先需要进行数据预处理，即调整所获取原始内窥镜图像的尺寸，使得生成的标准内窥镜图像能够适应于神经网络的输入，并且保证一致性。

具体的，按照设定尺寸，对原始内窥镜图像进行处理的过程包括：先执行resize操作，再采用图像缩放方法，例如，center crop方法(圆角栽剪方法)来进行裁剪，得到设定尺寸的标准内窥镜图像。

resize操作为对原始内窥镜图像的调整操作，示例性的，resize操作的执行过程可以是：保持长宽比，短边缩放到224像素，长边可大于或等于224像素。center crop方法的执行过程可以是：以原始内窥镜图像的长边为基准，裁剪出原始内窥镜图像的中心区域，使长边变为224，进而得到一张与设定尺寸相符的标准内窥镜图像，保证网络预测的一致性。

在步骤333中，对标准内窥镜图像，通过神经网络进行低质图像和非低质图像的预测，低质图像是存在干扰的标准内窥镜图像。

其中，在医院真实使用环境中，低质图像类型繁多，有模糊、色彩异常、过曝等不合格图像。基于这些不合格图像，将采用神经网络来实现分类任务，进而对标准内窥镜图像实现低质图像的过滤。示例性的，神经网络可以是深度卷积神经网络，例如Densenet。

以处理为设定尺寸的标准内窥镜图像为输入，通过训练的神经网络进行低质图像和非低质图像的预测，从而由神经网络输出标准内窥镜图像为低质图像的概率和内窥镜图像为非低质图像的概率，最终以此来确定标准内窥镜图像是归属于低质图像还是非低质图像，从而得到目标内窥镜图像。在此示例性实施例中，与之相对应的，目标内窥镜图像是适应于神经网络而对原始内窥镜图像进行了尺寸处理的内窥镜图像。

所训练的神经网络，是将大量原始内窥镜图像划分为低质图像和非低质图像之后执行网络训练过程所构建的。在一个示例性实施例中，作为样本的大量原始内窥镜图像可通过对已有原始内窥镜图像扩充得到，进而为神经网络的训练提供更多的样本。

在步骤335中，过滤归属于低质图像的标准内窥镜图像，得到目标内窥镜图像。

其中，从医疗内窥镜视频流获取的原始内窥镜图像经过如上所述的步骤处理和预测之后，即可确定这些原始内窥镜图像中对应于低质图像的内窥镜图像，此时，将归属于低质图像的原始内窥镜图像过滤掉即可，有效的避免了无用不必要的图像进入后续的医疗内窥镜图像识别过程。

通过如上所述的示例性实施例，为医疗内窥镜图像识别实现了低质图像的识别和过滤，进而得以实际应用于真实的生产环境，即医院中，不再受到内窥镜在腔道内的切换和晃动影响，也不会被内窥镜在腔道内遇到的各种液体和异物影响。

图5是根据图3对应实施例示出的对步骤390进行描述的流程图。在一个示例性实施例，如图5所示，该步骤390包括：

在步骤391中，检测图像类型对应拍摄模式下的目标内窥镜图像中的异物，得到分布于目标内窥镜图像的异物框，异物框用于指示目标内窥镜图像中存在异物的区域。

在步骤393中，根据异物框过滤目标内窥镜图像，未过滤掉的目标内窥镜图像用于定位病灶区域，并识别病灶区域所属病灶类别。

其中，对所适应图像类型对应拍摄模式下的目标内窥镜图像，在进行病灶区域定位和所属病灶类别识别之前，还将进行目标内窥镜图像中的异物检测和定位，以便于将目标内窥镜图像中影响图像内容的异物过滤掉。

应当理解的，以消化道为例，消化道中食管、胃部等往往存在着特有的术中仪器、唾沫等异物，而内窥镜在消化道中拍摄的目标内窥镜图像的图像内容大都是含有术中仪器和唾沫等异物，因此，不能直接过滤掉检测出异物的目标内窥镜图像。

此时，有必要根据异物在目标内窥镜图像中的分布，评估存在的异物是否会干扰目标内窥镜图像后续进行的病灶区域定位，通过过滤掉异物干扰性强的目标内窥镜图像，提升了系统的抗噪能力，增强了影像识别的可用性。

具体而言，异物的检测是面向于所适应拍摄模式的目标内窥镜图像，对此目标内窥镜图像借助于神经网络检测图像内容中存在的异物，获取在此目标内窥镜图像上定位的异物框。

异物框用于指示目标内窥镜图像中异物所占据的区域，应当理解的，异物框标示了目标内窥镜图像中异物的分布，异物框实质为术中仪器所占据的区域或者唾沫所占据的区域。

通过进行的异物检测，对于获取的分布于目标内窥镜图像上的异物框，将以坐标形式进行表征，此过程通过神经网络实现了目标的检测，并且在神经网络的作用下，除了输出表征异物框的坐标之外，还输出此异物框对应于异物的置信度，即概率。

示例性的，对于一异物，如果该异物对应的异物框为正方形的框，则该异物的坐标可由该正方形的框确定，可包括x _min、y _min、x _max和y _max四个坐标信息。

在对目标内窥镜图像进行异物检测得到分布于目标内窥镜图像中的异物框之后，即可由目标内窥镜图像中分布的异物框来评估是否过滤掉目标内窥镜图像，以屏蔽过多异物所造成的干扰。

在一个示例性实施例中，步骤391包括：将图像类型对应拍摄模式下的目标内窥镜图像输入到神经网络中，通过神经网络进行目标检测，输出异物框对应的坐标和置信度，其中，坐标用于指示目标内窥镜图像中异物框的分布。

其中，检测异物的神经网络可为YOLO定位网络，也可采用其它深度检测网络，在此不进行限定。通过部署的神经网络，利用整张目标内窥镜图像为输入，在输出层回归异物框的位置，即坐标以及所属的类别，此类别即为异物。也就是说，神经网络输出的置信度表征了所定位异物框对应于异物的可能性。

进一步的，在一个示例性实施例中，图6是根据图5对应实施例示出的对步骤393进行描述的流程图。该步骤393如图6所示，包括：

在步骤401中，根据目标内窥镜图像中异物框对应的坐标和置信度，确定目标内窥镜图像中异物占据的面积的面积比例因子。

其中，通过进行异物检测得到目标内窥镜图像中异物框对应的坐标和置信度之后，根据坐标和置信度，计算出所有异物在目标内窥镜图像上的面积比例因子。

示例性的，首先根据坐标来计算出异物框面积S _i，该异物框面积为一异物所占据的面积，然后以对应的置信度P _i为系数修正异物框面积，即P _iS _i，最后将所有异物框修正的异物框面积加起来，即对各个异物框的面积P _iS _i求和，并与目标内窥镜图像的总面积进行比例计算，最终得到目标内窥镜图像中异物占据的面积的面积比例因子。

在一个示例性实施例中，目标内窥镜图像对应的面积比例因子，可以通过下述公式进行计算，即：

其中，f为面积比例因子，H为目标内窥镜图像的高度，W为目标内窥镜图像的宽度，i为异物框的标识，i的取值大于等于1，P _i是第i个异物框的置信度，即P _i＝confidence，S _i是第i个异物框的面积，S _i＝(x _maxi-x _mini)*(y _maxi-y _mini)。

在步骤403中，根据面积比例因子确定异物对目标内窥镜图像的干扰，过滤发生异物干扰的目标内窥镜图像。

其中，在计算得到目标内窥镜图像中异物所占据的面积的面积比例因子之后，即可根据面积比例因子的数值大小来确定异物对目标内窥镜图像的干扰。可以理解的，面积比例因子的数值越大，则对目标内窥镜图像的干扰越大，面积比例因子的数值越小，对目标内窥镜图像的干扰则越为细微，越不会对目标内窥镜图像后续所进行的病灶区域定位和所属类别识别造成影响。

由此，将过滤掉面积比例因子较大的目标内窥镜图像，这些图像便视为是发生异物干扰的目标内窥镜图像。

在一个示例性实施例中，首先设定一阈值f ₀，默认的，f ₀的取值可为0.1。当f大于阈值f ₀时，确定该目标内窥镜图像是发生异物干扰的目标内窥镜图像，需要将此目标内窥镜图像过滤掉。

当f小于阈值f ₀时，继续对目标内窥镜图像执行病灶区域的定位和所定位病灶区域的病灶类别识别。

通过此示例性实施例，得以实现了异物定位和抗干扰，进而解决消化道中食管、胃部等特有的术中仪器、唾沫等异物问题，降低异物的存在对所进行影像识别的影响。

图7是根据图3对应实施例示出的对步骤390进行描述的流程图。在一个示例性实施例中，如图6所示，步骤390至少包括：

在步骤501a中，检测目标内窥镜图像的图像类型。

在步骤503a中，在图像类型与识别的图像类型不符时，按照所识别图像类型对应的拍摄模式，切换目标内窥镜图像的拍摄模式，以获取图像类型对应拍摄模式下的目标内窥镜图像。

其中，在识别得到目标内窥镜图像适用的图像类型之后，即可根据目标内窥镜图像的图像类型评估是否进行拍摄模式的切换，以保证目标内窥镜图像的拍摄模式是合适的。

具体的，仅在目标内窥镜图像的图像类型与识别得到的图像类型并不相符时，对目标内窥镜图像进行拍摄模式的切换，以此来获取目标内窥镜图像所适应图像类型对应拍摄模式下的目标内窥镜图像。

图8是根据图3对应实施例示出的对步骤390进行描述的流程图。在一个示例性实施例中，如图8所示的，步骤390包括：

在步骤501b中，对图像类型对应拍摄模式下的目标内窥镜图像，采用定位检测网络各层不断进行特征提取，直至最终回归得目标内窥镜图像中的病灶区域。

在步骤503b中，通过分类网络对目标内窥镜图像中病灶区域的病灶性质进行分类，得到病灶区域归属的病灶类别。

其中，定位检测网络用于对目标内窥镜图像执行目标检测，以实现目标内窥镜图像中的病灶定位，进而输出病灶区域的二维坐标。示例性的，定位检测网络为端到端的实时目标检测算法，即YOLO，以满足影像识别的实时性要求，除此之外，定位检测网络也可采用其他检测网络代替，例如，FasterRCNN。

通过定位检测网络各层不断进行特征提取，来回归得到的目标内窥镜图像中的病灶区域，此过程获取的特征更多，也将更为全面，以此来避免特征抽取不全面，以及由此导致的遗漏和错判。

在一个示例性实施例中，定位检测得到的病灶区域将以二维坐标的形式表征，即定位检测网络最终输出二维坐标，此二维坐标用于在目标内窥镜图像上定位病灶区域。

例如，YOLO对病灶区域的定位问题，即为提取图像bounding boxes和类别概率的回归问题。在此，通过网络中各层不断的提取出特征，最后回归出二维坐标和概率，由此在保证检测实时性的同时，提高了定位的准确率。

对于用于实现病灶区域定位的定位检测网络，在一个示例性实施例中，将使用开源的图像数据集进行网络训练，以此来获取每个网络层的参数和权重数值，例如，可以获取卷积层的参数和权重数值，进而构建更加具有泛化性能的定位检测网络。开源图像数据集的数据量在百万以上，采用开源数据集训练定位检测网络能够避免过拟合的发生，使得网络训练能够更好的收敛到最优点。

此外，进一步的，在定位检测网络的训练过程中也将加入低质图像，即基于低质的内窥镜图像训练定位检测网络，以此增强定位检测网络的鲁棒性和抗噪能力，降低假阳性比例。

定位了病灶区域之后，便可执行此病灶区域归属的病灶类别的识别。示例性的，所类别可以包括：正常、癌前病变、早癌、进展期癌、炎性病变以及其它病变等，在此不进行限定。

一示例性实施例中，实现病灶类别识别的分类网络可基于Densenet，分类网络的输入为目标内窥镜图像中的一块病灶区域，输出即为该病灶区域对应的病灶类别。

至此，通过进行病灶区域的定位和病灶类别的识别，得以实现了一套完整可用的影像识别方案，不再仅限于单一功能，保证了所支持功能的全面性。

图9是根据图8对应实施例示出的对步骤503b进行描述的流程图。在一个示例性实施例中，如图10所示，该步骤503b包括：

在步骤601中，外扩目标内窥镜图像中的病灶区域，得到病灶区域对应的外扩区域。

其中，可以理解的，目标内窥镜图像中定位的病灶区域，相互之间大小并不一致，对于每一病灶区域，都将首先进行病灶区域的外扩，从而得到每一进行病灶类别识别的病灶区域获对应的外扩区域。

通过进行区域外扩，确保了用于识别的病灶区域能够得到一定的上下文语义信息。病灶区域周围一般都会有与病变相关的特征，也就是说，病灶并不是严格具备边界的，病变是一个渐变过程，因此，通过进行区域外扩，能够提供给分类网络更多的信息进行学习，避免遗漏有用的边界信息。

在一示例性实施例中，病灶区域的外扩是对此病灶区域向上下左右外扩设定比例的过程。例如，对病灶区域向上下左右外扩10％。

在步骤603中，预处理外扩区域，使外扩区域归一化为符合输入尺寸的分类网络输入图像。

对外扩区域进行预处理使得外扩区域归一化为输入尺寸的图像，以此来保证分类网络的输入能够得到满足。

在一个示例性实施例中，预处理过程包括采用center crop方法的执行过程。而与之对应的分类网络训练过程，则需要通过数据增强方法来实现分类网络输入图像的预处理，以此来扩充样本。

在步骤605中，采用分类网络对输入图像进行所属病灶类别的网络预测，得到内窥镜图像中对应病灶区域归属的病灶类别。

通过前述步骤得到包含上下文信息的外扩区域的图像后，将该图像输入到分类网络中，即可在分类网络中对相应的病灶区域进行所属病灶类别的网络预测，以此类推，可对内窥镜图像包含病灶区域归属的病灶类别进行识别。

示例性的，用于实现类别识别的分类网络可以为Densenet模型，该分类网络输出的病灶类别可为六类，即正常、癌前病变、早癌、进展期癌、炎性病变以及其它病变，分类网络实际上为一六分类网络。

通过对目标内窥镜图像中病灶区域所归属类别进行识别，可在内窥镜的消化道检查过程中通过影像识别实时输出消化道病灶的具体性质，进而实时辅助医生进行消化道内镜影像的诊断。

在一个示例性实施例中，医疗内窥镜图像的识别方法，还包括：

以内窥镜所拍摄低质图像和非低质图像为样本，训练神经网络得到对应低质和非低质两大图像类别输出概率的神经网络，该神经网络用于生成目标内窥镜图像，与前述描述相对应的，此内窥镜图像可为原始内窥镜图像，也可为经过适配于神经网络尺寸处理的标准内窥镜图像，在此不进行限定。

其中，正如前述所描述的，对于从医疗内窥镜视频流中获取的原始内窥镜图像，通过训练的神经网络识别其是否为低质图像，进而将对应于低质图像的内窥镜图像过滤掉，避免无用且会影响处理效率的噪声出现。

图10是根据一示例性实施例示出的对以内窥镜所拍摄低质图像和非低质图像为样本，训练神经网络得到对应低质和非低质两大图像类别输出概率的神经网络步骤进行描述的流程图。在一个示例性实施例中，该步骤如图10所示，包括：

在步骤801中，对内窥镜所拍摄的作为样本的低质图像和非低质图像进行固定尺寸调整。

在步骤803中，将调整为固定尺寸的低质图像和非低质图像进行数据增强处理，得到符合神经网络输入尺寸的样本图像。

在步骤805中，以样本图像为输入，执行神经网络的网络训练过程。

其中，首先应当说明的是，用于识别低质图像的神经网络，其样本包括内窥镜拍摄的低质图像和非低质图像，但并不限于内窥镜所拍摄的低质图像和非低图像，还包括由所拍摄低质图像和非低质图像扩充的图像，以此来形成对神经网络输入的样本图像。

内窥镜拍摄的低质图像和非低质图像，并非是一次内窥镜检查拍摄的，而是通过各种方式广泛获得的内窥镜图像。

对于网络训练过程而言，通过大规模样本的输入而得到每一网络层的参数、权重数值，并且样本的数据量大小，也将决定着所训练神经网络的泛化性能和分类的精准性，因此，对于内窥镜拍摄的作为样本的低质图像和非低质图像而言，在按照神经网络的输入要求进行尺寸调整的同时，也需要不断扩充样本的数据量，即通过对完成了尺寸调整的图像执行数据增强处理，来获取更多的样本图像。

对于所进行的固定尺寸调整，即为将图像调整为固定大小的过程，例如，将图像调整到227*227像素的过程。而数据增强处理，则是采用随机裁剪等方法进行数据预处理，并结合随机旋转、亮度、颜色、对比度随机抖动等一系列操作，对低质图像和非低质图像进行固定尺寸调整和数据增强处理，可以分别获取各式各样的图像，例如，不同角度的图像等，以此来增强泛化性能，防止过拟合现象的发生。

对每一幅低质图像和非低质图像进行数据增强处理，以将一幅图像变为多幅图像，进而一并形成符合神经网络输入尺寸的样本图像。

通过此示例性实施例，能够为网络训练过程扩充样本数据，在已有内窥镜拍摄的低质图像和非低质图像的基础之上，得以提供充分的样本数据，以实现能够收敛至最优点的网络训练过程。

通过如上所述的示例性实施例，将对内窥镜拍摄实时进行基于每一原始内窥镜图像的影像识别，具备实时性的同时，能够实现内窥镜检查中病灶的准确快速捕捉。

现以执行消化道内窥镜检查的角度，结合上述方法实现进行阐述。

医生使用内窥镜检查消化道的过程中，接入视频流，即消化道的医疗内窥镜视频流，在同步进行当前影像显示的同时，相应获取原始内窥镜图像。

此时，将对此原始内窥镜图像执行低质图像识别过滤、消化道部位定位、病灶区域定位和类别识别的一系列过程，以此不断在进行的内窥镜检查中提供实时精准的辅助，快速的为内窥镜的消化道拍摄过程大量原始内窥镜图像的产生提供全面而准确的处理，使得大量医疗影像的产生不再成为消化道内窥镜检查的瓶颈。

具体的，图11是根据一示例性实施例示出的消化道内窥镜拍摄下影像识别的整体架构示意图。在一示例性实施例的应用中，如图11所示的，在采用内窥镜对消化道拍摄过程中，随着内窥镜在消化道内的移动和拍摄，输出消化道的医疗内窥镜视频流。

对于消化道的医疗内窥镜视频流，首先执行步骤910来对每一幅原始内窥镜图像进行低质图像的识别过滤，以此来剔除属于低质图像的原始内窥镜图像，生成目标内窥镜图像。

在此，应当进一步指出的是，低质图像的识别过滤作为分类任务，可选择Densenet构建所使用的神经网络，并且在此神经网络的执行过程中，通过数据增强方法来进行样本的处理，但是对于网络预测过程，则不再执行数据增强方法，而仅通过单一的裁剪方法，例如center crop方法来保证一致性即可，以避免数据增强处理所带来的耗时增加，进而保证实时性。

经由步骤910进行低质图像的过滤，有效剔除了原始内窥镜图像中存在的低质图像，从而使得非低质图像能够进行后续的影像识别过程。

对目标内窥镜图像，执行步骤920来进行器官部位识别。而器官部位识别作为分类任务，也可选择Densenet构建使用的分类网络，例如，前述所指的四分类网络。

通过对内窥镜图像的器官部位识别，即可在内窥镜不断移动和拍摄过程中，定位内窥镜当前在消化道中所处的器官部位，进而可为此器官部位拍摄的内窥镜图像提供适当可用的拍摄模式。

不同的拍摄模式决定着不同的图像类型，因此，步骤930图像类型识别，实质即为内窥镜图像所适用拍摄模式的识别，在识别得到内窥镜图像应当设定的图像类型之后，即可按照此图像类型来对内窥镜图像进行拍摄模式的切换，从而对于过滤了低质图像的每一内窥镜图像，获取该内窥镜图像适用的拍摄模式。

例如，图12是根据一示例性实施例示出的白光拍摄模式下的内窥镜图像示意图；图13是图12所对应实施例示出的NBI模式下的内窥镜图像示意图；图14是图12所对应实施例的碘染模式下的内窥镜图像示意图。

从图12至图14可见，三种图像的图像色彩、纹路和细节差异巨大，因此在进行的识别过程中，通过对图像类型识别下拍摄模式进行自适应切换，极大的增强了影像识别的准确性。

步骤930为对图像类型进行识别，该步骤也需要实现分类任务，因此，也可选用Densenet模型来构建使用的分类网络，例如三分类网络，因此，其网络训练过程与低质图像过滤网络的训练过程类似。

在完成图像类型识别，得到内窥镜当前所处消化道部位所适应拍摄模式下的目标内窥镜图像之后，便执行步骤940异物定位与抗干扰的实现过程，由此来消除异物干扰，进而完成病灶区域的定位和所属病灶类别的识别。通过如上所述的执行过程，将在平均150毫秒内处理一帧内窥镜图像，满足了实时性需求，且具备非常高的准确度，将此执行过程的实现部署至医院，可实时辅助医生进行消化道内镜影像的论断，提高医生的诊断效率。

基于如上所述的执行过程，实现了一套可辅助消化道内窥镜检查的完整可用、鲁棒性强的系统，全方位实现辅助，在对内窥镜图像所进行的处理中，能够保障视频帧率的流畅度，例如，平均每帧小于150毫秒。

通过如上所述的执行过程，得以直接应用于医院生产环境的消化道内镜诊断系统，在当下医疗资源紧缺且不均衡的现状下，可辅助医生定位和发现消化道病灶，防止漏诊。

下述为本申请装置实施例，用于执行本申请上述医疗内窥镜图像的识别方法实施例。对于本申请装置实施例中未披露的细节，请参照本申请医疗内窥镜图像的识别方法实施例。

图15是根据一示例性实施例示出的一种医疗内窥镜图像的识别系统的框图。在一个示例性实施例中，如图15所示，该实医疗内窥镜图像的识别系统，包括但不限于：图像获取模块1010、图像过滤模块1030、器官部位识别模块1050、图像类型识别模块1070以及详情识别模块1090。

图像获取模块1010，用于根据医疗内窥镜视频流获取原始内窥镜图像；

图像过滤模块1030，用于通过神经网络过滤原始内窥镜图像，生成目标内窥镜图像；

器官部位识别模块1050，用于通过神经网络识别目标内窥镜图像对应的器官信息；

图像类型识别模块1070，用于根据所对应器官信息，通过分类网络识别目标内窥镜图像适用的图像类型；

详情识别模块1090，用于在图像类型对应的拍摄模式下，根据器官信息指示的部位定位目标内窥镜图像中的病灶区域，并识别病灶区域所属病灶类别。

可选的，本申请还提供一种机器设备，该机器设备可以用于图1所示实施环境中，执行图3、图5、图6、图8、图9和图10任一所示的方法的全部或者部分步骤。所述装置包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为执行实现前述所指的方法。

该实施例中的装置的处理器执行操作的具体方式已经在有关前述实施例中执行了详细描述，此处将不做详细阐述说明。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围执行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims

一种医疗内窥镜图像的识别方法，其特征在于，所述方法应用于内窥镜影像系统的工作站中，所述方法包括：

根据医疗内窥镜视频流获取原始内窥镜图像；

通过神经网络过滤所述原始内窥镜图像，生成目标内窥镜图像；

通过神经网络识别所述目标内窥镜图像对应的器官信息；

根据所对应器官信息，通过分类网络识别所述目标内窥镜图像适用的图像类型；

在所述图像类型对应的拍摄模式下，根据所述器官信息指示的部位定位所述目标内窥镜图像中的病灶区域，并识别所述病灶区域所属病灶类别。
根据权利要求1所述的方法，其特征在于，所述内窥镜在与外界相通的腔道或密闭体腔拍摄所述医疗内窥镜视频流。
根据权利要求1或2所述的方法，其特征在于，所述根据医疗内窥镜视频流获取原始内窥镜图像，包括：

随着所述内窥镜在腔道或密闭体腔内的移动和拍摄，从接入的医疗内窥镜视频流中获取所述原始内窥镜图像。
根据权利要求1所述的方法，其特征在于，所述根据医疗内窥镜视频流获取原始内窥镜图像，包括：

获取存储的所述医疗内窥镜视频流；

从所述医疗内窥镜视频流中获取原始内窥镜图像，所述原始内窥镜图像用于识别所述内窥镜所拍摄腔道或密闭体腔中存在的病灶区域并识别病灶区域所属病灶类别。
根据权利要求1所述的方法，其特征在于，所述通过神经网络过滤所述原始内窥镜图，生成目标内窥镜图像，包括：

按照设定尺寸，对所述原始内窥镜图像进行处理，生成标准内窥镜图像；

对所述标准内窥镜图像，通过神经网络进行低质图像和非低质图像的预测，所述低质图像是存在干扰的所述标准内窥镜图像；

过滤归属于低质图像的所述标准内窥镜图像，得到所述目标内窥镜图像。
根据权利要求1所述的方法，其特征在于，所述在所述图像类型对应的拍摄模式下，根据所述器官信息指示的部位定位所述目标内窥镜图像中的病灶区域，并识别所述病灶区域所属病灶类别，包括：

检测所述图像类型对应拍摄模式下的目标内窥镜图像中的异物，得到分布于所述目标内窥镜图像的异物框，所述异物框用于指示所述目标内窥镜图像中存在异物的区域；

根据所述异物框过滤所述目标内窥镜图像，未过滤掉的所述目标内窥镜图像用于定位病灶区域，并识别所述病灶区域所属病灶类别。
根据权利要求6所述的方法，其特征在于，所述检测所述图像类型对应拍摄模式下的目标内窥镜图像中的异物，得到分布于所述目标内窥镜图像的异物框之前，

所述在所述图像类型对应的拍摄模式下，根据所述器官信息指示的部位定位所述目标内窥镜图像中的病灶区域，并识别所述病灶区域所属病灶类别，还包括：

检测所述目标内窥镜图像的图像类型；

在所述图像类型与识别的所述图像类型不符时，按照所识别图像类型对应的拍摄模式，切换所述目标内窥镜图像的拍摄模式，以获取所述图像类型对应拍摄模式下的目标内窥镜图像。
根据权利要求6所述的方法，其特征在于，所述检测所述图像类型对应拍摄模式下的目标内窥镜图像中的异物，获取分布于所述目标内窥镜图像的异物框，包括：

将所述图像类型对应拍摄模式下的目标内窥镜图像输入到神经网络中，通过神经网络进行目标检测，输出异物框对应的坐标和置信度，所述坐标用于指示所述目标内窥镜图像中异物框的分布。
根据权利要求8所述的方法，其特征在于，所述根据所述异物框过滤所述目标内窥镜图像，包括：

根据目标内窥镜图像中异物框对应的坐标和置信度，确定所述目标内窥镜图像中异物占据的面积的面积比例因子；

根据所述面积比例因子确定异物对所述目标内窥镜图像的干扰性，过滤发生异物干扰的所述目标内窥镜图像。
根据权利要求1所述的方法，其特征在于，所述在所述图像类型对应的拍摄模式下，根据所述器官信息指示的部位定位所述目标内窥镜图像中的病灶区域，并识别所述病灶区域所属病灶类别，包括：

对所述图像类型对应拍摄模式下的目标内窥镜图像，采用定位检测网络各层不断进行特征提取，直至最终回归得到所述目标内窥镜图像中的病灶区域；

通过分类网络对所述目标内窥镜图像中病灶区域的病灶性质进行分类，得到所述病灶区域归属的病灶类别。
根据权利要求10所述的方法，其特征在于，所述通过分类网络对所述目标内窥镜图像中病灶区域的病灶性质进行分类，得到所述病灶区域归属的病灶类别，包括：

外扩所述目标内窥镜图像中的病灶区域，得到所述病灶区域对应的外扩区域；

预处理所述外扩区域，使所述外扩区域归一化为符合输入尺寸的分类网络输入图像；

采用所述分类网络对输入图像进行所属病灶类别的网络预测，得到所述内窥镜图像中对应病灶区域归属的病灶类别。
根据权利要求1至11中任一项所述的方法，其特征在于，所述方法还包括：

以内窥镜所拍摄低质图像和非低质图像为样本，训练神经网络得到对应低质和非低质两大图像类别输出概率的神经网络，所述神经网络用于生成目标内窥镜图像。
根据权利要求12所述的方法，其特征在于，所述以内窥镜所拍摄低质图像和非低质图像为样本，训练神经网络得到对应低质和非低质两大图像类别输出概率的神经网络，包括：

对内窥镜所拍摄的作为样本的低质图像和非低图像进行固定尺寸调整；

将调整为固定尺寸的低质图像和非低质图像进行数据增强处理，得到符合所述神经网络输入尺寸的样本图像；

以所述样本图像为输入，执行所述神经网络的网络训练过程。
根据权利要求1所述的方法，其特征在于，所述目标内窥镜图像对应器官信息的识别通过与所述器官部位相适应的分类网络执行，所述分类网络通过标注了所对应器官部位的内窥镜图像训练得到；

其中，所述内窥镜图像形成的分类网络样本覆盖所述医疗内窥镜视频流中的所有部位。
一种医疗内窥镜图像的识别系统，其特征在于，所述系统包括：

图像获取模块，用于根据医疗内窥镜视频流获取原始内窥镜图像；

图像过滤模块，用于通过神经网络过滤所述原始内窥镜图像，生成目标内窥镜图像；

器官部位识别模块，用于通过神经网络识别所述目标内窥镜图像对应的器官信息；

图像类型识别模块，用于根据所对应器官信息，通过分类网络识别所述目标内窥镜图像适用的图像类型；

详情识别模块，用于在所述图像类型对应的拍摄模式下，根据所述器官信息指示的部位定位所述目标内窥镜图像中的病灶区域，并识别所述病灶区域所属病灶类别。
一种机器设备，其特征在于，包括：

处理器；以及

存储器，所述存储器上存储有计算机可读指令，所述计算机可读指令被所述处理器执行实现权利要求1至14中任一项所述的方法。
一种存储介质，其特征在于，所述存储介质中存储有至少一条指令，所述至少一条指令由所述处理器加载并执行以实现如权利要求1至14中任一项所述的医疗内窥镜图像的识别方法。
一种内窥镜影像系统，其特征在于，包括：

医疗内窥镜视频的显示设备；以及

工作站，所述工作站以内窥镜输出的医疗内窥镜视频流为输入，执行实现权利要求1至14中任意一项所述的方法。