WO2023030521A1 - 内窥镜图像分类模型的训练方法、图像分类方法和装置 - Google Patents

内窥镜图像分类模型的训练方法、图像分类方法和装置 Download PDF

Info

Publication number
WO2023030521A1
WO2023030521A1 PCT/CN2022/117048 CN2022117048W WO2023030521A1 WO 2023030521 A1 WO2023030521 A1 WO 2023030521A1 CN 2022117048 W CN2022117048 W CN 2022117048W WO 2023030521 A1 WO2023030521 A1 WO 2023030521A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
images
batch
modality
classification model
Prior art date
Application number
PCT/CN2022/117048
Other languages
English (en)
French (fr)
Inventor
边成
李永会
杨延展
Original Assignee
北京字节跳动网络技术有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 北京字节跳动网络技术有限公司 filed Critical 北京字节跳动网络技术有限公司
Publication of WO2023030521A1 publication Critical patent/WO2023030521A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0012Biomedical image inspection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10068Endoscopic image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Definitions

  • Embodiments of the present disclosure relate to a training method of an endoscopic image classification model based on contrastive learning, an endoscopic image classification method, a device, and a computer-readable medium.
  • Embodiments of the present disclosure also provide an endoscopic image classification system, including: an image acquisition component, configured to acquire an endoscopic image to be identified; a processing component, configured to classify based on a trained endoscopic image
  • the encoder in the model extracts the image feature representation of the endoscopic image, and inputs the extracted image feature representation into the corresponding classifier in the endoscopic image classification model to obtain the classification result of the endoscopic image and an output component for outputting classification results of images to be recognized, wherein the trained endoscopic image classification model is based on the training of the endoscopic image classification model based on contrastive learning according to an embodiment of the present disclosure obtained by the method.
  • FIG. 6 shows a specific exemplary illustration of the implementation described in step S503 in FIG. 5;
  • this disclosure proposes a training method for an endoscopic image classification model based on contrastive learning, which adopts a new selection method of positive and negative examples, and better utilizes the information of different endoscopic modal images to learn the image itself.
  • Abstract semantic level features to enhance the classification accuracy of endoscopic images.
  • dynamically increase data label-assisted training by means of pseudo-label which better solves the cost problem of manually collecting and labeling a large number of training sets.
  • the terminal device 200 and the server 100 may be connected through the Internet to realize mutual communication.
  • the aforementioned Internet uses standard communication technologies and/or protocols.
  • the Internet is usually the Internet, but can be any network, including but not limited to Local Area Network (LAN), Metropolitan Area Network (MAN), Wide Area Network (WAN), mobile, wired or wireless network , private network, or any combination of virtual private networks.
  • data exchanged over a network is represented using technologies and/or formats including Hyper Text Markup Language (HTML), Extensible Markup Language (XML), and the like.
  • HTML Hyper Text Markup Language
  • XML Extensible Markup Language
  • Secure Socket Layer Secure SocketLayer, SSL
  • Transport Layer Security Transport Layer Security
  • TLS Transport Layer Security
  • Virtual Private Network Virtual Private Network
  • IPsec Internet Protocol Security
  • Encryption technology to encrypt all or some links.
  • customized and/or dedicated data communication technologies may also be used to replace or supplement the above data communication technologies.
  • the processor 110 invokes the program instructions stored in the memory 120, and the processor 110 is configured to execute the steps of any endoscopic image classification model training method or endoscopic image classification method in the embodiments of the present disclosure according to the obtained program instructions.
  • the endoscopic image classification model training method or endoscopic image classification method is mainly executed by the server 100 side, for example, for the endoscopic image classification method, the terminal device 200 can collect the collected digestive tract Images of multiple modalities of lesions (for example, polyps) are sent to the server 100 , and the server 100 performs type identification on the images of lesions, and can return the lesion classification results to the terminal device 200 .
  • lesions for example, polyps
  • FIG. 1 Various embodiments of the present disclosure are schematically described by taking the application architecture diagram shown in FIG. 1 as an example.
  • the encoder can learn higher-level general features of images (e.g., image-level features) instead of image-level generative models (e.g., pixel-level generation).
  • the loss function of contrastive learning can be defined based on the similarity between positive and negative examples.
  • SimCLR uses a contrastive loss InfoNCE, as shown in the following equation (1):
  • zi represents the feature after nonlinear mapping
  • z j(i) represents the positive example corresponding to zi
  • z a represents all other features except zi (including positive and negative examples).
  • I means all images.
  • ( ⁇ ) represents the dot product operation.
  • represents the temperature parameter, which is used to prevent falling into a local optimal solution in the early stage of model training, and to help converge with model training.
  • this disclosure proposes a new contrastive learning positive and negative example selection method. Specifically, different from the traditional method of contrastive learning based on image enhancement, this disclosure uses images of different modalities of the same digestive tract lesion as a pair of positive examples of contrastive learning, and can obtain the same lesion in different modalities. The richer features are more conducive to learning the essential characteristics of lesions.
  • the polyp image is taken as an example to schematically illustrate the technical solutions of the embodiments of the present disclosure. It should be noted that the technical solutions provided by the embodiments of the present disclosure are also applicable to other endoscopic images.
  • Fig. 3 shows imaging images of the same polyp in two modalities according to an embodiment of the present disclosure.
  • the broadband spectrum of white light is composed of three kinds of light, R/G/B (red/green/blue), and their wavelengths are 605nm, 540nm, and 415nm respectively.
  • R/G/B red/green/blue
  • the narrow-band light mode uses a narrow-band filter to replace the traditional broadband filter to limit the light of different wavelengths, leaving only the green and blue narrow-band light waves with wavelengths of 540nm and 415nm.
  • the image generated under the narrow-band light mode has significantly enhanced contrast between blood vessels and mucosa, which is suitable for observing the morphology of blood vessels and mucosal structure on the surface of the mucosa.
  • the high contrast between blood vessels and the surrounding mucosa is meant to aid in the detection and characterization of lesions, even revealing suspicious lesions that are highly vascularized in deeper tissue layers.
  • the images of capillaries are less blurred and the likelihood of missing lesions is reduced.
  • the more abundant features of the polyp can be better learned , which is beneficial to classify polyp images based on the learned features.
  • FIG. 4 shows a schematic structure of a contrastive learning-based endoscopic image classification model 400 according to an embodiment of the present disclosure.
  • the structure of the endoscopic image classification model 400 according to the embodiment of the present disclosure is divided into a contrastive learning submodel 401 and a classifier submodel 402.
  • the contrastive learning submodel 401 may include, for example, upper and lower branches.
  • the upper and lower branches may be referred to as the first learning module 401-1 and the second learning module 401-2, respectively.
  • the first learning module 401-1 includes a first encoder and a first nonlinear mapper connected in sequence
  • the second learning module 401-2 includes a second encoder and a second nonlinear mapper connected in sequence.
  • the first encoder and the second encoder may have the same structure.
  • the encoder here could be the convolutional layer part of the ResNet network.
  • the first nonlinear mapper and the second nonlinear mapper may have the same structure.
  • the nonlinear mapper here can be a two-layer multilayer perceptron (MLP, Multilayer Perceptron).
  • the contrastive learning sub-model 401 also includes a memory queue for storing feature vectors of multiple recently trained batches.
  • Another classifier sub-model 402 includes two classifiers, respectively connected to the output terminals of the two encoders in the contrastive learning sub-model 401, for further classification tasks based on the feature representations generated by the encoders.
  • the classifiers here may have the same structure.
  • the classifier here can be a two-layer multi-layer perceptron MLP.
  • the training method of the endoscope image classification model and the endoscope classification method provided according to at least one embodiment of the present disclosure are non-limitingly described below through several examples or embodiments, as described below, without conflicting with each other Under certain circumstances, different features in these specific examples or embodiments can be combined with each other to obtain new examples or embodiments, and these new examples or embodiments also belong to the protection scope of the present disclosure.
  • a first image set is acquired, and the first image set is a set of first modality image images of one or more objects acquired through an endoscope operating in a first modality.
  • the second set of images is a second modality of the one or more objects acquired through an endoscope operating in a second modality different from the first modality
  • a collection of modal image images, the second modal image images correspond one-to-one to the first modal image images.
  • one or more objects herein may be polyps.
  • the first modality image here can be a white light image
  • the second modality image here can be a narrowband light image.
  • images of other modalities may also be used, for example, the first modality is a white light image
  • the second modality is an autofluorescence image or an I-SCAN image, etc., which is not limited in the present disclosure.
  • the multimodal image here may be obtained by operating an endoscope, downloaded from a network, or obtained by other means, which is not limited by the embodiments of the present disclosure.
  • embodiments of the present disclosure may also be applicable to image classification of other digestive tract lesions other than polyps, such as inflammation, ulcer, vascular malformation, and diverticulum, and the present disclosure is not limited thereto.
  • polyps can be classified into hyperplastic polyps, adenomas (including mucosal carcinoma and submucosal superficial invasive carcinoma), and submucosal deep invasive carcinoma according to NICE classification indicators.
  • adenomas including mucosal carcinoma and submucosal superficial invasive carcinoma
  • submucosal deep invasive carcinoma according to NICE classification indicators.
  • the training data is succinctly annotated as hyperplasia, adenoma, and cancer.
  • the data of the first set and the second set may respectively include 1302 white light image images and corresponding 1302 narrowband light image images.
  • 90% of the labels can be randomly removed and only 10% of the labels can be retained to achieve a semi-supervised learning.
  • the embodiment of the present disclosure dynamically adds data labels based on pseudo-labels to assist training, and specific details will be described later in conjunction with FIG. 6 .
  • step S505 the first image set and the second image set are input into the endoscope image classification model as training data sets, and the endoscope image classification model is trained to Obtain the trained endoscopic image classification model.
  • N images are randomly selected from the training set to form a batch, and for each image in a batch, a positive example is constructed by the above image enhancement method, That is, two image-augmented views are generated for each image.
  • each batch includes N images, and there is a one-to-one correspondence between the images of the two batches, wherein each pair of images is an enhanced view of the same original image.
  • two batches of 2N images are obtained by image enhancement technology based on the original image, but the data generated in this way is fake data.
  • the embodiment of the present disclosure uses two different modal image images of the same gastrointestinal lesion (such as polyp) to replace the two enhanced views in traditional contrastive learning, which can provide a richer feature representation of polyps, so that based on such
  • the network trained by the training set can classify polyps more accurately.
  • the endoscope classification method based on comparative learning proposed in this disclosure adopts a new selection method of positive and negative examples, and better utilizes the information of different endoscope modal images to learn the features of the abstract semantic level of the image itself. Enhanced classification accuracy for endoscopic images. And in the case of limited labeled data, at the same time, dynamically increase data label-assisted training through pseudo-labeling, which better solves the cost problem of manually collecting and labeling a large number of training sets.
  • step S505 the implementation described in step S505 will be specifically illustrated in combination with the endoscope image model 400 shown in FIG. 4 .
  • step S601 use the contrastive learning sub-model to perform unsupervised contrastive learning to generate a first batch of first feature representations for the first batch of first modality image images and the first batch of second feature representations, and generate a second batch of first feature representations and a second batch of second feature representations for the second batch of second modality image images.
  • the comparative learning process here is roughly similar to the above-mentioned traditional SimCLR learning process.
  • the first encoder converts each image in the first batch of first modality image images into a first feature representation to obtain the first batch of first feature representations, and then based on The first nonlinear mapper performs nonlinear mapping on each first feature representation in the first batch of first feature representations, so as to obtain the first batch of second feature representations.
  • the first feature representation here may be, for example, the h' i mentioned above
  • the second feature representation here may be, for example, the z' i mentioned above.
  • the process of the second learning module (i.e. the lower branch) is the same as the process of the first learning module, when the second batch of second modality image images are selected from the second image collection and input to the second learning module 401-2
  • each image in the second batch of second modality image images is converted into the first feature representation based on the second encoder to obtain the first feature representation of the second batch, and then based on the second nonlinear
  • the mapper performs non-linear mapping on each first feature representation in the second batch of first feature representations to obtain the second batch of second feature representations.
  • the unsupervised contrastive learning adopts the unsupervised contrastive loss function InfoNCE introduced above as the loss function.
  • the loss function InfoNCE of the contrastive learning is based on the similarity between the first batch of second feature representations and the second batch of second feature representations and the difference between the first batch of second feature representations and those stored in the memory queue The similarity between multiple second feature representations generated during previous iterations of training.
  • step 603 the first batch of second feature representations and the second batch of second feature representations are stored in the memory queue based on a first-in first-out rule.
  • the traditional SimCLR takes 2N-2 pictures in the two input batches of 2N images except the two enhanced views of the current picture as negative examples during each iteration of training. Since more negative samples can cover the underlying distribution more effectively, thus giving a better training signal, therefore, unlike the traditional SimCLR, the disclosed embodiment also adds a memory queue for storing previously trained
  • the image features of the batch of images (such as the second feature representation of the first batch and the second feature representation of the second batch above) are used as more negative examples, which is conducive to extracting good features.
  • the memory queue here adopts the first-in-first-out rule, which means that the memory queue is dynamic. After new training feature batches enter the queue, the oldest training feature batches are out of the queue.
  • step S605 the classifier sub-model is used to perform classification training, so as to generate a first classification prediction probability distribution for each image in the first batch of first modality image images, thereby obtaining a first batch of and generating a second classification prediction probability distribution for each image in the second batch of second modality image images, thereby obtaining a second batch of second classification prediction probability distributions.
  • the outputs of the two encoders of the contrastive learning sub-network are respectively connected to two classifiers, for example, the first classifier can receive the first batch of first feature representations from the first encoder, The binary classifier may receive a second batch of first feature representations from the second encoder. In this way, the first classifier and the second classifier can be used for classification training based on the received feature representations.
  • the classifier outputs a predicted probability distribution for each input image. Specifically, the first classifier outputs a predicted probability for each image in the first batch of first modality image images based on the first batch of first feature representations received from the first encoder distributed. Similarly, the second classifier outputs a predicted probability for each image in the second batch of second modality image images based on the second batch of first feature representations received from the second encoder distributed. For example, suppose we need to classify polyps into hyperplasia, adenoma, and cancer.
  • the output probability distribution of the classifier is: [0.6,0.3,0.1], it means that the classifier predicts The image has a probability of 0.6 for a hyperplasia, a probability of 0.3 for an adenoma, and a probability of 0.1 for a cancer.
  • the loss function for classification training can be determined based on the true label and predicted probability distribution for that image. Although classification prediction is also performed for unlabeled images, this prediction result is only used to determine the pseudo-label for the unlabeled image. After the pseudo-label is determined, it is added to the training set as labeled data for subsequent iterations. training, so there is no need to compute loss values for unlabeled images. This process is described in more detail in subsequent paragraphs.
  • the embodiments of the present disclosure may use a focal loss function as a loss function for classification training, as shown in equation (2) below.
  • ⁇ 0 is an adjustable weight.
  • the focus loss function determined for classification training on white light image images is determined as
  • the focus loss function determined for classification training on narrow-band light image images is determined as
  • step S607 based on the second feature representation of the first batch and the second feature representation of the second batch and the first classification prediction probability distribution of the first batch and the second batch of The second classification predicts a probability distribution, calculates a joint loss function, and adjusts parameters of the endoscopic image classification model according to the joint loss function.
  • the joint loss function here can be determined as the sum of the loss function of the contrastive learning sub-model and the loss function of the classifier sub-model, as shown in the following equation (3):
  • the parameters of the endoscopic image model shown in FIG. 4 can be adjusted based on the above joint loss function, so that the joint loss function is finally minimized as the iterative training continues.
  • step S609 determine whether to generate trusted pseudo-labels for the unlabeled images in the first batch of first modality image images and the unlabeled images in the second batch of second modality image images .
  • this paper proposes a semi-supervised training method, which generates credible pseudo-labels for unlabeled data during the training process and adds them to the training Centralized to continue training as labeled data.
  • two classifier outputs can be combined to generate plausible pseudo-labels for each pair of input images.
  • the first classifier generates the first predicted probability distribution for the first batch of white-light imagery images
  • the second classifier generates the second batch of narrow-band light imagery images for the second batch
  • the second predicted probability distribution for For unlabeled images, a label prediction is first determined based on the predicted probability distribution.
  • the predicted probability distribution generated by the first classifier for this unlabeled white light image is 60% for hyperplasia, 20% for adenoma and 10% for cancer %
  • the probability value (for example, 60%) of the category with the highest probability can be selected as the label prediction value corresponding to the current unlabeled image.
  • the prediction generated by the second classifier for the unlabeled narrowband light image image The probability distribution is 60% for hyperplasia, 10% for adenoma, and 20% for cancer.
  • a predetermined threshold for example 0.85
  • step S611 if it is determined that the unlabeled images in the first batch of first modality image images and the unlabeled images in the second batch of second modality image images can be generated Believable and false labels, adding the first modality image image and the corresponding second modality image image that generate the credible false label to the first image set and the second image set respectively to form a new first image collection and a new second image collection to update the training dataset.
  • step S613 the adjusted endoscopic image classification model is continuously iteratively trained using the new first image set and the new second image set as new training data sets.
  • the joint loss function is continuously optimized to minimize and converge, that is, it is determined that the training of the image classification model is completed.
  • no pseudo-label is generated for any unlabeled image in the first batch of first image images and any unlabeled image in the second batch of second image images, still based on the original first image set and The second set of images is used as the training set for the next iterative training.
  • the endoscope classification method based on comparative learning proposed in this disclosure adopts a new selection method of positive and negative examples, and better utilizes the information of different endoscope modal images to learn the features of the abstract semantic level of the image itself.
  • Enhanced classification accuracy for white light images e.g., a dynamic storage queue is added to the traditional contrastive learning SimCLR model to store more negative samples and cover the underlying distribution more effectively, thus giving better training results.
  • the embodiments of the present disclosure only use the encoder and classifier in the trained endoscopic image classification model to classify endoscopic images. Since different modal images can complement each other with features to assist in recognition. For example, if the upper and lower branches are trained based on white-light images and narrow-band light images respectively, based on whether the recognized endoscopic image belongs to white-light images or narrow-band light images, embodiments of the present disclosure use the encoder and classifier in the upper branch accordingly Or encoders and classifiers in the lower branch.
  • step S703 the image feature representation of the endoscopic image is extracted based on the encoder in the trained endoscopic image classification model.
  • the encoder here can be a ResNet101 network.
  • the specific feature representation extraction process is well known to those skilled in the art and will not be repeated here.
  • the encoder and classifier in the lower branch can achieve more accurate and reliable classification results when classifying narrow-band light image images, which will not be repeated here.
  • the trained endoscopic image is learned based on other modality image images, for example, when the first modality image image is an autofluorescence image and the second modality image is an I-SCAN image, the trained endoscopic image
  • the encoder in the upper branch of the mirror image and the classifier connected to it achieve more accurate and reliable classification results when classifying autofluorescence images
  • the encoder in the lower branch and the classifier connected to it achieve more accurate and reliable classification results in the classification of I-SCAN images. Achieve more accurate and reliable classification results when performing classification.
  • the image acquiring component 801 is used to acquire an image to be recognized.
  • the processing component 802 is configured to extract image feature information of the image to be recognized, and obtain a lesion classification result of the image to be recognized based on the feature information of the image to be recognized.
  • the output component 803 is used to output the classification result of the image to be recognized.
  • Fig. 9 shows a training device for an endoscope image classification model according to an embodiment of the present disclosure, specifically including a training data set acquisition component 901 and a training component 903.
  • the training data set acquisition component 901 is configured to: acquire a first image set, the first image set is a set of first modality image images of one or more objects acquired through an endoscope operating in a first modality; and acquiring a second set of images, the second set of images being a set of second modality video images of the one or more subjects acquired by the endoscope operating in a second modality different from the first modality , the second modality image image is in one-to-one correspondence with the first modality image image; and the training component 903 is configured to: input the first image set and the second image set as a training data set into the set In the endoscopic image classification model, the endoscopic image classification model is trained to obtain a trained endoscopic image classification model.
  • said training component 903 is a semi-supervised training component, images of a first subset of said first set of images have labels marking the category of endoscopic images, and other images of said first set of images do not have labels within the label of the category of the endoscope image; and the images of the second subset in the second set of images corresponding one-to-one to the images of the first subset have the same label marking the category of the endoscope image, and the first subset The other images of the second image set do not have labels for the endoscopic image category.
  • the endoscopic image classification model includes: a contrastive learning sub-model
  • the contrastive learning sub-model includes: a first learning module, configured to receive the first set of images and learn the first set of images, to obtain the first feature representation and the second feature representation of the first image set; a second learning module, configured to receive the second image set and learn the second image set, so as to obtain the second image set The first feature representation and the second feature representation; the memory queue for storing the second feature representation of the first set of images generated by the first learning module and the second feature representation of the second set of images generated by the second learning module; classification A device sub-model, including: a first classifier sub-model, used to perform classification learning according to the first feature representation of the first image set generated by the first learning module, so as to generate each image in the first image set The classification prediction probability distribution; The second classifier sub-model is used to perform classification learning according to the first feature representation of the second image collection generated by the second learning module, so as to generate the classification of each image in the second image collection Predict probability
  • the first learning module includes a first encoder and a first nonlinear mapper connected in sequence
  • the second learning module includes a second encoder and a second nonlinear mapper connected in sequence
  • the first encoder The same structure as the second encoder, and the first nonlinear mapper and the second nonlinear mapper have the same structure
  • the first classifier sub-model includes a first classifier, and the first classifier connected to the output of the first encoder
  • the first classifier submodel includes a second classifier connected to the output of the second encoder, wherein the first classifier Same structure as the second classifier.
  • the training component 903 includes an input component 903_1.
  • the input component 903_1 selects a first batch of first modality image images from the first image set, and inputs them to the In the first learning module; and the input unit 903_1 selects a second batch of second modality image images corresponding to the first batch of first modality image images one-to-one from the second image set , and input into the second learning module.
  • the training component 903 trains the endoscope image classification model to obtain a trained endoscope image classification model comprising: the training component 903 trains the endoscope image classification model until The joint loss function of the endoscope image classification model converges to obtain a trained endoscope image classification model.
  • the training component 903 further includes: an unsupervised learning component 903_2, which uses the contrast learning sub-model to perform unsupervised contrast learning, so as to generate a first batch of the first batch of first modality image images The first feature representation of the first batch and the second feature representation of the first batch, and generate the first feature representation of the second batch and the second feature of the second batch for the second batch of second modality image images Representation; storage component 903_3, based on the rule of first-in-first-out, store the second feature representation of the first batch and the second feature representation of the second batch into the memory queue; classification training component 903_4, Using the classifier sub-model to perform classification training to generate a first classification prediction probability distribution for each image in the first batch of first modality image images, so as to obtain the first batch of first classification predictions Probability distribution, and generate a second classification prediction probability distribution for each image in the second batch of second modality image images, so as to obtain the second classification prediction probability distribution of the second batch; parameter adjustment component 903_5, Based on the second feature representation of
  • Modal image images are respectively added to the first image set and the second image set to form a new first image set and a new second image set to update the training data set; and the training component 903 Using the new first image set and the new second image set as a new training data set to continue iterative training for the adjusted endoscope image classification model.
  • the credible pseudo-label determination module determines that it is not an unlabeled image in the first batch of first modality image images and an unlabeled image in the second batch of second modality image images If the image generates a credible pseudo-label, continue to iteratively train the adjusted endoscope image classification model based on the first image set and the second image set as training data sets.
  • the joint loss function of the endoscope image classification model is the sum of the following loss functions: classifying the labeled images in the first batch of first modality image images for the loss function of the contrastive learning A loss function during training, and a loss function during classification training for the labeled images in the second batch of second modality image images.
  • the loss function for the contrastive learning is the noise contrastive estimation loss function InfoNCE
  • the loss function for classifying the labeled images in the first batch of first modality image images and the second batch for the second batch is the focal loss function.
  • using the contrastive learning sub-model to perform unsupervised contrastive learning to generate a first batch of first feature representations and a first batch of second features for the first batch of first modality image images representation, and generating a second batch of first feature representations and a second batch of second feature representations for the second batch of second modality image images includes: based on the first encoder, the Each image in the first batch of first modality image images is converted into a first feature representation to obtain a first batch of first feature representations, and based on the first nonlinear mapper, the first Each first feature representation in a batch of first feature representations is nonlinearly mapped to obtain a first batch of second feature representations; and based on the second encoder, the second batch of Each image in the second modality image image is converted into a first feature representation to obtain a second batch of first feature representations, and based on the second nonlinear mapper, the second batch of first feature representations Each first feature representation in a feature representation is subjected to nonlinear mapping to obtain a second
  • the trusted pseudo-label determining component 903_6 determines whether it is an unlabeled image in the first batch of first modality image images and an unlabeled image in the second batch of second modality image images
  • Generating a trusted pseudo-label for an unlabeled image includes: for each unlabeled first modality image image, based on the first classification prediction probability distribution generated for the unlabeled first modality image image, determining the unlabeled The first label prediction value of the first modality image image; and for the unlabeled second modality image image one-to-one corresponding to the unlabeled first modality image image, based on the unlabeled second modality image
  • the second classification prediction probability distribution generated by the image is used to determine the second label prediction value of the unlabeled second modality image image; determine whether the first label prediction value and the second label prediction value are consistent; if If they are inconsistent, the trusted pseudo-label is not generated; if they are consistent, the predicted value of the first label and the predicted value of the
  • the trusted pseudo-label determination component 903_6 fusing the first predicted label value and the second label predicted value includes: performing a weighted average on the first label predicted value and the second label predicted value To obtain the predicted value of the fusion label.
  • the object is a polyp and the endoscopic image is an endoscopic image of a polyp.
  • the signature includes at least one of hyperplasia, adenoma, and cancer.
  • the first modality image is a white light image
  • the second modality image is a narrowband light image
  • an electronic device in another exemplary embodiment is also provided in the embodiments of the present disclosure.
  • the electronic device in the embodiments of the present disclosure may include a memory, a processor, and a computer program stored on the memory and operable on the processor, wherein, when the processor executes the program, the above embodiments may be implemented. Steps of a method for training an endoscopic image classification model or a method for endoscopic image recognition.
  • Embodiments of the present disclosure also provide a computer-readable storage medium.
  • FIG. 10 shows a storage medium according to an embodiment of the present disclosure.
  • computer-executable instructions 1001 are stored on the computer-readable storage medium 1000 .
  • the method for training an endoscopic image classification model based on contrastive learning and the method for classifying endoscopic images according to the embodiments of the present disclosure described with reference to the above figures can be executed.
  • the computer readable storage medium includes, but is not limited to, for example, volatile memory and/or nonvolatile memory.
  • the volatile memory may include, for example, random access memory (RAM) and/or cache memory (cache).
  • the non-volatile memory may include, for example, a read-only memory (ROM), a hard disk, a flash memory, and the like.
  • Embodiments of the present disclosure also provide a computer program product or computer program, the computer program product or computer program including computer instructions stored in a computer-readable storage medium.
  • the processor of the computer device reads the computer instructions from the computer-readable storage medium, and the processor executes the computer instructions, so that the computer device executes the training method and the internal method of an endoscopic image classification model based on contrastive learning according to an embodiment of the present disclosure. Classification methods for looking-glass images.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Radiology & Medical Imaging (AREA)
  • Quality & Reliability (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)
  • Endoscopes (AREA)

Abstract

一种内窥镜图像分类模型的训练方法、图像分类方法和装置。所述方法包括:获取第一图像集合,所述第一图像集合是通过以第一模态操作的内窥镜获取的一个或多个对象的第一模态影像图像的集合;获取第二图像集合,所述第二图像集合是通过以与第一模态不同的第二模态操作的内窥镜获取的所述一个或多个对象的第二模态影像图像的集合,所述第二模态影像图像与所述第一模态影像图像一一对应;以及将所述第一图像集合和所述第二图像集合作为训练数据集输入到所述内窥镜图像分类模型中,对所述内窥镜图像分类模型进行训练,以获得训练完成的内窥镜图像分类模型。

Description

内窥镜图像分类模型的训练方法、图像分类方法和装置
本申请要求于2021年9月6日递交的中国专利申请第202111039387.8号的优先权,在此全文引用上述中国专利申请公开的内容以作为本申请的一部分。
技术领域
本公开的实施例涉及一种基于对比学习的内窥镜图像分类模型的训练方法、内窥镜图像分类方法、装置及计算机可读介质。
背景技术
在2020年,中国有超过55万人新患结直肠癌,占中国新确诊癌症人数的12.2%。而女性结直肠癌的死亡人数仅次于肺癌,已成为中国女性癌症死亡的第二大原因。大多数结直肠癌开始于结直肠内膜表面的赘生物,称为息肉,而有些息肉可以发展为癌症。因此,早期发现和识别息肉类型对癌症的预防和治疗至关重要。然而,息肉的视觉分类具有挑战性,不同的内窥镜照明条件,不同的纹理,外观都会导致识别的困难。
为了减轻医生的负担,有一些工作尝试研究使用深度学习的方式自动化的实现对息肉类型的识别。然而这些工作都是基于全监督的方法,即需要大量标注数据,而标注数据需要消耗的成本是巨大的。此外,它们都仅仅使用了单一模态的数据进行训练,而实际上在医学影像中,不同的模态观察到的信息有差异但都非常重要。
因此,期望一种改进的内窥镜图像分类模型的训练方法,能够在标注数据有限的情况下,以更好的学习到影像本身的抽象语义级别的特征,同时利用多模态的特征信。
发明内容
本公开的实施例提供一种基于对比学习的半监督训练内窥镜图像分类模型的训练方法、装置及计算机可读介质。
本公开的实施例提供了一种基于对比学习的内窥镜图像分类模型的训 练方法,所述方法包括:获取第一图像集合,所述第一图像集合是通过以第一模态操作的内窥镜获取的一个或多个对象的第一模态影像图像的集合;获取第二图像集合,所述第二图像集合是通过以与第一模态不同的第二模态操作的内窥镜获取的所述一个或多个对象的第二模态影像图像的集合,所述第二模态影像图像与所述第一模态影像图像一一对应;以及将所述第一图像集合和所述第二图像集合作为训练数据集输入到所述内窥镜图像分类模型中,对所述内窥镜图像分类模型进行训练,以获得训练完成的内窥镜图像分类模型。
例如,根据本公开的实施例的方法,其中,所述训练方法是半监督的训练方法,所述第一图像集合的第一子集合的图像具有标记内窥镜图像类别的标签,以及所述第一图像集合的其他图像没有标记内窥镜图像类别的标签;以及所述第二图像集合中与所述第一子集合的图像一一对应的第二子集合的图像具有相同的标记内窥镜图像类别的标签,以及所述第二图像集合的其他图像没有标记内窥镜图像类别的标签。
例如,根据本公开的实施例的方法,其中,所述内窥镜图像分类模型包括:对比学习子模型,所述对比学习子模型包括:第一学习模块,用于接收所述第一图像集合并且学习所述第一图像集合,以获取所述第一图像集合的第一特征表示和第二特征表示;第二学习模块,用于接收所述第二图像集合并且学习所述第二图像集合,以获取所述第二图像集合的第一特征表示和第二特征表示;存储器队列,用于存储第一学习模块生成的第一图像集合的第二特征表示和第二学习模块生成的第二图像集合的第二特征表示;分类器子模型,包括:第一分类器子模型,用于根据所述第一学习模块生成的第一图像集合的第一特征表示进行分类学习,以生成所述第一图像集合中的每一个图像的分类预测概率分布;第二分类器子模型,用于根据第二学习模块生成的第二图像集合的第一特征表示进行分类学习,以生成所述第二图像集合中的每一个图像的分类预测概率分布。
例如,根据本公开的实施例的方法,其中,第一学习模块包括依次连接的第一编码器和第一非线性映射器,第二学习模块包括依次连接的第二编码器和第二非线性映射器,其中所述第一编码器和所述第二编码器的结构相同,并且所述第一非线性映射器和所述第二非线性映射器结构相同,
第一分类器子模型包括第一分类器,所述第一分类器连接到所述第一编 码器的输出端,以及第一分类器子模型包括第二分类器,所述第二分类器连接到所述第二编码器的输出端,其中所述第一分类器和所述第二分类器结构相同。
例如,根据本公开的实施例的方法,其中,将所述第一图像集合和所述第二图像集合作为训练数据集输入到内窥镜图像分类模型中包括:在每次迭代训练时:从所述第一图像集合中选取第一批次的第一模态影像图像,并输入到所述第一学习模块中;以及从所述第二图像集合中选取与所述第一批次的第一模态影像图像一一对应的第二批次的第二模态影像图像,并输入到所述第二学习模块中。
例如,根据本公开的实施例的方法,其中,对所述内窥镜图像分类模型进行训练,以获得训练完成的内窥镜图像分类模型包括:对所述内窥镜图像分类模型进行训练,直到所述内窥镜图像分类模型的联合损失函数收敛,以获得训练完成的内窥镜图像分类模型。
例如,根据本公开的实施例的方法,其中对所述内窥镜图像分类模型进行训练,直到所述内窥镜图像分类模型的联合损失函数收敛包括:利用所述对比学习子模型进行无监督的对比学习,以针对所述第一批次的第一模态影像图像生成第一批次的第一特征表示和第一批次的第二特征表示,并针对所述第二批次的第二模态影像图像生成第二批次的第一特征表示和第二批次的第二特征表示;基于先进先出的规则,将所述第一批次的第二特征表示和所述第二批次的第二特征表示存储到所述存储器队列中;利用所述分类器子模型进行分类训练,以针对所述第一批次的第一模态影像图像中的每一个图像生成第一分类预测概率分布,从而得到第一批次的第一分类预测概率分布,并针对所述第二批次的第二模态影像图像中的每一个图像生成第二分类预测概率分布,从而得到第二批次的第二分类预测概率分布;基于所述第一批次的第二特征表示和所述第二批次的第二特征表示以及所述第一批次的第一分类预测概率分布和所述第二批次的第二分类预测概率分布,计算联合损失函数,并根据联合损失函数调整所述内窥镜图像分类模型的参数;确定是否为所述第一批次的第一模态影像图像中的无标签图像和所述第二批次的第二模态影像图像中的无标签图像生成可信伪标签;如果确定为所述第一批次的第一模态影像图像中的无标签图像和所述第二批次的第二模态影像图像中的无标签图像生成可信伪标签,将生成可信伪标签的第一模态影像图像 和对应的第二模态影像图像分别加入到所述第一图像集合和所述第二图像集合中,以构成新的第一图像集合和新的第二图像集合,以更新训练数据集;以及将所述新的第一图像集合和所述新的第二图像集合作为新的训练数据集对调整后的所述内窥镜图像分类模型继续进行迭代训练。
例如,根据本公开的实施例的方法,其中,如果确定不为所述第一批次的第一模态影像图像中的无标签图像和所述第二批次的第二模态影像图像中的无标签图像生成可信伪标签,则继续基于所述第一图像集合和所述第二图像集合作为训练数据集对调整后的所述内窥镜图像分类模型继续进行迭代训练。
例如,根据本公开的实施例的方法,其中,所述内窥镜图像分类模型的联合损失函数是以下各损失函数的和:针对所述对比学习的损失函数、针对第一批次的第一模态影像图像中的有标签图像进行分类训练时的损失函数、以及针对第二批次的第二模态影像图像中的有标签图像进行分类训练时的损失函数。
例如,根据本公开的实施例的方法,其中,针对所述对比学习的损失函数是噪音对比估计损失函数InfoNCE,针对第一批次的第一模态影像图像中的有标签图像进行分类训练的损失函数和针对第二批次的第二模态影像图像中的有标签图像进行分类训练的损失函数是焦点损失函数。
例如,根据本公开的实施例的方法,其中,利用所述对比学习子模型进行无监督的对比学习,以针对所述第一批次的第一模态影像图像生成第一批次的第一特征表示和第一批次的第二特征表示,并针对所述第二批次的第二模态影像图像生成第二批次的第一特征表示和第二批次的第二特征表示包括:基于所述第一编码器,将所述第一批次的第一模态影像图像中的每一个图像转换为第一特征表示,以得到第一批次的第一特征表示,并基于所述第一非线性映射器,将所述第一批次的第一特征表示中的每一个第一特征表示进行非线性映射,以得到第一批次的第二特征表示;基于所述第二编码器,将所述第二批次的第二模态影像图像中的每一个图像转换为第一特征表示,以得到第二批次的第一特征表示,并基于所述第二非线性映射器,将所述第二批次的第一特征表示中的每一个第一特征表示进行非线性映射,以得到第二批次的第二特征表示。
例如,根据本公开的实施例的方法,其中,确定是否为所述第一批次的 第一模态影像图像中的无标签图像和所述第二批次的第二模态影像图像中的无标签图像生成可信伪标签包括:对于每一个无标签的第一模态影像图像,基于为该无标签的第一模态影像图像生成的第一分类预测概率分布,来确定该无标签的第一模态影像图像第一标签预测值;以及对于与该无标签的第一模态影像图像一一对应的无标签的第二模态影像图像,基于为该无标签的第二模态影像图像所生成的第二分类预测概率分布,来确定该无标签的第二模态影像图像的第二标签预测值;确定所述第一标签预测值和所述第二标签预测值是否一致;如果不一致,则不生成所述可信伪标签;如果一致,则将所述第一标签预测值和所述第二标签预测值进行融合,当所融合的标签预测值大于一预定阈值,则生成所述可信伪标签,否则,则不生成所述可信伪标签。
例如,根据本公开的实施例的方法,其中将所述第一标签预测值和所述第二标签预测值进行融合包括:对所述第一标签预测值和所述第二标签预测值进行加权平均以得到所述融合的标签预测值。
例如,根据本公开的实施例的方法,所述对象是息肉,并且所述内窥镜图像是息肉内窥镜图像。
例如,根据本公开的实施例的方法,其中,所述标签包括增生、腺瘤和癌症中的至少一个。
例如,根据本公开的实施例的方法,其中,所述第一模态影像图像是白光影像图像,所述第二模态影像图像是窄带光影像图像。
例如,根据本公开的实施例的方法,其中所述第一模态影像图像是白光影像图像,所述第二模态影像图像是自发荧光影像图像。
例如,根据本公开的实施例的方法,其中,所述编码器是残差神经网络ResNet的卷积层部分,所述非线性映射器由两层多层感知器MLP构成,所述分类器由两层多层感知器MLP构成。
本公开的实施例提供了还提供了一种内窥镜图像分类方法,包括:获取待识别的内窥镜图像;基于训练好的内窥镜图像分类模型中的编码器提取所述内窥镜图像的图像特征表示;将所提取的图像特征表示输入到内窥镜图像分类模型中的相应的分类器,获得所述内窥镜图像的分类结果;其中,所述训练好的内窥镜图像分类模型是基于根据本公开的实施例的基于对比学习的内窥镜图像分类模型的训练方法所获得的。
本公开的实施例提供了还提供了一种内窥镜图像分类系统,包括:图像 获取部件,用于获取待识别的内窥镜图像;处理部件,用于基于训练好的内窥镜图像分类模型中的编码器提取所述内窥镜图像的图像特征表示,以及将所提取的图像特征表示输入到内窥镜图像分类模型中的相应的分类器,获得所述内窥镜图像的分类结果;以及输出部件,用于输出待识别图像的分类结果,其中,所述训练好的内窥镜图像分类模型是基于根据本公开的实施例的的基于对比学习的内窥镜图像分类模型的训练方法所获得的。
本公开的实施例还提供了还提供了一种基于对比学习的内窥镜图像分类模型的训练装置,所述装置包括:图像获取部件,用于获取第一图像集合,所述第一图像集合是通过以第一模态操作的内窥镜获取的一个或多个对象的第一模态影像图像的集合;以及获取第二图像集合,所述第二图像集合是通过以与第一模态不同的第二模态操作的内窥镜获取的所述一个或多个对象的第二模态影像图像的集合,所述第二模态影像图像与所述第一模态影像图像一一对应;以及训练部件,用于将所述第一图像集合和所述第二图像集合作为训练数据集输入到所述内窥镜图像分类模型中,对所述内窥镜图像分类模型进行训练,以获得训练完成的内窥镜图像分类模型。
本公开的实施例还提供了一种电子设备,包括存储器和处理器,其中,所述存储器上存储有处理器可读的程序代码,当处理器执行所述程序代码时,执行根据上述方法中任一项所述的方法。
本公开的实施例还提供了一种计算机可读存储介质,其上存储有计算机可执行指令,所述计算机可执行指令用于执行根据上述方法中任一项所述的方法。
根据本公开的实施例的基于对比学习的半监督内窥镜图像分类模型的训练方法提供了一种新的正负例的选择方式,更好的利用不同内镜模态图像的信息,以增强对内窥镜影像图像的分类准确率。此外,与传统的基于SimCLR的对比学习方式不同的是,为了减少模型的计算量,本公开的实施例还增加了一个存储器队列用于动态的存储负例。最后,本公开的实施例提出了一种新的半监督的学习方式,并通过伪标签的方式动态的增加数据标签辅助训练,从而能够节约标注成本。
附图说明
为了更清楚地说明本公开实施例的技术方案,下面将对本公开实施例的 附图作简单地介绍。明显地,下面描述中的附图仅仅涉及本公开的一些实施例,而非对本公开的限制。
图1示出了本公开实施例中内窥镜图像分类模型训练及内窥镜图像分类方法的应用架构示意图;
图2示出了传统的基于SimCLR的对比学习网络架构示意图;
图3示出了根据本公开实施例所示的同一息肉的两种模态下的影像图像;
图4示出根据本公开实施例的基于对比学习的内窥镜图像分类模型400的示意性结构;
图5示出了根据本公开实施例的内窥镜图像分类模型的训练方法的流程图;
图6示出了图5中步骤S503中所描述的实现的具体的示例性说明;
图7描述了根据本公开实施例的内窥镜图像分类方法的流程图;
图8示出了本公开实施例中一种内窥镜图像分类系统的结构示意图;
图9示出了根据本公开实施例的内窥镜图像分类模型的训练装置;以及
图10示出了根据本公开的实施例的存储介质的示意图。
具体实施方式
下面将结合附图对本申请实施例中的技术方案进行清楚、完整地描述,显而易见地,所描述的实施例仅仅是本申请的部分实施例,而不是全部的实施例。基于本申请实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,也属于本申请保护的范围。
本说明书中使用的术语是考虑到关于本公开的功能而在本领域中当前广泛使用的那些通用术语,但是这些术语可以根据本领域普通技术人员的意图、先例或本领域新技术而变化。此外,特定术语可以由申请人选择,并且在这种情况下,其详细含义将在本公开的详细描述中描述。因此,说明书中使用的术语不应理解为简单的名称,而是基于术语的含义和本公开的总体描述。
虽然本申请对根据本申请的实施例的系统中的某些模块做出了各种引用,然而,任何数量的不同模块可以被使用并运行在用户终端和/或服务器上。所述模块仅是说明性的,并且所述系统和方法的不同方面可以使用不同模块。
本申请中使用了流程图来说明根据本申请的实施例的系统所执行的操 作。应当理解的是,前面或下面操作不一定按照顺序来精确地执行。相反,根据需要,可以按照倒序或同时处理各种步骤。同时,也可以将其他操作添加到这些过程中,或从这些过程移除某一步或数步操作。
关于消化道疾病的诊断,通常基于内窥镜等诊断工具获取消化道内部的病灶影像,相关医疗人员通过人眼观察判断病变类别。为了减轻医生的负担,有一些工作尝试研究使用深度学习的方式自动识别病变类别,然而这些工作都是基于全监督的方法,即需要大量标注影像数据,而标注影像数据需要消耗的成本是巨大的。此外,它们都仅仅使用了单一模态的数据进行训练,而实际上在医学影像中,不同的模态观察到的信息有差异但都非常重要。
因此,本公开提出了一种基于对比学习的内窥镜图像分类模型的训练方法,采取新的正负例的选择方式,更好的利用不同内镜模态图像的信息,以学习到影像本身的抽象语义级别的特征,以增强对内窥镜影像图像的分类准确率。此外,在标注数据有限的情况下,同时通过伪标签的方式动态的增加数据标签辅助训练,更好地解决了人工收集并标注大量训练集的成本问题。
图1示出了本公开实施例中内窥镜图像分类模型训练及内窥镜图像分类方法的应用架构示意图,包括服务器100、终端设备200。
终端设备200可以是医疗设备,例如,用户可以基于终端设备200查看内窥镜图像分类结果。
终端设备200与服务器100之间可以通过互联网相连,实现相互之间的通信。可选地,上述的互联网使用标准通信技术和/或协议。互联网通常为因特网、但也可以是任何网络,包括但不限于局域网(Local Area Network,LAN)、城域网(Metropolitan AreaNetwork,MAN)、广域网(Wide Area Network,WAN)、移动、有线或者无线网络、专用网络或者虚拟专用网络的任何组合。在一些实施例中,使用包括超文本标记语言(Hyper Text MarkupLanguage,HTML)、可扩展标记语言(Extensible Markup Language,XML)等的技术和/或格式来代表通过网络交换的数据。此外还可以使用诸如安全套接字层(Secure SocketLayer,SSL)、传输层安全(Transport Layer Security,TLS)、虚拟专用网络(VirtualPrivate Network,VPN)、网际协议安全(Internet Protocol Security,IPsec)等常规加密技术来加密所有或者一些链路。在另一些实施例中,还可以使用定制和/或专用数据通信技术取代或者补充上述数据通信技术。
服务器100可以为终端设备200提供各种网络服务,其中,服务器100 可以是一台服务器、若干台服务器组成的服务器集群或云计算中心。
具体地,服务器100可以包括处理器110(Center Processing Unit,CPU)、存储器120、输入设备130和输出设备140等,输入设备130可以包括键盘、鼠标、触摸屏等,输出设备140可以包括显示设备,如液晶显示器(Liquid Crystal Display,LCD)、阴极射线管(Cathode Ray Tube,CRT)等。
存储器120可以包括只读存储器(ROM)和随机存取存储器(RAM),并向处理器110提供存储器120中存储的程序指令和数据。在本公开实施例中,存储器120可以用于存储本公开实施例中内窥镜图像分类模型训练方法或内窥镜图像分类方法的程序。
处理器110通过调用存储器120存储的程序指令,处理器110用于按照获得的程序指令执行本公开实施例中任一种内窥镜图像分类模型训练方法或内窥镜图像分类方法的步骤。
例如,本公开实施例中,内窥镜图像分类模型训练方法或内窥镜图像分类方法主要由服务器100侧执行,例如,针对内窥镜图像分类方法,终端设备200可以将采集到的消化道病灶(例如,息肉)的多个模态的影像图像发送给服务器100,由服务器100对病灶影像进行类型识别,并可以将病灶分类结果返回给终端设备200。
如图1所示的应用架构,是以应用于服务器100侧为例进行说明的,当然,本公开实施例中内窥镜图像分类方法也可以由终端设备200执行,例如终端设备200可以从服务器100侧获得训练好的内窥镜图像分类模型,从而基于该内窥镜图像分类模型,对病灶影像进行类型识别,获得病灶分类结果,对此本公开实施例中并不进行限制。
另外,本公开实施例中的应用架构图是为了更加清楚地说明本公开实施例中的技术方案,并不构成对本公开实施例提供的技术方案的限制,当然,对于其它的应用架构和业务应用,本公开实施例提供的技术方案对于类似的问题,同样适用。
本公开各个实施例以应用于图1所示的应用架构图为例进行示意性说明。
首先,为了使本领域技术人员能更清楚地理解本公开的原理,下面对对比学习的基本概念进行一个简要的描述。
对比学习属于一种无监督学习,特点是不需要人工标注的类别标签信息,直接利用数据本身作为监督信息,来学习样本数据的特征表达,并用于下游 任务,例如,对息肉影像的类型进行分类的任务。在对比学习中,通过在输入样本之间进行比较来学习表示。对比学习不是一次从单个数据样本中学习信号,而是通过在不同样本之间进行比较来学习。可以在“相似”输入的正例对和“不同”输入的负例对之间进行比较。对比学习通过同时最大化同一图像的不同变换视图(例如剪裁,翻转,颜色变换等)之间的一致性,以及最小化不同图像的变换视图之间的一致性来学习的。简单来说,就是对比学习要做到相同的图像经过各类变换之后,依然能识别出是同一张图像,所以要最大化各类变换后图像的相似度(因为都是同一个图像得到的)。相反,如果是不同的图像(即使经过各种变换可能看起来会很类似),就要最小化它们之间的相似度。通过这样的对比训练,编码器(encoder)能学习到图像的更高层次的通用特征(例如,图像级别特征),而不是图像级别的生成模型(例如,像素级别生成)。
图2示出了传统的基于SimCLR的对比学习网络架构示意图。
如图2所示,传统的SimCLR模型架构由对称的上下两个分支(Branch)构成,上下两个分支分别对称地设置有编码器和非线性映射器。SimCLR提出了一种构建正负例的方式,基本思想是:输入一个批次的N(N为大于1的正整数)张图像X=x 1,x 2,x 3,…,x N,以其中的某张图像x i来说,对其进行随机变换(图像增强,例如包括剪裁,翻转,颜色变换和高斯模糊等)得到两幅图像x′ i和x″ i,那么一个批次的N张图像X经过增强以后得到两个批次的图像X′和X″,这两个批次X′和X″各自包含N张图像,并且这两个批次的图像中之间一一对应。例如,图像x经过变换后的数据对<x′ i,x″ i>互为正例,而x′ i和其余2N-2个图像都互为负例。在经过变换后,增强图像被投影到表示空间。以上分支为例进行说明,增强图像x′ i首先经过特征编码器Encoder(一般采用深度残差网络(Deep residual network,ResNet)做为模型结构,这里以函数f θ(x)代表),被转换成对应的特征表示h′ i。紧随其后,是另外一个非线性变换器Non-linear Projector(由两层的多层感知机(multi-layer perceptron,MLP)构成,这里以函数g θ(·)代表),进一步将特征表示h′ i映射成另外一个空间里的向量z′ i。这样,经过g θ(f θ(x))两次非线性变换,就将增强图像投影到了表示空间。下分支的过程类似,在此不做赘述。
通过计算并最大化正例映射特征之间的相似性,并最小化负例映射特征之间的相似性,可以实现对图像特征的无监督学习。SimCLR中用余弦相似 度来计算两个增强的图像之间的相似度,对于两个增强的图像x′ i和x″ i,在其投影表示z′ i和z″ i上计算余弦相似度。在理想情况下,增强后的一对图像(这里可以称为一对正例,例如<x′ i,x″ i>)之间的相似度会很高,而该对图像和两个批次中的其他图像之间的相似度会较低。
可以基于正例与负例之间的相似度来定义对比学习的损失函数,SimCLR使用了一种对比损失InfoNCE,如下等式(1)所示:
Figure PCTCN2022117048-appb-000001
其中,z i表示经过非线性映射之后的特征,z j(i)表示与z i对应的正例,z a表示除了z i的所有其他特征(包括正例和负例)。I表示所有图像。(·)表示点乘操作。τ表示温度参数,用于在模型训练初期防止陷入局部最优解,并随着模型训练帮助收敛。
通过优化上面这个对比损失函数InfoNCE,可以实现最大化正例之间的相似性,同时最小化负例之间的相似性,在一种无监督的环境下可以学到图像的本质特征。
传统的对比损失模型(例如上面介绍的SimCLR模型)通过对同一张图像进行增强来得到一对正例,然而,图像增强方式,例如包括剪裁,翻转,颜色变换和高斯模糊等的方式,本质上只是真实图像的一种数据扩充,即生成的是假数据,其本身不会提供比原始图片更多的特征信息。然而这样的传统图像增强的方式并不适用于内窥镜影像的分类,由于不同的内窥镜照明条件,不同的纹理,外观都会导致识别的困难,以息肉为例,息肉在颜色、形状和大小方面的差异较大,息肉之间较大的颜色变化跟表面纹理的可见性受限,因此,仅基于图像增强的方式进行息肉检查的会导致较高的误检率。
由于在医学影像上,不同的模态观察到的信息有差异并且都非常重要,基于此,为了更好地学习内窥镜影像的本质特征,本公开提出了一种新的对比学习正负例的选择方式。具体地,与传统的基于图像增强的对比学习的方法不同的是,本公开将同一消化道病灶的不同模态的影像图像作为对比学习的一对正例,可以获取同一病灶在不同模态下的更加丰富的特征,更有利于学习病灶的本质特征。以下,以息肉影像为例,对本公开实施例的技术方案进行示意性说明。应当注意,本公开实施例提供的技术方案对于其他内窥镜影像同样适用。
图3示出了根据本公开实施例所示的同一息肉的两种模态下的影像图像。
如图3所示,左边的图像是在白光(white light,WL)成像模式下操作内窥镜所获取的息肉的观测结果,右边是在窄带光成像(Narrow Band Imaging,NBI)模式下操作的内窥镜所获取的同一息肉的另一观测结果。
白光的宽带光谱由R/G/B(红/绿/蓝)3种光组成的,其波长分别为605nm、540nm、415nm。在白光成像模式下呈现高亮度、锐利的白光内镜图像,有利于观察黏膜深层的构造。窄带光模式采用窄带滤光器代替传统的宽带滤光器,对不同波长的光进行限定,仅留下540nm和415nm波长的绿、蓝色窄带光波。在窄带光模式下生成的图像血管相对于粘膜的对比度显著增强,适合观察黏膜表层的血管形态和黏膜构造。血管与周围粘膜之间的高对比度意味着有助于检测和表征病变,甚至在更深的组织层中显示出高度血管化的可疑病变。与白光内窥镜检查相比,毛细血管的图像不那么模糊,并且减少了错过病变的可能性。
根据本公开的一个实施例,利用同一息肉的不同模态的影像图像(例如白光影像图像和窄带光影像图像)来代替传统的增强图像的方式,可以更好地学习到息肉的更丰富的特征,有利于基于所学习到的特征来对息肉影像进行分类。
应当理解,这里的模态影像还可以是任何其他类型的模态影像,例如自发荧光影像、I-SCAN影像等,本公开对此不作限制。
图4示出根据本公开实施例的基于对比学习的内窥镜图像分类模型400的示意性结构。
如图4所示,根据本公开实施例的内窥镜图像分类模型400的结构分为对比学习子模型401和分类器子模型402,如图所示,对比学习子模型401例如可以包括上下两个分支(branch)。这里,为了方便描述,可以将上下两个分支分别称为第一学习模块401-1和第二学习模块401-2。例如,第一学习模块401-1包括依次连接的第一编码器和第一非线性映射器,第二学习模块401-2包括依次连接的第二编码器和第二非线性映射器。
根据本公开的一个实施例,例如,所述第一编码器和所述第二编码器可以具有相同的结构。例如,这里的编码器可以是ResNet网络的卷积层部分。例如,第一非线性映射器和第二非线性映射器可以具有相同的结构。例如,这里的非线性映射器可以是一个两层的多层感知机(MLP,Multilayer  Perceptron)。
此外,对比学习子模型401还包括一个存储器队列,用于存储多个近期所训练的批次的特征向量。
另一个分类器子模型402包括两个分类器,分别连接到对比学习子模型401中两个编码器的输出端,用于基于编码器所生成的特征表示进行进一步的分类任务。
根据本公开的一个实施例,例如,这里的分类器可以具有相同的结构。例如,这里的分类器可以是一个两层的多层感知机MLP。
本领域技术人员应当理解,这里所使用的编码器、非线性映射器和分类器可用其他架构替换,本公开在此不做限制。
下面通过几个示例或实施例对根据本公开至少一个实施例提供的内窥镜图像分类模型的训练方法和内窥镜分类方法进行非限制性的说明,如下面所描述的,在不相互抵触的情况下这些具体示例或实施例中不同特征可以相互组合,从而得到新的示例或实施例,这些新的示例或实施例也都属于本公开保护的范围。
目前基于深度学习的方式自动化地对息肉进行识别的主流的方法大多是全监督学习方法,这类方法依赖人工标注的标签。然而,实际情况下所获取的息肉影像都是没有标记的,而对这些数据进行标注需要消耗的成本是巨大的。因此,本公开提出了一种半监督的训练方式,通过伪标签的方式动态的增加数据标签来辅助训练。此外,通过利用同一息肉的不同模态的影像图像,能提取出更多丰富的特征信息。
图5示出了根据本公开实施例的内窥镜图像分类模型的训练方法的流程图。例如,该内窥镜图像分类模型是如上参考图4所示的内窥镜图像分类模型400。例如,该内窥镜图像分类模型400的训练方法可以由服务器来执行,该服务器可以是图1中所示的服务器100。
首先,在步骤S501中,获取第一图像集合,所述第一图像集合是通过以第一模态操作的内窥镜获取的一个或多个对象的第一模态影像图像的集合。接着,在S503中,获取第二图像集合,所述第二图像集合是通过以与第一模态不同的第二模态操作的内窥镜获取的所述一个或多个对象的第二模态影像图像的集合,所述第二模态影像图像与所述第一模态影像图像一一对应。
例如,这里的一个或多个对象可以是息肉。例如,这里的第一模态影像 可以是白光影像,这里的第二模态影像可以是窄带光影像。当然,也可以使用其他模态的影像,例如,第一模态是白光影像,第二模态是自发荧光影像或I-SCAN影像等,本公开对此不作限制。例如,这里的多模态影像可以是通过操作内窥镜获得的,也可以是通过网络下载的方式获取的,也可以通过其他途径获取的,本公开的实施例对此不作限制。
应当理解,本公开实施例还可以同样适用于除息肉以外的其他消化道病灶的影像分类,例如炎症、溃疡、血管畸形以及憩室等,本公开对此不作限制。
例如,为了模仿真实息肉数据缺少标签的真实情况,这里的第一集合和第二集合中的数据有大量数据是无标签的,由于第一集合中的第一模态影像和第二集合中的第二模态影像是一一对应的,因此是否具有标签的情况也是一一对应的。例如,根据本公开实施例,这里可以根据NICE分类指标,可以将息肉分类为增生性息肉,腺瘤(包括黏膜癌及黏膜下浅层浸润癌),黏膜下深层浸润癌,这里,我们可以将训练数据简略地标注为增生、腺瘤和癌症。
例如,根据本公开实施例的内窥镜图像分类模型的训练方法的一个实现中,第一集合和第二集合的数据可以分别包括1302张白光影像图像和相应的1302张窄带光影像图像。为了适应真实数据集中大量缺少标注的情况,可以随机的去除90%的标签,只保留10%的标签,以实现一种半监督的学习。
应当理解,用于训练根据本公开实施例的内窥镜图像分类模型的数据集的数量和标签比例可以根据实际情况进行调整,本公开对此不做限制。对于无标签的影像图像,本公开实施例基于伪标签的方式来动态的增加数据标签来辅助训练,具体细节将在稍后结合附图6来进行描述。
接着,在步骤S505中,将所述第一图像集合和所述第二图像集合作为训练数据集输入到所述内窥镜图像分类模型中,对所述内窥镜图像分类模型进行训练,以获得训练完成的内窥镜图像分类模型。
如本领域技术人员所熟知的,机器学习算法通常依赖于对目标函数最大化或者最小化的过程,常常把最小化的函数称为损失函数。例如,根据本公开实施例的内窥镜图像分类模型的训练方法中,对所述内窥镜图像分类模型进行训练,以获得训练完成的内窥镜图像分类模型可以包括:对内窥镜图像分类模型进行训练,直到内窥镜图像分类模型的联合损失函数收敛,以获得训练完成的内窥镜图像分类模型。
如上所述,在传统的对比学习中,在每次迭代训练时,随机从训练集中选取N张图像构成一个批次,对于一个批次中的每张图像,通过上述图像增强方法构造正例,即对每张图像生成两个图像增强视图。这样,将生成两个批次的图像,每个批次包括N张图像,这两个批次的图像之间一一对应,其中每一对图像都是同一个原始图像的增强视图。传统的对比学习中,两个批次的2N张图像是基于原始的图像进行图像增强技术得到的,但这样生成的数据是假数据。因此,本公开实施例利用同一消化道病灶(例如息肉)的两个不同模态的影像图像来代替传统对比学习中的两个增强视图,可以提供息肉更丰富的特征表示,以便于基于这样的训练集训练好的网络能够更准确的对息肉进行分类。
例如,在每次迭代训练时,从第一图像集合中选取第一批次的第一模态影像图像,并输入到图4的第一学习模块401-1中;以及从第二图像集合中选取与第一批次的第一模态影像图像一一对应的第二批次的第二模态影像图像,并输入到图4的第二学习模块401-2中。
本公开提出的基于对比学习的内窥镜分类方法,采取新的正负例的选择方式,更好的利用不同内镜模态图像的信息,以学习到影像本身的抽象语义级别的特征,以增强对内窥镜影像的分类准确率。并且在标注数据有限的情况下,同时通过伪标签的方式动态的增加数据标签辅助训练,更好地解决了人工收集并标注大量训练集的成本问题。
下面参考图6,结合图4所示的内窥镜图像模型400,来对步骤S505中所描述的实现进行具体的示例性说明。
如图6所示,在步骤S601中,利用所述对比学习子模型进行无监督的对比学习,以针对所述第一批次的第一模态影像图像生成第一批次的第一特征表示和第一批次的第二特征表示,并针对所述第二批次的第二模态影像图像生成第二批次的第一特征表示和第二批次的第二特征表示。
例如,这里的对比学习过程和上述传统SimCLR学习过程大体相似。具体地,结合图4来看,以第一学习模块401-1(即上分支)为例,当从第一图像集合中选取第一批次的第一模态影像图像、并输入到第一学习模块401-1中以后,第一编码器将第一批次的第一模态影像图像中的每一个图像转换为第一特征表示,以得到第一批次的第一特征表示,随后基于第一非线性映射器将这第一批次的第一特征表示中的每一个第一特征表示进行非线性映射, 从而得到第一批次的第二特征表示。这里的第一特征表示例如可以是上面所述的h′ i,这里的第二特征表示例如可以是上面所述的z′ i
第二学习模块(即下分支)的过程与第一学习模块的过程一样,当从第二图像集合中选取第二批次的第二模态影像图像、并输入到第二学习模块401-2中以后,基于第二编码器将第二批次的第二模态影像图像中的每一个图像转换为第一特征表示,以得到第二批次的第一特征表示,随后基于第二非线性映射器将第二批次的第一特征表示中的每一个第一特征表示进行非线性映射,以得到第二批次的第二特征表示。
例如,根据本公开实施例的无监督的对比学习采用上面所介绍的无监督的对比损失函数InfoNCE作为损失函数。例如,该对比学习的损失函数InfoNCE基于第一批次的第二特征表示和第二批次的第二特征表示之间的相似性以及第一批次的第二特征表示与存储器队列中所存储的在先前迭代训练过程中生成的多个第二特征表示之间的相似性。
在步骤603中,基于先进先出的规则,将所述第一批次的第二特征表示和所述第二批次的第二特征表示存储到所述存储器队列中。
如上所述,传统的SimCLR在每次迭代训练时,将输入的两个批次的2N张图像内的除了当前图片的两个增强视图之外的2N-2张图片作为负例。由于更多的负样本可以更有效地覆盖底层分布,从而给出更好的训练信号,因此,与传统的SimCLR不同的是,本公开实施例还增加了一个存储器队列,用于存储先前已训练的批次图像的图像特征(例如上述第一批次的第二特征表示和第二批次的第二特征表示)作为更多的负例,这有利于提取到很好的特征。例如,这里的存储器队列采用基于先进先出的规则,也就是说这个存储器队列是动态的,新的训练特征批次入队列后,最老的训练特征批次出队列。
在步骤S605中,利用所述分类器子模型进行分类训练,以针对所述第一批次的第一模态影像图像中的每一个图像生成第一分类预测概率分布,从而得到第一批次的第一分类预测概率分布,并针对所述第二批次的第二模态影像图像中的每一个图像生成第二分类预测概率分布,从而得到第二批次的第二分类预测概率分布。
如图4所示,对比学习子网络的两个编码器的输出端分别连接到两个分类器,例如,第一分类器可以从第一编码器接收第一批次的第一特征表示, 第二分类器可以从第二编码器接收第二批次的第一特征表示。这样,第一分类器和第二分类器可基于所接收到的特征表示用于进行分类训练。
这里分类器针对每个输入图像都输出一个预测概率分布。具体地,第一分类器基于从第一编码器接收到的第一批次的第一特征表示,为第一批次的第一模态影像图像中的每一张图像都输出一个预测的概率分布。同理,第二分类器基于从第二编码器接收到的第二批次的第一特征表示,为第二批次的第二模态影像图像中的每一张图像都输出一个预测的概率分布。例如,假设我们需要将息肉分类为增生、腺瘤、癌症,当输入一张标签为增生的图像时,如果分类器的输出概率分布为:[0.6,0.3,0.1],则表示该分类器预测的该图像是增生的概率为0.6、是腺瘤的概率为0.3、是癌症的概率为0.1。
对于有标签的图像,基于该图像的真实标签和预测概率分布可以确定分类训练的损失函数。虽然对于无标签的图像也进行了分类预测,但是这个预测结果仅用于后续对该无标签的图像确定伪标签,在确定了伪标签以后再加入训练集中以作为有标签的数据进行后续的迭代训练,因此无需针对无标签的图像计算损失值。此过程将在后续段落中更详细的描述。
例如,由于息肉分布的不均衡性,本公开实施例可以使用焦点损失(focal loss)函数作为分类训练的损失函数,如下方等式(2)所示。
Figure PCTCN2022117048-appb-000002
其中,
Figure PCTCN2022117048-appb-000003
为预测概率分布,γ≥0,为可调节的权重。
当然,根据训练集的分布不同,也可以采取其他类型的损失函数,例如交叉熵损失函数,本公开对此不作限制。
例如,这里将针对白光影像图像进行分类训练所确定的焦点损失函数确定为
Figure PCTCN2022117048-appb-000004
将针对窄带光影像图像进行分类训练所确定的焦点损失函数确定为
Figure PCTCN2022117048-appb-000005
在步骤S607中,基于所述第一批次的第二特征表示和所述第二批次的第二特征表示以及所述第一批次的第一分类预测概率分布和所述第二批次的第二分类预测概率分布,计算联合损失函数,并根据联合损失函数调整所述内窥镜图像分类模型的参数。
例如,这里的联合损失函数可以确定为所述对比学习子模型的损失函数和分类器子模型的损失函数的和,如下方等式(3)所示:
Figure PCTCN2022117048-appb-000006
因此,基于上述联合损失函数可以对图4所示的内窥镜图像模型进行参数调整,以使得随着迭代训练的继续,联合损失函数最终最小化。
在步骤S609中,确定是否为所述第一批次的第一模态影像图像中的无标签图像和所述第二批次的第二模态影像图像中的无标签图像生成可信伪标签。
如上所述,由于真实数据集中存在大量缺少标签的情况,因此,本文提出了一种半监督的训练方法,在训练过程中为无标签的数据生成可信的伪标签,并将其加入到训练集中以作为有标签的数据继续训练。
例如,可以结合两个分类器输出为每一对输入图像生成可信伪标签。如上所述,第一分类器为第一批次的白光影像图像生成了第一批次的第一预测概率分布,第二分类器为第二批次的窄带光影像图像生成了第二批次的第二预测概率分布。对于无标签的图像,首先基于预测概率分布来确定一个标签预测值。例如,对于第一批次的白光影像图像中的其中一个无标签白光影像图像,第一分类器为该无标签的白光影像图像生成的预测概率分布是增生60%、腺瘤20%和癌症10%,可以选取概率最大的那个类别(例如这里是增生)的概率值(例如这里是60%)为当前无标签图像所对应的标签预测值。例如,对于与上述对于第一批次的白光影像图像中的其中一个无标签图像一一对应的一个无标签的窄带光影像图像,第二分类器为该无标签的窄带光影像图像生成的预测概率分布是增生60%、腺瘤10%和癌症20%,可以选取概率最大的那个类别(例如这里是增生)的概率值(例如这里是60%)为当前无标签窄带光影像图像所对应的标签预测值。对于一对一一对应的无标签图像,判断两个分类器所生成的标签预测值是否相同。如果不相同,则不为该对图像生成可信伪标签。如果两个分类器所生成的标签预测值相同(例如,上述两个标签预测值都是60%),则将这两个标签预测值行融合。例如,这里可以是对两个对应的标签预测值线性相加再除以2,当然,这里还可以基于其他数据融合方式,本公开对此不作限制。当所融合的标签预测值大于一预定阈值(例如,0.85)时,则生成所述可信伪标签,如果小于该阈值,则不生成可信伪标签。
接下来,在步骤S611中,如果确定为所述第一批次的第一模态影像图像中的无标签图像和所述第二批次的第二模态影像图像中的无标签图像生成可信伪标签,将生成可信伪标签的第一模态影像图像和对应的第二模态影像 图像分别加入到所述第一图像集合和所述第二图像集合中,以构成新的第一图像集合和新的第二图像集合,以更新训练数据集。
最后,在步骤S613中,将所述新的第一图像集合和所述新的第二图像集合作为新的训练数据集对调整后的所述内窥镜图像分类模型继续进行迭代训练。
在训练过程中不断优化联合损失函数,使其最小化并收敛,即确定图像分类模型训练完成。当然,如果没有为第一批次的第一影像图像中的任何无标签图像以及第二批次的第二影像图像中的任何无标签图像生成伪标签,则仍然基于原来的第一图像集合和第二图像集合作为训练集来进行下一次迭代训练。
本公开提出的基于对比学习的内窥镜分类方法,采取新的正负例的选择方式,更好的利用不同内镜模态图像的信息,以学习到影像本身的抽象语义级别的特征,以增强对白光图像的分类准确率。同时,在传统对比学习SimCLR模型上增加了一个动态的存储队列来存储更多负样本,更有效地覆盖底层分布,从而给出更好的训练效果。此外,在标注数据有限的情况下,同时通过伪标签的方式动态的增加数据标签辅助训练,更好地解决了人工收集并标注大量训练集的成本问题。
基于通过如上方式训练好的内窥镜图像分类模型,本公开实施例还提供了一种内窥镜图像分类方法。现以待识别图像为白光影像图像为例,参考图7来描述本公开实施例中内窥镜图像分类方法的流程图,该方法包括:
在步骤S701中,获取待识别的内窥镜图像。
例如,如果训练的图像分类模型是针对息肉类型识别,获取的待识别的内窥镜图像即是采集到的息肉影像。
经过上述实施例中内窥镜图像分类模型训练方法,本公开实施例仅利用所训练出的内窥镜图像分类模型中的编码器和分类器来进行内窥镜图像的分类。由于不同模态影像图像可以互相进行特征的补充以辅助识别。例如,如果上下分支分别是基于白光影像和窄带光影像训练的,基于所识别的内窥镜图像是属于白光影像还是窄带光影像,本公开实施例相应地利用上分支中的编码器及分类器或下分支中的编码器及分类器。
在步骤S703中,基于训练好内窥镜图像分类模型中的编码器提取所述内窥镜图像的图像特征表示。例如,这里的编码器可以是ResNet101网络。 具体的特征表示提取过程是本领域技术人员所公知的,在此不做赘述。
在步骤S705中,将所提取的图像特征表示输入到内窥镜图像分类模型中的相应的分类器,获得所述内窥镜图像的分类结果。
这里的编码器和分类器是基于同一病灶不同模态的内窥镜图像互相辅助训练得到的。具体来说,例如,用于对白光影像进行分类的上分支中的编码器和分类器,是由下分支中的编码器和分类器基于窄带光影像图像进行辅助训练得到的,因此上分支中的编码器和分类器在对于白光影像分类时能达到更准确可靠的分类结果。例如,在利用本公开训练好的内窥镜图像分类模型来对在白光模式下操作的内窥镜获取的白光影像进行识别时,可以将该白光影像输入到训练好的内窥镜图像分类模型的上分支中的第一编码器以提取出第一特征表示,在将该第一特征表示输入到与第一编码器连接的第一分类器中以进行分类识别。例如,对于获取的腺瘤的白光影像,该第一分类器可以输出预测的概率分布为增生10%、腺瘤80%和癌症10%。
同理,下分支中的编码器和分类器对于窄带光影像图像进行分类时能达到更准确可靠的分类结果,这里不再赘述。此外,如果训练好的内窥镜影像是基于其他模态影像图像进行学习,例如第一模态影像图像是自发荧光影像、第二模态影像是I-SCAN影像时,该训练好的内窥镜影像的上分支中的编码器及与其连接的分类器在对自发荧光影像进行分类时达到更准确可靠的分类结果,而下分支中的编码器及与其连接的分类器在对I-SCAN影像进行分类时达到更准确可靠的分类结果。
基于上述实施例,参阅图8所示,为本公开实施例中一种内窥镜图像分类系统800的结构示意图。该内窥镜图像分类系统800至少包括图像获取部件801、处理部件802和输出部件803。本公开实施例中,图像获取部件801、处理部件802和输出部件803为相关的医疗器械,可以集成在同一医疗器械中,也可以分为多个设备,相互连接通信,组成一个医疗系统来使用等,例如针对消化道疾病诊断,图像获取部件801可以为内镜,处理部件802和输出部件803可以为与内镜相通信的计算机设备等。
具体地,图像获取部件801用于获取待识别图像。处理部件802用于提取待识别图像的图像特征信息,并基于待识别的图像的特征信息获得待识别图像的病变分类结果。输出部件803用于输出待识别图像的分类结果。
图9示出了根据本公开实施例的内窥镜图像分类模型的训练装置,具体 包括训练数据集获取部件901和训练部件903。
训练数据集获取部件901用于:获取第一图像集合,所述第一图像集合是通过以第一模态操作的内窥镜获取的一个或多个对象的第一模态影像图像的集合;以及获取第二图像集合,所述第二图像集合是通过以与第一模态不同的第二模态操作的内窥镜获取的所述一个或多个对象的第二模态影像图像的集合,所述第二模态影像图像与所述第一模态影像图像一一对应;以及训练部件903用于:将所述第一图像集合和所述第二图像集合作为训练数据集输入到所述内窥镜图像分类模型中,对所述内窥镜图像分类模型进行训练,以获得训练完成的内窥镜图像分类模型。
例如,所述训练部件903是半监督的训练部件,所述第一图像集合的第一子集合的图像具有标记内窥镜图像类别的标签,以及所述第一图像集合的其他图像没有标记内窥镜图像类别的标签;以及所述第二图像集合中与所述第一子集合的图像一一对应的第二子集合的图像具有相同的标记内窥镜图像类别的标签,以及所述第二图像集合的其他图像没有标记内窥镜图像类别的标签。
例如,其中,所述内窥镜图像分类模型包括:对比学习子模型,所述对比学习子模型包括:第一学习模块,用于接收所述第一图像集合并且学习所述第一图像集合,以获取所述第一图像集合的第一特征表示和第二特征表示;第二学习模块,用于接收所述第二图像集合并且学习所述第二图像集合,以获取所述第二图像集合的第一特征表示和第二特征表示;存储器队列,用于存储第一学习模块生成的第一图像集合的第二特征表示和第二学习模块生成的第二图像集合的第二特征表示;分类器子模型,包括:第一分类器子模型,用于根据所述第一学习模块生成的第一图像集合的第一特征表示进行分类学习,以生成所述第一图像集合中的每一个图像的分类预测概率分布;第二分类器子模型,用于根据第二学习模块生成的第二图像集合的第一特征表示进行分类学习,以生成所述第二图像集合中的每一个图像的分类预测概率分布。
例如,其中第一学习模块包括依次连接的第一编码器和第一非线性映射器,第二学习模块包括依次连接的第二编码器和第二非线性映射器,其中所述第一编码器和所述第二编码器的结构相同,并且所述第一非线性映射器和所述第二非线性映射器结构相同,第一分类器子模型包括第一分类器,所述 第一分类器连接到所述第一编码器的输出端,以及第一分类器子模型包括第二分类器,所述第二分类器连接到所述第二编码器的输出端,其中所述第一分类器和所述第二分类器结构相同。
例如,所述训练部件903包括输入部件903_1,在每次迭代训练时:所述输入部件903_1从所述第一图像集合中选取第一批次的第一模态影像图像,并输入到所述第一学习模块中;以及所述输入部件903_1从所述第二图像集合中选取与所述第一批次的第一模态影像图像一一对应的第二批次的第二模态影像图像,并输入到所述第二学习模块中。
例如,所述训练部件903对所述内窥镜图像分类模型进行训练,以获得训练完成的内窥镜图像分类模型包括:所述训练部件903对所述内窥镜图像分类模型进行训练,直到所述内窥镜图像分类模型的联合损失函数收敛,以获得训练完成的内窥镜图像分类模型。
例如,所述训练部件903还包括:无监督学习部件903_2,利用所述对比学习子模型进行无监督的对比学习,以针对所述第一批次的第一模态影像图像生成第一批次的第一特征表示和第一批次的第二特征表示,并针对所述第二批次的第二模态影像图像生成第二批次的第一特征表示和第二批次的第二特征表示;存储部件903_3,基于先进先出的规则,将所述第一批次的第二特征表示和所述第二批次的第二特征表示存储到所述存储器队列中;分类训练部件903_4,利用所述分类器子模型进行分类训练,以针对所述第一批次的第一模态影像图像中的每一个图像生成第一分类预测概率分布,从而得到第一批次的第一分类预测概率分布,并针对所述第二批次的第二模态影像图像中的每一个图像生成第二分类预测概率分布,从而得到第二批次的第二分类预测概率分布;参数调整部件903_5,基于所述第一批次的第二特征表示和所述第二批次的第二特征表示以及所述第一批次的第一分类预测概率分布和所述第二批次的第二分类预测概率分布,计算联合损失函数,并根据联合损失函数调整所述内窥镜图像分类模型的参数;可信伪标签确定部件903_6,确定是否为所述第一批次的第一模态影像图像中的无标签图像和所述第二批次的第二模态影像图像中的无标签图像生成可信伪标签;训练数据集更新部件903_7,如果确定为所述第一批次的第一模态影像图像中的无标签图像和所述第二批次的第二模态影像图像中的无标签图像生成可信伪标签,将生成可信伪标签的第一模态影像图像和对应的第二模态影像图像分别 加入到所述第一图像集合和所述第二图像集合中,以构成新的第一图像集合和新的第二图像集合,以更新训练数据集;以及所述训练部件903将所述新的第一图像集合和所述新的第二图像集合作为新的训练数据集对调整后的所述内窥镜图像分类模型继续进行迭代训练。
例如,如果所述可信伪标签确定模块确定不为所述第一批次的第一模态影像图像中的无标签图像和所述第二批次的第二模态影像图像中的无标签图像生成可信伪标签,则继续基于所述第一图像集合和所述第二图像集合作为训练数据集对调整后的所述内窥镜图像分类模型继续进行迭代训练。
例如,所述内窥镜图像分类模型的联合损失函数是以下各损失函数的和:针对所述对比学习的损失函数、针对第一批次的第一模态影像图像中的有标签图像进行分类训练时的损失函数、以及针对第二批次的第二模态影像图像中的有标签图像进行分类训练时的损失函数。
例如,针对所述对比学习的损失函数是噪音对比估计损失函数InfoNCE,针对第一批次的第一模态影像图像中的有标签图像进行分类训练的损失函数和针对第二批次的第二模态影像图像中的有标签图像进行分类训练的损失函数是焦点损失函数。
例如,利用所述对比学习子模型进行无监督的对比学习,以针对所述第一批次的第一模态影像图像生成第一批次的第一特征表示和第一批次的第二特征表示,并针对所述第二批次的第二模态影像图像生成第二批次的第一特征表示和第二批次的第二特征表示包括:基于所述第一编码器,将所述第一批次的第一模态影像图像中的每一个图像转换为第一特征表示,以得到第一批次的第一特征表示,并基于所述第一非线性映射器,将所述第一批次的第一特征表示中的每一个第一特征表示进行非线性映射,以得到第一批次的第二特征表示;以及基于所述第二编码器,将所述第二批次的第二模态影像图像中的每一个图像转换为第一特征表示,以得到第二批次的第一特征表示,并基于所述第二非线性映射器,将所述第二批次的第一特征表示中的每一个第一特征表示进行非线性映射,以得到第二批次的第二特征表示。
例如,其中,所述可信伪标签确定部件903_6确定是否为所述第一批次的第一模态影像图像中的无标签图像和所述第二批次的第二模态影像图像中的无标签图像生成可信伪标签包括:对于每一个无标签的第一模态影像图像,基于为该无标签的第一模态影像图像生成的第一分类预测概率分布,来 确定该无标签的第一模态影像图像第一标签预测值;以及对于与该无标签的第一模态影像图像一一对应的无标签的第二模态影像图像,基于为该无标签的第二模态影像图像所生成的第二分类预测概率分布,来确定该无标签的第二模态影像图像的第二标签预测值;确定所述第一标签预测值和所述第二标签预测值是否一致;如果不一致,则不生成所述可信伪标签;如果一致,则将所述第一标签预测值和所述第二标签预测值进行融合,当所融合的标签预测值大于一预定阈值,则生成所述可信伪标签,否则,则不生成所述可信伪标签。
例如,所述可信伪标签确定部件903_6将所述第一标签预测值和所述第二标签预测值进行融合包括:对所述第一标签预测值和所述第二标签预测值进行加权平均以得到所述融合的标签预测值。
例如,所述对象是息肉,并且所述内窥镜图像是息肉内窥镜图像。
例如,其中所述标签包括增生、腺瘤和癌症中的至少一个。
例如,所述第一模态影像图像是白光影像图像,所述第二模态影像图像是窄带光影像图像。
基于上述实施例,本公开实施例中还提供了另一示例性实施方式的电子设备。在一些可能的实施方式中,本公开实施例中电子设备可以包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,处理器执行程序时可以实现上述实施例中内窥镜图像分类模型训练方法或内窥镜图像识别方法的步骤。
例如,以电子设备为本公开图1中的服务器100为例进行说明,则该电子设备中的处理器即为服务器100中的处理器110,该电子设备中的存储器即为服务器100中的存储器120。
本公开的实施例还提供了一种计算机可读存储介质。图10示出了根据本公开的实施例的存储介质。如图10所示,所述计算机可读存储介质1000上存储有计算机可执行指令1001。当所述计算机可执行指令1001由处理器运行时,可以执行参照以上附图描述的根据本公开实施例的基于对比学习的内窥镜图像分类模型的训练方法和内窥镜图像分类方法。所述计算机可读存储介质包括但不限于例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。
本公开的实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行根据本公开实施例的基于对比学习的内窥镜图像分类模型的训练方法和内窥镜图像分类方法。
本领域技术人员能够理解,本公开所披露的内容可以出现多种变型和改进。例如,以上所描述的各种设备或组件可以通过硬件实现,也可以通过软件、固件、或者三者中的一些或全部的组合实现。
此外,虽然本公开对根据本公开的实施例的系统中的某些单元做出了各种引用,然而,任何数量的不同单元可以被使用并运行在客户端和/或服务器上。所述单元仅是说明性的,并且所述系统和方法的不同方面可以使用不同单元。
本领域普通技术人员可以理解上述方法中的全部或部分的步骤可通过程序来指令相关硬件完成,所述程序可以存储于计算机可读存储介质中,如只读存储器、磁盘或光盘等。可选地,上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现。相应地,上述实施例中的各模块/单元可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。本公开并不限制于任何特定形式的硬件和软件的结合。
除非另有定义,这里使用的所有术语(包括技术和科学术语)具有与本公开所属领域的普通技术人员共同理解的相同含义。还应当理解,诸如在通常字典里定义的那些术语应当被解释为具有与它们在相关技术的上下文中的含义相一致的含义,而不应用理想化或极度形式化的意义来解释,除非这里明确地这样定义。
以上是对本公开的说明,而不应被认为是对其的限制。尽管描述了本公开的如果干示例性实施例,但本领域技术人员将容易地理解,在不背离本公开的新颖教学和优点的前提下可以对示例性实施例进行许多修改。因此,所有这些修改都意图包含在权利要求书所限定的本公开范围内。应当理解,上面是对本公开的说明,而不应被认为是限于所公开的特定实施例,并且对所公开的实施例以及其他实施例的修改意图包含在所附权利要求书的范围内。本公开由权利要求书及其等效物限定。

Claims (23)

  1. 一种基于对比学习的内窥镜图像分类模型的训练方法,包括:
    获取第一图像集合,所述第一图像集合是通过以第一模态操作的内窥镜获取的一个或多个对象的第一模态影像图像的集合;
    获取第二图像集合,所述第二图像集合是通过以与第一模态不同的第二模态操作的内窥镜获取的所述一个或多个对象的第二模态影像图像的集合,所述第二模态影像图像与所述第一模态影像图像一一对应;以及
    将所述第一图像集合和所述第二图像集合作为训练数据集输入到所述内窥镜图像分类模型中,对所述内窥镜图像分类模型进行训练,以获得训练完成的内窥镜图像分类模型。
  2. 根据权利要求1所述的方法,其中,所述训练方法是半监督的训练方法,所述第一图像集合的第一子集合的图像具有标记内窥镜图像类别的标签,以及所述第一图像集合的其他图像没有标记内窥镜图像类别的标签;以及
    所述第二图像集合中与所述第一子集合的图像一一对应的第二子集合的图像具有相同的标记内窥镜图像类别的标签,以及所述第二图像集合的其他图像没有标记内窥镜图像类别的标签。
  3. 根据权利要求1或2所述的方法,其中,所述内窥镜图像分类模型包括:
    对比学习子模型,所述对比学习子模型包括:
    第一学习模块,用于接收所述第一图像集合并且学习所述第一图像集合,以获取所述第一图像集合的第一特征表示和第二特征表示;
    第二学习模块,用于接收所述第二图像集合并且学习所述第二图像集合,以获取所述第二图像集合的第一特征表示和第二特征表示;以及
    存储器队列,用于存储第一学习模块生成的第一图像集合的第二特征表示和第二学习模块生成的第二图像集合的第二特征表示;
    分类器子模型,包括:
    第一分类器子模型,用于根据所述第一学习模块生成的第一图像集合的第一特征表示进行分类学习,以生成所述第一图像集合中的每一个图像的分 类预测概率分布;以及
    第二分类器子模型,用于根据第二学习模块生成的第二图像集合的第一特征表示进行分类学习,以生成所述第二图像集合中的每一个图像的分类预测概率分布。
  4. 根据权利要求3所述的方法,其中
    第一学习模块包括依次连接的第一编码器和第一非线性映射器,
    第二学习模块包括依次连接的第二编码器和第二非线性映射器,其中所述第一编码器和所述第二编码器的结构相同,并且所述第一非线性映射器和所述第二非线性映射器结构相同,
    第一分类器子模型包括第一分类器,所述第一分类器连接到所述第一编码器的输出端,以及
    第一分类器子模型包括第二分类器,所述第二分类器连接到所述第二编码器的输出端,其中所述第一分类器和所述第二分类器结构相同。
  5. 根据权利要求3或4所述的方法,其中,将所述第一图像集合和所述第二图像集合作为训练数据集输入到所述内窥镜图像分类模型中包括:
    在每次迭代训练时:
    从所述第一图像集合中选取第一批次的第一模态影像图像,并输入到所述第一学习模块中;以及
    从所述第二图像集合中选取与所述第一批次的第一模态影像图像一一对应的第二批次的第二模态影像图像,并输入到所述第二学习模块中。
  6. 根据权利要求5所述的方法,其中,对所述内窥镜图像分类模型进行训练,以获得训练完成的内窥镜图像分类模型包括:
    对所述内窥镜图像分类模型进行训练,直到所述内窥镜图像分类模型的联合损失函数收敛,以获得训练完成的内窥镜图像分类模型。
  7. 根据权利要求6所述的方法,其中对所述内窥镜图像分类模型进行训练,直到所述内窥镜图像分类模型的联合损失函数收敛包括:
    利用所述对比学习子模型进行无监督的对比学习,以针对所述第一批次 的第一模态影像图像生成第一批次的第一特征表示和第一批次的第二特征表示,并针对所述第二批次的第二模态影像图像生成第二批次的第一特征表示和第二批次的第二特征表示;
    基于先进先出的规则,将所述第一批次的第二特征表示和所述第二批次的第二特征表示存储到所述存储器队列中;
    利用所述分类器子模型进行分类训练,以针对所述第一批次的第一模态影像图像中的每一个图像生成第一分类预测概率分布,从而得到第一批次的第一分类预测概率分布,并针对所述第二批次的第二模态影像图像中的每一个图像生成第二分类预测概率分布,从而得到第二批次的第二分类预测概率分布;
    基于所述第一批次的第二特征表示和所述第二批次的第二特征表示以及所述第一批次的第一分类预测概率分布和所述第二批次的第二分类预测概率分布,计算联合损失函数,并根据联合损失函数调整所述内窥镜图像分类模型的参数;
    确定是否为所述第一批次的第一模态影像图像中的无标签图像和所述第二批次的第二模态影像图像中的无标签图像生成可信伪标签;
    如果确定为所述第一批次的第一模态影像图像中的无标签图像和所述第二批次的第二模态影像图像中的无标签图像生成可信伪标签,则将生成可信伪标签的第一模态影像图像和对应的第二模态影像图像分别加入到所述第一图像集合和所述第二图像集合中,以构成新的第一图像集合和新的第二图像集合,以更新训练数据集;以及
    将所述新的第一图像集合和所述新的第二图像集合作为新的训练数据集对调整后的所述内窥镜图像分类模型继续进行迭代训练。
  8. 根据权利要求7所述的方法,其中如果确定不为所述第一批次的第一模态影像图像中的无标签图像和所述第二批次的第二模态影像图像中的无标签图像生成可信伪标签,则继续基于所述第一图像集合和所述第二图像集合作为训练数据集对调整后的所述内窥镜图像分类模型继续进行迭代训练。
  9. 根据权利要求6-8任一项所述的方法,其中,所述内窥镜图像分类模型的联合损失函数是以下各损失函数的和:
    针对所述对比学习的损失函数、针对第一批次的第一模态影像图像中的有标签图像进行分类训练时的损失函数、以及针对第二批次的第二模态影像图像中的有标签图像进行分类训练时的损失函数。
  10. 根据权利要求9所述的方法,其中,针对所述对比学习的损失函数是噪音对比估计损失函数InfoNCE,
    针对第一批次的第一模态影像图像中的有标签图像进行分类训练的损失函数和针对第二批次的第二模态影像图像中的有标签图像进行分类训练的损失函数是焦点损失函数。
  11. 根据权利要求7或8所述的方法,其中,利用所述对比学习子模型进行无监督的对比学习,以针对所述第一批次的第一模态影像图像生成第一批次的第一特征表示和第一批次的第二特征表示,并针对所述第二批次的第二模态影像图像生成第二批次的第一特征表示和第二批次的第二特征表示包括:
    基于所述第一编码器,将所述第一批次的第一模态影像图像中的每一个图像转换为第一特征表示,以得到第一批次的第一特征表示,并基于所述第一非线性映射器,将所述第一批次的第一特征表示中的每一个第一特征表示进行非线性映射,以得到第一批次的第二特征表示;以及
    基于所述第二编码器,将所述第二批次的第二模态影像图像中的每一个图像转换为第一特征表示,以得到第二批次的第一特征表示,并基于所述第二非线性映射器,将所述第二批次的第一特征表示中的每一个第一特征表示进行非线性映射,以得到第二批次的第二特征表示。
  12. 根据权利要求7或8所述的方法,其中,确定是否为所述第一批次的第一模态影像图像中的无标签图像和所述第二批次的第二模态影像图像中的无标签图像生成可信伪标签包括:
    对于每一个无标签的第一模态影像图像,基于为该无标签的第一模态影像图像生成的第一分类预测概率分布,来确定该无标签的第一模态影像图像第一标签预测值;以及
    对于与该无标签的第一模态影像图像一一对应的无标签的第二模态影 像图像,基于为该无标签的第二模态影像图像所生成的第二分类预测概率分布,来确定该无标签的第二模态影像图像的第二标签预测值;
    确定所述第一标签预测值和所述第二标签预测值是否一致;
    如果不一致,则不生成所述可信伪标签;
    如果一致,则将所述第一标签预测值和所述第二标签预测值进行融合,当所融合的标签预测值大于一预定阈值,则生成所述可信伪标签,否则,则不生成所述可信伪标签。
  13. 根据权利要求12所述的方法,其中将所述第一标签预测值和所述第二标签预测值进行融合包括:
    对所述第一标签预测值和所述第二标签预测值进行加权平均以得到所述融合的标签预测值。
  14. 根据权利要求1-13任一项所述的方法,其中,所述对象是息肉,并且所述内窥镜图像是息肉内窥镜图像。
  15. 根据权利要求2所述的方法,其中所述标签包括增生、腺瘤和癌症中的至少一个。
  16. 根据权利要求2所述的方法,其中所述第一模态影像图像是白光影像图像,所述第二模态影像图像是窄带光影像图像。
  17. 根据权利要求2所述的方法,其中所述第一模态影像图像是白光影像图像,所述第二模态影像图像是自发荧光影像影像图像。
  18. 根据权利要求4-13任一项所述的方法,其中,所述编码器是残差神经网络的卷积层部分,所述非线性映射器由两层的多层感知器构成,所述分类器由两层的多层感知器构成。
  19. 一种内窥镜图像分类方法,包括:
    获取待识别的内窥镜图像;
    基于训练好的内窥镜图像分类模型中的编码器提取所述内窥镜图像的图像特征表示;以及
    将所提取的图像特征表示输入到训练好的内窥镜图像分类模型中的相应的分类器,获得所述内窥镜图像的分类结果;
    其中,所述训练好的内窥镜图像分类模型是基于根据权利要求1-18任一项所述的基于对比学习的内窥镜图像分类模型的训练方法所获得的。
  20. 一种内窥镜图像分类系统,包括:
    图像获取部件,用于获取待识别的内窥镜图像;
    处理部件,用于基于训练好的内窥镜图像分类模型中的编码器提取所述内窥镜图像的图像特征表示,以及将所提取的图像特征表示输入到训练好的内窥镜图像分类模型中的相应的分类器,获得所述内窥镜图像的分类结果;以及
    输出部件,用于输出待识别图像的分类结果,
    其中,所述训练好的内窥镜图像分类模型是基于根据权利要求1-18任一项所述的基于对比学习的内窥镜图像分类模型的训练方法所获得的。
  21. 一种基于对比学习的内窥镜图像分类模型的训练装置,包括:
    训练数据集获取部件,用于获取第一图像集合,所述第一图像集合是通过以第一模态操作的内窥镜获取的一个或多个对象的第一模态影像图像的集合;以及获取第二图像集合,所述第二图像集合是通过以与第一模态不同的第二模态操作的内窥镜获取的所述一个或多个对象的第二模态影像图像的集合,所述第二模态影像图像与所述第一模态影像图像一一对应;以及
    训练部件,用于将所述第一图像集合和所述第二图像集合作为训练数据集输入到所述内窥镜图像分类模型中,对所述内窥镜图像分类模型进行训练,以获得训练完成的内窥镜图像分类模型。
  22. 一种电子设备,包括存储器和处理器,其中,所述存储器上存储有所述处理器可读的程序代码,当所述处理器执行所述程序代码时,执行根据权利要求1-19任一项所述的方法。
  23. 一种计算机可读存储介质,其上存储有计算机可执行指令,所述计算机可执行指令用于执行权利要求1-19任一项所述的方法。
PCT/CN2022/117048 2021-09-06 2022-09-05 内窥镜图像分类模型的训练方法、图像分类方法和装置 WO2023030521A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202111039387.8 2021-09-06
CN202111039387.8A CN113496489B (zh) 2021-09-06 2021-09-06 内窥镜图像分类模型的训练方法、图像分类方法和装置

Publications (1)

Publication Number Publication Date
WO2023030521A1 true WO2023030521A1 (zh) 2023-03-09

Family

ID=77997132

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2022/117048 WO2023030521A1 (zh) 2021-09-06 2022-09-05 内窥镜图像分类模型的训练方法、图像分类方法和装置

Country Status (2)

Country Link
CN (1) CN113496489B (zh)
WO (1) WO2023030521A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117577258A (zh) * 2024-01-16 2024-02-20 北京大学第三医院(北京大学第三临床医学院) Petct相似病例检索和预后预测方法

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113496489B (zh) * 2021-09-06 2021-12-24 北京字节跳动网络技术有限公司 内窥镜图像分类模型的训练方法、图像分类方法和装置
CN113642537B (zh) * 2021-10-14 2022-01-04 武汉大学 一种医学图像识别方法、装置、计算机设备及存储介质
CN113706526B (zh) * 2021-10-26 2022-02-08 北京字节跳动网络技术有限公司 内窥镜图像特征学习模型、分类模型的训练方法和装置
CN115719415B (zh) * 2022-03-28 2023-11-10 南京诺源医疗器械有限公司 一种视野可调双视频融合成像方法及系统
CN114758360B (zh) * 2022-04-24 2023-04-18 北京医准智能科技有限公司 一种多模态图像分类模型训练方法、装置及电子设备
CN114782719B (zh) * 2022-04-26 2023-02-03 北京百度网讯科技有限公司 一种特征提取模型的训练方法、对象检索方法以及装置
CN114937178B (zh) * 2022-06-30 2023-04-18 抖音视界有限公司 基于多模态的图像分类方法、装置、可读介质和电子设备
CN115240036B (zh) * 2022-09-22 2023-02-03 武汉珈鹰智能科技有限公司 一种裂缝图像识别网络的训练方法、应用方法及存储介质
CN116758562B (zh) * 2023-08-22 2023-12-08 杭州实在智能科技有限公司 通用文本验证码识别方法及系统

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109222865A (zh) * 2018-10-17 2019-01-18 卓外(上海)医疗电子科技有限公司 一种多模态成像内窥镜系统
CN109948733A (zh) * 2019-04-01 2019-06-28 深圳大学 消化道内窥镜图像的多分类方法、分类装置及存储介质
CN110689025A (zh) * 2019-09-16 2020-01-14 腾讯医疗健康(深圳)有限公司 图像识别方法、装置、系统及内窥镜图像识别方法、装置
CN112741651A (zh) * 2020-12-25 2021-05-04 上海交通大学烟台信息技术研究院 一种内窥镜超声影像的处理方法及系统
CN112766323A (zh) * 2020-12-30 2021-05-07 清华大学 一种影像识别方法和装置
US20210158100A1 (en) * 2019-11-27 2021-05-27 Fujifilm Corporation Image learning device, image learning method, neural network, and image classification device
CN113011485A (zh) * 2021-03-12 2021-06-22 北京邮电大学 多模态多病种长尾分布眼科疾病分类模型训练方法和装置
CN113496489A (zh) * 2021-09-06 2021-10-12 北京字节跳动网络技术有限公司 内窥镜图像分类模型的训练方法、图像分类方法和装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110136106B (zh) * 2019-05-06 2022-12-27 腾讯医疗健康(深圳)有限公司 医疗内窥镜图像的识别方法、系统、设备和内窥镜影像系统
CN110427994A (zh) * 2019-07-24 2019-11-08 腾讯医疗健康(深圳)有限公司 消化道内镜图像处理方法、装置、存储介质、设备及系统
CN112381116B (zh) * 2020-10-21 2022-10-28 福州大学 基于对比学习的自监督图像分类方法
CN112668627A (zh) * 2020-12-24 2021-04-16 四川大学 一种基于对比学习的大规模图像在线聚类系统及方法
CN112990297B (zh) * 2021-03-10 2024-02-02 北京智源人工智能研究院 多模态预训练模型的训练方法、应用方法及装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109222865A (zh) * 2018-10-17 2019-01-18 卓外(上海)医疗电子科技有限公司 一种多模态成像内窥镜系统
CN109948733A (zh) * 2019-04-01 2019-06-28 深圳大学 消化道内窥镜图像的多分类方法、分类装置及存储介质
CN110689025A (zh) * 2019-09-16 2020-01-14 腾讯医疗健康(深圳)有限公司 图像识别方法、装置、系统及内窥镜图像识别方法、装置
US20210158100A1 (en) * 2019-11-27 2021-05-27 Fujifilm Corporation Image learning device, image learning method, neural network, and image classification device
CN112741651A (zh) * 2020-12-25 2021-05-04 上海交通大学烟台信息技术研究院 一种内窥镜超声影像的处理方法及系统
CN112766323A (zh) * 2020-12-30 2021-05-07 清华大学 一种影像识别方法和装置
CN113011485A (zh) * 2021-03-12 2021-06-22 北京邮电大学 多模态多病种长尾分布眼科疾病分类模型训练方法和装置
CN113496489A (zh) * 2021-09-06 2021-10-12 北京字节跳动网络技术有限公司 内窥镜图像分类模型的训练方法、图像分类方法和装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117577258A (zh) * 2024-01-16 2024-02-20 北京大学第三医院(北京大学第三临床医学院) Petct相似病例检索和预后预测方法
CN117577258B (zh) * 2024-01-16 2024-04-02 北京大学第三医院(北京大学第三临床医学院) Petct相似病例检索和预后预测方法

Also Published As

Publication number Publication date
CN113496489B (zh) 2021-12-24
CN113496489A (zh) 2021-10-12

Similar Documents

Publication Publication Date Title
WO2023030521A1 (zh) 内窥镜图像分类模型的训练方法、图像分类方法和装置
WO2023030520A1 (zh) 内窥镜图像分类模型的训练方法、图像分类方法和装置
WO2023071680A1 (zh) 内窥镜图像特征学习模型、分类模型的训练方法和装置
CN109523522B (zh) 内窥镜图像的处理方法、装置、系统及存储介质
AU2017318691B2 (en) System and method of otoscopy image analysis to diagnose ear pathology
WO2020098539A1 (zh) 图像处理方法、装置、计算机可读介质及电子设备
WO2019088121A1 (ja) 画像診断支援装置、資料収集方法、画像診断支援方法および画像診断支援プログラム
US20200279373A1 (en) Ai systems for detecting and sizing lesions
WO2021103938A1 (zh) 医学图像处理方法、装置、设备、介质以及内窥镜
Riegler et al. Eir—efficient computer aided diagnosis framework for gastrointestinal endoscopies
WO2020224153A1 (zh) 一种基于深度学习和图像增强的nbi图像处理方法及其应用
EP4120186A1 (en) Computer-implemented systems and methods for object detection and characterization
Itoh et al. Towards automated colonoscopy diagnosis: binary polyp size estimation via unsupervised depth learning
Masmoudi et al. Optimal feature extraction and ulcer classification from WCE image data using deep learning
Du et al. Improving the classification performance of esophageal disease on small dataset by semi-supervised efficient contrastive learning
EP4260295A1 (en) Self-supervised machine learning for medical image analysis
Sasmal et al. Extraction of Key-Frames From Endoscopic Videos by Using Depth Information
CN116963657A (zh) 使用左右耳膜耳镜检查图像进行自动耳镜检查图像分析以诊断耳部病理的系统和方法
Gao et al. Fusion of colour contrasted images for early detection of oesophageal squamous cell dysplasia from endoscopic videos in real time
Huang et al. TongueMobile: automated tongue segmentation and diagnosis on smartphones
US20240087115A1 (en) Machine learning enabled system for skin abnormality interventions
WO2023285407A1 (en) Computer-implemented systems and methods for object detection and characterization
Hou et al. A graph-optimized deep learning framework for recognition of Barrett’s esophagus and reflux esophagitis

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22863655

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE