WO2021036695A1 - 一种待标注图像确定的方法、模型训练的方法及装置 - Google Patents

一种待标注图像确定的方法、模型训练的方法及装置 Download PDF

Info

Publication number
WO2021036695A1
WO2021036695A1 PCT/CN2020/106541 CN2020106541W WO2021036695A1 WO 2021036695 A1 WO2021036695 A1 WO 2021036695A1 CN 2020106541 W CN2020106541 W CN 2020106541W WO 2021036695 A1 WO2021036695 A1 WO 2021036695A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
segmentation
trained
sub
original image
Prior art date
Application number
PCT/CN2020/106541
Other languages
English (en)
French (fr)
Inventor
胡一凡
李悦翔
郑冶枫
Original Assignee
腾讯科技(深圳)有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 腾讯科技(深圳)有限公司 filed Critical 腾讯科技(深圳)有限公司
Publication of WO2021036695A1 publication Critical patent/WO2021036695A1/zh
Priority to US17/501,899 priority Critical patent/US20220036135A1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2155Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B6/00Apparatus or devices for radiation diagnosis; Apparatus or devices for radiation diagnosis combined with radiation therapy equipment
    • A61B6/52Devices using data or image processing specially adapted for radiation diagnosis
    • A61B6/5294Devices using data or image processing specially adapted for radiation diagnosis involving using additional data, e.g. patient information, image labeling, acquisition parameters
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • G06F18/2178Validation; Performance evaluation; Active pattern learning techniques based on feedback of a supervisor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/143Segmentation; Edge detection involving probabilistic approaches, e.g. Markov random field [MRF] modelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/002Image coding using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/69Microscopic objects, e.g. biological cells or cellular parts
    • G06V20/695Preprocessing, e.g. image segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/70Labelling scene content, e.g. deriving syntactic or semantic representations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H30/00ICT specially adapted for the handling or processing of medical images
    • G16H30/40ICT specially adapted for the handling or processing of medical images for processing medical images, e.g. editing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10072Tomographic images
    • G06T2207/10081Computed x-ray tomography [CT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10072Tomographic images
    • G06T2207/10088Magnetic resonance imaging [MRI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10116X-ray image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10132Ultrasound image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20076Probabilistic image processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20112Image segmentation details
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30004Biomedical image processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30004Biomedical image processing
    • G06T2207/30096Tumor; Lesion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2219/00Indexing scheme for manipulating 3D models or images for computer graphics
    • G06T2219/004Annotating, labelling

Definitions

  • the set of autoencoders includes N autoencoders, and the N is an integer greater than or equal to 1;
  • the device for determining an image to be labeled further includes a judgment module
  • a seventh aspect of the present application provides a server, including: a memory, a transceiver, a processor, and a bus system;
  • the processor is used to execute the program in the memory and includes the following steps:
  • the embodiment of the application provides a method for determining an image to be annotated.
  • the original image and a set of self-encoders are first obtained.
  • the original image is an unannotated image, and then the set of encoded images corresponding to the original image is obtained through the set of self-encoders.
  • the image set includes N coded images, and there is a corresponding relationship between the coded image and the self-encoder, and then the coded image set and the segmentation result set corresponding to the original image are obtained through the image segmentation network.
  • FIG. 18 is a schematic diagram of another embodiment of a sub-image segmentation network training device in an embodiment of this application.
  • the embodiment of the application provides a method for determining an image to be annotated.
  • the original image and a set of self-encoders are obtained.
  • the original image is an unannotated image, and then the set of encoded images corresponding to the original image is obtained through the set of self-encoders.
  • the image set includes N coded images, and there is a corresponding relationship between the coded image and the self-encoder, and then the coded image set and the segmentation result set corresponding to the original image are obtained through the image segmentation network.
  • Figure 6 is a schematic structural diagram of a fully convolutional network in an embodiment of this application.
  • FCN transforms the fully connected layers in the traditional Convolutional Neural Networks (CNN) into one The convolutional layer.
  • Figure 6 shows the process of convolution and deconvolution upsampling.
  • the output of the fifth layer (32 times magnification) is deconvolved to the size of the original image. The result is still not accurate enough, and some details cannot be restored. Therefore, the output of the fourth layer and the output of the third layer are also sequentially deconvolved, requiring 16 times and 8 times upsampling, respectively.
  • a method for generating segmentation results based on multiple sub-image segmentation networks is provided, that is, the first segmentation result is obtained through the first sub-image segmentation network, and the second segmentation result is obtained through the second sub-image segmentation network.
  • the second sub-image segmentation network and the first sub-image segmentation network belong to different types of sub-image segmentation networks.
  • the third optional embodiment of the method for determining the to-be-annotated image provided by the embodiment of the present application, it is determined according to the segmentation result set that the original image corresponds to
  • the uncertainty of can include:
  • an uncertainty threshold needs to be selected from the range of 0 to 1.
  • the uncertainty threshold is determined by assuming that a total of 1000 images are predicted, and the uncertainty of these 1000 images is sorted from large to small, and then the top 50 images with the highest uncertainty ranking are selected as the images to be labeled. .
  • the apparatus for determining an image to be annotated can directly push the image to be annotated to the terminal device, so that the user can directly annotate the image to be annotated on the terminal device.
  • the sub-image segmentation network is generated according to the network model parameters, where the sub-image segmentation network is a sub-image segmentation network in the image segmentation network.
  • the obtaining module 401 is configured to obtain an original image and a set of self-encoders, where the original image is an unlabeled image, the set of self-encoders includes N auto-encoders, and the N is greater than or equal to 1 Integer
  • a method of calculating uncertainty is provided, that is, the gray value corresponding to each pixel in the original image is obtained, and then the gray value corresponding to each pixel in the original image is set according to the segmentation result.
  • the degree value determines the entropy set corresponding to each pixel in the original image, and finally calculates the uncertainty corresponding to the original image according to the entropy set corresponding to each pixel in the original image.
  • the training module 406 is configured to use the image to be trained and the predicted image acquired by the acquisition module 401 to train the sub-image segmentation network to be trained until the loss function converges to acquire network model parameters;

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Computational Linguistics (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Radiology & Medical Imaging (AREA)
  • Biophysics (AREA)
  • Public Health (AREA)
  • Probability & Statistics with Applications (AREA)
  • Primary Health Care (AREA)
  • Epidemiology (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • High Energy & Nuclear Physics (AREA)
  • Optics & Photonics (AREA)
  • Pathology (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Surgery (AREA)
  • Animal Behavior & Ethology (AREA)
  • Veterinary Medicine (AREA)
  • Image Analysis (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

一种待标注图像确定的方法,包括:获取原始图像以及自编码器集合,其中,原始图像为未经过标注的图像,自编码器集合包括N个自编码器,所述N为大于或等于1的整数(101);通过自编码器集合获取原始图像对应的编码图像集合,编码图像集合包括N个编码图像,编码图像与自编码器之间具有对应关系(102);通过图像分割网络获取编码图像集合以及原始图像对应的分割结果集合,图像分割网络包括M个子图像分割网络,分割结果集合包括[(N+1)*M]个分割结果,M为大于或等于1的整数(103);根据分割结果集合确定原始图像对应的不确定度,其中,不确定度用于确定原始图像是否为待标注图像(104)。该方法能够使得输出的结果变化更多,从而提升不确定度的计算合理性,进而有助于选择更加准确的待标注图像。

Description

一种待标注图像确定的方法、模型训练的方法及装置
本申请要求于2019年08月29日提交中国专利局、申请号为201910820773.7、申请名称为“一种待标注图像确定的方法、模型训练的方法及装置”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
技术领域
本申请涉及人工智能(Artificial Intelligence,AI)领域,尤其涉及图像处理技术。
背景技术
医学图像是指为了医疗或医学研究,对人体或人体某部分,以非侵入方式取得的内部组织图像,是用于辅助临床诊断的一个重要手段和参考因素,不同病症的内在异质性也在其成像表型中体现。因此,通过医学图像进行病因诊断或病灶分割,是医学图像分析中最具挑战性的任务。
深度卷积神经网络算法已经广泛应用于病灶的分类与分割,经典的分割分类方法大多需要高精度的标注,因此,需要大量的时间进行标注。目前,提出一种在分割任务中加入随机失活(dropout)层的方法,可以得到分割结果和多种不确定度,对不确定度高的图像进行标注即可。
然而,基于dropout机制提取不确定度存在这样的问题,dropout机制是基于相似结构的网络和同样的输入图像得到的,虽然每次使用不同的节点,但是仍有大量节点的参数的一样的,因此,输出的结果存在较高的相关性,难以将图像处理为差异巨大的结果,导致不确定度的计算缺乏合理性,从而不利于选择准确的待标注图像。
发明内容
本申请实施例提供了一种待标注图像确定的方法、模型训练的方法及装置,通过不同的自编码器侧重提取原始图像不同方面的信息,分化出不同自编码器对原始图像的理解,并且将不同的自编码器的输出结果应用在不同的子图像分割网络上,会使得输出的结果变化更多,从而提升不确定度的计算合理性,进而有助于选择更加准确的待标注图像。
有鉴于此,本申请第一方面提供一种待标注图像确定的方法,由计算设备执行,包括:
获取原始图像以及自编码器集合,其中,所述原始图像为未经过标注的图像,所述自编码器集合包括N个自编码器,所述N为大于或等于1的整数;
通过自编码器集合获取所述原始图像对应的编码图像集合,其中,所述编码图像集合包括N个编码图像,所述编码图像与所述自编码器之间具有对应关系;
通过图像分割网络获取所述编码图像集合以及所述原始图像对应的分割结果集合,其中,所述图像分割网络包括M个子图像分割网络,所述分割结果集合包括[(N+1)*M]个分割结果,所述M为大于或等于1的整数;
根据所述分割结果集合确定所述原始图像对应的不确定度,其中,所述不确定度用于确定所述原始图像是否为待标注图像。
本申请第二方面提供一种自编码器训练的方法,由服务器执行,包括:
获取待训练图像,其中,所述待训练图像为已经过标注的图像;
通过待训练自编码器的编码器对所述待训练图像进行编码,得到编码结果;
通过所述待训练自编码器的解码器对所述编码结果进行解码,得到预测图像;
采用所述待训练图像与所述预测图像对所述待训练自编码器进行训练,直至损失函数收敛,获取自编码器模型参数;
根据所述自编码器模型参数生成自编码器,其中,所述自编码器用于对原始图像进行编码,得到编码图像,所述编码图像用于通过子图像分割网络生成分割结果,所述分割结果用于确定原始图像的不确定度,所述不确定度用于确定所述原始图像是否为待标注图像,所述原始图像为未经过标注的图像。
本申请第三方面提供一种子图像分割网络训练的方法,由服务器执行,包括:
获取待训练图像,其中,所述待训练图像为已经过标注的图像;
通过待训练子图像分割网络获取所述待训练图像对应的预测图像;
采用所述待训练图像与所述预测图像对所述待训练子图像分割网络进行训练,直至损失函数收敛,获取网络模型参数;
根据所述网络模型参数生成子图像分割网络,其中,所述子图像分割网络用于对编码图像以及原始图像进行处理,得到多个分割结果,所述编码图像为自编码器对所述原始图像进行编码后得到的,所述分割结果用于确定所述原始图像的不确定度,所述不确定度用于确定所述原始图像是否为待标注图像,所述原始图像为未经过标注的图像。
本申请第四方面提供一种待标注图像确定装置,包括:
获取模块,用于获取原始图像以及自编码器集合,其中,所述原始图像为未经过标注的图像,所述自编码器集合包括N个自编码器,所述N为大于或等于1的整数;
所述获取模块,还用于通过自编码器集合获取所述原始图像对应的编码图像集合,其中,所述编码图像集合包括N个编码图像,所述编码图像与所述自编码器之间具有对应关系;
所述获取模块,还用于通过图像分割网络获取所述编码图像集合以及所 述原始图像对应的分割结果集合,其中,所述图像分割网络包括M个子图像分割网络,所述分割结果集合包括[(N+1)*M]个分割结果,所述M为大于或等于1的整数;
确定模块,用于根据所述获取模块获取的所述分割结果集合确定所述原始图像对应的不确定度,其中,所述不确定度用于确定所述原始图像是否为待标注图像。
在一种可能的设计中,在本申请实施例的第四方面的第一种实现方式中,
所述获取模块,具体用于通过第一自编码器获取所述原始图像对应的第一编码图像;
通过第二自编码器获取所述原始图像对应的第二编码图像,其中,所述第二自编码器与所述第一自编码器属于两种不同类型的自编码器,所述第二编码图像和所述第一编码图像属于两个不同的图像。
在一种可能的设计中,在本申请实施例的第四方面的第二种实现方式中,
所述获取模块,具体用于通过第一子图像分割网络获取第一分割结果,其中,所述第一分割结果包括(N+1)个第一分割子结果,所述(N+1)个第一分割子结果与所述编码图像集合中的编码图像和所述原始图像具有对应关系;
通过第二子图像分割网络获取第二分割结果,其中,所述第二分割结果包括(N+1)个第二分割子结果,所述(N+1)个第二分割子结果与所述编码图像集合中的编码图像和所述原始图像具有对应关系,所述第二子图像分割网络与所述第一子图像分割网络属于两种不同类型的子图像分割网络。
在一种可能的设计中,在本申请实施例的第四方面的第三种实现方式中,
所述确定模块,具体用于获取所述原始图像中每个像素点对应的灰度值;
根据所述分割结果集合以及所述原始图像中每个像素点对应的灰度值,确定所述原始图像中每个像素点对应的熵集合,其中,所述熵集合包括[(N+1)*M]个熵;
根据所述原始图像中每个像素点对应的熵集合,计算得到所述原始图像对应的不确定度。
在一种可能的设计中,在本申请实施例的第四方面的第四种实现方式中,
所述确定模块,具体用于获取每个分割结果中每个像素点对应的灰度值;
基于所述分割结果集合,根据所述每个分割结果中每个像素点对应的灰度值,确定每个像素点的方差;
根据所述每个像素点的方差以及像素点总数,确定所述原始图像对应的不确定度。
在一种可能的设计中,在本申请实施例的第四方面的第五种实现方式中,所述待标注图像确定装置还包括判断模块;
所述判断模块,用于在所述确定模块根据所述分割结果集合确定所述原始图像所对应的不确定度之后,判断所述不确定度是否大于或等于不确定度门限;
所述确定模块,还用于若所述判断模块判断得到所述不确定度大于或等于所述不确定度门限,则将所述原始图像确定为所述待标注图像。
在一种可能的设计中,在本申请实施例的第四方面的第六种实现方式中,所述待标注图像确定装置还包括编码模块、解码模块、训练模块以及生成模块;
所述获取模块,还用于获取原始图像以及自编码器集合之前,获取待训练图像,其中,所述待训练图像为已经过标注的图像;
所述编码模块,用于通过待训练自编码器的编码器对所述获取模块获取的所述待训练图像进行编码,得到编码结果;
所述解码模块,用于通过所述待训练自编码器的解码器,对所述编码模块编码得到的所述编码结果进行解码,得到预测图像;
所述训练模块,用于采用所述待训练图像与所述解码模块解码得到的所述预测图像对所述待训练自编码器进行训练,直至损失函数收敛,获取自编码器模型参数;
所述生成模块,用于根据所述训练模块训练得到的所述自编码器模型参数生成自编码器,其中,所述自编码器为所述自编码器集合中的一个自编码器。
在一种可能的设计中,在本申请实施例的第四方面的第七种实现方式中,所述待标注图像确定装置还包括训练模块以及生成模块;
所述获取模块,还用于通过图像分割网络获取所述编码图像集合以及所述原始图像对应的分割结果集合之前,获取待训练图像,其中,所述待训练图像为已经过标注的图像;
所述获取模块,还用于通过待训练子图像分割网络获取所述待训练图像所对应的预测图像;
所述训练模块,用于采用所述待训练图像与所述获取模块获取的所述预测图像对所述待训练子图像分割网络进行训练,直至损失函数收敛,获取网络模型参数;
所述生成模块,用于根据所述训练模块训练得到的所述网络模型参数生成子图像分割网络,其中,所述子图像分割网络为所述图像分割网络中的一个子图像分割网络。
本申请第五方面提供一种自编码器训练装置,包括:
获取模块,用于获取待训练图像,其中,所述待训练图像为已经过标注的图像;
编码模块,用于通过待训练自编码器的编码器对所述获取模块获取的所述待训练图像进行编码,得到编码结果;
解码模块,用于通过所述待训练自编码器的解码器,对所述编码模块编码后的所述编码结果进行解码,得到预测图像;
训练模块,用于采用所述待训练图像与所述解码模块解码得到的所述预测图像对所述待训练自编码器进行训练,直至损失函数收敛,获取自编码器模型参数;
生成模块,用于根据所述训练模块训练得到的所述自编码器模型参数生成自编码器,其中,所述自编码器用于对原始图像进行编码,得到编码图像,所述编码图像用于通过子图像分割网络生成分割结果,所述分割结果用于确定原始图像的不确定度,所述不确定度用于确定所述原始图像是否为待标注图像,所述原始图像为未经过标注的图像。
本申请第六方面提供一种子图像分割网络训练装置,包括:
获取模块,用于获取待训练图像,其中,所述待训练图像为已经过标注的图像;
所述获取模块,还用于通过待训练子图像分割网络获取所述待训练图像对应的预测图像;
训练模块,用于采用所述待训练图像与所述获取模块获取的所述预测图像对所述待训练子图像分割网络进行训练,直至损失函数收敛,获取网络模型参数;
生成模块,用于根据所述训练模块训练得到的所述网络模型参数生成子图像分割网络,其中,所述子图像分割网络用于对编码图像以及原始图像进行处理,得到多个分割结果,所述编码图像为自编码器对所述原始图像进行编码后得到的,所述分割结果用于确定所述原始图像的不确定度,所述不确定度用于确定所述原始图像是否为待标注图像,所述原始图像为未经过标注的图像。
本申请第七方面提供一种服务器,包括:存储器、收发器、处理器以及总线系统;
其中,所述存储器用于存储程序;
所述处理器用于执行所述存储器中的程序,包括如下步骤:
获取原始图像以及自编码器集合,其中,所述原始图像为未经过标注的图像,所述自编码器集合包括N个自编码器,所述N为大于或等于1的整数;
通过自编码器集合获取所述原始图像对应的编码图像集合,其中,所述 编码图像集合包括N个编码图像,所述编码图像与所述自编码器之间具有对应关系;
通过图像分割网络获取所述编码图像集合以及所述原始图像对应的分割结果集合,其中,所述图像分割网络包括M个子图像分割网络,所述分割结果集合包括[(N+1)*M]个分割结果,所述M为大于或等于1的整数;
根据所述分割结果集合确定所述原始图像对应的不确定度,其中,所述不确定度用于确定所述原始图像是否为待标注图像;
所述总线系统用于连接所述存储器以及所述处理器,以使所述存储器以及所述处理器进行通信。
本申请第八方面提供一种服务器,包括:存储器、收发器、处理器以及总线系统;
其中,所述存储器用于存储程序;
所述处理器用于执行所述存储器中的程序,包括如下步骤:
获取待训练图像,其中,所述待训练图像为已经过标注的图像;
通过待训练自编码器的编码器对所述待训练图像进行编码,得到编码结果;
通过所述待训练自编码器的解码器对所述编码结果进行解码,得到预测图像;
采用所述待训练图像与所述预测图像对所述待训练自编码器进行训练,直至损失函数收敛,获取自编码器模型参数;
根据所述自编码器模型参数生成自编码器,其中,所述自编码器用于对原始图像进行编码,得到编码图像,所述编码图像用于通过子图像分割网络生成分割结果,所述分割结果用于确定原始图像的不确定度,所述不确定度用于确定所述原始图像是否为待标注图像,所述原始图像为未经过标注的图像;
所述总线系统用于连接所述存储器以及所述处理器,以使所述存储器以及所述处理器进行通信。
本申请第九方面提供一种服务器,包括:存储器、收发器、处理器以及总线系统;
其中,所述存储器用于存储程序;
所述处理器用于执行所述存储器中的程序,包括如下步骤:
获取待训练图像,其中,所述待训练图像为已经过标注的图像;
通过待训练子图像分割网络获取所述待训练图像对应的预测图像;
采用所述待训练图像与所述预测图像对所述待训练子图像分割网络进行训练,直至损失函数收敛,获取网络模型参数;
根据所述网络模型参数生成子图像分割网络,其中,所述子图像分割网络用于对编码图像以及原始图像进行处理,得到多个分割结果,所述编码图 像为自编码器对所述原始图像进行编码后得到的,所述分割结果用于确定所述原始图像的不确定度,所述不确定度用于确定所述原始图像是否为待标注图像,所述原始图像为未经过标注的图像;
所述总线系统用于连接所述存储器以及所述处理器,以使所述存储器以及所述处理器进行通信。
本申请的第十方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述各方面所述的方法。
本申请的第十一方面提供了一种计算机程序产品,包括指令,当其在计算机上运行时,使得计算机执行上述各方面所述的方法。
从以上技术方案可以看出,本申请实施例具有以下优点:
本申请实施例提供了一种待标注图像确定的方法,首先获取原始图像以及自编码器集合,原始图像为未经过标注的图像,然后通过自编码器集合获取原始图像对应的编码图像集合,编码图像集合包括N个编码图像,编码图像与自编码器之间具有对应关系,再通过图像分割网络获取编码图像集合以及原始图像对应的分割结果集合,图像分割网络包括M个子图像分割网络,分割结果集合包括[(N+1)*M]个分割结果,最后根据分割结果集合确定原始图像所对应的不确定度,其中,不确定度用于确定原始图像是否为待标注图像。通过上述方式,将原始图像通过不同编码策略的自编码器进行改变,不同的自编码器能够侧重提取该原始图像不同方面的信息,分化出不同自编码器对原始图像的理解,使得一部分重建后相似而另一部分细节就出现差异。且不同的自编码器输出结果应用在不同的子图像分割网络上,使得输出的结果变化更多,从而提升不确定度的计算合理性,进而有助于选择更加准确的待标注图像。
附图说明
图1为本申请实施例中待标注图像确定系统的一个架构示意图;
图2为本申请实施例中确定待标注图像的一个流程示意图;
图3为本申请实施例中待标注图像确定的方法一个实施例示意图;
图4为本申请实施例中计算不确定度的一个网络架构示意图;
图5为本申请实施例中U-网络的一个结构示意图;
图6为本申请实施例中全卷积网络的一个结构示意图;
图7为本申请实施例中训练自编码器的一个实施例示意图;
图8为本申请实施例中自编码器的一个原理示意图;
图9为本申请实施例中训练子图像分割网络的一个实施例示意图;
图10为本申请实施例中基于子图像分割网络的一个原理示意图;
图11为本申请实施例中自编码器训练的方法一个实施例示意图;
图12为本申请实施例中子图像分割网络训练的方法另一个实施例示意 图;
图13为本申请实施例中待标注图像确定装置的一个实施例示意图;
图14为本申请实施例中待标注图像确定装置的另一个实施例示意图;
图15为本申请实施例中待标注图像确定装置的另一个实施例示意图;
图16为本申请实施例中待标注图像确定装置的另一个实施例示意图;
图17为本申请实施例中自编码器训练装置的一个实施例示意图;
图18为本申请实施例中子图像分割网络训练装置的另一个实施例示意图;
图19为本申请实施例中服务器的一个结构示意图;
图20为本申请实施例中终端设备的一个结构示意图。
具体实施方式
本申请实施例提供了一种待标注图像确定的方法、模型训练的方法及装置,通过不同的自编码器能够侧重提取原始图像不同方面的信息,分化出不同自编码器对原始图像的理解,且不同的自编码器输出结果应用在不同的子图像分割网络上,使得输出的结果变化更多,从而提升不确定度的计算合理性,进而有助于选择更加准确的待标注图像。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“对应于”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
应理解,本申请提供的待标注图像确定方法具有较大的应用前景,可以通过利用小数据集学习,并识别数据的不确定度,帮助用户选择对深度卷积神经网络更加有意义的数据,能够增加训练集中没出现过的数据,再对这些数据进行标注即可。从而使得在较小标注量的情况下取得较大的训练和测试精度。
具体地,本申请基于人工智能(Artificial Intelligence,AI)的技术对图像进行不确定度的计算,从而利用不确定度对待标注图像进行选择。AI是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
本申请采用机器学习(Machine Learning,ML)的方式对自编码器和图像分割模型训练训练。ML是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
为了便于理解,本申请提出了一种待标注图像确定的方法,该方法应用于图1所示的待标注图像确定系统,请参阅图1,图1为本申请实施例中待标注图像确定系统的一个架构示意图,如图所示,终端设备获取大量的医学图像,这些医学图像包含但不仅限于电子计算机断层扫描(Computed Tomography,CT)图像、磁共振成像(Magnetic Resonance Imaging,MRI)图像、超声(B超、彩色多普勒超声、心脏彩超以及三维彩超)图像、X光图像、心电图、脑电图以及光学摄影等由医学仪器生成的图像。医学仪器包含但不仅限于X光成像仪器、CT、MRI、心电图仪器以及脑电图仪器等。医学图像是用于辅助临床诊断的一种重要手段和参考因素,不同病征的内在异质性也在其成像表型(外观和形状)中体现。医学仪器采集到的医学图像可以存放于终端设备。
需要说明的是,终端设备包含但不仅限于平板电脑、笔记本电脑、掌上电脑、手机、语音交互设备及个人电脑(personal computer,PC),此处不做限定。
通过终端设备可以看到海量的医学图像,如果对这些医学图像都进行标注,需要耗费大量时间,因此,需要从海量的医学图像中筛选不确定度较高的医学图像进行标注。终端设备将大量的医学图像发送至服务器,由服务器采用多个自编码器和多个图像分割网络计算出医学图像的不确定度,对于不确定度较高的医学图像进行标注即可。
请参阅图2,图2为本申请实施例中确定待标注图像的一个流程示意图,如图所示,具体地,在模型训练的过程中,前端A可以接收有标签的医学图像和无标签的医学图像,经过预处理算法之后将这些医学图像上传至后端。可以理解的是,预处理算法包含但不仅限于平移、旋转和对称等数据增广算法。后端使用经过预处理的有标签医学图像进行训练,对无标签医学图 像进行不确定度计算,然后输出不确定度到前端B,医生可以通过前端B选取不确定度较高的数据进行标注。
其中,后端可以是指一台服务器或服务器集群,在预测的过程中,后端也可以是一台具有计算能力的终端设备,比如电脑。前端A可以是医学仪器,也可以是存储有医学图像的终端设备,比如电脑。前端B可以是终端设备,比如电脑。
结合上述介绍,下面将对本申请中待标注图像确定的方法进行介绍,请参阅图3,本申请实施例提供的待标注图像确定的方法涉及人工智能的图像处理等技术,具体通过如下实施例进行说明:
101、获取原始图像以及自编码器集合,其中,原始图像为未经过标注的图像,自编码器集合包括N个自编码器,N为大于或等于1的整数;
本实施例中,待标注图像确定装置获取原始图像以及自编码器集合,可以理解的是,待标注图像确定装置通常部署于服务器,或者可以部署于服务器集群,还可以部署于具有较强计算能力的终端设备上,本申请以部署于在服务器为例进行介绍,然而这不应理解为对本申请的限定。
其中,原始图像可以是医学图像,包含但不仅限于CT图像、MRI图像、超声图像、X光图像、心电图以及脑电图。也可以是其他类型的图像,比如监控图像,本申请以医学图像为例进行介绍,然而这不应理解为对本申请的限定。
自编码器(autoencoder,AE)是一类在半监督学习和非监督学习中使用的人工神经网络(Artificial Neural Networks,ANNs),其功能是通过将输入信息作为学习目标,对输入信息进行表征学习(representation learning)。
自编码器包含编码器(encoder)和解码器(decoder)两部分。按学习范式,自编码器可以被分为收缩自编码器(undercomplete autoencoder)、正则自编码器(regularized autoencoder)和变分自编码器(Variational AutoEncoder,VAE),其中前两者是判别模型、后者是生成模型。按构筑类型,自编码器可以是前馈结构或递归结构的神经网络。自编码器具有一般意义上表征学习算法的功能,被应用于降维(dimensionality reduction)和异常值检测(anomaly detection)。包含卷积层构筑的自编码器可被应用于计算机视觉问题,包括图像降噪(image denoising)及神经风格迁移(neural style transfer)等。
102、通过自编码器集合获取原始图像对应的编码图像集合,其中,编码图像集合包括N个编码图像,编码图像与自编码器之间具有对应关系;
本实施例中,待标注图像确定装置通过自编码器集合获取原始图像对应的编码图像集合。其中,原始图像为未经过标注的图像,自编码器集合包括N个自编码器,将原始图像分别输入到这N个自编码器,从而得到N个编码图像。为了便于理解,请参阅表1,表1为输入图像、自编码器与输出图 像(即编码图像)之间的对应关系一个示意。
表1
输入 自编码器 输出
原始图像 自编码器A 编码图像1
原始图像 自编码器B 编码图像2
原始图像 自编码器C 编码图像3
原始图像 自编码器D 编码图像4
原始图像 自编码器F 编码图像5
由此可见,编码图像与自编码器之间具有一一对应的关系,自编码器可以对输入的原始图像提取不同的重构信息,重构信息就是从不同损失函数定义的自编码器生成的图像,用自编码器通过编码—解码结构生成的与原始图像相似的重构图像信息,即得到编码图像。
103、通过图像分割网络获取编码图像集合以及原始图像对应的分割结果集合,其中,图像分割网络包括M个子图像分割网络,分割结果集合包括[(N+1)*M]个分割结果,M为大于或等于1的整数;
本实施例中,待标注图像确定装置将N个编码图像以及原始图像作为图像分割网络的输入,其中,图像分割网络包括M个子图像分割网络,因此,得到的分割结果有[(N+1)*M]个。为了便于理解,请参阅表2,表2为输入图像、子图像分割网络与输出图像(即分割结果)之间的对应关系一个示意。
表2
输入 子图像分割网络 输出
原始图像 子图像分割网络A 分割结果1
编码图像1 子图像分割网络A 分割结果2
编码图像2 子图像分割网络A 分割结果3
原始图像 子图像分割网络B 分割结果4
编码图像1 子图像分割网络B 分割结果5
编码图像2 子图像分割网络B 分割结果6
由此可见,假设有2个编码图像,即N=2,将原始图像和2个编码图像都作为子图像分割网络A的输入,子图像分割网络A将分别输出对应的分割结果,即得到3个分割结果。类似地,将原始图像和2个编码图像都作为子图像分割网络B的输入,子图像分割网络B将分别输出对应的分割结果,即得到3个分割结果。从而总共得到6个分割结果,即[(N+1)*M]=[(2+1)*2]=6。
利用多个不同的无监督子图像分割网络可以提取图像的底层表达信息,从而实现不同的无监督网络对确定性区域和不确定性区域的划分,
104、根据分割结果集合确定原始图像对应的不确定度,其中,不确定度用于确定原始图像是否为待标注图像。
本实施例中,待标注图像确定装置根据分割结果集合,计算得到该原始图像的不确定度。基于该不确定度可以判断该原始图像是否适合作为待标注图像,通常情况下,不确定度越大,作为待标注图像的可能性越高。
为了便于理解,请参阅图4,图4为本申请实施例中用于计算不确定度的一个网络架构示意图,如图所示,假设有N个自编码器,将原始图像分别输入至不同的自编码器中,从而得到N个编码图像,再将N个编码图像和原始图像分别输入至不同的子图像分割网络,共有M个子图像分割网络,即得到[(N+1)*M]个分割结果,最后基于[(N+1)*M]个分割结果计算得到原始图像的不确定度,不确定度可以是方差或者熵,还可以是其他的表示方式。
本申请实施例提供了一种待标注图像确定的方法,首先获取原始图像以及自编码器集合,原始图像为未经过标注的图像,然后通过自编码器集合获取原始图像对应的编码图像集合,编码图像集合包括N个编码图像,编码图像与自编码器之间具有对应关系,再通过图像分割网络获取编码图像集合以及原始图像对应的分割结果集合,图像分割网络包括M个子图像分割网络,分割结果集合包括[(N+1)*M]个分割结果,最后根据分割结果集合确定原始图像对应的不确定度,其中,不确定度用于确定原始图像是否为待标注图像。通过上述方式,将原始图像通过不同编码策略的自编码器进行改变,不同的自编码器能够侧重提取该原始图像不同方面的信息,分化出不同自编码器对原始图像的理解,使得一部分重建后相似而另一部分细节就出现差异。且不同的自编码器输出结果应用在不同的子图像分割网络上,使得输出的结果变化更多,从而提升不确定度的计算合理性,进而有助于选择更加准确的待标注图像。
可选地,在上述图3以及图3对应的各个实施例的基础上,本申请实施例提供的待标注图像确定的方法第一个可选实施例中,通过自编码器集合获取原始图像对应的编码图像集合,可以包括:
通过第一自编码器获取原始图像对应的第一编码图像;
通过第二自编码器获取原始图像对应的第二编码图像,其中,第二自编码器与第一自编码器属于两种不同类型的自编码器,第二编码图像和第一编码图像属于两个不同的图像。
本实施例中,介绍了一种基于多个自编码器生成编码图像的方法。待标注图像确定装置可以将原始图像输入至第一自编码器,由第一自编码器输出第一编码图像,并且将原始图像输入至第二自编码器,由第二自编码器输出第二编码图像。可以理解的是,第一自编码器和第二自编码器仅为一个示意, 在实际应用中,还存在更多数量和更多类型的自编码器。
具体地,自编码器类型包含但不仅限于稀疏自编码器、变分自编码器(Variational Auto-Encoder,VAE)、收缩自编码器(Contractive Auto-Encoder,CAE)以及降噪自编码器(Denoising Auto-Encoder,DAE),且自编码器的数量可以是大于或等于1的整数。本申请中的自编码器集合可以是2个稀疏自编码器1、2个稀疏自编码器2、2个VAE、2个CAE以及2个降噪自编码器,共10个自编码器。
其中,稀疏自编码器可以自动从无标注数据中学习特征,给出比原始数据更好的特征描述。在实际运用时,可以用稀疏编码器发现的特征取代原始数据,这样往往能带来更好的结果。稀疏自编码器1和稀疏自编码器2是两种不同类型的稀疏自编码器。
变分自编码器是一类重要的生成模型,相比于自编码器,VAE更倾向于数据生成。只要训练好解码器,就可以将标准正态分布生成数据作为解码器的输入,生成类似但不同于训练数据的新样本。
收缩自编码器是只在局部收缩,目标是学习数据的流形结构。CAE的训练目标函数是重构误差和收缩罚项(即正则项)的总和,通过最小化该目标函数使已学习到的表示C(x)尽量对输入x保持不变。它的惩罚项Ω(h)是平方Frobenius范数(元素平方的和),作用于与编码器的函数相关偏导数的Jacobian矩阵。简单来说,它的惩罚项是编码器输出的特征向量的元素平方的和。这个处罚项迫使模型学习一个在x变化小时目标也没有太大变化的函数。因为这个惩罚只对训练数据适用,它迫使自编码器学习可以反映训练数据分布信息的特征。
降噪自编码器可以接受加噪的输入来进行训练,核心思想是,一个能够从中恢复出原始信号的神经网络表达未必是最好的,能够对“损坏”的原始数据编码和解码,然后还能恢复真正的原始数据,这样的特征才是好的。
基于上述介绍,在主干网络之前,会将输入通过不同策略的自编码器改变,不同的自编码器能够侧重提取该图像不同方面的信息,分化出不同自编码器对该图像的理解,即一部分重建后相似而另一部分细节就出现差异。不同的自编码器也可以加入不同的网络结构单元,使得自编码器更加多元,从而输入的不确定度增大。采用不同的自编码器输出结果应用在不同的子图像分割网络上,从而使得输出图像变化更多,不确定度也能计算的更加精确。
其次,本申请实施例中,提供了一种基于多个自编码器生成编码图像的方法,即通过第一自编码器获取原始图像对应的第一编码图像,并且通过第二自编码器获取原始图像对应的第二编码图像,第二自编码器与第一自编码器属不同类型的自编码器。通过上述方式,能够利用多个自编码器对图像进行编码,由于不同自编码器能侧重提取图像的不同特征进行编码,利用多个自编码器生成的不同图像在主干位置变换不大而细节变化较大,由此,可以 将网络理解的细节定义为“不确定度”,这部分就是自编码器前后改变较大的区域,从而分割时会造成不确定度大的区域分割结果差异也较大,提升不确定度计算的可靠性。
可选地,在上述图3以及图3对应的各个实施例的基础上,本申请实施例提供的待标注图像确定的方法第二个可选实施例中,通过图像分割网络获取编码图像集合以及原始图像对应的分割结果集合,包括:
通过第一子图像分割网络获取第一分割结果,其中,第一分割结果包括(N+1)个第一分割子结果,(N+1)个第一分割子结果与编码图像集合中的编码图像和原始图像具有对应关系;
通过第二子图像分割网络获取第二分割结果,其中,第二分割结果包括(N+1)个第二分割子结果,(N+1)个第二分割子结果与编码图像集合中的编码图像和原始图像具有对应关系,第二子图像分割网络与第一子图像分割网络属于两种不同类型的子图像分割网络。
本实施例中,介绍了一种基于多个子图像分割网络生成分割结果的方法。待标注图像确定装置可以将N个编码图像和原始图像输入至第一子图像分割网络,得到(N+1)个第一分割子结果,比如1个编码图像对应一个第一分割子结果,原始图像对应另一个第一分割子结果,最后得到(N+1)个第一分割子结果,这(N+1)个第一分割子结果即为第一分割结果。类似地,将N个编码图像和原始图像输入至第二子图像分割网络,得到(N+1)个第二分割子结果,比如1个编码图像对应一个第二分割子结果,原始图像对应另一个第二分割子结果,最后得到(N+1)个第二分割子结果,这(N+1)个第二分割子结果即为第二分割结果。
可以理解的是,第一子图像分割网络和第二子图像分割网络仅为一个示意,在实际应用中,还存在更多数量和更多类型的子图像分割网络。具体地,子图像分割网络类型包含但不仅限于U-网络(U-Net)以及全卷积网络(Fully Convolutional Networks,FCN)。
为了便于说明,请参阅图5,图5为本申请实施例中U-网络的一个结构示意图,如图所示,U-Net是卷积神经网络的一种变形,整个神经网络主要有两部分组成,分别为收缩路径和扩展路径。收缩路径主要是用来捕捉图片中的上下文信息(context information),而与之相对称的扩展路径则是为了对图片中所需要分割出来的部分进行精准定位(localization)。U-Net诞生的一个主要前提是,很多时候深度学习的结构需要大量的sample和计算资源,U-Net基于全卷积神经网络(Fully Convultional Neural Network,FCN)进行改进,并且利用数据增强可以对一些比较少样本的数据进行训练,特别是医学方面相关的数据,这是因为医学数据比一般我们所看到的图片及其他文本数据的获取成本更大,不论是时间还是资源的消耗,所以U-Net的出现对于深度学习用于较少样本的医学图像是很有帮助的。
请参阅图6,图6为本申请实施例中全卷积网络的一个结构示意图,如图所示,FCN将传统卷积神经网络(Convolutional Neural Networks,CNN)中的全连接层转化成一个个的卷积层。图6展示了卷积和反卷积上采样的过程,是对第5层的输出(32倍放大)反卷积到原图大小,得到的结果还是不够精确,一些细节无法恢复。于是将第4层的输出和第3层的输出也依次反卷积,分别需要16倍和8倍上采样。
其次,本申请实施例中,提供了一种基于多个子图像分割网络生成分割结果的方法,即通过第一子图像分割网络获取第一分割结果,通过第二子图像分割网络获取第二分割结果,其中,第二子图像分割网络与第一子图像分割网络属于不同类型的子图像分割网络。通过上述方式,能够利用多个子图像分割网络对图像进行分割,由于不同子图像分割网络能侧重提取图像不同的分割区域,采用不同的自编码器输出结果应用在不同的子图像分割网络上,从而使输出图像变化更多,不确定度的结果也更加精确。
可选地,在上述图3以及图3对应的各个实施例的基础上,本申请实施例提供的待标注图像确定的方法第三个可选实施例中,根据分割结果集合确定原始图像所对应的不确定度,可以包括:
获取原始图像中每个像素点对应的灰度值;
根据分割结果集合以及原始图像中每个像素点对应的灰度值,确定原始图像中每个像素点对应的熵集合,其中,熵集合包括[(N+1)*M]个熵;
根据原始图像中每个像素点对应的熵集合,计算得到原始图像对应的不确定度。
本实施例中,提供了一种基于熵的计算得到不确定度的方式,在得到[(N+1)*M]个分割结果计算得到原始图像的不确定度。具体地,假设N为10,M为2,则可以得到(10+1)*2=22个分割结果。对这22个分割结果计算一个不确定度。具体可以采用如下方式进行计算:
Figure PCTCN2020106541-appb-000001
其中,H[x i]表示第i个像素点的灰度值对应的熵,x i表示原始图像中第i个像素点的灰度值,T表示分割结果的总数,这里T可以为22,t表示大于或等于1,且小于或等于T的整数。C表示网络分割模型的总数,这里C可以为2,c表示大于或等于1,且小于或等于C的整数。
Figure PCTCN2020106541-appb-000002
表示第t个分割结果的预测概率。
由此得到原始图像中每个像素点对应的熵集合,即得到“熵图”,假设每个像素点22个结果,用这22个结果可以得到一个熵的值,拼起来就是一张图。再对所有点的熵取平均值即为不确定度。经过实验,利用无标注数据不确定度的排序,取无标注数据中不确定度较大的前20%数据标注和原本有标注的数据一起训练,得到的dice值与所有无标注数据标注后与有标注数 据一起训练的结果接近,远远高于无标注数据中随机取20%数据标注和原本有标注的数据一起训练。
再次,本申请实施例中,提供了一种计算不确定度的方式,即获取原始图像中每个像素点对应的灰度值,然后根据分割结果集合以及原始图像中每个像素点对应的灰度值,确定原始图像中每个像素点对应的熵集合,最后根据原始图像中每个像素点对应的熵集合,计算得到原始图像对应的不确定度。通过上述方式,为不确定度的计算提供了可行的实现方式,从而提升方案的可操作性和可靠性。
可选地,在上述图3以及图3对应的各个实施例的基础上,本申请实施例提供的待标注图像确定的方法第四个可选实施例中,根据分割结果集合确定原始图像对应的不确定度,可以包括:
获取每个分割结果中每个像素点对应的灰度值;
基于分割结果集合,根据每个分割结果中每个像素点对应的灰度值,确定每个像素点的方差;
根据每个像素点的方差以及像素点总数,确定原始图像对应的不确定度。
本实施例中,提供了一种基于方差的计算得到不确定度的方式,在得到[(N+1)*M]个分割结果后计算原始图像的不确定度。具体地,假设N为10,M为2,则可以得到(10+1)*2=22个分割结果。对这22个分割结果计算一个不确定度。具体可以采用如下方式进行计算:
Figure PCTCN2020106541-appb-000003
Figure PCTCN2020106541-appb-000004
其中,AVG表示平均值,DEV表示方差,x i表示原始图像中第i个像素点的灰度值,T表示分割结果的总数,这里T可以为22,t表示大于或等于1,且小于或等于T的整数。C表示网络分割模型的总数,这里C可以为2,c表示大于或等于1,且小于或等于C的整数。
Figure PCTCN2020106541-appb-000005
表示第t个分割结果的预测概率。
即,方差就是基于每个像素点的[(N+1)*M]个分割结果得到的方差,整张图的方差加起来除以像素数量即为不确定度。
可以理解的是,本申请还可以采用交叉熵的方式计算不确定度,此次不做限定。
再次,本申请实施例中,提供了另一种计算不确定度的方式,即首先获取每个分割结果中每个像素点对应的灰度值,然后基于分割结果集合,根据每个分割结果中每个像素点对应的灰度值,确定每个像素点的方差,最后根 据每个像素点的方差以及像素点总数,确定原始图像对应的不确定度。通过上述方式,为不确定度的计算提供了另一种可行的实现方式,从而提升方案的可操作性、可靠性以及灵活性。
可选地,在上述图3以及图3对应的各个实施例的基础上,本申请实施例提供的待标注图像确定的方法第五个可选实施例中,在根据分割结果集合确定原始图像对应的不确定度之后,还可以包括:
判断不确定度是否大于或等于不确定度门限;
若不确定度大于或等于不确定度门限,则将原始图像确定为待标注图像。
本实施例中,介绍了一种待标注图像确定装置自动选择待标注图像的方式。在待标注图像确定装置计算得到原始图像的不确定度之后,可以判断该不确定度是否大于或等于不确定度门限。具体可以采用如下四种方式实现:
一、固定不确定度门限;
假设不确定度的取值为大于或等于0,且小于或等于1,那么在0至1这个范围内预先设置一个不确定度门限,假设为0.8。于是,在计算得到原始图像的不确定度之后,判断该不确定度是否大于或等于0.8,如果是,则表示该原始图像是需要进行标注的待标注图像,此时,待标注图像确定装置可以直接将待标注图像推送到终端设备上,从而使得用户直接在该终端设备上对待标注图像进行标注即可。
二、固定选取数据的百分比;
假设不确定度的取值为大于或等于0,且小于或等于1,此时需要从0至1这个范围内选择一个不确定度门限。该不确定度门限的确定方式为,假设一共预测了1000个图像,将这1000个图像的不确定度从大至小排序,然后选择出不确定度排序最靠前的10%的图像作为待标注图像,即选择出不确定度靠前的100个图像作为待标注图像。此时,待标注图像确定装置可以直接将待标注图像推送到终端设备上,从而使得用户直接在该终端设备上对待标注图像进行标注即可。
三、固定选取数据量;
假设不确定度的取值为大于或等于0,且小于或等于1,此时需要从0至1这个范围内选择一个不确定度门限。该不确定度门限的确定方式为,假设一共预测了1000个图像,将这1000个图像的不确定度从大至小排序,然后选择不确定度排序最靠前的50个图像作为待标注图像。此时,待标注图像确定装置可以直接将待标注图像推送到终端设备上,从而使得用户直接在该终端设备上对待标注图像进行标注即可。
四、浮动不确定门限;
假设不确定度的取值为大于或等于0,且小于或等于1,此时需要从0至1这个范围内选择一个不确定度门限。该不确定度门限的确定方式为,假 设一共预测了1000个图像,将这1000个图像的不确定度从大至小排序,然后取出不确定度最大的前100个图像,再计算这100个图像的不确定度平均值,假设得到0.85,于是将0.85确定为不确定度门限。在计算得到原始图像的不确定度之后,判断该不确定度是否大于或等于0.85,如果是,则表示该原始图像是需要进行标注的待标注图像,此时,待标注图像确定装置可以直接将待标注图像推送到终端设备上,从而使得用户直接在该终端设备上对待标注图像进行标注即可。
其次,本申请实施例中,提供了一种基于不确定度自行提供待标注图像的方法,在根据分割结果集合确定出原始图像对应的不确定度之后,还可以判断不确定度是否大于或等于不确定度门限,若不确定度大于或等于不确定度门限,则将原始图像确定为待标注图像。通过上述方式,能够根据不确定度自动判断该原始图像是否适合作为待标注图像,这样的话,一方面能够提升待标注图像的选择效率,无需人为根据不确定度进行待标注图像的筛选,另一方面,能够有效地提升待标注图像的选择准确度,防止出现待标注图像漏选的情况。
可选地,在上述图3以及图3对应的各个实施例的基础上,本申请实施例提供的待标注图像确定的方法第六个可选实施例中,在获取原始图像以及自编码器集合之前,还可以包括:
获取待训练图像,其中,待训练图像为已经过标注的图像;
通过待训练自编码器的编码器对待训练图像进行编码,得到编码结果;
通过待训练自编码器的解码器对编码结果进行解码,得到预测图像;
采用待训练图像与预测图像对待训练自编码器进行训练,直至损失函数收敛,获取自编码器模型参数;
根据自编码器模型参数生成自编码器,其中,自编码器为自编码器集合中的一个自编码器。
本实施例中,介绍了一种训练自编码器的方式。在训练的过程中,需要使用带标签的数据,即对待训练图像进行训练,请参阅图7,图7为本申请实施例中训练自编码器的一个实施例示意图,如图所示,通过大量的待训练图像可以分别训练得到自编码器1至自编码器N。其中,该待训练图像可以是经过预处理的图像,比如对待训练图像进行归一化处理,对于没有固定的形状大小和方向性的病灶区域,可以对该待训练图像进行翻转、旋转、放缩和对比度增强等数据增广的操作,从而增加训练样本数量,增大方向性和不同大小规模下的信息价值。
请参阅图8,图8为本申请实施例中自编码器的一个原理示意图,如图所示,自编码器包括编码器和解码器两个部分,编码器用于将输入压缩成潜在空间表征,解码器用于重构来自潜在空间表征的输入。其中,编码器的输入表示为X,经过编码后得到的编码结果表示为z,即z=h(X)。解码器的输 入为z,输出为X’,即X’=y(z)。本申请需要针对每个针对自编码器都进行训练,采用待训练的自编码器对待训练图像进行编码和解码之后得到预测图像,当预测图像和待训练图像之间的差距足够小时,损失函数达到收敛。此时,取出编码器和解码器的自编码器模型参数,根据该自编码器模型参数生成最终的自编码器。
具体地,以1号稀疏自编码器为例,KL散度为
Figure PCTCN2020106541-appb-000006
均方误差(Mean Square Error,MSE)为
Figure PCTCN2020106541-appb-000007
其中,β=3,ρ=0.2或者ρ=0.05。损失函数可以为
Figure PCTCN2020106541-appb-000008
以2号稀疏自编码器为例,L1为
Figure PCTCN2020106541-appb-000009
MES为
Figure PCTCN2020106541-appb-000010
其中,λ=1,L1=10e-3或者L1=10e-5。损失函数可以为
Figure PCTCN2020106541-appb-000011
以变分自编码器为例,KL散度为λ(1+logσ 2-u 2-exp(logσ 2)),MES为
Figure PCTCN2020106541-appb-000012
其中,λ=0.5或λ=0.2。损失函数可以为
Figure PCTCN2020106541-appb-000013
以收缩自编码器为例,L2为
Figure PCTCN2020106541-appb-000014
MES为
Figure PCTCN2020106541-appb-000015
其中,λ=1,L2=10e-3或L2=10e-5。损失函数为
Figure PCTCN2020106541-appb-000016
以收缩自编码器为例,MES为
Figure PCTCN2020106541-appb-000017
其中,高斯噪声参数为Theta=0.5或Theta=0.2。损失函数为
Figure PCTCN2020106541-appb-000018
可以理解的是,上述各类自编码器类型仅为一个示意,不应理解为对本申请的限定,此外,上述各个自编码器的损失函数也为一个示意,在实际应用中,还可以根据情况对损失函数进行灵活调整。
其次,本申请实施例中,提供了一种自编码器的训练方法,即首先获取待训练图像,然后通过待训练自编码器的编码器对待训练图像进行编码,得到编码结果,再通过待训练自编码器的解码器对编码结果进行解码,得到预测图像在,最后采用待训练图像与预测图像对待训练自编码器进行训练,直 至损失函数收敛,获取自编码器模型参数,利用自编码器模型参数生成自编码器。通过上述方式,为自编码器的训练提供了可行的实现方式,从而提升方案的可行性和可操作性。
可选地,在上述图3以及图3对应的各个实施例的基础上,本申请实施例提供的待标注图像确定的方法第七个可选实施例中,在通过图像分割网络获取编码图像集合以及原始图像对应的分割结果集合之前,还可以包括:
获取待训练图像,其中,待训练图像为已经过标注的图像;
通过待训练子图像分割网络获取待训练图像对应的预测图像;
采用待训练图像与预测图像对待训练子图像分割网络进行训练,直至损失函数收敛,获取网络模型参数;
根据网络模型参数生成子图像分割网络,其中,子图像分割网络为图像分割网络中的一个子图像分割网络。
本实施例中,介绍一种训练子图像分割网络的方式。在训练的过程中,需要使用带标签的数据,即对待训练图像进行训练,请参阅图9,图9为本申请实施例中训练子图像分割网络的一个实施例示意图,如图所示,通过大量的待训练图像可以分别训练得到子图像分割网络1至子图像分割网络M。其中,该待训练图像可以是经过预处理的图像,比如对待训练图像进行归一化处理,对于没有固定的形状大小和方向性的病灶区域,可以对该待训练图像进行翻转、旋转、放缩和对比度增强等数据增广的操作,从而增加训练样本数量,增大方向性和不同大小规模下的信息价值。
具体地,将有标签的待训练图像分为训练集和测试集,可以分别用经典的U-Net和FCN训练两个子图像分割网络,基于自适应矩估计(adaptive moment estimation,Adam)的梯度下降法更新网络的参数,初始学习率为0.05,Adam中的betas=(0.95,0.9995)。经过子图像分割网络得到概率值,分割为一个概率图像,每一个像素值为一个0到1的概率,损失函数为dice值,通过最小化损失函数,我们可以计算误差梯度并通过反向传播更新网络的梯度。在上述网络训练完成之后,利用最终的预测概率值,得到分割结果,
下面将介绍基于交叉熵训练子图像分割网络的方法。为了便于理解,请参阅图10,图10为本申请实施例中训练子图像分割网络的一个原理示意图,具体地,图像分割中最常用的损失函数是逐像素交叉熵损失。该损失函数分别检查每个像素,将类预测(深度方向的像素向量)与热编码目标向量进行比较。假设灰度值大于0.5的像素点记为1,小于或等于0.5的像素点记为0。0.83大于0.5,记为1,其他的像素点灰度值都小于0.5,因此都记为0。
由此可见,交叉熵的损失函数单独评估每个像素矢量的类预测,然后对所有像素求平均值,所以可以认为图像中的像素被平等的学习了。但是,医学图像中常出现类别不均衡的问题,由此导致训练会被像素较多的类主导,对于较小的物体很难学习到其特征,从而降低网络的有效性。
下面将介绍基于dice值训练子图像分割网络的方法。采用dice值衡量两个样本的重叠部分。该指标范围从0到1,其中“1”表示完整的重叠。为了计算预测的分割图的dice值,将重叠部分近似为预测图和标签之间的点乘,并将结果函数中的元素相加。
其次,本申请实施例中,提供了一种子图像分割网络的训练方法,即首先获取待训练图像,然后通过待训练子图像分割网络获取待训练图像对应的预测图像,再采用待训练图像与预测图像对待训练子图像分割网络进行训练,直至损失函数收敛,获取网络模型参数,最后根据网络模型参数生成子图像分割网络。通过上述方式,为自编码器的训练提供了可行的实现方式,从而提升方案的可行性和可操作性。
结合上述介绍,下面将基于自编码器的训练方式,对本申请提供的自编码器训练方法进行介绍,请参阅图11,本申请实施例中自编码器训练的方法一个实施例包括:
201、获取待训练图像,其中,待训练图像为已经过标注的图像;
本实施例中,模型训练装置获取待训练图像,可以理解的是,待训练图像是已经过标注的图像,且在训练自编码器的过程中需要采用大量的待训练图像进行训练,为了便于说明,这里将以基于一个待训练图像进行训练为例进行介绍。模型训练装置通常部署于服务器。
待训练图像可以是包括四个模态的BraTS18比赛用MR数据集,四个模态分别为T1、T2、T1C和FLAIR。当然,在实际应用中还可以采用其他类型的待训练图像。接下来,可以对待训练图像进行归一化处理,对于没有固定的形状大小和方向性的病灶区域,可以对该待训练图像进行翻转、旋转、放缩和对比度增强等数据增广的操作,从而增加训练样本数量,增大方向性和不同大小规模下的信息价值。
202、通过待训练自编码器的编码器对待训练图像进行编码,得到编码结果;
本实施例中,模型训练装置将待训练图像输入至待训练自编码器的编码器,编码器用于将输入压缩成潜在空间表征。经过待训练自编码器的编码器的处理后,得到编码结果。
203、通过待训练自编码器的解码器对编码结果进行解码,得到预测图像;
本实施例中,模型训练装置将编码得到的编码结果输入到待训练自编码器的解码器,解码器用于重构来自潜在空间表征的输入。经过待训练自编码器的解码器的处理后,得到预测图像。可以理解的是,待训练自编码器的编码器和解码器初始模型参数可以是预先设定的。
204、采用待训练图像与预测图像对待训练自编码器进行训练,直至损失函数收敛,获取自编码器模型参数;
本实施例中,模型训练装置基于待训练图像和预测图像,采用损失函数进行计算。具体地,不同类型的待训练自编码器往往采用不同的损失函数,可参见上述实施例的介绍,此次不做赘述。当损失函数收敛时,获取对应的自编码器模型参数。
205、根据自编码器模型参数生成自编码器,其中,自编码器用于对原始图像进行编码,得到编码图像,编码图像用于通过子图像分割网络生成分割结果,分割结果用于确定原始图像的不确定度,不确定度用于确定原始图像是否为待标注图像,原始图像为未经过标注的图像。
本实施例中,模型训练装置根据生成的自编码器参数,将该自编码器参数作为自编码器的模型参数,从而得到最终的自编码器。于是,在预测的过程中,可以使用该自编码器对原始图像进行编码。
可以理解的是,在实际应用中,需要对多个自编码器都执行如步骤201至步骤205的操作,这里仅以训练一个自编码器为例进行介绍,然而这不应理解为对本申请的限定。
本申请实施例中,提供了一种自编码器的训练方法,即首先获取待训练图像,然后通过待训练自编码器的编码器对待训练图像进行编码,得到编码结果,再通过待训练自编码器的解码器对编码结果进行解码,得到预测图像在,最后采用待训练图像与预测图像对待训练自编码器进行训练,直至损失函数收敛,获取自编码器模型参数,利用自编码器模型参数生成自编码器。通过上述方式,为自编码器的训练提供了可行的实现方式,从而提升方案的可行性和可操作性。
结合上述介绍,下面将基于子图像分割网络的训练方式,对本申请提供的子图像分割网络训练方法进行介绍,请参阅图12,本申请实施例中子图像分割网络训练的方法一个实施例包括:
301、获取待训练图像,其中,待训练图像为已经过标注的图像;
本实施例中,模型训练装置获取待训练图像,可以理解的是,待训练图像是已经过标注的图像,且在训练子图像分割网络的过程中需要采用大量的待训练图像进行训练,为了便于说明,这里将以基于一个待训练图像对子图像分割网络进行训练为例进行介绍。模型训练装置通常部署于服务器。
待训练图像可以是包括四个模态的BraTS18比赛用MR数据集,四个模态分别为T1、T2、T1C和FLAIR。当然,在实际应用中还可以采用其他类型的待训练图像。接下来,需要对待训练图像进行归一化处理,对于没有固定的形状大小和方向性的病灶区域,可以对该待训练图像进行翻转、旋转、放缩和对比度增强等数据增广的操作,从而增加训练样本数量,增大方向性和不同大小规模下的信息价值。
302、通过待训练子图像分割网络获取待训练图像对应的预测图像;
本实施例中,模型训练装置将待训练图像输入至待训练子图像分割网 络,待训练子图像分割网络用于对图像进行分割,从而得到分割后的预测图像。
303、采用待训练图像与预测图像对待训练子图像分割网络进行训练,直至损失函数收敛,获取网络模型参数;
本实施例中,模型训练装置基于待训练图像和预测图像,采用损失函数进行计算。具体地,不同类型的待训练图像分割网络可以采用不同的损失函数,也可以基于不同的分割模型类型,选择合适的损失函数。当损失函数收敛时,获取对应的网络模型参数。
304、根据网络模型参数生成子图像分割网络,其中,子图像分割网络用于对编码图像以及原始图像进行处理,得到多个分割结果,编码图像为自编码器对原始图像进行编码后得到的,分割结果用于确定原始图像的不确定度,不确定度用于确定原始图像是否为待标注图像,原始图像为未经过标注的图像。
本实施例中,模型训练装置根据生成的网络模型参数,将该网络模型参数作为子图像分割网络的模型参数,从而得到最终的子图像分割网络。于是,在预测的过程中,可以使用该子图像分割网络对原始图像和编码图像进行分割。
可以理解的是,在实际应用中,需要对多个子图像分割网络都执行如步骤301至步骤304的操作,这里仅以训练一个子图像分割网络为例进行介绍,然而这不应理解为对本申请的限定。
本申请实施例中,提供了一种子图像分割网络的训练方法,即首先获取待训练图像,然后通过待训练子图像分割网络获取待训练图像对应的预测图像,再采用待训练图像与预测图像对待训练子图像分割网络进行训练,直至损失函数收敛,获取网络模型参数,最后根据网络模型参数生成子图像分割网络。通过上述方式,为自编码器的训练提供了可行的实现方式,从而提升方案的可行性和可操作性。
下面对本申请中的待标注图像确定装置进行详细描述,请参阅图13,图13为本申请实施例中待标注图像确定装置一个实施例示意图,待标注图像确定装置40包括:
获取模块401,用于获取原始图像以及自编码器集合,其中,所述原始图像为未经过标注的图像,所述自编码器集合包括N个自编码器,所述N为大于或等于1的整数;
所述获取模块401,还用于通过自编码器集合获取所述原始图像对应的编码图像集合,其中,所述编码图像集合包括N个编码图像,所述编码图像与所述自编码器之间具有对应关系;
所述获取模块401,还用于通过图像分割网络获取所述编码图像集合以及所述原始图像对应的分割结果集合,其中,所述图像分割网络包括M个 子图像分割网络,所述分割结果集合包括[(N+1)*M]个分割结果,所述M为大于或等于1的整数;
确定模块402,用于根据所述获取模块401获取的所述分割结果集合确定所述原始图像对应的不确定度,其中,所述不确定度用于确定所述原始图像是否为待标注图像。
本申请实施例中,提供了一种待标注图像确定装置,首先获取原始图像以及自编码器集合,原始图像为未经过标注的图像,然后通过自编码器集合获取原始图像对应的编码图像集合,编码图像集合包括N个编码图像,编码图像与自编码器之间具有对应关系,再通过图像分割网络获取编码图像集合以及原始图像对应的分割结果集合,图像分割网络包括M个子图像分割网络,分割结果集合包括[(N+1)*M]个分割结果,最后根据分割结果集合确定原始图像对应的不确定度,其中,不确定度用于确定原始图像是否为待标注图像。通过上述方式,将原始图像通过不同编码策略的自编码器进行改变,不同的自编码器能够侧重提取该原始图像不同方面的信息,分化出不同自编码器对原始图像的理解,使得一部分重建后相似而另一部分细节就出现差异。且将不同的自编码器的输出结果应用在不同的子图像分割网络上,可以使得输出的结果变化更多,从而提升不确定度的计算合理性,进而有助于选择更加准确的待标注图像。
可选地,在上述图13对应的实施例的基础上,本申请实施例提供的待标注图像确定装置40的另一实施例中,
所述获取模块401,具体用于通过第一自编码器获取所述原始图像对应的第一编码图像;
通过第二自编码器获取所述原始图像对应的第二编码图像,其中,所述第二自编码器与所述第一自编码器属于两种不同类型的自编码器,所述第二编码图像和所述第一编码图像属于两个不同的图像。
其次,本申请实施例中,提供了一种基于多个自编码器生成编码图像的方式,即通过第一自编码器获取原始图像所对应的第一编码图像,并且通过第二自编码器获取原始图像所对应的第二编码图像,第二自编码器与第一自编码器属不同类型的自编码器。通过上述方式,能够利用多个自编码器对图像进行编码,由于不同的自编码器能侧重提取图像的不同特征进行编码,利用多个自编码器生成的不同图像在主干位置变换不大而细节变化较大,由此,可以将网络理解的细节定义为“不确定度”,这部分就是自编码器前后改变较大的区域,从而分割时会造成不确定度大的区域分割结果差异也较大,提升不确定度计算的可靠性。
可选地,在上述图13对应的实施例的基础上,本申请实施例提供的待标注图像确定装置40的另一实施例中,
所述获取模块401,具体用于通过第一子图像分割网络获取第一分割结 果,其中,所述第一分割结果包括(N+1)个第一分割子结果,所述(N+1)个第一分割子结果与所述编码图像集合中的编码图像和所述原始图像具有对应关系;
通过第二子图像分割网络获取第二分割结果,其中,所述第二分割结果包括(N+1)个第二分割子结果,所述(N+1)个第二分割子结果与所述编码图像集合中的编码图像和所述原始图像具有对应关系,所述第二子图像分割网络与所述第一子图像分割网络属于两种不同类型的子图像分割网络。
其次,本申请实施例中,提供了一种基于多个子图像分割网络生成分割结果的方式,即通过第一子图像分割网络获取第一分割结果,通过第二子图像分割网络获取第二分割结果,其中,第二子图像分割网络与第一子图像分割网络属于不同类型的子图像分割网络。通过上述方式,能够利用多个子图像分割网络对图像进行分割,由于不同子图像分割网络能侧重提取图像的分割区域,采用不同的自编码器输出结果应用在不同的子图像分割网络上,从而使输出图像变化更多,不确定度的结果也更加精确。
可选地,在上述图13对应的实施例的基础上,本申请实施例提供的待标注图像确定装置40的另一实施例中,
所述确定模块402,具体用于获取所述原始图像中每个像素点对应的灰度值;
根据所述分割结果集合以及所述原始图像中每个像素点对应的灰度值,确定所述原始图像中每个像素点对应的熵集合,其中,所述熵集合包括[(N+1)*M]个熵;
根据所述原始图像中每个像素点对应的熵集合,计算得到所述原始图像对应的不确定度。
再次,本申请实施例中,提供了一种计算不确定度的方式,即获取原始图像中每个像素点对应的灰度值,然后根据分割结果集合以及原始图像中每个像素点对应的灰度值,确定原始图像中每个像素点对应的熵集合,最后根据原始图像中每个像素点对应的熵集合,计算得到原始图像对应的不确定度。通过上述方式,为不确定度的计算提供了可行的实现方式,从而提升方案的可操作性和可靠性。
可选地,在上述图13对应的实施例的基础上,本申请实施例提供的待标注图像确定装置40的另一实施例中,
所述确定模块402,具体用于获取每个分割结果中每个像素点对应的灰度值;
基于所述分割结果集合,根据所述每个分割结果中每个像素点对应的灰度值,确定每个像素点的方差;
根据所述每个像素点的方差以及像素点总数,确定所述原始图像对应的不确定度。
再次,本申请实施例中,提供了另一种计算不确定度的方式,即首先获取每个分割结果中每个像素点对应的灰度值,然后基于分割结果集合,根据每个分割结果中每个像素点对应的灰度值,确定每个像素点的方差,最后根据每个像素点的方差以及像素点总数,确定原始图像对应的不确定度。通过上述方式,为不确定度的计算提供了另一种可行的实现方式,从而提升方案的可操作性、可靠性以及灵活性。
可选地,在上述图13对应的实施例的基础上,请参阅图14,本申请实施例提供的待标注图像确定装置40的另一实施例中,所述待标注图像确定装置40还包括判断模块403;
所述判断模块403,用于在所述确定模块402根据所述分割结果集合确定所述原始图像所对应的不确定度之后,判断所述不确定度是否大于或等于不确定度门限;
所述确定模块402,还用于若所述判断模块403判断得到所述不确定度大于或等于所述不确定度门限,则将所述原始图像确定为所述待标注图像。
其次,本申请实施例中,提供了一种基于不确定度自行提供待标注图像的方式,在根据分割结果集合确定原始图像对应的不确定度之后,还可以判断不确定度是否大于或等于不确定度门限,若不确定度大于或等于不确定度门限,则将原始图像确定为待标注图像。通过上述方式,能够根据不确定度自动判断该原始图像是否适合作为待标注图像,这样的话,一方面能够提升待标注图像选择的效率,无需人为根据不确定度进行待标注图像的筛选,另一方面,能够有效地提升待标注图像的选择的准确度,防止出现待标注图像漏选的情况。
可选地,在上述图13对应的实施例的基础上,请参阅图15,本申请实施例提供的待标注图像确定装置40的另一实施例中,所述待标注图像确定装置还包括编码模块404、解码模块405、训练模块406以及生成模块407;
所述获取模块401,还用于获取原始图像以及自编码器集合之前,获取待训练图像,其中,所述待训练图像为已经过标注的图像;
所述编码模块404,用于通过待训练自编码器的编码器对所述获取模块401获取的所述待训练图像进行编码,得到编码结果;
所述解码模块405,用于通过所述待训练自编码器的解码器,对所述编码模块404编码得到的所述编码结果进行解码,得到预测图像;
所述训练模块406,用于采用所述待训练图像与所述解码模块405解码得到的所述预测图像对所述待训练自编码器进行训练,直至损失函数收敛,获取自编码器模型参数;
所述生成模块407,用于根据所述训练模块406训练得到的所述自编码器模型参数生成自编码器,其中,所述自编码器为所述自编码器集合中的一个自编码器。
其次,本申请实施例中,提供了一种自编码器的训练方式,即首先获取待训练图像,然后通过待训练自编码器的编码器对待训练图像进行编码,得到编码结果,再通过待训练自编码器的解码器对编码结果进行解码,得到预测图像在,最后采用待训练图像与预测图像对待训练自编码器进行训练,直至损失函数收敛,获取自编码器模型参数,利用自编码器模型参数生成自编码器。通过上述方式,为自编码器的训练提供了可行的实现方式,从而提升方案的可行性和可操作性。
可选地,在上述图13对应的实施例的基础上,请参阅图16,本申请实施例提供的待标注图像确定装置40的另一实施例中,所述待标注图像确定装置40还包括训练模块406以及生成模块407;
所述获取模块401,还用于通过图像分割网络获取所述编码图像集合以及所述原始图像所对应的分割结果集合之前,获取待训练图像,其中,所述待训练图像为已经过标注的图像;
所述获取模块401,还用于通过待训练子图像分割网络获取所述待训练图像对应的预测图像;
所述训练模块406,用于采用所述待训练图像与所述获取模块401获取的所述预测图像对所述待训练子图像分割网络进行训练,直至损失函数收敛,获取网络模型参数;
所述生成模块407,用于根据所述训练模块406训练得到的所述网络模型参数生成子图像分割网络,其中,所述子图像分割网络为所述图像分割网络中的一个子图像分割网络。
其次,本申请实施例中,提供了一种子图像分割网络的训练方式,即首先获取待训练图像,然后通过待训练子图像分割网络获取待训练图像所对应的预测图像,再采用待训练图像与预测图像对待训练子图像分割网络进行训练,直至损失函数收敛,获取网络模型参数,最后根据网络模型参数生成子图像分割网络。通过上述方式,为自编码器的训练提供了可行的实现方式,从而提升方案的可行性和可操作性。
下面对本申请中的自编码器训练装置进行详细描述,请参阅图17,图17为本申请实施例中自编码器训练装置一个实施例示意图,自编码器训练装置50包括:
获取模块501,用于获取待训练图像,其中,所述待训练图像为已经过标注的图像;
编码模块502,用于通过待训练自编码器的编码器对所述获取模块501获取的所述待训练图像进行编码,得到编码结果;
解码模块503,用于通过所述待训练自编码器的解码器,对所述编码模块502编码后的所述编码结果进行解码,得到预测图像;
训练模块504,用于采用所述待训练图像与所述解码模块503解码得到 的所述预测图像对所述待训练自编码器进行训练,直至损失函数收敛,获取自编码器模型参数;
生成模块505,用于根据所述训练模块504训练得到的所述自编码器模型参数生成自编码器,其中,所述自编码器用于对原始图像进行编码,得到编码图像,所述编码图像用于通过子图像分割网络生成分割结果,所述分割结果用于确定原始图像的不确定度,所述不确定度用于确定所述原始图像是否为待标注图像,所述原始图像为未经过标注的图像。
本申请实施例中,提供了一种自编码器训练装置,即首先获取待训练图像,然后通过待训练自编码器的编码器对待训练图像进行编码,得到编码结果,再通过待训练自编码器的解码器对编码结果进行解码,得到预测图像,最后采用待训练图像与预测图像对待训练自编码器进行训练,直至损失函数收敛,获取自编码器模型参数,利用自编码器模型参数生成自编码器。通过上述方式,为自编码器的训练提供了可行的实现方式,从而提升方案的可行性和可操作性。
下面对本申请中的子图像分割网络训练装置进行详细描述,请参阅图18,图18为本申请实施例中子图像分割网络训练装置一个实施例示意图,子图像分割网络训练装置60包括:
获取模块601,用于获取待训练图像,其中,所述待训练图像为已经过标注的图像;
所述获取模块601,还用于通过待训练子图像分割网络获取所述待训练图像对应的预测图像;
训练模块602,用于采用所述待训练图像与所述获取模块601获取的所述预测图像对所述待训练子图像分割网络进行训练,直至损失函数收敛,获取网络模型参数;
生成模块603,用于根据所述训练模块602训练得到的所述网络模型参数生成子图像分割网络,其中,所述子图像分割网络用于对编码图像以及原始图像进行处理,得到多个分割结果,所述编码图像为自编码器对所述原始图像进行编码后得到的,所述分割结果用于确定所述原始图像的不确定度,所述不确定度用于确定所述原始图像是否为待标注图像,所述原始图像为未经过标注的图像。
本申请实施例中,提供了一种子图像分割网络训练装置,即首先获取待训练图像,然后通过待训练子图像分割网络获取待训练图像所对应的预测图像,再采用待训练图像与预测图像对待训练子图像分割网络进行训练,直至损失函数收敛,获取网络模型参数,最后根据网络模型参数生成子图像分割网络。通过上述方式,为自编码器的训练提供了可行的实现方式,从而提升方案的可行性和可操作性。
图19是本申请实施例提供的一种服务器结构示意图,该服务器700可 因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processing units,CPU)722(例如,一个或一个以上处理器)和存储器732,一个或一个以上存储应用程序742或数据744的存储介质730(例如一个或一个以上海量存储设备)。其中,存储器732和存储介质730可以是短暂存储或持久存储。存储在存储介质730的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器722可以设置为与存储介质730通信,在服务器700上执行存储介质730中的一系列指令操作。
服务器700还可以包括一个或一个以上电源726,一个或一个以上有线或无线网络接口750,一个或一个以上输入输出接口758,和/或,一个或一个以上操作系统741,例如Windows Server TM,Mac OS X TM,Unix TM,Linux TM,FreeBSD TM等等。
上述实施例中由服务器所执行的步骤可以基于该图19所示的服务器结构。
在本申请实施例中,该服务器所包括的中央处理器722还具有以下功能:
获取原始图像以及自编码器集合,其中,所述原始图像为未经过标注的图像,所述自编码器集合包括N个自编码器,所述N为大于或等于1的整数;
通过自编码器集合获取所述原始图像对应的编码图像集合,其中,所述编码图像集合包括N个编码图像,所述编码图像与所述自编码器之间具有对应关系;
通过图像分割网络获取所述编码图像集合以及所述原始图像对应的分割结果集合,其中,所述图像分割网络包括M个子图像分割网络,所述分割结果集合包括[(N+1)*M]个分割结果,所述M为大于或等于1的整数;
根据所述分割结果集合确定所述原始图像所对应的不确定度,其中,所述不确定度用于确定所述原始图像是否为待标注图像。
在本申请实施例中,该服务器所包括的中央处理器722还具有以下功能:
获取待训练图像,其中,所述待训练图像为已经过标注的图像;
通过待训练自编码器的编码器对所述待训练图像进行编码,得到编码结果;
通过所述待训练自编码器的解码器对所述编码结果进行解码,得到预测图像;
采用所述待训练图像与所述预测图像对所述待训练自编码器进行训练,直至损失函数收敛,获取自编码器模型参数;
根据所述自编码器模型参数生成自编码器,其中,所述自编码器用于对 原始图像进行编码,得到编码图像,所述编码图像用于通过子图像分割网络生成分割结果,所述分割结果用于确定原始图像的不确定度,所述不确定度用于确定所述原始图像是否为待标注图像,所述原始图像为未经过标注的图像。
在本申请实施例中,该服务器所包括的中央处理器722还具有以下功能:
获取待训练图像,其中,所述待训练图像为已经过标注的图像;
通过待训练子图像分割网络获取所述待训练图像对应的预测图像;
采用所述待训练图像与所述预测图像对所述待训练子图像分割网络进行训练,直至损失函数收敛,获取网络模型参数;
根据所述网络模型参数生成子图像分割网络,其中,所述子图像分割网络用于对编码图像以及原始图像进行处理,得到多个分割结果,所述编码图像为自编码器对所述原始图像进行编码后得到的,所述分割结果用于确定所述原始图像的不确定度,所述不确定度用于确定所述原始图像是否为待标注图像,所述原始图像为未经过标注的图像。
本申请实施例还提供了另一种待标注图像确定装置,如图20所示,为了便于说明,仅示出了与本申请实施例相关的部分,具体技术细节未揭示的,请参照本申请实施例方法部分。该终端设备可以为包括手机、平板电脑、个人数字助理(Personal Digital Assistant,PDA)、销售终端设备(Point of Sales,POS)、车载电脑等任意终端设备设备,以终端设备为手机为例:
图20示出的是与本申请实施例提供的终端设备相关的手机的部分结构的框图。参考图20,手机包括:射频(Radio Frequency,RF)电路810、存储器820、输入单元830、显示单元840、传感器850、音频电路860、无线保真(wireless fidelity,WiFi)模块870、处理器880、以及电源890等部件。本领域技术人员可以理解,图20中示出的手机结构并不构成对手机的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
下面结合图20对手机的各个构成部件进行具体的介绍:
RF电路810可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的下行信息接收后,给处理器880处理;另外,将设计上行的数据发送给基站。通常,RF电路810包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low Noise Amplifier,LNA)、双工器等。此外,RF电路810还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯系统(Global System of Mobile communication,GSM)、通用分组无线服务(General Packet Radio Service,GPRS)、码分多址(Code Division Multiple Access,CDMA)、宽带码分多址(Wideband Code Division Multiple Access, WCDMA)、长期演进(Long Term Evolution,LTE)、电子邮件、短消息服务(Short Messaging Service,SMS)等。
存储器820可用于存储软件程序以及模块,处理器880通过运行存储在存储器820的软件程序以及模块,从而执行手机的各种功能应用以及数据处理。存储器820可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器820可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
输入单元830可用于接收输入的数字或字符信息,以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地,输入单元830可包括触控面板831以及其他输入设备832。触控面板831,也称为触摸屏,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板831上或在触控面板831附近的操作),并根据预先设定的程式驱动相应的连接装置。可选的,触控面板831可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器880,并能接收处理器880发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板831。除了触控面板831,输入单元830还可以包括其他输入设备832。具体地,其他输入设备832可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
显示单元840可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元840可包括显示面板841,可选的,可以采用液晶显示器(Liquid Crystal Display,LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板841。进一步的,触控面板831可覆盖显示面板841,当触控面板831检测到在其上或附近的触摸操作后,传送给处理器880以确定触摸事件的类型,随后处理器880根据触摸事件的类型在显示面板841上提供相应的视觉输出。虽然在图20中,触控面板831与显示面板841是作为两个独立的部件来实现手机的输入和输入功能,但是在某些实施例中,可以将触控面板831与显示面板841集成而实现手机的输入和输出功能。
手机还可包括至少一种传感器850,比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板841的亮度,接近传感器 可在手机移动到耳边时,关闭显示面板841和/或背光。作为运动传感器的一种,加速计传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
音频电路860、扬声器861,传声器862可提供用户与手机之间的音频接口。音频电路860可将接收到的音频数据转换后的电信号,传输到扬声器861,由扬声器861转换为声音信号输出;另一方面,传声器862将收集的声音信号转换为电信号,由音频电路860接收后转换为音频数据,再将音频数据输出处理器880处理后,经RF电路810以发送给比如另一手机,或者将音频数据输出至存储器820以便进一步处理。
WiFi属于短距离无线传输技术,手机通过WiFi模块870可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图20示出了WiFi模块870,但是可以理解的是,其并不属于手机的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。
处理器880是手机的控制中心,利用各种接口和线路连接整个手机的各个部分,通过运行或执行存储在存储器820内的软件程序和/或模块,以及调用存储在存储器820内的数据,执行手机的各种功能和处理数据,从而对手机进行整体监控。可选的,处理器880可包括一个或多个处理单元;可选的,处理器880可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器880中。
手机还包括给各个部件供电的电源890(比如电池),可选的,电源可以通过电源管理系统与处理器880逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。
尽管未示出,手机还可以包括摄像头、蓝牙模块等,在此不再赘述。
在本申请实施例中,该终端设备所包括的处理器880还具有以下功能:
获取原始图像以及自编码器集合,其中,所述原始图像为未经过标注的图像,所述自编码器集合包括N个自编码器,所述N为大于或等于1的整数;
通过自编码器集合获取所述原始图像对应的编码图像集合,其中,所述编码图像集合包括N个编码图像,所述编码图像与所述自编码器之间具有对应关系;
通过图像分割网络获取所述编码图像集合以及所述原始图像对应的分割结果集合,其中,所述图像分割网络包括M个子图像分割网络,所述分 割结果集合包括[(N+1)*M]个分割结果,所述M为大于或等于1的整数;
根据所述分割结果集合确定所述原始图像对应的不确定度,其中,所述不确定度用于确定所述原始图像是否为待标注图像。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (23)

  1. 一种待标注图像确定的方法,由计算设备执行,包括:
    获取原始图像以及自编码器集合,其中,所述原始图像为未经过标注的图像,所述自编码器集合包括N个自编码器,所述N为大于或等于1的整数;
    通过自编码器集合获取所述原始图像对应的编码图像集合,其中,所述编码图像集合包括N个编码图像,所述编码图像与所述自编码器之间具有对应关系;
    通过图像分割网络获取所述编码图像集合以及所述原始图像对应的分割结果集合,其中,所述图像分割网络包括M个子图像分割网络,所述分割结果集合包括[(N+1)*M]个分割结果,所述M为大于或等于1的整数;
    根据所述分割结果集合确定所述原始图像对应的不确定度,其中,所述不确定度用于确定所述原始图像是否为待标注图像。
  2. 根据权利要求1所述的方法,所述通过自编码器集合获取所述原始图像对应的编码图像集合,包括:
    通过第一自编码器获取所述原始图像对应的第一编码图像;
    通过第二自编码器获取所述原始图像对应的第二编码图像,其中,所述第二自编码器与所述第一自编码器属于两种不同类型的自编码器,所述第二编码图像和所述第一编码图像属于两个不同的图像。
  3. 根据权利要求1所述的方法,所述通过图像分割网络获取所述编码图像集合以及所述原始图像对应的分割结果集合,包括:
    通过第一子图像分割网络获取第一分割结果,其中,所述第一分割结果包括(N+1)个第一分割子结果,所述(N+1)个第一分割子结果与所述编码图像集合中的编码图像和所述原始图像具有对应关系;
    通过第二子图像分割网络获取第二分割结果,其中,所述第二分割结果包括(N+1)个第二分割子结果,所述(N+1)个第二分割子结果与所述编码图像集合中的编码图像和所述原始图像具有对应关系,所述第二子图像分割网络与所述第一子图像分割网络属于两种不同类型的子图像分割网络。
  4. 根据权利要求1至3中任一项所述的方法,所述根据所述分割结果集合确定所述原始图像对应的不确定度,包括:
    获取所述原始图像中每个像素点对应的灰度值;
    根据所述分割结果集合以及所述原始图像中每个像素点对应的灰度值,确定所述原始图像中每个像素点对应的熵集合,其中,所述熵集合包括[(N+1)*M]个熵;
    根据所述原始图像中每个像素点对应的熵集合,计算得到所述原始图像对应的不确定度。
  5. 根据权利要求1至3中任一项所述的方法,所述根据所述分割结果 集合确定所述原始图像对应的不确定度,包括:
    获取每个所述分割结果中每个像素点对应的灰度值;
    基于所述分割结果集合,根据每个所述分割结果中每个像素点对应的灰度值,确定每个像素点的方差;
    根据所述每个像素点的方差以及像素点总数,确定所述原始图像对应的不确定度。
  6. 根据权利要求1所述的方法,在所述根据所述分割结果集合确定所述原始图像对应的不确定度之后,所述方法还包括:
    判断所述不确定度是否大于或等于不确定度门限;
    若所述不确定度大于或等于所述不确定度门限,则将所述原始图像确定为所述待标注图像。
  7. 根据权利要求1所述的方法,在所述获取原始图像以及自编码器集合之前,所述方法还包括:
    获取待训练图像,其中,所述待训练图像为已经过标注的图像;
    通过待训练自编码器的编码器对所述待训练图像进行编码,得到编码结果;
    通过所述待训练自编码器的解码器对所述编码结果进行解码,得到预测图像;
    采用所述待训练图像与所述预测图像对所述待训练自编码器进行训练,直至损失函数收敛,获取自编码器模型参数;
    根据所述自编码器模型参数生成自编码器,其中,所述自编码器为所述自编码器集合中的一个自编码器。
  8. 根据权利要求1所述的方法,在所述通过图像分割网络获取所述编码图像集合以及所述原始图像对应的分割结果集合之前,所述方法还包括:
    获取待训练图像,其中,所述待训练图像为已经过标注的图像;
    通过待训练子图像分割网络获取所述待训练图像对应的预测图像;
    采用所述待训练图像与所述预测图像对所述待训练子图像分割网络进行训练,直至损失函数收敛,获取网络模型参数;
    根据所述网络模型参数生成子图像分割网络,其中,所述子图像分割网络为所述图像分割网络中的一个子图像分割网络。
  9. 一种自编码器训练的方法,由服务器执行,包括:
    获取待训练图像,其中,所述待训练图像为已经过标注的图像;
    通过待训练自编码器的编码器对所述待训练图像进行编码,得到编码结果;
    通过所述待训练自编码器的解码器对所述编码结果进行解码,得到预测图像;
    采用所述待训练图像与所述预测图像对所述待训练自编码器进行训练, 直至损失函数收敛,获取自编码器模型参数;
    根据所述自编码器模型参数生成自编码器,其中,所述自编码器用于对原始图像进行编码,得到编码图像,所述编码图像用于通过子图像分割网络生成分割结果,所述分割结果用于确定原始图像的不确定度,所述不确定度用于确定所述原始图像是否为待标注图像,所述原始图像为未经过标注的图像。
  10. 一种子图像分割网络训练的方法,由服务器执行,包括:
    获取待训练图像,其中,所述待训练图像为已经过标注的图像;
    通过待训练子图像分割网络获取所述待训练图像对应的预测图像;
    采用所述待训练图像与所述预测图像对所述待训练子图像分割网络进行训练,直至损失函数收敛,获取网络模型参数;
    根据所述网络模型参数生成子图像分割网络,其中,所述子图像分割网络用于对编码图像以及原始图像进行处理,得到多个分割结果,所述编码图像为自编码器对所述原始图像进行编码后得到的,所述分割结果用于确定所述原始图像的不确定度,所述不确定度用于确定所述原始图像是否为待标注图像,所述原始图像为未经过标注的图像。
  11. 一种待标注图像确定装置,包括:
    获取模块,用于获取原始图像以及自编码器集合,其中,所述原始图像为未经过标注的图像,所述自编码器集合包括N个自编码器,所述N为大于或等于1的整数;
    所述获取模块,还用于通过自编码器集合获取所述原始图像对应的编码图像集合,其中,所述编码图像集合包括N个编码图像,所述编码图像与所述自编码器之间具有对应关系;
    所述获取模块,还用于通过图像分割网络获取所述编码图像集合以及所述原始图像对应的分割结果集合,其中,所述图像分割网络包括M个子图像分割网络,所述分割结果集合包括[(N+1)*M]个分割结果,所述M为大于或等于1的整数;
    确定模块,用于根据所述获取模块获取的所述分割结果集合确定所述原始图像对应的不确定度,其中,所述不确定度用于确定所述原始图像是否为待标注图像。
  12. 根据权利要求11所述的装置,所述获取模块具体用于:
    通过第一自编码器获取所述原始图像对应的第一编码图像;
    通过第二自编码器获取所述原始图像对应的第二编码图像,其中,所述第二自编码器与所述第一自编码器属于两种不同类型的自编码器,所述第二编码图像和所述第一编码图像属于两个不同的图像。
  13. 根据权利要求11所述的装置,所述获取模块具体用于:
    通过第一子图像分割网络获取第一分割结果,其中,所述第一分割结果 包括(N+1)个第一分割子结果,所述(N+1)个第一分割子结果与所述编码图像集合中的编码图像和所述原始图像具有对应关系;
    通过第二子图像分割网络获取第二分割结果,其中,所述第二分割结果包括(N+1)个第二分割子结果,所述(N+1)个第二分割子结果与所述编码图像集合中的编码图像和所述原始图像具有对应关系,所述第二子图像分割网络与所述第一子图像分割网络属于两种不同类型的子图像分割网络。
  14. 根据权利要求11至13中任一项所述的装置,所述确定模块具体用于:
    获取所述原始图像中每个像素点对应的灰度值;
    根据所述分割结果集合以及所述原始图像中每个像素点对应的灰度值,确定所述原始图像中每个像素点对应的熵集合,其中,所述熵集合包括[(N+1)*M]个熵;
    根据所述原始图像中每个像素点对应的熵集合,计算得到所述原始图像对应的不确定度。
  15. 根据权利要求11至13中任一项所述的装置,所述确定模块具体用于:
    获取每个所述分割结果中每个像素点对应的灰度值;
    基于所述分割结果集合,根据每个所述分割结果中每个像素点对应的灰度值,确定每个像素点的方差;
    根据所述每个像素点的方差以及像素点总数,确定所述原始图像对应的不确定度。
  16. 根据权利要求11所述的装置,所述装置还包括:判断模块;
    所述判断模块,用于在所述确定模块根据所述分割结果集合确定所述原始图像对应的不确定度之后,判断所述不确定度是否大于或等于不确定度门限;
    所述确定模块,还用于若所述判断模块判断得到所述不确定度大于或等于所述不确定度门限,则将所述原始图像确定为所述待标注图像。
  17. 根据权利要求11所述的装置,所述装置还包括:编码模块、解码模块、训练模块以及生成模块;
    所述获取模块,还用于获取原始图像以及自编码器集合之前,获取待训练图像,其中,所述待训练图像为已经过标注的图像;
    所述编码模块,用于通过待训练自编码器的编码器对所述获取模块获取的所述待训练图像进行编码,得到编码结果;
    所述解码模块,用于通过所述待训练自编码器的解码器,对所述编码模块编码得到的所述编码结果进行解码,得到预测图像;
    所述训练模块,用于采用所述待训练图像与所述解码模块解码得到的所述预测图像对所述待训练自编码器进行训练,直至损失函数收敛,获取自编 码器模型参数;
    所述生成模块,用于根据所述训练模块训练得到的所述自编码器模型参数生成自编码器,其中,所述自编码器为所述自编码器集合中的一个自编码器。
  18. 根据权利要求11所述的装置,所述装置还包括:训练模块以及生成模块;
    所述获取模块,还用于通过图像分割网络获取所述编码图像集合以及所述原始图像所对应的分割结果集合之前,获取待训练图像,其中,所述待训练图像为已经过标注的图像;
    所述获取模块,还用于通过待训练子图像分割网络获取所述待训练图像对应的预测图像;
    所述训练模块,用于采用所述待训练图像与所述获取模块获取的所述预测图像对所述待训练子图像分割网络进行训练,直至损失函数收敛,获取网络模型参数;
    所述生成模块,用于根据所述训练模块训练得到的所述网络模型参数生成子图像分割网络,其中,所述子图像分割网络为所述图像分割网络中的一个子图像分割网络。
  19. 一种自编码器训练装置,包括:
    获取模块,用于获取待训练图像,其中,所述待训练图像为已经过标注的图像;
    编码模块,用于通过待训练自编码器的编码器对所述获取模块获取的所述待训练图像进行编码,得到编码结果;
    解码模块,用于通过所述待训练自编码器的解码器,对所述编码模块编码后的所述编码结果进行解码,得到预测图像;
    训练模块,用于采用所述待训练图像与所述解码模块解码得到的所述预测图像对所述待训练自编码器进行训练,直至损失函数收敛,获取自编码器模型参数;
    生成模块,用于根据所述训练模块训练得到的所述自编码器模型参数生成自编码器,其中,所述自编码器用于对原始图像进行编码,得到编码图像,所述编码图像用于通过子图像分割网络生成分割结果,所述分割结果用于确定原始图像的不确定度,所述不确定度用于确定所述原始图像是否为待标注图像,所述原始图像为未经过标注的图像。
  20. 一种子图像分割网络训练装置,包括:
    获取模块,用于获取待训练图像,其中,所述待训练图像为已经过标注的图像;
    所述获取模块,还用于通过待训练子图像分割网络获取所述待训练图像所对应的预测图像;
    训练模块,用于采用所述待训练图像与所述获取模块获取的所述预测图像对所述待训练子图像分割网络进行训练,直至损失函数收敛,获取网络模型参数;
    生成模块,用于根据所述训练模块训练得到的所述网络模型参数生成子图像分割网络,其中,所述子图像分割网络用于对编码图像以及原始图像进行处理,得到多个分割结果,所述编码图像为自编码器对所述原始图像进行编码后得到的,所述分割结果用于确定所述原始图像的不确定度,所述不确定度用于确定所述原始图像是否为待标注图像,所述原始图像为未经过标注的图像。
  21. 一种服务器,包括:存储器、收发器、处理器以及总线系统;
    其中,所述存储器用于存储程序;
    所述处理器用于执行所述存储器中的程序,包括如下步骤:
    获取原始图像以及自编码器集合,其中,所述原始图像为未经过标注的图像,所述自编码器集合包括N个自编码器,所述N为大于或等于1的整数;
    通过自编码器集合获取所述原始图像对应的编码图像集合,其中,所述编码图像集合包括N个编码图像,所述编码图像与所述自编码器之间具有对应关系;
    通过图像分割网络获取所述编码图像集合以及所述原始图像对应的分割结果集合,其中,所述图像分割网络包括M个子图像分割网络,所述分割结果集合包括[(N+1)*M]个分割结果,所述M为大于或等于1的整数;
    根据所述分割结果集合确定所述原始图像对应的不确定度,其中,所述不确定度用于确定所述原始图像是否为待标注图像;
    所述总线系统用于连接所述存储器以及所述处理器,以使所述存储器以及所述处理器进行通信。
  22. 一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行如权利要求1至8中任一项所述的方法,或,执行如权利要求9所述的方法,或,执行如权利要求10所述的方法。
  23. 一种计算机程序产品,包括指令,当其在计算机上运行时,使得计算机执行如权利要求1至8中任一项所述的方法,或,执行如权利要求9所述的方法,或,执行如权利要求10所述的方法。
PCT/CN2020/106541 2019-08-29 2020-08-03 一种待标注图像确定的方法、模型训练的方法及装置 WO2021036695A1 (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US17/501,899 US20220036135A1 (en) 2019-08-29 2021-10-14 Method and apparatus for determining image to be labeled and model training method and apparatus

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201910820773.7 2019-08-29
CN201910820773.7A CN110517759B (zh) 2019-08-29 2019-08-29 一种待标注图像确定的方法、模型训练的方法及装置

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US17/501,899 Continuation US20220036135A1 (en) 2019-08-29 2021-10-14 Method and apparatus for determining image to be labeled and model training method and apparatus

Publications (1)

Publication Number Publication Date
WO2021036695A1 true WO2021036695A1 (zh) 2021-03-04

Family

ID=68630142

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2020/106541 WO2021036695A1 (zh) 2019-08-29 2020-08-03 一种待标注图像确定的方法、模型训练的方法及装置

Country Status (3)

Country Link
US (1) US20220036135A1 (zh)
CN (1) CN110517759B (zh)
WO (1) WO2021036695A1 (zh)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110517759B (zh) * 2019-08-29 2022-03-25 腾讯医疗健康(深圳)有限公司 一种待标注图像确定的方法、模型训练的方法及装置
CN111144486B (zh) * 2019-12-27 2022-06-10 电子科技大学 基于卷积神经网络的心脏核磁共振图像关键点检测方法
CN111489326A (zh) * 2020-01-13 2020-08-04 杭州电子科技大学 基于半监督深度学习的铜箔基板表面缺陷检测方法
CN113438481B (zh) * 2020-03-23 2024-04-12 富士通株式会社 训练方法、图像编码方法、图像解码方法及装置
CN111652135B (zh) * 2020-06-03 2023-05-23 广州视源电子科技股份有限公司 心电图数据生成方法、装置及电子设备
CN111768405B (zh) * 2020-08-05 2024-02-13 赛维森(广州)医疗科技服务有限公司 处理标注图像的方法、装置、设备和存储介质
CN112101371B (zh) * 2020-11-18 2021-09-10 北京京东尚科信息技术有限公司 数据处理方法、装置、电子设备和计算机存储介质
CN112765354B (zh) * 2021-01-26 2023-04-07 深圳追一科技有限公司 模型训练方法、模型训练装置、计算机设备和存储介质
CA3211487A1 (en) * 2021-03-02 2022-09-09 Novocure Gmbh Methods and apparatuses for visualization of tumor segmentation
CN113065609B (zh) * 2021-04-22 2024-04-09 深圳赛安特技术服务有限公司 图像分类方法、装置、电子设备及可读存储介质
CN113288156B (zh) * 2021-05-18 2022-02-11 浙江大学 一种任意导联视角的心电数据的生成方法
CN113378921A (zh) * 2021-06-09 2021-09-10 北京百度网讯科技有限公司 数据筛选方法、装置及电子设备
CN114707174A (zh) * 2022-03-11 2022-07-05 上海熵熵微电子科技有限公司 一种数据处理方法、装置、电子设备和存储介质
CN114627296B (zh) * 2022-03-21 2022-11-08 北京医准智能科技有限公司 图像分割模型的训练方法、装置、电子设备及存储介质
CN115131333B (zh) * 2022-07-20 2023-03-28 珠海横琴圣澳云智科技有限公司 基于实例不确定性的图像检测及分割的方法和装置
CN115187591B (zh) * 2022-09-08 2023-04-18 深圳市资福医疗技术有限公司 一种病灶检测方法、系统、设备及存储介质
CN116778307B (zh) * 2023-08-18 2023-12-12 北京航空航天大学 一种基于不确定性引导的图像篡改检测方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104392456A (zh) * 2014-12-09 2015-03-04 西安电子科技大学 基于深度自编码器和区域图的sar图像分割方法
CN107103187A (zh) * 2017-04-10 2017-08-29 四川省肿瘤医院 基于深度学习的肺结节检测分级与管理的方法及系统
US20190130279A1 (en) * 2017-10-27 2019-05-02 Robert Bosch Gmbh Method for detecting an anomalous image among a first dataset of images using an adversarial autoencoder
CN110009598A (zh) * 2018-11-26 2019-07-12 腾讯科技(深圳)有限公司 用于图像分割的方法和图像分割设备
CN110070540A (zh) * 2019-04-28 2019-07-30 腾讯科技(深圳)有限公司 图像生成方法、装置、计算机设备及存储介质
CN110517759A (zh) * 2019-08-29 2019-11-29 腾讯科技(深圳)有限公司 一种待标注图像确定的方法、模型训练的方法及装置

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11003988B2 (en) * 2016-11-23 2021-05-11 General Electric Company Hardware system design improvement using deep learning algorithms
US10600185B2 (en) * 2017-03-08 2020-03-24 Siemens Healthcare Gmbh Automatic liver segmentation using adversarial image-to-image network
US10610098B1 (en) * 2017-04-11 2020-04-07 VisionQuest Biomedical LLC Generalized retinal image screening system (GRIS)
CN107122809B (zh) * 2017-04-24 2020-04-28 北京工业大学 基于图像自编码的神经网络特征学习方法
CN110490213B (zh) * 2017-09-11 2021-10-29 腾讯科技(深圳)有限公司 图像识别方法、装置及存储介质
CN109255790A (zh) * 2018-07-27 2019-01-22 北京工业大学 一种弱监督语义分割的自动图像标注方法
CN109360191B (zh) * 2018-09-25 2020-06-12 南京大学 一种基于变分自编码器的图像显著性检测方法
CN109903292A (zh) * 2019-01-24 2019-06-18 西安交通大学 一种基于全卷积神经网络的三维图像分割方法及系统
CN109949316B (zh) * 2019-03-01 2020-10-27 东南大学 一种基于rgb-t融合的电网设备图像弱监督实例分割方法
CN110097131B (zh) * 2019-05-08 2023-04-28 南京大学 一种基于对抗协同训练的半监督医疗图像分割方法
US20210398282A1 (en) * 2020-06-18 2021-12-23 Steven Frank Digital tissue segmentation using image entropy

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104392456A (zh) * 2014-12-09 2015-03-04 西安电子科技大学 基于深度自编码器和区域图的sar图像分割方法
CN107103187A (zh) * 2017-04-10 2017-08-29 四川省肿瘤医院 基于深度学习的肺结节检测分级与管理的方法及系统
US20190130279A1 (en) * 2017-10-27 2019-05-02 Robert Bosch Gmbh Method for detecting an anomalous image among a first dataset of images using an adversarial autoencoder
CN110009598A (zh) * 2018-11-26 2019-07-12 腾讯科技(深圳)有限公司 用于图像分割的方法和图像分割设备
CN110070540A (zh) * 2019-04-28 2019-07-30 腾讯科技(深圳)有限公司 图像生成方法、装置、计算机设备及存储介质
CN110517759A (zh) * 2019-08-29 2019-11-29 腾讯科技(深圳)有限公司 一种待标注图像确定的方法、模型训练的方法及装置

Also Published As

Publication number Publication date
US20220036135A1 (en) 2022-02-03
CN110517759A (zh) 2019-11-29
CN110517759B (zh) 2022-03-25

Similar Documents

Publication Publication Date Title
WO2021036695A1 (zh) 一种待标注图像确定的方法、模型训练的方法及装置
JP7096444B2 (ja) 画像領域位置決め方法、モデル訓練方法及び関連装置
CN110738263B (zh) 一种图像识别模型训练的方法、图像识别的方法及装置
WO2020215984A1 (zh) 基于深度学习的医学图像检测方法及相关设备
EP3445250B1 (en) Echocardiographic image analysis
JP2022505775A (ja) 画像分類モデルの訓練方法、画像処理方法及びその装置、並びにコンピュータプログラム
WO2021159742A1 (zh) 图像分割方法、装置和存储介质
CN110414631B (zh) 基于医学图像的病灶检测方法、模型训练的方法及装置
WO2020103721A1 (zh) 信息处理的方法、装置及存储介质
CN110504029A (zh) 一种医学图像处理方法、医学图像识别方法及装置
CN111274425B (zh) 医疗影像分类方法、装置、介质及电子设备
CN111047602A (zh) 图像分割方法、装置及终端设备
WO2021104060A1 (zh) 图像分割方法、装置及终端设备
WO2018113512A1 (zh) 图像处理方法以及相关装置
CN113177928B (zh) 一种图像识别方法、装置、电子设备及存储介质
CN112419326B (zh) 图像分割数据处理方法、装置、设备及存储介质
WO2022253061A1 (zh) 一种语音处理方法及相关设备
CN110610181A (zh) 医学影像识别方法及装置、电子设备及存储介质
CN111091010A (zh) 相似度确定、网络训练、查找方法及装置和存储介质
CN113469981A (zh) 图像处理方法、装置及存储介质
CN114722937A (zh) 一种异常数据检测方法、装置、电子设备和存储介质
CN110517771B (zh) 一种医学图像处理方法、医学图像识别方法及装置
CN116935188B (zh) 模型训练方法、图像识别方法、装置、设备及介质
CN113724188A (zh) 一种病灶图像的处理方法以及相关装置
KR102534088B1 (ko) 의료 데이터 검색 방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20856505

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20856505

Country of ref document: EP

Kind code of ref document: A1