WO2023142532A1 - 一种推理模型训练方法及装置 - Google Patents

一种推理模型训练方法及装置 Download PDF

Info

Publication number
WO2023142532A1
WO2023142532A1 PCT/CN2022/124956 CN2022124956W WO2023142532A1 WO 2023142532 A1 WO2023142532 A1 WO 2023142532A1 CN 2022124956 W CN2022124956 W CN 2022124956W WO 2023142532 A1 WO2023142532 A1 WO 2023142532A1
Authority
WO
WIPO (PCT)
Prior art keywords
pathological
model
picture
text
loss
Prior art date
Application number
PCT/CN2022/124956
Other languages
English (en)
French (fr)
Inventor
陶建军
谢凌曦
乔楠
张雷
Original Assignee
华为云计算技术有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 华为云计算技术有限公司 filed Critical 华为云计算技术有限公司
Publication of WO2023142532A1 publication Critical patent/WO2023142532A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0012Biomedical image inspection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/042Knowledge-based neural networks; Logical representations of neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/0895Weakly supervised learning, e.g. semi-supervised or self-supervised learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10068Endoscopic image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30004Biomedical image processing

Definitions

  • a method for training an inference model may include: training an inference model according to marked pathological pictures. Then, the reasoning model can be updated according to the unlabeled pathological picture, the first pathological text and the marked pathological picture. Wherein, the reasoning model is used to reason the input pathological picture to be detected, and obtain the pathological result corresponding to the pathological picture to be detected.
  • the first pathological text is pathological text associated with unlabeled pathological pictures.
  • This application updates the inference model by combining unlabeled pathological pictures, the first pathological text, and marked pathological pictures, so that the model incorporates more empirical knowledge from historical cases, thereby greatly improving the prediction accuracy of the inference model for pathological pictures .
  • the reasoning model includes a segmentation model and a classification model; the update module is also used to update the classification model.
  • the update module is also used to: input the unlabeled pathological picture and the first pathological text into the pre-trained labeling model, and determine the pseudo-label corresponding to the unlabeled pathological picture; according to the pseudo-label and the first prediction As a result, the first loss is determined, and the first prediction result is the prediction result obtained by inputting the reasoning model of the unlabeled pathological picture; according to the label label and the second prediction result of the marked pathological picture, the second loss is determined, and the second prediction result is the labeled The prediction result obtained by inputting the pathological picture into the reasoning model; updating the reasoning model according to the first loss and the second loss.
  • This application updates the inference model by combining unlabeled pathological pictures and marked pathological pictures for semi-supervised learning, which can make the reasoning model converge better, thereby improving the prediction accuracy.
  • the text feature vector includes one or more of a lesion area position feature vector, a lesion level feature vector, and a lesion trait feature vector.
  • the update module is further configured to: accumulate the first loss and the second loss according to preset weights to determine a third loss; and update the reasoning model according to the third loss.
  • This application uses semi-supervised learning to update the reasoning model, and fuses the first loss obtained from unlabeled pictures and the second loss obtained from labeled pictures by assigning different weights. In order to better update the reasoning model, ensuring that the updated reasoning model can greatly improve the prediction accuracy of pathological pictures.
  • the device further includes: a prediction module, configured to perform prediction through an updated reasoning model when the pathological picture to be detected is acquired, and obtain a pathological result corresponding to the pathological picture to be detected; a sending module, for Output the pathological picture to be detected and the pathological result corresponding to the pathological picture to be detected; the receiving module is used to receive the pathological text associated with the pathological picture to be detected; the storage module is used to associate the pathological picture to be detected with the pathological picture to be detected The pathological text of is stored as a new unlabeled pathological picture and a new first pathological text.
  • the application can also receive the real pathological text associated with the pathological picture to be detected and store it as new unlabeled data, so as to continuously expand the amount of unlabeled data, so that the reasoning model can be better updated in the future.
  • an inference model training device includes: a processor for coupling with a memory, and reading and executing an instruction stored in the memory; when the processor is running, the instruction is executed, so that the processor is used for marking according to the The pathological picture is trained to obtain the reasoning model; according to the unmarked pathological picture, the first pathological text, and the marked pathological picture, the reasoning model is updated, wherein the reasoning model is used to reason the input pathological picture to be detected, and obtain the corresponding pathological picture to be detected pathological results, the first pathological text is the pathological text associated with unlabeled pathological pictures.
  • This application updates the inference model by combining unlabeled pathological pictures, the first pathological text, and marked pathological pictures, so that the model incorporates more domain experience knowledge, thereby greatly improving the prediction accuracy of the inference model for pathological pictures.
  • the processor is further configured to: input the unlabeled pathological picture and the first pathological text into the pre-trained labeling model, and determine the pseudo-label corresponding to the unlabeled pathological picture; according to the pseudo-label and the first prediction As a result, the first loss is determined, and the first prediction result is the prediction result obtained by inputting the reasoning model of the unlabeled pathological picture; according to the label label and the second prediction result of the marked pathological picture, the second loss is determined, and the second prediction result is the labeled The prediction result obtained by inputting the pathological picture into the reasoning model; updating the reasoning model according to the first loss and the second loss.
  • This application updates the inference model by combining unlabeled pathological pictures and marked pathological pictures for semi-supervised learning, which can make the reasoning model converge better, thereby improving the prediction accuracy.
  • the text feature vector includes one or more of a lesion area position feature vector, a lesion level feature vector, and a lesion trait feature vector.
  • the processor is further configured to: when the pathological picture to be detected is obtained, perform prediction through the updated inference model to obtain the pathological result corresponding to the pathological picture to be detected; the device further includes: a display for Output the pathological picture to be detected and the pathological result corresponding to the pathological picture to be detected; the receiver is used to receive the pathological text associated with the pathological picture to be detected; the memory is also used to associate the pathological picture to be detected with the pathological picture to be detected The pathological text of is stored as a new unlabeled pathological picture and a new first pathological text.
  • the application can also receive the real pathological text associated with the pathological picture to be detected and store it as new unlabeled data, so as to continuously expand the amount of unlabeled data, so that the reasoning model can be better updated in the future.
  • This application discloses a reasoning model training method and device. After the reasoning model is trained according to the marked pathological pictures, semi-supervised learning can be used for the reasoning model by combining unmarked pathological pictures, associated pathological texts and marked pathological pictures. way to update. The accuracy of the updated inference model for pathological types in pathological pictures is greatly improved.
  • Fig. 2 is a schematic diagram of the operation process of a general colposcope image recognition AI model
  • FIG. 3 is a schematic diagram of an inference model training system provided in an embodiment of the present application.
  • FIG. 5 is a schematic diagram of a labeling model training provided by an embodiment of the present application.
  • FIG. 12 is a schematic diagram of an inference model training platform provided by an embodiment of the present application.
  • the gold standard refers to the most reliable method for diagnosing diseases recognized by the current clinical medical community.
  • the purpose of using the gold standard is to accurately distinguish whether the subject is a patient of a certain disease.
  • Commonly used gold standards may include, for example: results of biopsy, surgical findings, microbial culture, autopsy, special examination, imaging diagnosis, and long-term follow-up.
  • the quality of labeled samples depends on a large amount of input from senior doctors, but senior doctors (also called experienced doctors) are also scarce resources. At the same time, the time of each senior doctor is also a scarce resource. Even if a small number of samples are labeled, a large number of time.
  • this application provides a reasoning model training method and equipment. After the reasoning model is trained according to the marked pathological pictures, semi-supervised learning is used for the reasoning model in combination with unmarked pathological pictures, associated pathological texts and marked pathological pictures. way to update. The accuracy of the updated inference model for pathological types in pathological pictures is greatly improved.
  • cold start means that during pre-training, the initial model is used for training instead of using the trained model for retraining.
  • supervised training may be performed on the initial segmentation model by using the marked acetate-stained pictures to obtain the acetate-stained segmentation model 401 . Understandably, the annotated acetic acid-stained images were pre-segmented by experienced doctors.
  • the acetic acid staining segmentation model 401 and the acetic acid staining classification model 402 can be used for segmentation and prediction; similarly, if the pathological picture to be detected is an iodine staining picture to be detected, Then, the iodine staining segmentation model 403 and the iodine staining classification model 404 can be used for segmentation prediction.
  • the cold start pre-training only the annotated pathological images that have been annotated by senior doctors are used. However, the number of marked pathological pictures is small, resulting in a low accuracy rate of prediction results obtained after the trained inference model 310 segments and reclassifies the pathological pictures to be detected.
  • the labeling model 320 is mainly used to extract corresponding image features from images, and extract corresponding text features from pathological texts, and then combine the two features to finally determine possible categories, so as to realize pathological images and Recognition of categories in pathology text.
  • Modality refers to the way things happen or exist, and multimodal refers to the combination of two or more modalities in various forms. Each source or form of information can be called a modality.
  • the research field mainly focuses on the processing of image, text and voice. The reason for integrating multiple modalities is that different modalities have different representations and represent the same thing differently.
  • the preset method can be to determine the four endpoint coordinates of the bounding box according to the extreme points of the mask area located in the four orientations of the pathological image, for example, according to the extreme points of the four orientations of the image, up, down, left, and right, In this way, the bounding box with the smallest frame out of the mask can be selected, and the coordinates of the four endpoints of the bounding box can be obtained.
  • the bounding box is a rectangular box. It can be understood that the function of the expansion layer 511 can be regarded as expanding the mask into a detection frame, which can facilitate the unification of the feature dimension of the image.
  • the joint feature vector obtained after the fusion sub-model 530 is used to pass through the linear layer 540 and the normalization layer 550 to obtain the probability of each category.
  • the number of neurons in the linear layer 540 is associated with the number of categories. For example, if only HSIL, LSIL or other lesion classifications are included, the number of neurons in the linear layer 540 can be 3, of course the specific number And the number of classifications can be adjusted according to the actual situation, which is not limited in this application.
  • the probabilities of different categories can be obtained after passing through the normalization layer 550 . In one example, the category with the highest probability can be used as the category result.
  • the second data set also contains some unlabeled pathological pictures. Since this part of unlabeled pathological pictures does not have labels, this part of unlabeled pathological pictures can be ignored when determining the second loss. In other words, the unlabeled pathological images in the second dataset are not considered when calculating the second loss.
  • the semi-supervised learning update of the classification model 312 can be performed periodically according to a preset frequency. Of course, it can also be directly updated when new data is stored in the unmarked pathology database, which is not limited in this application.
  • This application adopts the iterative process of multi-modal data fusion, including iterative extraction of archived historical data, multi-modal fusion model training, auxiliary labeling of massive historical data, semi-supervised learning update classification model, inferring new incoming pictures to be detected, pathology to be detected Several links of closed-loop iteration such as image pathology gold standard analysis and archiving.
  • the labeled data is only used once in one direction, and the labeled data and unlabeled data in this application can be iteratively trained multiple times in batches to achieve the optimal convergence effect of the model.
  • this application combines a large number of unlabeled pathological pictures and associated pathological texts, and uses the labeling model 320 to perform multimodal fusion to assist in labeling pseudo-labels for unlabeled pathological pictures.
  • semi-supervised learning is performed on the classification model 312 in combination with part of the marked pathological pictures to update the model parameters.
  • the segmentation model 311 and the updated classification model 312 can be used to predict the pathological picture to be detected, and the suspicious lesion area is sampled for inspection to obtain the pathological text associated with the pathological picture to be detected.
  • the pathological picture to be detected and the associated pathological text are archived as a new unlabeled pathological picture and a new first pathological text, thereby forming a closed loop, so that the classification model can be updated again later.
  • the present application provides a method for training an inference model, which may include the following steps:
  • the present application also provides another reasoning model training method.
  • the pathological picture to be detected can also be predicted and archived as a new unmarked pathological picture, so after S902, the method can also Include the following steps:
  • the update module 1320 is further configured to: accumulate the first loss and the second loss according to preset weights to determine a third loss; and update the reasoning model according to the third loss.
  • auxiliary category marking and identification of other pathological pictures or auxiliary category marking and identification of sports pictures, and Or auxiliary category marking, identification and other scenes of daily life photos are applicable to this solution, and this application does not make any restrictions.
  • This application is first based on a small number of endoscopic (or colposcopy) images carefully marked by senior doctors, and then conducts the training of the sensitive area segmentation/classification model. Based on the inference model obtained from training, the area to be biopsied in the pathological image to be detected is deduced for pathological testing.
  • the finely labeled pictures provided by senior doctors are very limited (only about a few hundred examples for each category), and the generalization performance of the model trained on this basis is poor. There is also a lack of model accuracy.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Public Health (AREA)
  • Databases & Information Systems (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Multimedia (AREA)
  • Primary Health Care (AREA)
  • Epidemiology (AREA)
  • Pathology (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Radiology & Medical Imaging (AREA)
  • Quality & Reliability (AREA)
  • Image Analysis (AREA)

Abstract

本申请实施例涉及一种推理模型训练方法,方法可以包括:根据已标注病理图片训练得到推理模型。然后,可以根据未标注病理图片、第一病理文本以及已标注病理图片,更新推理模型。其中,推理模型用于对输入的待检测病理图片进行推理,得到待检测病理图片对应的病理结果。第一病理文本为未标注病理图片相关联的病理文本。本申请通过结合未标注病理图片、第一病理文本和已标注病理图片对推理模型进行更新,使得模型融入了更多领域经验知识,从而大大提升了推理模型对病理图片的预测准确率。

Description

一种推理模型训练方法及装置
本申请要求于2022年1月26日提交中国国家知识产权局、申请号为202210095035.2、申请名称为″一种推理模型训练方法及装置″的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
技术领域
本申请涉及电子技术领域,尤其涉及一种基于半监督学习(semi-supervised learning,SSL)的推理模型训练方法及装置。
背景技术
随着社会的不断发展,各行业内对于人工智能(artificial intelligence,AI)的运用逐渐普及。人们可以通过构建AI模型以实现不同领域的相应任务。目前,在图像识别任务中通常可以采用AI模型实现图像的分类识别,或者在图像中准确识别出某个物体,如可以将某些物体框出。
对于目前在医学领域,以往的传统手段通常需要医生结合自身在该领域的业务知识以及长期积累的经验,对医学图像进行专业判别。例如确定出医学图像中是否存在某些疾病,或者确定出患处的严重程度。但是,传统方式需要医生针对每个图片进行单独分析,确定出病灶位置以及患处严重程度,导致非常的费时费力。因此,在一些方案中,采用结合AI模型进行辅助识别,如通过图像中的颜色、色调、表面构型、边界、血管形态等方面进行综合评估。然后再对检测出的可疑区域进行进一步医学检测,以确定是否真的存在疾病。
然而,目前的方案在进行AI模型构建时,往往不具备大量的训练数据。在AI模型的训练阶段,需要采用专业医生进行精细标注的图像进行训练,即带标注的图像进行监督训练。然而,专业医生进行精细标注的效率是非常有限,经验丰富的医生本身也属于稀有资源。因此,通过专业医生进行精细标注的训练数据通常非常少,这也导致训练后的AI模型准确率不高。
发明内容
本申请实施例提供了一种推理模型训练方法,根据已标注病理图片训练出推理模型后,可以结合未标注病理图片、相关联的病理文本以及已标注病理图片,一起对推理模型进行更新。从而极大提高推理模型对病理图片中病理类型的预测准确率。
第一方面,提供了一种推理模型训练方法,方法可以包括:根据已标注病理图片训练得到推理模型。然后,可以根据未标注病理图片、第一病理文本以及已标注病理图片,更新推理模型。其中,推理模型用于对输入的待检测病理图片进行推理,得到待检测病理图片对应的病理结果。第一病理文本为未标注病理图片相关联的病理文本。本申请通过结合未标注病理图片、第一病理文本和已标注病理图片对推理模型进行更新,使得模型融入了更多历史病例中的经验知识,从而大大提升了推理模型对病理图片的预测准确率。
在一个可能的实施方式中,推理模型可以包括分割模型和分类模型。更新推理模型可以包括:更新分类模型。
在一个可能的实施方式中,更新推理模型,可以包括:将未标注病理图片和第一病理文本输入至预先训练好的标注模型,从而确定出未标注病理图片对应的伪标签。然后,可以根据伪标签和第一预测结果,确定第一损失。其中,第一预测结果为未标注病理图片输入推理模型得到的预测结果。之后,可以根据已标注病理图片的标注标签和第二预测结果,确定第二损失。其中,第二预测结果为已标注病理图片输入推理模型得到的预测结果。再根据第一 损失和第二损失更新推理模型。本申请通过结合未标注的病理图片以及已标注的病理图片进行半监督学习更新推理模型,可以使得推理模型得到更好的收敛,从而提升预测准确率。
在一个可能的实施方式中,确定未标注病理图片对应的伪标签,可以包括:提取未标注病理图片的图像特征向量。以及,提取第一病理文本的文本特征向量。然后,可以结合图像特征向量和文本特征向量,确定未标注病理图片对应的伪标签。本申请可以结合图像的特征信息和文本特征信息,通过多模态信息融合的方式确定出未标注病理图片对应的伪标签,使得该伪标签的类别可以更加准确的对应未标注病理图片,以便后续可以更好的对推理模型进行优化更新。
在一个可能的实施方式中,文本特征向量可以包括病变区域位置特征向量、病变级别特征向量和病变性状特征向量中的一种或多种。
在一个可能的实施方式中,确定第一损失还可以包括:将已标注病理图片和第二病理文本输入至预先训练好的标注模型,确定已标注病理图片对应的伪标签。其中,第二病理文本为已标注病理图片相关联的病理文本。之后,可以根据已标注病理图片对应的伪标签和第二预测结果,确定第一损失。本申请在通过未标注图片确定第一损失的时候,还可以融入部分已标注图片,以避免伪标签过于离散,从而得到更好的第一损失,并使得推理模型得到更好的收敛。
在一个可能的实施方式中,根据第一损失和第二损失更新推理模型,可以包括:将第一损失和第二损失按照预设权重进行累加,确定第三损失。然后,根据第三损失更新推理模型。本申请采用半监督学习的方式更新推理模型,通过赋予不同权重的方式融合通过未标注图片得到的第一损失以及通过已标注图片得到的第二损失。以便更好的对推理模型进行更新,保障更新后的推理模型可以大大提升对病理图片的预测准确率。
在一个可能的实施方式中,预先训练好的标注模型经过预训练得到,预训练过程可以包括:将已标注病理图片和第二病理文本输入至初始模型中,确定已标注病理图片的训练标签。之后,根据训练标签和标注标签,确定第四损失。然后,根据第四损失对初始模型进行更新,以得到标注模型。
在一个可能的实施方式中,方法还包括:当获取到待检测病理图片时,通过更新后的推理模型进行预测,得到待检测病理图片对应的病理结果。然后,可以将待检测病理图片以及待检测病理图片对应的病理结果进行输出。之后,可以接收待检测病理图片相关联的病理文本。再将待检测病理图片、待检测病理图片相关联的病理文本作为新的未标注病理图片、新的第一病理文本进行存储。本申请还可以接收到待检测病理图片相关联的真实的病理文本作为新的未标注数据进行存储,从而不断扩充未标注数据的数据量,以便后续可以对推理模型进行更好的更新。
第二方面,提供了一种推理模型训练装置,装置包括:训练模块,用于根据已标注病理图片训练得到推理模型;更新模块,用于根据未标注病理图片、第一病理文本,以及已标注病理图片,更新推理模型,其中,推理模型用于对输入的待检测病理图片进行推理,得到待检测病理图片对应的病理结果,第一病理文本为未标注病理图片相关联的病理文本。本申请通过结合未标注病理图片、第一病理文本和已标注病理图片对推理模型进行更新,使得模型融入了更多领域经验知识,从而大大提升了推理模型对病理图片的预测准确率。
在一个可能的实施方式中,推理模型包括分割模型和分类模型;更新模块还用于,更新分类模型。
在一个可能的实施方式中,更新模块还用于:将未标注病理图片和第一病理文本输入至 预先训练好的标注模型,确定未标注病理图片对应的伪标签;根据伪标签和第一预测结果,确定第一损失,第一预测结果为未标注病理图片输入推理模型得到的预测结果;根据已标注病理图片的标注标签和第二预测结果,确定第二损失,第二预测结果为已标注病理图片输入推理模型得到的预测结果;根据第一损失和第二损失更新推理模型。本申请通过结合未标注的病理图片以及已标注的病理图片进行半监督学习更新推理模型,可以使得推理模型得到更好的收敛,从而提升预测准确率。
在一个可能的实施方式中,更新模块还用于:提取未标注病理图片的图像特征向量;提取第一病理文本的文本特征向量;结合图像特征向量和文本特征向量,确定未标注病理图片对应的伪标签。本申请可以结合图像的特征信息和文本特征信息,通过多模态信息融合的方式确定出未标注病理图片对应的伪标签,使得该伪标签的类别可以更加准确的对应未标注病理图片,以便后续可以更好的对推理模型进行优化更新。
在一个可能的实施方式中,文本特征向量包括病变区域位置特征向量、病变级别特征向量和病变性状特征向量中的一种或多种。
在一个可能的实施方式中,更新模块还用于:将已标注病理图片和第二病理文本输入至预先训练好的标注模型,确定已标注病理图片对应的伪标签,其中,第二病理文本为已标注病理图片相关联的病理文本;根据已标注病理图片对应的伪标签和第二预测结果,确定第一损失。本申请在通过未标注图片确定第一损失的时候,还可以融入部分已标注图片,以避免伪标签过于离散,从而得到更好的第一损失,并使得推理模型得到更好的收敛。
在一个可能的实施方式中,更新模块还用于:将第一损失和第二损失按照预设权重进行累加,确定第三损失;根据第三损失更新推理模型。本申请采用半监督学习的方式更新推理模型,通过赋予不同权重的方式融合通过未标注图片得到的第一损失以及通过已标注图片得到的第二损失。以便更好的对推理模型进行更新,保障更新后的推理模型可以大大提升对病理图片的预测准确率。
在一个可能的实施方式中,装置还包括:标注模型预训练模块,用于将已标注病理图片和第二病理文本输入至初始模型中,确定已标注病理图片的训练标签;根据训练标签和标注标签,确定第四损失;根据第四损失对初始模型进行更新,得到标注模型。
在一个可能的实施方式中,装置还包括:预测模块,用于当获取到待检测病理图片时,通过更新后的推理模型进行预测,得到待检测病理图片对应的病理结果;发送模块,用于将待检测病理图片以及待检测病理图片对应的病理结果进行输出;接收模块,用于接收待检测病理图片相关联的病理文本;存储模块,用于将待检测病理图片、待检测病理图片相关联的病理文本作为新的未标注病理图片、新的第一病理文本进行存储。本申请还可以接收到待检测病理图片相关联的真实的病理文本作为新的未标注数据进行存储,从而不断扩充未标注数据的数据量,以便后续可以对推理模型进行更好的更新。
第三方面,提供了一种推理模型训练设备,设备包括:处理器用于与存储器耦合,以及读取并执行存储在存储器中的指令;当处理器运行时执行指令,使得处理器用于根据已标注病理图片训练得到推理模型;根据未标注病理图片、第一病理文本,以及已标注病理图片,更新推理模型,其中,推理模型用于对输入的待检测病理图片进行推理,得到待检测病理图片对应的病理结果,第一病理文本为未标注病理图片相关联的病理文本。本申请通过结合未标注病理图片、第一病理文本和已标注病理图片对推理模型进行更新,使得模型融入了更多领域经验知识,从而大大提升了推理模型对病理图片的预测准确率。
在一个可能的实施方式中,推理模型包括分割模型和分类模型;处理器还用于,更新分 类模型。
在一个可能的实施方式中,处理器还用于:将未标注病理图片和第一病理文本输入至预先训练好的标注模型,确定未标注病理图片对应的伪标签;根据伪标签和第一预测结果,确定第一损失,第一预测结果为未标注病理图片输入推理模型得到的预测结果;根据已标注病理图片的标注标签和第二预测结果,确定第二损失,第二预测结果为已标注病理图片输入推理模型得到的预测结果;根据第一损失和第二损失更新推理模型。本申请通过结合未标注的病理图片以及已标注的病理图片进行半监督学习更新推理模型,可以使得推理模型得到更好的收敛,从而提升预测准确率。
在一个可能的实施方式中,处理器还用于:提取未标注病理图片的图像特征向量;提取第一病理文本的文本特征向量;结合图像特征向量和文本特征向量,确定未标注病理图片对应的伪标签。本申请可以结合图像的特征信息和文本特征信息,通过多模态信息融合的方式确定出未标注病理图片对应的伪标签,使得该伪标签的类别可以更加准确的对应未标注病理图片,以便后续可以更好的对推理模型进行优化更新。
在一个可能的实施方式中,文本特征向量包括病变区域位置特征向量、病变级别特征向量和病变性状特征向量中的一种或多种。
在一个可能的实施方式中,处理器还用于:将已标注病理图片和第二病理文本输入至预先训练好的标注模型,确定已标注病理图片对应的伪标签,其中,第二病理文本为已标注病理图片相关联的病理文本;根据已标注病理图片对应的伪标签和第二预测结果,确定第一损失。本申请在通过未标注图片确定第一损失的时候,还可以融入部分已标注图片,以避免伪标签过于离散,从而得到更好的第一损失,并使得推理模型得到更好的收敛。
在一个可能的实施方式中,处理器还用于:将第一损失和第二损失按照预设权重进行累加,确定第三损失;根据第三损失更新推理模型。本申请采用半监督学习的方式更新推理模型,通过赋予不同权重的方式融合通过未标注图片得到的第一损失以及通过已标注图片得到的第二损失。以便更好的对推理模型进行更新,保障更新后的推理模型可以大大提升对病理图片的预测准确率。
在一个可能的实施方式中,处理器还用于:将已标注病理图片和第二病理文本输入至初始模型中,确定已标注病理图片的训练标签;根据训练标签和标注标签,确定第四损失;根据第四损失对初始模型进行更新,得到标注模型。
在一个可能的实施方式中,处理器还用于:当获取到待检测病理图片时,通过更新后的推理模型进行预测,得到待检测病理图片对应的病理结果;设备还包括:显示器,用于将待检测病理图片以及待检测病理图片对应的病理结果进行输出;接收器,用于接收待检测病理图片相关联的病理文本;存储器还用于,将待检测病理图片、待检测病理图片相关联的病理文本作为新的未标注病理图片、新的第一病理文本进行存储。本申请还可以接收到待检测病理图片相关联的真实的病理文本作为新的未标注数据进行存储,从而不断扩充未标注数据的数据量,以便后续可以对推理模型进行更好的更新。
第四方面,提供了一种计算机可读存储介质,计算机可读存储介质中存储有指令,当指令在终端设备上运行时,使得终端设备执行如第一方面中的任意一项方法。
第五方面,提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行第一方面中任意一项的方法。
第六方面,提供了一种计算机集群,计算机集群包括至少一台计算机,每台计算机包括处理器和存储器。至少一台计算机的处理器用于执行至少一台计算机的存储器中存储的指令, 以使计算机集群执行第一方面任意一项的方法。
本申请公开了一种推理模型训练方法及装置,在根据已标注病理图片训练出推理模型后,可以通过结合未标注病理图片、相关联的病理文本以及已标注病理图片对推理模型采用半监督学习的方式进行更新。使得更新后的推理模型对病理图片中病理类型的预测准确率得到极大提升。
附图说明
图1为一种图像识别分类场景示意图;
图2为一种通用阴道镜图像识别AI模型的运行流程示意图;
图3为本申请实施例提供的一种推理模型训练系统示意图;
图4为本申请实施例提供的一种预训练推理模型示意图;
图5为本申请实施例提供的一种标注模型训练示意图;
图6为本申请实施例提供的一种半监督学习更新分类模型示意图;
图7为本申请实施例提供的一种方案对比示意图;
图8为本申请实施例提供的一种多模态数据迭代融合流程示意图;
图9为本申请实施例提供的一种推理模型训练方法流程图;
图10为本申请实施例提供的另一种推理模型训练方法流程图;
图11为本申请实施例提供的又一种推理模型训练方法流程图;
图12为本申请实施例提供的一种推理模型训练平台示意图;
图13为本申请实施例提供的一种推理模型训练装置示意图;
图14为本申请实施例提供的一种计算设备示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
本申请主要应用于通过AI模型对病理图片进行识别分类的场景。如图1所示,假设图1示出了一个病理图片,目前传统的思路是医生结合自己的领域经验和业务知识对病理图片进行分析。以通过阴道镜进行宫颈癌(cervical cancer)筛查为例,目前医生主要通过肉眼观察阴道镜的实时图像,然后通过对图像的颜色、色调、表面构形、边界、血管形态等方面进行综合评估。之后可以涂抹3%的醋酸后再观察宫颈表面,并进行碘着色实验进行观察。在上述过程中,保存各个阶段的有意义的图像,最后再对医生判别的可疑病变区域进行采样活检,并送病理科进行金标准检查。可以理解的是,金标准是指当前临床医学界公认的诊断疾病的最可靠方法。使用金标准的目的就是准确区分受试对象是否为某病患者。较为常用的金标准例如可以包括:活检、手术发现、微生物培养、尸检、特殊检查、影像诊断以及长期随访的结果等等。
在当前的一些方案中,随着AI算法与医疗行业的深入融合,在阴道镜筛查的场景下,可以采用训练深度学习模型来自动识别出可疑病变区域。深度学习(deep learning,DL)是机器学习中一种基于对数据进行表征学习的算法。观测值(例如一幅图像)可以使用多种方式来表示,如每个像素强度值的向量,或者更抽象地表示成一系列边、特定形状的区域等。而使用某些特定的表示方法更容易从实例中学习任务(例如,人脸识别或面部表情识别)。深度学习的好处是可以采用无监督式或半监督式的特征学习和分层特征提取高效算法来替代手工获取特征。在训练时用到的训练数据,通常需要有资深经验的医生对阴道镜图像进行精细化的图片标注,以用于对模型中的相应区域进行分类。正如图1中示出了对图像进行的标注。可以看出,图1中深色区域为医生通过经验标记出的高病变区域(High-grade squamous  intraepithelial lesion,HSIL),图1中浅色区域为医生通过经验标记出的低病变区域(low-grade squamous intraepithelial lesion,LSIL)。在一些例子中,医生进行的标记还可以携带病变区域的坐标信息。例如包括该病变区域多个端点的坐标信息。
之后,可以基于资深医生标注过的阴道镜标注图片对通用AI模型进行训练,以便得到通用的阴道镜图像识别AI模型。图2则示出了一种通用的阴道镜图像识别AI模型的运行流程示意图。如图2所示出的,首先资深医生需要对未标注的阴道镜历史图片进行手动标注。例如,资深医生首选从未标注的阴道镜历史图片中选取质量较好的图片,并利用标注平台(或标注工具)进行手动标注。可以包括对可以病变区域的分割,并在分割后的基础上分别标注相应类别,如标记出HSIL和LSIL两个类别,又或者还包括其它病变。当然,在其它例子中,还可以根据分类用途的实际情况进行更为精细化的划分。此时得到了部分已标注的阴道镜图片。当然,可以理解的是,还可以包括与之相关联的病理文本。之后,采用部分的已标注的阴道镜图片对初始模型进行训练。在一些例子中,每个类别采用数百个已标注的阴道镜图片进行训练。在一些例子中,初始模型可以包括初始分割模型和初始分类模型。训练方式采用有监督方式进行训练。从而训练得到区域分割模型和病变分类模型。此时,可以将待检测病理图片输入至推理模型中进行预测推理,例如依次输入至区域分割模型进行区域分割,并将分割后的数据输入病变分类模型中进行预测推理,以得到各个病变区域预测的类别。可以理解的是,预测得到的类别数量与医生手动标注的类别相同。之后,可以对预测推理得到的可疑病变区域进行取样,并送检病理科完成对采样区域的化验分析。从而得到真实的病理分析文本,并将真实的病理分析文本作为病人病历的金标准。
在一个例子中,分割模型可以采用掩膜区域卷积神经网络(mask region convolutional neural networks,Mask R-CNN)实现。Mask R-CNN是一种流行的基于卷积网络的目标检测算法,相比之前版本的面向语义分割的深度学习网络,在准确率不下降的情况下,具有更快的速度,并且把端到端的概念引入到语义分割中。通过区分相应的可疑病变区域,从而实现区域分割。
但是,上述方案目前存在以下几类问题。首先,要保证阴道镜图像识别AI模型可以达到可使用的程度,需要大量的已标注图片。对于采用医生手动标注的方式,则会导致医生手动标注的工作量过大。正如表1所示出的,
Figure PCTCN2022124956-appb-000001
表1
可以看出,目前阴道镜图像识别AI模型识别准确率仅能达到经验较浅医生的准确率,但仍然需要19个资深医生每天进行标注,且每个类别标注至少300例。若想要进一步提升阴道镜图像识别AI模型识别的准确率,例如想要达到经验深厚医生(即资深医生)的准确率, 则医生标注的工作量将在现有每天19人的基础上呈指数增加。显然需要投入更大量的人力、财力。
其次,标注样本的质量依赖于资深医生的大量投入,但资深医生(也可以称为经验深厚医生)本身也是稀缺资源,同时每个资深医生的时间也是稀缺资源,即使标注少量样本,也需要大量的时间。
然而,目前医学中存在大量已归档的历史文本数据,即诊断病理数据,又称金标准等。此类数据并未得到充分的挖掘和利用。已归档的历史文本数据中病理文本与病理图片可以通过病人的唯一身份标识(identity,ID)进行关联。然而此类数据沉淀了大量资深医生在该领域的经验知识,如果没有充分利用,显然是对医疗资源的一种极大浪费。同时,图2所示的流程也并未形成有效的闭环,当对待检测病理图片经过预测分析后,对可疑病变区域送检并得到金标准后,金标准和对应的待检测病理图片并未重新作为训练数据融入到阴道镜图像识别AI模型的自我迭代和完善升级中。
因此,本申请提供了一种推理模型训练方法及设备,在根据已标注病理图片训练出推理模型后,结合未标注病理图片、相关联的病理文本以及已标注病理图片对推理模型采用半监督学习的方式进行更新。使得更新后的推理模型对病理图片中病理类型的预测准确率得到极大提升。
进一步的,可以采用更新后的推理模型对待检测病理图片进行预测,并在预测后进行送检得到的金标准,结合待检测病理图片和送检得到的金标准再融入到未标注图片及相关联的病理文本中,以便后续对推理模型进行新一轮更新,逐步提升推理模型对病理图片中病理类型的预测准确率。
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行详细描述。
图3为本申请实施例提供的一种推理模型训练系统示意图。
如图3所示,本申请提供了一种推理模型训练系统架构,该推理模型训练系统可以应用于服务器上。可以理解的是,服务器可以与终端设备通过有线或无线的方式相连接,以便进行通信。例如发送或者接收数据。其中,无线方式可以包括2G/3G/4G/5G/6G等无线通信的解决方案,或是包括无线局域网(wireless local area networks,WLAN)、蓝牙(bluetooth,BT)、全球导航卫星系统(global navigation satellite system,GNSS)、调频(frequency modulation,FM)、近距离无线通信技术(near field communication,NFC)、紫蜂(zigbee)和红外技术(infrared,IR)等无线通信的解决方案。其中,WLAN例如可以是无线保真(wireless fidelity,Wi-Fi)网络。在一些例子中,终端设备可以包括但不限于手机、智能电视、智能音响、可穿戴设备、平板电脑、桌面型计算机、电脑一体机、手持计算机、笔记本电脑、服务器、超级移动个人计算机(ultra-mobile personal computer,UMPC)、上网本、个人数字助理(personal digitalassistant,PDA)、膝上型计算机(laptop)、移动电脑、增强现实(augmented reality,AR)设备、虚拟现实(virtual reality,VR)设备和/或人工智能(artificial intelligence,AI)设备等任意终端设备或便携式终端设备。
继续回到图3,该推理模型训练系统主要用于对推理模型310进行训练更新,以便更新后的推理模型310可以对待检测病理图片进行预测推理,预测出待检测病理图片中相应区域的类别。可以理解的是,更新后的推理模型310得到的预测结果其准确率更高。通常情况下推理模型310可以用于对病理图片进行预测推理,以预测推理出相应区域的类别,如HSIL、LSIL或其它病变分类等。在该推理模型训练系统中,首先可以采用已标注的病理图片对初始模型进行冷启动预训练,得到推理模型310。在一个例子中,推理模型310可以包括分割模 型311和分类模型312。
可以理解的是,本申请以对宫颈癌阴道镜图片进行识别分类为例进行描述。宫颈癌是一种严重危害女性健康的恶性肿瘤,全世界每年估计有49万名女性被诊断为宫颈癌,每年约24万名女性死于宫颈癌。我国每年新发宫颈癌病例13.5万,约占全球发病数量的1/3。然而,宫颈癌变的发展过程漫长,可达5~10年之久,因此医生和患者有足够的时间去发现宫颈的癌前病变或早期原位癌(微浸润癌)。另外,超过90%的宫颈癌能通过每一至两年一次的阴道镜筛查来有效预防和处理,早期宫颈癌变的术后五年生存率可达99%以上。
阴道镜是一种内窥镜,可在强光源下用双目立体放大镜或电子监视器直接观察子宫颈和下生殖道上皮的病变。阴道镜可分为光学和电子两种,是确定子宫颈癌及癌前病变的重要辅助方法之一。当临床可疑或细胞学检查异常时往往建议进行阴道镜检查。阴道镜与人乳头瘤病毒(human papilloma virus,HPV)检测或细胞学合用可以减少假阴性的发生,并显著提高子宫颈癌的早诊率。阴道镜检查最大的优点是可,发现肉眼看不见的亚临床病变,并在可疑病变处定位活检,从而提高活检的阳性率和诊断的准确率。阴道镜检查的准确性通常受设备、检查者经验及技术水平等的影响。
其中,阴道镜活检(colposcopy histopathology)是在放大镜下检查官颈、阴道、外阴等部位有无可疑的病变,并酌情在可疑病变区域取样活检,为临床治疗提供组织学和病理学依据。
当然,对于其它领域的图像识别,本申请的方案仍然适用。
继续以医学领域中针对阴道镜图片进行识别为例进行描述。在采用有标注的病理图片对初始模型进行冷启动预训练的过程可以如图4所示出的。其中,冷启动表示在进行预训练时,采用初始模型进行训练,而非采用经过训练过的模型再次训练。在一个例子中,可以采用已标注的醋酸染图片先对初始分割模型进行有监督训练,以得到醋酸染分割模型401。可以理解的是,已标注的醋酸染图片预先经过资深医生进行过分割。之后,可以将分割后已标注的醋酸染图片对初始分类模型进行有监督训练,得到醋酸染分类模型402。可以理解的是,已经被分割后的已标注的醋酸染图片携带的标签用于表示该图片的分类,例如HSIL、LSIL或其它病变分类等。具体训练过程可以参考现有方式实现,本申请不做限定。
在一些例子中,在医学领域中对阴道镜图片进行识别时,通常可以包含两类图片,一类是醋酸染图片,另一类是碘染图片。因此,还可以针对已标注的碘染图片分别训练初始分割模型,以得到碘染分割模型403;以及,训练初始分类模型,以得到碘染分类模型404。
通过图4所示出的方式可以得到预训练好的推理模型310,即包含分割模型311和分类模型312。当然,其中分割模型311可以包括醋酸染分割模型401和碘染分割模型403;分类模型312可以包括醋酸染分类模型402和碘染分类模型404。此时的推理模型310可以针对不同的待检测病理图片,如对待检测醋酸染图片或待检测碘染图片进行分割预测,并确定出分割出的区域对应的类别,例如HSIL、LSIL或其它病变分类。在一些例子中,若待检测病理图片为待检测醋酸染图片,则可以采用醋酸染分割模型401和醋酸染分类模型402进行分割预测;同理,若待检测病理图片为待检测碘染图片,则可以采用碘染分割模型403和碘染分类模型404进行分割预测。然而,由于在进行冷启动预训练时,仅采用了经过资深医生标注过的已标注病理图片。但已标注病理图片数量较少,导致训练得到的推理模型310对待检测病理图片进行分割再分类后得到的预测结果准确率较低。
因此,本申请引入未标注病理图片对推理模型310中的分类模型312进行半监督学习更新,以使得更新后的分类模型312′可以对待检测病理图片的预测结果更加准确。同时可以 引入未标注病理图片中大量的领域经验知识。因此,本申请提供了一种标注模型,在一些例子中也可以称为多模态融合辅助标注模型,可以对未标注病理图片进行辅助标注,从而方便后续更分类模型312。其中,辅助标注(auxiliary annotation)是利用计算机执行算法来辅助人工进行数据(图片/文本/语音等模态)的标注工作。
图5为本申请实施例提供的一种标注模型训练示意图。
如图5所示,示出了一种训练标注模型的过程。其中,标注模型320也可以称为多模态融合辅助标注模型,标注模型320可以包括:图像特征提取子模型510、文本特征提取子模型520、融合子模型530、线性层540和归一化层550。
可以看出,标注模型320主要用于从图像中提取相应图像特征,以及从病理文本中提取相应文本特征,再将两种特征相融合后以便最终确定出可能的类别,从而实现对病理图像及病理文本中类别的识别。模态(modality)是指事物发生或存在的方式,多模态是指两个或者两个以上的模态的各种形式的组合。对每一种信息的来源或者形式,都可以称为一种模态。目前研究领域中主要是对图像、文本、语音三种模态的处理。之所以要对多种模态进行融合,是因为不同模态的表现方式不一样,对同一事物的表征也会不一样。所以存在一些交叉(即信息冗余)、互补(可以理解为比单一特征更优秀)的现象,甚至模态间可能还存在多种不同的信息交互,如果能合理的处理多模态信息,就能得到丰富特征信息。因此,在本申请中将对病理图像和病理文本两种模态进行融合,从而实现多模态融合(multimodal fusion)。
在训练过程中,采用已标注病理图片对初始标注模型进行训练,从而得到训练完成的标注模型320。首先,可以将如图1所示出的已标注病理图片中标记出的区域进行提取,其中,被标记的区域可以称为掩膜(mask)区域,可简称mask,以得到mask区域图片。之后,将mask区域图片输入至图像特征提取子模型510中的扩充层511进行扩充。例如可以按照预先设定的方式将mask转换为一个边界框(bounding box)图像。在一个例子中,预先设定的方式可以是根据mask区域位于病理图片中四个方位的极值点确定出bounding box的四个端点坐标,例如根据图像的上下左右四个方位的极值点,从而可以选定出最小框出mask的bounding box,并得到该bounding box四个端点的坐标。通常bounding box是一个矩形框。可以理解的是,扩充层511的作用可以认为是将mask扩充为一个检测框,这样可以方便统一图像的特征维度。此时,bounding box包含了图像的所有视觉特征,例如图片的颜色、纹理等信息。同时还具有空间特征,即bounding box四个端点的坐标。之后,可以将该bounding box分别输入感兴趣区域(region of interest,ROI)池化(pooling)层512和位置特征(location)层514。将bounding box输入ROI pooling层512的目的是进行感兴趣区域特征提取,再经过第一全连接层(fully connect)513将提取的感兴趣区域特征映射到某个维度。在一个例子中,bounding box经过ROI pooling层512后可以得到7*7大小的特征图,显然该特征图即上述感兴趣区域特征。当然具体特征图的大小可以根据实际情况进行任意调整,本申请不做限定。当然,在一些例子中,可能存在bounding box过小的情况,在此情况下经过ROI pooling层512时也可以进行适当的填充,例如补零,从而保证得到特定大小的特征图。之后,再将经过ROI pooling层512后得到的特征图输入第一全连接层513,以将特征图映射到某个维度,得到视觉特征向量。可以理解的是,视觉特征向量的维度与第一全连接层513中神经元的个数相关。
另一方面,bounding box还输入至location层514中提取坐标特征,例如将bounding box的坐标信息输入location层514后,再经过第二全连接层515得到空间特征向量。可以理解的是,本申请中为了后续计算方便,可以设定第一全连接层513和第二全连接层515 中的神经元个数相同,以便提取得到的视觉特征向量和空间特征向量的维度相同。显然,维度的数量也与特征向量所含参数的数量相同。此时,视觉特征向量和空间特征向量可以统称为图像特征向量,可以认为是一种嵌入特征向量(embedding)。其中,视觉特征向量可以记为E mask,空间特征向量可以记为E location。E可以用于表示embedding。
由于标注模型320用于进行多模态融合,因此,还可以将已标注病理图片相关联的病理文本输入至标注模型320中的文本特征提取子模型520提取文本特征向量。在一个例子中,例如可以首先将已标注病理图片相关联的病理文本输入至文本特征提取子模型520中的命名实体识别(named entity recognition,NER)层521中识别出特定的名词。其中,命名实体识别是指识别文本中具有特定意义的实体,例如可以包括人名、地名、机构名、专有名词等。通常可以包括实体边界识别、确定实体类别(如人名、地名、机构名或其它等)。命名实体识别是信息提取、问答系统、句法分析、机器翻译、知识图谱等应用领域的重要基础工具。因此,假设病理文本为″宫颈6点:高级别鳞状上皮内病变″则通过NER层521可以分别识别出″6点″、″高级别″、″鳞状″、″病变″等。然后,NER层521将识别出的各个实体名词输入至自注意力变换网络的双向编码器表示法(bidirectional encoder representation from transformers,bert)层522中提取相应文本特征。例如针对每一个识别出的命名实体,均提取出对应的特征向量,例如可以记作E 6点,表示为″6点″对应的文本特征向量。当然,还可以包括E 高级别、E 鳞状、E 病变等特征向量。当然,E 6点、E 高级别、E 鳞状、E 病变可以统称为文本特征向量。在一个例子中,可以设置bert层522中相应参数,以保证输出的文本特征向量的维度与图像特征向量的维度相同。当然,具体的NER层521中的模型结构,以及bert层522中的模型结构可以参考现有的模型结构实现。具体模型中配置的相应参数根据实际情况进行任意调整,以满足需求,本申请不做限定。
可以理解的是,病理文本中可以包含病变区域的空间位置信息,例如上述例子中的″宫颈6点″。其记录方式以表盘指针为空间映射,并以文本方式体现了病变区域的位置。例如,以圆形时钟表盘为例,6点位置即指示时钟表盘中″6点钟″方向。该描述可以大致表述出病变区域的位置,由于病理文本与病理图片相互关联,因此该描述即指示了病理图片中相应mask位于病理图片的大致方位。当然,病理文本中还可以包含病变区域的类别信息,例如″高级别″。同时还可以包含病变区域的性状信息,如″鳞状″等。
此时,经过图像特征提取子模型510提取到图像特征向量,以及经过文本特征提取子模型520提取到文本特征向量后,可以将图像特征信息和文本特征向量一并输入至融合子模型530中。在一个例子中,融合子模型530可以包括多个特征变换(transformer)层531。例如可以包括12个transformer层。在一些例子中,transformer也可称为自注意力变换网络。在一个例子中,可以将具有相同维度的E mask、E location、E 6点、E 高极别、E 鳞状、E 病变等embedding向量一并输入至transformer层531中进行特征融合。当然,在一些例子中,可以经过多个transformer层进行特征融合,最终得到联合特征向量。可以理解的是,transformer层的具体模型结构可以参考现有模型结构,而对于每个transformer层模型的相应参数可以根据实际情况进行任意调整,本申请不再赘述。在一个例子中,经过融合子模型530进行特征融合后的联合特征向量可以分别记为T mask、T location、T 6点、T 高级别、T 鳞状、T 病变,其中,T用于表示为transformer。
之后,将经过融合子模型530融合特征后得到的联合特征向量经过线性层540以及归一化层550,以得到各个类别的概率。可以理解的是,线性层540的神经元个数与类别数量相关联,例如若仅包含HSIL、LSIL或其它病变分类三类,则线性层540中的神经元个数可以 为3,当然具体数量以及分类数量可以根据实际情况进行调整,本申请不做限定。之后经过归一化层550后可以得到不同类别的概率。在一个例子中,可以将概率最高的类别作为类别结果。在模型训练过程中,可以根据该类别结果以及病理图片所携带的真实标签计算损失函数(loss)。在一个例子中,可以计算交叉熵损失函数(cross entropy loss)。并基于该交叉熵损失函数调整标注模型320中各个层中的参数。
在经过多个已标注病理图片及其相关联的病理文本对初始的标注模型训练后,可以得到训练完成的标注模型320。当执行图3所示出的图像识别过程中,则可以使用训练完成的标注模型320根据未标注病理图片以及关联的病理文本,对未标注病理图片中的相应病变区域辅助标记出伪标签。并利用带有伪标签的未标注病理图片对于分类模型312进行半监督学习更新。当然,在一些例子中,当辅助标记伪标签时,需要借助分割模型311将未标注病理图片进行分割,然后在针对每个分割后的图片标记相应的伪标签。显然,标注模型320可以利用上未标注病理图片以及相关联的病理文本,通过多模态融合的方式联合语义信息,从而辅助大量未标注病理图片标记伪标签。
可以理解的是,伪标签可以认为是一种知识表示(knowledge representation,KR)。在AI中,知识表示就是要把问题求解中所需要的对象、前提条件、算法等知识构造为计算机可处理的数据结构以及解释这种结构的某些过程。这种数据结构与解释过程的结合,将导致智能的行为。
具体更新过程如图6所示出的,为本申请实施例提供的一种半监督学习更新分类模型示意图。
可以看出,针对大量未标注病理图片首先经过分割模型311进行区域分割,得到第一分割图像集合。可以理解的是,第一分割图像集合中包含有多个未标注病理图像中分割出的图像。之后,结合第一分割图像集合,以及第一病理文本,通过图5训练好的标注模型320对第一分割图像集合中的每个分割图像进行辅助标注,即标记对应的伪标签。可以理解的是,伪标签表示通过标注模型预测出来的标签,非真实标签。之后,可以将已标记伪标签的第一分割图像集合通过分类模型312得到第一预测结果。显然,第一预测结果为分类模型312对已标记伪标签的第一分割图像集合中的数据进行预测得到的分类结果。然后,针对已标记伪标签的第一分割图像集合中的每个分割图像,根据对应的伪标签和分类模型312预测得到的第一预测结果,可以确定第一损失。在一个例子中,第一损失可以采用均方差(mean square error,MSE)损失函数计算得到。
对于已标注病理图片,由于预先经过资深医生进行分割标注,因此可以直接得到第二分割图像集合。其中,第二分割图像集合中包含有多个已标注病理图片中分割出的图像。之后,可以将第二分割图像集合输入分类模型312,得到第二预测结果。显然,第二预测结果为分类模型312对第二分割图像集合中的数据进行预测得到的分类结果。之后,针对第二分割图像集合中的每个分割图像,根据相应分割图像对应的标注标签和分类模型312预测得到的第二预测结果,确定第二损失。可以理解的是,由于已标注病理图片预先经过资深医生进行分割标注,因此每个分割图像均对应有标注标签。在一个例子中,第二损失可以采用交叉熵损失函数计算得到。
然后,可以根据第一损失和第二损失对分类模型312中的参数进行更新调整。在一个例子中,例如可以预先配置第一损失的权重以及第二损失的权重,然后将带有权重的第一损失和第二损失进行累加以确定第三损失。可以理解的是,为第一损失和第二损失配置权重是为了保证在进行累加时可以处于同一数量级上进行计算。当然,具体设置的权重数值可以根据 实际情况进行调整。
在另一些例子中,由于对分类模型312进行半监督学习更新时,会采用一定量的数据进行计算,因此通常可以按照批(batch)进行处理。可以预先设置一批数据包含的数据量。然后,每批次计算时可以综合确定出损失值。例如,在计算第一损失时,从第一分割图像集合中选择一批次数据,并将该批次数据分别输入分类模型312中得到对应的第一预测结果。之后,该批次数据中的每条数据均可根据相应的伪标签、第一预测结果得到对应的第一损失。然后,可以按照预设方式计算该批次数据对应的第一损失,例如可以计算均值、中位数、累加值、平方和等任意等效的计算方式,本申请不做限定。同理,第二损失也可以按照上述方式通过第二分割图像集合中的某一批次数据计算得到。再根据第一损失和第二损失确定出第三损失,以便对分类模型312中的相应参数进行更新调整。
当然,在一些例子中,因为按照批次计算第一损失和第二损失,因此,为了避免个别未标注病理图片的伪标签过于偏离真实情况,因此可以采用锐化函数来减少伪标签分布的熵,从而剔除部分不利于更新标注模型312的数据。
在又一些例子中,为了更好的对分类模型312进行半监督学习更新,还可以对第一分割图像集合与第二分割图像集合进行混合。例如,将已标记伪标签的第一分割图像集合与第二分割图像集合进行混合,得到混合数据集w。在一些例子中,混合也可以称为洗牌(shuffle)。当然,对已标记伪标签的第一分割图像集合与第二分割图像集合进行shuffle,可以认为是充分且随机的混合。可以理解,具体shuffle的实现方式可以参考现有方式,本申请不再赘述。
在shuffle得到混合数据集w之后,可以从混合数据集w中选取任意k个数据,并与第二分割图像集合重新混合,得到第二数据集。以及,将混合数据集w中除选取出的k个数据以外其余的数据与已标记伪标签的第一分割图像集合重新混合,得到第一数据集。然后再分别采用第一数据集、第二数据集通过分类模型312,得到第一数据集中每条数据对应的第一预测结果,以及第二数据集中每条数据对应的第二预测结果。可以理解的是,shuffle的目的是为了在未标注病理图片中融入部分已标注病理图片,从而更好的帮助分类模型312在半监督学习时参数的拟合情况。第一数据集中虽然包含部分已标注病理图片,但此部分已标注病理图片仍然通过标注模型320确定相应的伪标签,并根据已标注病理图片经分类模型312确定的第一预测结果,共同计算得到相应的第一损失。
而对于第二数据集中也包含部分未标注病理图片,由于此部分未标注病理图片并不具有标签,因此在确定第二损失时,可以忽略此部分未标注病理图片。换句话说,就是计算第二损失时不考虑第二数据集中的未标注病理图片。
经过shuffle后得到的第一数据集和第二数据集,再经过分类模型312后并与相应的标注标签或伪标签计算得到第一损失和第二损失,可以更有利于分类模型312的更新,使得更新后的分类模型312结果更收敛,并极大提升分类模型312的预测准确率。
可以理解的是,在对分类模型312中参数进行更新过程,需要经过多次第三损失进行调整,使得分类模型312逐渐收敛。
在分类模型312通过半监督学习更新完成后,当新的待检测病理图片输入推理模型310时,可以先经过分割模型311对待检测病理图片进行区域分割,再将分割后的图片输入更新后的分类模型312中进行预测推理。此时,针对分割后的图片预测的分类结果(也可称为推理结果),其准确率将大大提升。可以理解的是,该预测得到的推理结果可以认为是待检测病理图片对应的病理结果。当然,在一些例子中,医生可以根据推理结果(即待检测病理图片对应的病理结果),将可疑病变区域进行取样并送检,从而得到对应区域的病理文本(或称病 例分析文本、金标准等)。显然该对应区域的病理文本与待检测病理图片相关联。当然,在一些例子中,可以通过输出待检测病理图片和待检测病理图片对应的病理结果,以便医生根据实际情况确定是否取样送检,或者是针对哪些病变区域进行取样送检。之后,可以将待检测病理图片和相关联的病理文本作为新的未标注病理图片和新的第一病理文本进行保存。例如可以建立未标注病理数据库,该未标注病理数据库中存储有大量的未标注病理图片和相关联的病理文本(即第一病理文本)。该未标注病理数据库中每条数据对应了一条病例信息,包含未标注病理图片,以及相关联的病理文本。此过程可以不断丰富未标注病理数据库,从而更有利于后续对分类模型312的再次半监督学习更新。该过程也可以称为归档。
可以理解的是,对分类模型312的半监督学习更新可以按照预先设定的频率周期性执行。当然,也可以在未标注病理数据库中存入新的数据时直接更新,本申请不做限定。
在一些例子中,对于待检测病理图片,还可以根据医生的经验知识直接对可以病变区域进行采样送检,并在得到相关联的病理文本后,将待检测病理图片和相关联的病理文本作为新的未标注病理图片和新的第一病理文本进行保存。
本申请上述图3至图6所描述的方案,充分挖掘了海量历史归档的无标注内窥镜(即阴道镜)图片以及对应的文本格式病理诊断结果(即病理文本),通过可以融合文本病理信息和无标注图片的多模态辅助标注模型,充分辅助标注数万例归档无标注内窥镜(即阴道镜)图片。然后基于半监督框架来迭代更新已有的分类模型,进而达到利用数万例标注图片来训练推理模型的效果,大大提升了推理模型对相应类别的识别准确率(或称预测准确率)和泛化能力。
本申请中采用了多模态数据融合迭代流程,包括归档历史数据迭代抽取、多模态融合模型训练、海量历史数据辅助标注、半监督学习更新分类模型、推理待检测新入组图片、待检测病理图片病理金标准分析及归档等闭环迭代的若干环节。相比现有方案中单向的训练过程,标注数据仅被单向使用一次,本申请的标注数据和未标注数据可以被批量迭代训练多次,达到模型最优收敛的效果。
图7为本申请实施例提供的一种方案对比示意图。
如图7所示出的,在针对医学领域阴道镜图片的识别方案中,方案1为最原始方案,完全通过医生所具有的临床经验进行判断,并对相应活检区域进行采样送检,以得到相应的病理结果。方案1流程较短,简单直接。严重依赖医生的临床经验和业务水平。例如资深医生的准确率大于85%,而新手医生或普通医生的准确率约为60%。仅能通过沉点固化医生的研读经验,以及加强业务培训。因此,在一些方案中,如方案2提供了可以根据医生标注的醋酸染病理图片/碘染病理图片训练推理模型。并基于该推理模型对待检测病理图片进行预测推理。然后,可以基于预测推理的结果进行区域采样并送检,以便得到相应的病理结果。方案2采用了AI模型固化医生的领域知识及经验,但是需要医生手动标注数据以进行推理模型的初始化训练。推理模型的准确率严重依赖训练样本的规模大小。然而大量的未标注数据未能充分利用。由于训练推理模型的数据过少,本申请提供了方案3,通过结合大量未标注病理图片及其相关联的病理文本,通过多模态融合的方式给未标注病理图片辅助标记伪标签,然后基于部分已标注病理图片和标记有伪标签的病理图片对推理模型进行半监督学习更新。从而提升推理模型对待检测病理图片的预测准确率。本申请充分挖掘了多模态数据的特点,通过多模态辅助标注模型对未标注病理图片标记伪标签,以便于后续对推理模型进行半监督学习更新。
图8为本申请实施例提供的一种多模态数据迭代融合流程示意图。
正如图8所示出的,本申请结合大量未标注病理图片和相关联的病理文本,通过标注模型320为未标注病理图片进行多模态融合辅助标注伪标签。之后,结合部分已标注病理图片对分类模型312进行半监督学习更新模型参数。然后,可以采用分割模型311和更新后的分类模型312对待检测病理图片进行预测,并针对可疑病变区域进行采样送检,得到与待检测病理图片相关联的病理文本。再将待检测病理图片以及相关联的病理文本作为新的未标注病理图片和新的第一病理文本进行归档,从而形成了闭环,以便后续再次对分类模型进行更新。
当然具体实现过程可以参考图3至图6中相应的描述,本申请在此不再赘述。
图9为本申请实施例提供的一种推理模型训练方法流程图。
如图9所示,本申请提供了一种推理模型训练方法,该方法可以包括以下步骤:
S901,根据已标注病理图片训练得到推理模型。
S902,根据未标注病理图片、第一病理文本,以及已标注病理图片,更新推理模型。其中,推理模型用于对输入的待检测病理图片进行推理,得到待检测病理图片对应的病理结果,第一病理文本为所述未标注病理图片相关联的病理文本。
在一个可能的实施方式中,推理模型可以包括:分割模型和分类模型。更新推理模型,可以包括:更新分类模型。
在一个可能的实施方式中,更新推理模型,可以包括:将未标注病理图片和第一病理文本输入至预先训练好的标注模型,确定未标注病理图片对应的伪标签。然后,根据伪标签和第一预测结果,确定第一损失。其中,第一预测结果为未标注病理图片输入推理模型得到的预测结果。根据已标注病理图片的标注标签和第二预测结果,确定第二损失。其中,第二预测结果为已标注病理图片输入推理模型得到的预测结果。根据第一损失和第二损失更新推理模型。
在一个可能的实施方式中,确定未标注病理图片对应的伪标签,可以包括:提取未标注病理图片的图像特征向量。提取第一病理文本的文本特征向量。结合图像特征向量和文本特征向量,确定未标注病理图片对应的伪标签。
在一个可能的实施方式中,文本特征向量可以包括病变区域位置特征向量、病变级别特征向量和病变性状特征向量中的一种或多种。
在一个可能的实施方式中,确定第一损失还包括:将已标注病理图片和第二病理文本输入至预先训练好的标注模型,确定已标注病理图片对应的伪标签。其中,第二病理文本为已标注病理图片相关联的病理文本。根据已标注病理图片对应的伪标签和第二预测结果,确定第一损失。
在一个可能的实施方式中,根据第一损失和第二损失更新推理模型,可以包括:将第一损失和第二损失按照预设权重进行累加,确定第三损失。然后,根据第三损失更新推理模型。
图10为本申请实施例提供的另一种推理模型训练方法流程图。
如图10所述,本申请还提供了另一种推理模型训练方法,在S902之前,可以预先训练得到标注模型,因此在S902之前该方法还可以包括以下步骤:
S1001,将已标注病理图片和第二病理文本输入至初始模型中,确定已标注病理图片的训练标签。
S1002,根据训练标签和标注标签,确定第四损失。
S1003,根据第四损失对初始模型进行更新,得到标注模型。
图11为本申请实施例提供的又一种推理模型训练方法流程图。
如图11所述,本申请还提供了又一种推理模型训练方法,在S902之后,还可以对待检 测病理图片进行预测后作为新的未标注病理图片进行归档,因此在S902之后该方法还可以包括以下步骤:
S1101,当获取到待检测病理图片时,通过更新后的推理模型进行预测,得到待检测病理图片对应的病理结果。
S1102,将待检测病理图片以及待检测病理图片对应的病理结果进行输出。
S1103,接收待检测病理图片相关联的病理文本。
S1104,将待检测病理图片、待检测病理图片相关联的病理文本作为新的未标注病理图片、新的第一病理文本进行存储。
可以理解的是,图9至图10所描述的方法具体实现过程可以参考图3至图6中的相应描述,本申请在此不再赘述。
图12为本申请实施例提供的一种推理模型训练平台示意图。
如图12所示,本申请还提供了一种推理模型训练平台1200。该平台1200可以是一种AI云平台。在一些例子中,平台1200可以独立地部署在云环境的数据中心中的服务器或虚拟机上,平台1200也可以分布式地部署在数据中心中的多台服务器1210上、或者分布式地部署在数据中心中的多台虚拟机上。
在另一个实施例中,本申请提供的平台1200还可以分布式地部署在不同的环境中。本申请提供的平台1200可以在逻辑上分成多个部分,每个部分具有不同的功能。例如,平台1200中的一部分可以部署在边缘环境中的计算设备中(也可称边缘计算设备),另一部分可以部署在云环境中的设备中。边缘环境为在地理位置上距离用户的终端计算设备较近的环境,边缘环境包括边缘计算设备,例如:边缘服务器、拥有计算能力的边缘小站等。部署在不同环境或设备的平台1200的各个部分协同实现为用户提供图3至图11所描述的训练更新推理模型310等功能。
如前所述,由于本申请提供的平台1200中的各个模块可以分布式地部署在同一环境或不同环境中的多个计算设备上。因此,在一些实施例中,一个或多个服务器1210可以构成计算机设备集群,用于部署平台1200以实现图3至图11所描述的训练更新推理模型310等功能。可以理解的是,计算机设备集群中可以包括多个计算设备,每个计算设备可以是服务器1210。
图13为本申请实施例提供的一种推理模型训练装置示意图。
如图13所示,本申请还提供了一种推理模型训练装置1300。该装置1300可以是图12中的服务器1210。例如可以是计算机设备集群中的任意一个服务器。当然,在一些例子中,装置1300上也可以运行图12中所描述的虚拟机。
装置1300可以包括:训练模块1310,用于根据已标注病理图片训练得到推理模型;更新模块1320,用于根据未标注病理图片、第一病理文本,以及已标注病理图片,更新推理模型。其中,推理模型用于对输入的待检测病理图片进行推理,得到待检测病理图片对应的病理结果,第一病理文本为未标注病理图片相关联的病理文本。
本申请通过结合未标注病理图片、第一病理文本和已标注病理图片对推理模型进行更新,使得模型融入了更多领域经验知识,从而大大提升了推理模型对病理图片的预测准确率。
在一个可能的实施方式中,推理模型包括分割模型和分类模型。更新模块1320还用于,更新分类模型。
在一个可能的实施方式中,更新模块1320还用于:将未标注病理图片和第一病理文本输入至预先训练好的标注模型,确定未标注病理图片对应的伪标签;根据伪标签和第一预测 结果,确定第一损失,第一预测结果为未标注病理图片输入推理模型得到的预测结果;根据已标注病理图片的标注标签和第二预测结果,确定第二损失,第二预测结果为已标注病理图片输入推理模型得到的预测结果;根据第一损失和第二损失更新推理模型。
本申请通过结合未标注的病理图片以及已标注的病理图片进行半监督学习更新推理模型,可以使得推理模型得到更好的收敛,从而提升预测准确率。
在一个可能的实施方式中,更新模块1320还用于:提取未标注病理图片的图像特征向量;提取第一病理文本的文本特征向量;结合图像特征向量和文本特征向量,确定未标注病理图片对应的伪标签。
本申请可以结合图像的特征信息和文本特征信息,通过多模态信息融合的方式确定出未标注病理图片对应的伪标签,使得该伪标签的类别可以更加准确的对应未标注病理图片,以便后续可以更好的对推理模型进行优化更新。
在一个可能的实施方式中,文本特征向量包括病变区域位置特征向量、病变级别特征向量和病变性状特征向量中的一种或多种。
在一个可能的实施方式中,更新模块1320还用于:将已标注病理图片和第二病理文本输入至预先训练好的标注模型,确定已标注病理图片对应的伪标签,其中,第二病理文本为已标注病理图片相关联的病理文本;根据已标注病理图片对应的伪标签和第二预测结果,确定第一损失。
本申请在通过未标注图片确定第一损失的时候,还可以融入部分已标注图片,以避免伪标签过于离散,从而得到更好的第一损失,并使得推理模型得到更好的收敛。
在一个可能的实施方式中,更新模块1320还用于:将第一损失和第二损失按照预设权重进行累加,确定第三损失;根据第三损失更新推理模型。
本申请采用半监督学习的方式更新推理模型,通过赋予不同权重的方式融合通过未标注图片得到的第一损失以及通过已标注图片得到的第二损失。以便更好的对推理模型进行更新,保障更新后的推理模型可以大大提升对病理图片的预测准确率。
在一个可能的实施方式中,装置1300还包括:标注模型预训练模块1330,用于将已标注病理图片和第二病理文本输入至初始模型中,确定已标注病理图片的训练标签;根据训练标签和标注标签,确定第四损失;根据第四损失对初始模型进行更新,得到标注模型。
在一个可能的实施方式中,装置1300还包括:预测模块1340,用于当获取到待检测病理图片时,通过更新后的推理模型进行预测,得到待检测病理图片对应的病理结果;发送模块1350,用于将待检测病理图片以及待检测病理图片对应的病理结果进行输出;接收模块1360,用于接收待检测病理图片相关联的病理文本;存储模块1370,用于将待检测病理图片、待检测病理图片相关联的病理文本作为新的未标注病理图片、新的第一病理文本进行存储。
本申请还可以接收到待检测病理图片相关联的真实的病理文本作为新的未标注数据进行存储,从而不断扩充未标注数据的数据量,以便后续可以对推理模型进行更好的更新。
当装置1300上部署了图12中所示的平台1200后,可以实现图3至图11所描述的任意一种方法。具体实现过程可以参考图3至图11中相应的描述,本申请不再赘述。
图14为本申请实施例提供的一种计算设备示意图。
如图14所示,本申请还提供一种计算设备1400。该计算设备1400可以是图12中的服务器1210。例如可以是计算机设备集群中的任意一个服务器。当然,在一些例子中,计算设备1400上也可以运行图12中所描述的虚拟机。计算设备1400包括处理器1310、存储 器1420、通信接口1430以及总线1440。其中,处理器1410、存储器1420、通信接口1430可以通过总线1440实现彼此之间的通信连接。通信接口1430可以与外部设备实现有线或无线通信。
处理器1410读取存储器1420存储的程序和数据集合以执行前述平台1200执行的方法。
当然,在一些例子中,与计算设备1400通过有线或无线相连接的终端设备,可以包括显示器,用以显示计算设备1400发送的待检测病理图片,以及对待检测病理图片的预测结果,即待检测病理图片对应的病理结果。
本申请所提供的计算设备1400当部署了图12所描述的平台1200后,可以实现上述图3至图11中描述的任意一种方法,具体实现方式可以参考述图3至图11的相应描述,在此不再赘述。
可以理解的是,本申请主要以宫颈癌阴道镜图片作为示例进行描述,当然,在其它例子中,例如其它病理图片的辅助类别标记、识别,或者针对体育运动图片的辅助类别标记、识别,又或日常生活照片的辅助类别标记、识别等场景均适用于本方案,本申请不作任何限定。
本申请首先基于资深医生少量精标注的内窥镜(或称阴道镜)图片,然后进行敏感区域分割/分类模型的训练。基于训练所得的推理模型,推理出待检测病理图片的待活检区域去做病理学化验。然而,限于时间有限和标注工作量巨大,资深医生所提供的精标注图片是非常有限的(每个类别仅可提供约在数百例),以此为基础训练所得模型泛化性能较差,模型精度也存在不足。因此,本申请通过融合病理文本和无标注病理图片的多模态辅助标注模型,充分辅助标注数万例归档无标注内窥镜(或称阴道镜)图片。充分挖掘利用了在医学归档的海量病例记录中,沉淀的大量资深医生的领域经验知识。然后基于半监督框架来迭代更新分类模型,进而达到利用数万例无标注图片来训练推理模型的效果。大大提升了模型对不同病理类别的预测准确率和泛化能力。
同时,本申请还可以将预测后送检得到的病理文本与待检测病理图片进行归档,从而实现模型的闭环迭代,可以进一步提升分类模型更新后的预测准确率和泛化能力。
本申请主要解决了阴道镜内窥镜图片进行人工智能算法建模,以及提升模型性能的海量无标注图片的辅助标注问题,从而提升阴道镜辅助筛查的决策效率,提高预测准确率,减轻潜在病人的风险敞口。
本申请中的多模态数据融合过程,可以包括归档历史数据迭代抽取、多模态融合模型训练、海量历史数据标签更新、敏感区域分类模型迭代更新、推理待检测新入组图片、待检测病理图片病理金标准分析及归档等闭环迭代的若干环节。这些数据流转环节对于提升训练模型的数据规模,提高数据质量至关重要。
本领域普通技术人员应该还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令处理器完成,所述的程序可以存储于计算机可读存储介质中,所述存储介质是非短暂性(英文:non-transitory)介质,例如随机存取存储器,只读存储器,快闪存储器,硬盘, 固态硬盘,磁带(英文:magnetic tape),软盘(英文:floppy disk),光盘(英文:optical disc)及其任意组合。
以上所述,仅为本申请较佳的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应该以权利要求的保护范围为准。

Claims (21)

  1. 一种推理模型训练方法,其特征在于,所述方法包括:
    根据已标注病理图片训练得到推理模型;
    根据未标注病理图片、第一病理文本,以及所述已标注病理图片,更新所述推理模型,其中,所述推理模型用于对输入的待检测病理图片进行推理,得到所述待检测病理图片对应的病理结果,所述第一病理文本为所述未标注病理图片相关联的病理文本。
  2. 如权利要求1所述的方法,其特征在于,所述推理模型包括分割模型和分类模型;
    所述更新所述推理模型,包括:更新所述分类模型。
  3. 如权利要求1或2所述的方法,其特征在于,所述更新所述推理模型,包括:
    将所述未标注病理图片和所述第一病理文本输入至预先训练好的标注模型,确定所述未标注病理图片对应的伪标签;
    根据所述伪标签和第一预测结果,确定第一损失,所述第一预测结果为所述未标注病理图片输入所述推理模型得到的预测结果;
    根据所述已标注病理图片的标注标签和第二预测结果,确定第二损失,所述第二预测结果为所述已标注病理图片输入所述推理模型得到的预测结果;
    根据所述第一损失和第二损失更新所述推理模型。
  4. 如权利要求3所述的方法,其特征在于,所述确定所述未标注病理图片对应的伪标签,包括:
    提取所述未标注病理图片的图像特征向量;
    提取所述第一病理文本的文本特征向量;
    结合所述图像特征向量和所述文本特征向量,确定所述未标注病理图片对应的伪标签。
  5. 如权利要求4所述的方法,其特征在于,所述文本特征向量包括病变区域位置特征向量、病变级别特征向量和病变性状特征向量中的一种或多种。
  6. 如权利要求3-5任意一项所述的方法,其特征在于,所述确定第一损失还包括:
    将所述已标注病理图片和第二病理文本输入至预先训练好的标注模型,确定所述已标注病理图片对应的伪标签,其中,所述第二病理文本为所述已标注病理图片相关联的病理文本;
    根据已标注病理图片对应的伪标签和第二预测结果,确定所述第一损失。
  7. 如权利要求3-6任意一项所述的方法,其特征在于,所述根据所述第一损失和第二损失更新所述推理模型,包括:
    将所述第一损失和所述第二损失按照预设权重进行累加,确定第三损失;
    根据所述第三损失更新所述推理模型。
  8. 如权利要求3-7任意一项所述的方法,其特征在于,所述预先训练好的标注模型经过预训练得到,所述预训练过程包括:
    将所述已标注病理图片和第二病理文本输入至初始模型中,确定所述已标注病理图片的训练标签;
    根据所述训练标签和所述标注标签,确定第四损失;
    根据所述第四损失对所述初始模型进行更新,得到所述标注模型。
  9. 如权利要求1-8任意一项所述的方法,其特征在于,所述方法还包括:
    当获取到所述待检测病理图片时,通过所述更新后的推理模型进行预测,得到所述待检测病理图片对应的病理结果;
    将所述待检测病理图片以及所述待检测病理图片对应的病理结果进行输出;
    接收所述待检测病理图片相关联的病理文本;
    将所述待检测病理图片、所述待检测病理图片相关联的病理文本作为新的未标注病理图片、新的第一病理文本进行存储。
  10. 一种推理模型训练装置,其特征在于,所述装置包括:
    训练模块,用于根据已标注病理图片训练得到推理模型;
    更新模块,用于根据未标注病理图片、第一病理文本,以及所述已标注病理图片,更新所述推理模型,其中,所述推理模型用于对输入的待检测病理图片进行推理,得到所述待检测病理图片对应的病理结果,所述第一病理文本为所述未标注病理图片相关联的病理文本。
  11. 如权利要求10所述的装置,其特征在于,所述推理模型包括分割模型和分类模型;
    所述更新模块还用于,更新所述分类模型。
  12. 如权利要求10或11所述的装置,其特征在于,所述更新模块还用于:
    将所述未标注病理图片和所述第一病理文本输入至预先训练好的标注模型,确定所述未标注病理图片对应的伪标签;
    根据所述伪标签和第一预测结果,确定第一损失,所述第一预测结果为所述未标注病理图片输入所述推理模型得到的预测结果;
    根据所述已标注病理图片的标注标签和第二预测结果,确定第二损失,所述第二预测结果为所述已标注病理图片输入所述推理模型得到的预测结果;
    根据所述第一损失和第二损失更新所述推理模型。
  13. 如权利要求12所述的装置,其特征在于,所述更新模块还用于:
    提取所述未标注病理图片的图像特征向量;
    提取所述第一病理文本的文本特征向量;
    结合所述图像特征向量和所述文本特征向量,确定所述未标注病理图片对应的伪标签。
  14. 如权利要求13所述的装置,其特征在于,所述文本特征向量包括病变区域位置特征向量、病变级别特征向量和病变性状特征向量中的一种或多种。
  15. 如权利要求12-14任意一项所述的装置,其特征在于,所述更新模块还用于:
    将所述已标注病理图片和第二病理文本输入至预先训练好的标注模型,确定所述已标注病理图片对应的伪标签,其中,所述第二病理文本为所述已标注病理图片相关联的病理文本;
    根据已标注病理图片对应的伪标签和第二预测结果,确定所述第一损失。
  16. 如权利要求12-15任意一项所述的装置,其特征在于,所述更新模块还用于:
    将所述第一损失和所述第二损失按照预设权重进行累加,确定第三损失;
    根据所述第三损失更新所述推理模型。
  17. 如权利要求12-16任意一项所述的装置,其特征在于,所述装置还包括:
    预训练模块,用于将所述已标注病理图片和第二病理文本输入至初始模型中,确定所述已标注病理图片的训练标签;
    根据所述训练标签和所述标注标签,确定第四损失;
    根据所述第四损失对所述初始模型进行更新,得到所述标注模型。
  18. 如权利要求10-17任意一项所述的装置,其特征在于,所述装置还包括:
    预测模块,用于当获取到待检测病理图片时,通过所述更新后的推理模型进行预测,得到所述待检测病理图片对应的病理结果;
    发送模块,用于将所述待检测病理图片以及所述待检测病理图片对应的病理结果进行输出;
    接收模块,用于接收所述待检测病理图片相关联的病理文本;
    存储模块,用于将所述待检测病理图片、所述待检测病理图片相关联的病理文本作为新的未标注病理图片、新的第一病理文本进行存储。
  19. 一种推理模型训练设备,其特征在于,所述设备包括处理器和存储器:
    所述处理器,用于与存储器耦合,以及读取并执行存储在所述存储器中的指令;
    当所述处理器运行时执行所述指令,以实现所述权利要求1-9中任意一项所述的方法。
  20. 一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机指令,当所述计算机指令在计算机上运行时,使得所述计算机实现如权利要求1-9任意一项所述的方法。
  21. 一种计算机集群,其特征在于,所述计算机集群包括至少一台计算机,每台计算机包括处理器和存储器;
    所述至少一台计算机的处理器用于执行所述至少一台计算机的存储器中存储的指令,以使所述计算机集群执行如权利要求1至9任意一项所述的方法。
PCT/CN2022/124956 2022-01-26 2022-10-12 一种推理模型训练方法及装置 WO2023142532A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202210095035.2A CN116563572A (zh) 2022-01-26 2022-01-26 一种推理模型训练方法及装置
CN202210095035.2 2022-01-26

Publications (1)

Publication Number Publication Date
WO2023142532A1 true WO2023142532A1 (zh) 2023-08-03

Family

ID=87470384

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2022/124956 WO2023142532A1 (zh) 2022-01-26 2022-10-12 一种推理模型训练方法及装置

Country Status (2)

Country Link
CN (1) CN116563572A (zh)
WO (1) WO2023142532A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117011686A (zh) * 2023-09-28 2023-11-07 珠高智能科技(深圳)有限公司 多模态生成式大模型训练方法、装置及计算机设备
CN117577258A (zh) * 2024-01-16 2024-02-20 北京大学第三医院(北京大学第三临床医学院) Petct相似病例检索和预后预测方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10430946B1 (en) * 2019-03-14 2019-10-01 Inception Institute of Artificial Intelligence, Ltd. Medical image segmentation and severity grading using neural network architectures with semi-supervised learning techniques
CN112784801A (zh) * 2021-02-03 2021-05-11 紫东信息科技(苏州)有限公司 基于文本和图片的双模态胃部疾病分类方法及装置
WO2021122670A1 (en) * 2019-12-18 2021-06-24 Koninklijke Philips N.V. A co-training framework to mutually improve concept extraction from clinical notes and medical image classification
CN113689927A (zh) * 2021-10-26 2021-11-23 湖北经济学院 一种基于深度学习模型的超声图像处理方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10430946B1 (en) * 2019-03-14 2019-10-01 Inception Institute of Artificial Intelligence, Ltd. Medical image segmentation and severity grading using neural network architectures with semi-supervised learning techniques
WO2021122670A1 (en) * 2019-12-18 2021-06-24 Koninklijke Philips N.V. A co-training framework to mutually improve concept extraction from clinical notes and medical image classification
CN112784801A (zh) * 2021-02-03 2021-05-11 紫东信息科技(苏州)有限公司 基于文本和图片的双模态胃部疾病分类方法及装置
CN113689927A (zh) * 2021-10-26 2021-11-23 湖北经济学院 一种基于深度学习模型的超声图像处理方法及装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117011686A (zh) * 2023-09-28 2023-11-07 珠高智能科技(深圳)有限公司 多模态生成式大模型训练方法、装置及计算机设备
CN117011686B (zh) * 2023-09-28 2024-03-15 传申弘安智能(深圳)有限公司 多模态生成式大模型训练方法、装置及计算机设备
CN117577258A (zh) * 2024-01-16 2024-02-20 北京大学第三医院(北京大学第三临床医学院) Petct相似病例检索和预后预测方法
CN117577258B (zh) * 2024-01-16 2024-04-02 北京大学第三医院(北京大学第三临床医学院) Petct相似病例检索和预后预测方法

Also Published As

Publication number Publication date
CN116563572A (zh) 2023-08-08

Similar Documents

Publication Publication Date Title
Yu et al. Deep-learning-empowered breast cancer auxiliary diagnosis for 5GB remote E-health
US11861829B2 (en) Deep learning based medical image detection method and related device
WO2023142532A1 (zh) 一种推理模型训练方法及装置
Li et al. Signet ring cell detection with a semi-supervised learning framework
Zhang et al. Cervical image classification based on image segmentation preprocessing and a CapsNet network model
AU2019311336B2 (en) Computer classification of biological tissue
US20120283574A1 (en) Diagnosis Support System Providing Guidance to a User by Automated Retrieval of Similar Cancer Images with User Feedback
CN110689025B (zh) 图像识别方法、装置、系统及内窥镜图像识别方法、装置
WO2020182078A1 (zh) 影像分析方法、显微镜视频流处理方法和相关装置
WO2022001623A1 (zh) 基于人工智能的图像处理方法、装置、设备及存储介质
Zheng et al. Application of transfer learning and ensemble learning in image-level classification for breast histopathology
Liu et al. Cx22: A new publicly available dataset for deep learning-based segmentation of cervical cytology images
WO2022252908A1 (zh) 对象识别方法、装置、计算机设备及存储介质
Habtemariam et al. Cervix type and cervical cancer classification system using deep learning techniques
JP7312510B1 (ja) 腫瘍微小環境を考慮した全スライド病理画像分類システム及び構築方法
WO2019184851A1 (zh) 图像处理方法和装置及神经网络模型的训练方法
CN114241478A (zh) 宫颈细胞图像中异常细胞图像识别方法、装置
Chen et al. Automatic whole slide pathology image diagnosis framework via unit stochastic selection and attention fusion
CN113313680A (zh) 一种结直肠癌病理图像预后辅助预测方法及系统
JP7404535B2 (ja) コンピュータビジョンに基づく導管特徴取得方法、並びに知能顕微鏡、導管組織特徴取得装置、コンピュータプログラム、及びコンピュータ機器
Khattar et al. Computer assisted diagnosis of skin cancer: a survey and future recommendations
CN114093507A (zh) 边缘计算网络中基于对比学习的皮肤病智能分类方法
CN114078137A (zh) 一种基于深度学习的阴道镜图像筛选方法、装置和电子设备
Wei et al. Cervical cancer detection and diagnosis based on saliency single shot MultiBox detector in ultrasonic elastography
CN114283406A (zh) 细胞图像识别方法、装置、设备、介质及计算机程序产品

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22923334

Country of ref document: EP

Kind code of ref document: A1