WO2023078041A1 - 基于自适应比例学习的肿瘤组织病理分类系统及方法 - Google Patents

基于自适应比例学习的肿瘤组织病理分类系统及方法 Download PDF

Info

Publication number
WO2023078041A1
WO2023078041A1 PCT/CN2022/124693 CN2022124693W WO2023078041A1 WO 2023078041 A1 WO2023078041 A1 WO 2023078041A1 CN 2022124693 W CN2022124693 W CN 2022124693W WO 2023078041 A1 WO2023078041 A1 WO 2023078041A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
image block
pathological
proportion
loss function
Prior art date
Application number
PCT/CN2022/124693
Other languages
English (en)
French (fr)
Inventor
李劲松
田雨
周天舒
叶前呈
Original Assignee
浙江大学
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 浙江大学 filed Critical 浙江大学
Publication of WO2023078041A1 publication Critical patent/WO2023078041A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0012Biomedical image inspection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/12Edge-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/194Segmentation; Edge detection involving foreground-background segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30004Biomedical image processing
    • G06T2207/30096Tumor; Lesion

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Radiology & Medical Imaging (AREA)
  • Quality & Reliability (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

一种基于自适应比例学习的肿瘤组织病理分类系统及方法,首先获取若干病理切片并进行数字化扫描,将扫描后的病理图像按照分类任务目标类别进行人工标注,构建数据集;然后利用RGB通道和灰度值的差值分布特征分割组织前景,构建包含多级放大倍数的图像块的训练数据组;最后进行多级放大倍数整合,组合了各级放大倍数和整合放大倍数的交叉熵函数形成损失函数,实现多放大倍数整合学习;通过自适应比例学习,对图像全局比例标签和未达到最低比例的图像块训练权重进行动态调整,扩大数据利用率,实现快速收敛。在日常肿瘤组织的病理检查中,在尽可能低地增加额外工作负担的基础上,最大限度地提升检出率。

Description

基于自适应比例学习的肿瘤组织病理分类系统及方法 技术领域
本发明涉及医疗图像处理及机器学习领域,尤其涉及一种基于自适应比例学习的肿瘤组织病理分类系统及方法。
背景技术
病理检查作为癌症诊疗的第一步,提供的组织病理信息对于癌症患者病情判断至关重要。但由于病理医生缺口大,较多的病理指标无法在日常病理检查中得到完整详细的调查,一些罕见的肿瘤分化如果未被病理医生识别则仅报告为中分化或低分化。胚胎发育来源接近的消化系统中,肝脏以外的器官肿瘤也有可能出现肝样分化,没有鳞状上皮分布但也可能出现鳞状细胞癌分化,以及较为常见的神经内分泌分化等等,这些类别分化的出现可能会影响患者预后。现有的病理报告中对相关类型分化的描述缺失,不利于精准的个性化医疗的开展,因此需要额外的识别方法或工具对其进行识别,有效补充病理报告。
现有方案包括两类,一类是人工阅片,一类是机器阅片。人工阅片,即由医生对病理样本制片染色后的切片图像进行检查,根据细胞分化形态将肿瘤细胞分为高、中、低等不同分化等级,以及根据细胞间的组织形态分为腺体状、巢状、实性片状等生长模式。但在病理检查采样多、病理图像尺寸大的客观条件下,病理医生无法完成不遗漏每一区域的详尽检查,容易遗漏一些罕见但倾略性较高的分化亚型。
机器阅片即利用机器学习算法(包括深度学习模型在内)根据病理图像特征与图像标签进行模型训练,当模型测试的准确性达到一定程度时可应用于病理特征识别。模型训练多采用监督学习的方式,即每一个训练最小单位都需要有类标签,为达到较高的识别准确率则需要大量的训练数据及标签,标注成本过高。目前针对是否为癌的分类模型较为常见,利用多示例学习可以有效降低标签成本,同时大规模的弱监督学习可以提升识别准确性。比例标签学习则利用数据包内类别所占比例进行机器学习,但在病理图像领域,精确的比例标签的获取成本约等同于监督学习,失去了弱监督学习低标签成本的优势。现有技术有如下缺点:
1.人工阅片耗时耗力,且存在个体间和个体内的差异性,难以覆盖整张病理切片,无法获取较细粒度的分化差异;
2.由于样本制备、染色标准、扫描设备的不同,数字病理切片图像的数据质量差异较大,且易存在包括笔迹、边缘伪影在内的非实质组织区域,在去除这些质量问题前不适合模型训练与直接应用,在进行自动化识别前应进行质量控制,保证数据质量;
3.现有机器学习方法标注成本过高:监督学习需要大量像素级别或图像块级别的标注标签;多示例学习难有绝对的完全标签,且训练约束太少,模型效果不佳;全尺寸病理图像的客观比例标签获取成本同监督学习。
4.现有模型通常仅用单一放大倍数或不规定放大倍数进行建模,而绝大多数肿瘤分化需要综合不同放大倍数的形态特征以得到准确判断。
发明内容
本发明目的在于针对现有技术的不足,提出一种基于自适应比例学习的肿瘤组织病理分类系统及方法。
本发明的目的是通过以下技术方案来实现的:一种基于自适应比例学习的肿瘤组织病理分类系统,该系统包括比例标签标注模块、前景分割与图像块定位模块和自适应多放大倍数整合比例学习模块;
所述比例标签标注模块获取若干肿瘤组织病理切片并进行数字化扫描,将扫描后的病理图像按照分类任务目标类别进行人工标注,构建数据集;
所述前景分割与图像块定位模块将病理图像在不同的放大倍数下,根据设定的目标图像块重叠率计算病理图像的缩略图尺寸并利用缩略图的RGB通道和灰度值的差值分布特征分割肿瘤组织前景,去除肿瘤组织背景,缩略图中每个像素点对应一个图像块;
所述自适应多放大倍数整合比例学习模块通过神经网络模型计算数据集中分割后的图像块在不同放大倍数下属于各个分类任务目标类别的概率,得到病理图像含有各个分类任务目标类别的比例,作为计算比例,对于每个分类任务目标类别,分别将计算的不同放大倍数下概率最小值与不同放大倍数下概率最大值的二分之一进行比较,取其中较大值作为图像块在该分类任务目标类别下的整合概率;将所有图像块同一类别下的整合概率进行降序排列,根据标注的比例阈值,选择训练图像块,并对每个训练图像块赋值类别标签;根据标注的比例阈值与计算比例的差值,对于病理图像中处于计算比例与比例阈值之间的训练图像块给予更高的训练权重,权重与差值呈正比,进行自适应权重赋值;使用权重调整后的训练图像块训练神经网络,损失函数为各级放大倍数损失函数项、整合损失函数项及比例拟合损失函数项之和,其中比例拟合损失函数项为若分类任务目标类别的计算比例低于比例阈值,则比例阈值与计算比例的差值作为比例拟合损失函数项,若计算比例大于等于比例阈值,则损失函数中比例拟合损失函数项为零,并根据训练结果调整比例阈值对模型迭代训练,通过训练好的神经网络模型计算病理图像含有各个分类任务目标类别的比例。
进一步地,所述比例标签标注模块共获取n张病理切片的全尺寸数字化扫描图像,构成数据集记为B={B 1,...,B i,...,B n},其中B i为第i张病理图像;分类任务目标类别共计C类, 针对第i张病理图像B i,构建比例标签向量R i为:
Figure PCTCN2022124693-appb-000001
其中,
Figure PCTCN2022124693-appb-000002
为第i个病理图像中第k类的比例阈值,且满足
Figure PCTCN2022124693-appb-000003
T表示转置。
进一步地,所述前景分割与图像块定位模块计算病理图像的缩略图尺寸具体过程如下:记目标图像块尺寸为S tar(pixels)*S tar(pixels),pixels为像素,目标图像块分辨率为R tar,目标图像块重叠率为O tar,对原始尺寸为W ori(pixels)×H ori(pixels),原始分辨率为R ori的病理图像B i进行目标缩略图获取,W ori(pixels)和H ori(pixels)分别为原始病理图像尺寸的宽和高,则目标缩略图的宽和高尺寸分别为:
Figure PCTCN2022124693-appb-000004
目标缩略图对应病理图像B i的目标分割区域左上角点坐标为
Figure PCTCN2022124693-appb-000005
其中,mod表示取余数,将缩略图的目标分割区域,进行像素级分割,目标缩略图中每一个像素点对应一个的图像块,图像块的尺寸为
Figure PCTCN2022124693-appb-000006
进一步地,所述前景分割与图像块定位模块利用缩略图的RGB通道和灰度值的差值分布特征分割肿瘤组织前景具体过程如下:提取缩略图红V Red、绿V Green、蓝V Blue通道值以及灰度图值V Grey,计算V Red-V Grey,V Green-V Grey,V Blue-V Grey,V Red-V Green,V Blue-V Green这五种差值密度分布的分割阈值;若缩略图上的一像素点超过上述五个分割阈值的数量大于等于3,则该像素点对应的图像块被视为组织前景,否则,该像素点对应的图像块作为背景剔除。
进一步地,所述损失函数中各级放大倍数损失函数项如下:
Figure PCTCN2022124693-appb-000007
其中,op表示不同的放大倍数,ω k为第k类计算比例中的训练图像块的训练权重,
Figure PCTCN2022124693-appb-000008
为处于计算比例和比例阈值之间的训练图像块的训练权重;
Figure PCTCN2022124693-appb-000009
为第k类训练图像块的集合,
Figure PCTCN2022124693-appb-000010
为第k类中第j个图像块的整合概率,
Figure PCTCN2022124693-appb-000011
为第k类中第j个图像块的标签;
Figure PCTCN2022124693-appb-000012
为图像块在各放大倍数下归类为第k类的概率;N i为第i个病理图像中前景图像块的数量。
进一步地,所述损失函数中整合损失函数项Loss combine如下:
Figure PCTCN2022124693-appb-000013
进一步地,所述损失函数中比例拟合损失函数项为根据去除背景图像块后的病理图像中的训练图像块数量,通过随机升采样或者随机降采样,使得一个训练批次中的训练图像块均来自同一张病理图像:比例拟合损失函数项
Figure PCTCN2022124693-appb-000014
定义为:
Figure PCTCN2022124693-appb-000015
进一步地,所述自适应多放大倍数整合比例学习模块根据神经网络训练结果调整比例阈值具体公式如下:
Figure PCTCN2022124693-appb-000016
其中,
Figure PCTCN2022124693-appb-000017
表示调整后的比例阈值,
Figure PCTCN2022124693-appb-000018
表示调整前的比例阈值,α为调整率。
进一步地,训练图像块的具体选择过程如下:根据分类任务目标类别中的第k类对应多放大倍数整合概率进行降序排列,得
Figure PCTCN2022124693-appb-000019
此时
Figure PCTCN2022124693-appb-000020
对应的图像块在第k类中概率最高,
Figure PCTCN2022124693-appb-000021
对应的图像块在第k类中概率最低;对于病理图像B i中归类为第k类的图像块,根据标注的比例阈值,选择在比例阈值内的图像块作为训练图像块:
Figure PCTCN2022124693-appb-000022
其中,
Figure PCTCN2022124693-appb-000023
表示
Figure PCTCN2022124693-appb-000024
对应的训练图像块;赋值类别标签
Figure PCTCN2022124693-appb-000025
本发明还提供了一种基于自适应比例学习的肿瘤组织病理分类方法,该方法包括如下步骤:
步骤1:获取若干肿瘤组织病理切片并进行数字化扫描,将扫描后的病理图像按照分类任务目标类别进行人工标注,构建数据集;
步骤2:将病理图像在不同的放大倍数下,根据设定的目标图像块重叠率计算病理图像的缩略图尺寸并利用缩略图的RGB通道和灰度值的差值分布特征分割肿瘤组织前景,去除肿瘤组织背景,对缩略图进行像素级分割,每个像素点对应一个图像块;
步骤3:通过神经网络模型计算数据集中分割后的图像块在不同放大倍数下属于各个分类任务目标类别的概率,得到病理图像含有各个分类任务目标类别的比例,作为计算比例;
步骤4:对于每个分类任务目标类别,分别将计算的不同放大倍数下概率最小值与不同放大倍数下概率最大值的二分之一进行比较,取其中较大值作为图像块在该分类任务目标类别下的整合概率;将所有图像块同一类别下的整合概率进行降序排列,根据标注的比例阈值,选择训练图像块,并对每个训练图像块赋值类别标签;
步骤5:根据标注的比例阈值与计算比例的差值,对于病理图像中处于计算比例与比例阈值之间的训练图像块给予更高的训练权重,权重与差值呈正比,进行自适应权重赋值;使用权重调整后的训练图像块训练神经网络,损失函数为各级放大倍数损失函数项、整合损失函数项及比例拟合损失函数项之和,其中比例拟合损失函数项为若分类任务目标类别的计算比例低于比例阈值,则比例阈值与计算比例的差值作为比例拟合损失函数项,若计算比例大于等于比例阈值,则损失函数中比例拟合损失函数项为零;
步骤6:根据训练结果调整比例阈值对模型迭代训练,通过训练好的神经网络模型计算病理图像含有各个分类任务目标类别的比例。
本发明的有益效果:本发明通过比例标签的标定标准,以明确最低比例为标注体系进行图像比例标签的标注,降低标注成本和对标注精度的要求,扩大数据利用率;通过有效前景组织的快速提取,完成多放大倍数图像块预分割与坐标定位;最后通过自适应比例学习,提升数据利用率和训练效率;并且通过多放大倍数整合训练,提高识别准确率。本发明在日常肿瘤组织的病理检查中,在尽可能低地增加额外工作负担的基础上,最大限度地提升检出率。
附图说明
图1为本发明基于自适应比例学习的肿瘤组织病理分类的流程示意图;
图2为本发明比例标签标定示意图;
图3为本发明图像前景分割结果示例图。
具体实施方式
以下结合附图对本发明具体实施方式作进一步详细说明。
如图1所示,本发明提供的一种基于自适应比例学习的肿瘤组织病理分类系统,该系统 包括比例标签标注模块、前景分割与图像块定位模块和自适应多放大倍数整合比例学习模块;
所述比例标签标注模块获取若干肿瘤组织病理切片并进行数字化扫描,将扫描后的病理图像按照分类任务目标类别进行人工标注,构建数据集;具体过程如下
总数据集记为B,共包含n张经苏木精—伊红染色法(hematoxylin-eosin,HE)获得的肿瘤组织病理切片的全尺寸数字化扫描图像(Whole Slide Image,WSI)B i,即B={B 1,...,B i,...,B n}。分类任务目标类别共计C类,针对每张病理图像B i,构建比例标签向量为
Figure PCTCN2022124693-appb-000026
其中,
Figure PCTCN2022124693-appb-000027
为第i个样本图像中第k类的比例阈值,且满足
Figure PCTCN2022124693-appb-000028
比例阈值指人工粗略估计时的比例范围的最低值。假设B i中第k类面积占比主观估计约占50%,不经过详细勾画计算比例无法确定是48%或54%或是客观确定值,但大致在40-60%之间,则标定
Figure PCTCN2022124693-appb-000029
为(0,40%]之内的任意数值均可,设定比例阈值为40%。
以肝样分化和普通腺癌分化的分类目标为例,C=3,分别为非癌变组织C 0、普通腺癌组织C 1、肝样腺癌组织C 2。图2病理诊断为肝细胞肝癌,人工评估时粗略判断虚线框内为C 2,框外为C 0,两者面积相近,则赋予
Figure PCTCN2022124693-appb-000030
所述前景分割与图像块定位模块将计算病理图像的缩略图尺寸并将缩略图分割出肿瘤组织前景,去除肿瘤组织背景,缩略图中每个像素点对应一个图像块;具体过程如下:
为得到不同放大倍数(op)下的图像块坐标,以20X放大倍数为基础,进行不同放大倍数的图像块分割。当放大倍数为20X时,目标图像块分辨率R tar=0.5μm/pixel,记目标图像块尺寸为S tar(pixels)*S tar(pixels),pixels为像素,目标图像块重叠率为O tar,对原始尺寸为W ori(pixels)×H ori(pixels),原始分辨率为R ori的病理图像B i进行目标缩略图获取,W ori(pixels)和H ori(pixels)分别为原始病理图像尺寸的宽和高,则目标缩略图的宽W tar和高H tar尺寸分别为:
Figure PCTCN2022124693-appb-000031
该缩略图对应病理图像B i的目标分割区域左上角点坐标(W left,H up)为:
Figure PCTCN2022124693-appb-000032
其中,mod表示取余数。目标缩略图中每一个像素点对应一个20X放大倍数下的训练图像块,图像块的尺寸为:
Figure PCTCN2022124693-appb-000033
利用RGB通道和灰度值的差值分布特征分割组织前景,去除肿瘤组织背景,对缩略图进行像素级分割,每个像素点对应一个图像块;具体过程如下:提取该缩略图的红(V Red)、绿(V Green)、蓝(V Blue)通道值以及灰度图值(V Grey)。依据Otsu阈值分割算法,分别计算V Red-V Grey,V Green-V Grey,V Blue-V Grey,V Red-V Green,V Blue-V Green这五种差值密度分布的分割阈值,若该缩略图上的第m个像素点(a m,b m)通过上述5个分割阈值的数量大于等于3,则该像素点对应的图像块
Figure PCTCN2022124693-appb-000034
被视为组织前景,该图像块的坐标左上角为(W left+a m*S 20X,H up+b m*S 20X);否则,该像素点对应的图像块作为背景剔除。如图3所示,经过前景分割后,图像上的各轮廓与无效背景得以识别,仅保留前景组织(图3中最右侧图的非白色区域)。
以20X图像块区域为中心,取10X放大倍数下图像块
Figure PCTCN2022124693-appb-000035
左上角坐标为
Figure PCTCN2022124693-appb-000036
图像大小为2*S 20X×2*S 20X;取5X放大倍数下图像块
Figure PCTCN2022124693-appb-000037
左上角坐标为
Figure PCTCN2022124693-appb-000038
图像大小为4*S 20X×4*S 20X
最终得去除背景图像块后的总数据集
Figure PCTCN2022124693-appb-000039
包含n个样本包
Figure PCTCN2022124693-appb-000040
每个样本包内含N i个示例图像块组,记为
Figure PCTCN2022124693-appb-000041
所述自适应多放大倍数整合比例学习模块组合了各级放大倍数和整合放大倍数的交叉墒函数形成损失函数,实现多放大倍数整合学习;通过自适应比例学习,自适应的动态调整图像块训练权重,并对神经网络进行迭代训练;具体过程如下:
A.各级放大倍数概率推算:利用神经网络模型f(x)(如ResNet等)对样本包中所有图像块进行概率推理计算,得到各图像的概率矩阵组
Figure PCTCN2022124693-appb-000042
各放大倍数概率矩阵可表示为:
Figure PCTCN2022124693-appb-000043
图像块
Figure PCTCN2022124693-appb-000044
在各放大倍数下归类为第k类概率为
Figure PCTCN2022124693-appb-000045
B.整合概率计算:由各级放大倍数概率可计算其在第k类上的多放大倍数整合概率为
Figure PCTCN2022124693-appb-000046
C.各类概率排序与标签赋值:根据第k类对应多放大倍数整合概率进行降序排列,得
Figure PCTCN2022124693-appb-000047
此时
Figure PCTCN2022124693-appb-000048
对应的图像块在第k类中概率最高,
Figure PCTCN2022124693-appb-000049
对应的图像块在第k类中概率最低。对于B i中应当归类为第k类的训练图像块:
Figure PCTCN2022124693-appb-000050
其中,
Figure PCTCN2022124693-appb-000051
表示
Figure PCTCN2022124693-appb-000052
对应的图像块;赋值类别标签
Figure PCTCN2022124693-appb-000053
D.各级放大倍数损失函数:将所有得到赋值类别标签的训练图像块
Figure PCTCN2022124693-appb-000054
计算交叉墒,即
Figure PCTCN2022124693-appb-000055
Loss op为在放大倍数o p下的损失函数,ω k为第k类训练图像块的训练权重。
E.整合损失函数:整合损失函数项定义为:
Figure PCTCN2022124693-appb-000056
F.训练图像块权重调整:对B i中低于比例标签阈值的差值训练图像块给予更高的训练权重,权重与差值呈正比,进行自适应权重赋值。即,若
Figure PCTCN2022124693-appb-000057
Figure PCTCN2022124693-appb-000058
其中,
Figure PCTCN2022124693-appb-000059
为处于计算比例和比例阈值之间的训练图像块的训练权重,替换公式(4)、(5)中的ω k项。
G.比例拟合损失函数:通过随机升采样(若
Figure PCTCN2022124693-appb-000060
中训练图像块数量小于单训练批次训练图像块数量)或者降采样(若
Figure PCTCN2022124693-appb-000061
中训练图像块数量大于单训练批次训练图像块数量),使得一个训练批次中的训练图像块均来自
Figure PCTCN2022124693-appb-000062
第k的组织比例若低于比例标签,则有比例拟合损失函数项定义为:
Figure PCTCN2022124693-appb-000063
H.比例标签动态更新:由于人工标记的比例标签纪录的明确最低比例,并不等同于客观比例。因此在训练迭代模型参数前的样本赋予标签步骤中,根据前一次模型计算的各类组织比例小幅度调整比例标签,调整率α根据实验选择,本发明中设置为α=1%,进行自适应比例标签调整,以公式(8)中的
Figure PCTCN2022124693-appb-000064
更新公式(3)、(6)、(7)中的
Figure PCTCN2022124693-appb-000065
Figure PCTCN2022124693-appb-000066
其中,
Figure PCTCN2022124693-appb-000067
表示调整后的比例阈值,
Figure PCTCN2022124693-appb-000068
表示调整前的比例阈值。
I.最终损失函数Loss total为各级放大倍数损失函数项、整合损失函数项及比例拟合损失函数项之和,即
Figure PCTCN2022124693-appb-000069
J.最佳模型参数状态选择方式:通过N epoch次步骤A-I的循环训练迭代后,Loss total将趋于稳定。对于第epoch次模型,其计算概率P i与标定标签R i之间的匹配度为:
Figure PCTCN2022124693-appb-000070
匹配度越高,模型识别效果越好。计算N epoch次模型匹配度,选定具有最高匹配度的模型参数作为最佳模型参数。
K.测试/应用:对于测试数据
Figure PCTCN2022124693-appb-000071
经过前景分割后得测试示例集
Figure PCTCN2022124693-appb-000072
利用最佳模型对样本包中所有图像块进行概率推理计算,
Figure PCTCN2022124693-appb-000073
表示各放大倍数下的分类概率。
Figure PCTCN2022124693-appb-000074
表示WSI上图像块对于第k类分化的多放大倍数整合概率。
应用在肿瘤组织病理分类问题时,
Figure PCTCN2022124693-appb-000075
高于分类阈值(一般定为0.5)则分类至第k类分化, 若WSI中含有至少一个图像块分类为该类分化,则判断该组织具有该类分化。应用在肿瘤组织病理分类量化问题时,WSI含有第k类分化的比例为
Figure PCTCN2022124693-appb-000076
本发明还提供了一种基于自适应比例学习的肿瘤组织病理分类方法,其特征在于,该方法包括如下步骤:
步骤1:获取若干肿瘤组织病理切片并进行数字化扫描,将扫描后的病理图像按照分类任务目标类别进行人工标注,构建数据集;该步骤具体参考比例标签标注模块的实现过程;
步骤2:将病理图像在不同的放大倍数下,根据设定的目标图像块重叠率计算病理图像的缩略图尺寸并利用缩略图的RGB通道和灰度值的差值分布特征分割肿瘤组织前景,去除肿瘤组织背景,对缩略图进行像素级分割,每个像素点对应一个图像块;该步骤具体参考前景分割与图像块定位模块的实现过程;
步骤3:通过神经网络模型计算数据集中分割后的图像块在不同放大倍数下属于各个分类任务目标类别的概率,得到病理图像含有各个分类任务目标类别的比例,作为计算比例;
步骤4:对于每个分类任务目标类别,分别将计算的不同放大倍数下概率最小值与不同放大倍数下概率最大值的二分之一进行比较,取其中较大值作为图像块在该分类任务目标类别下的整合概率;将所有图像块同一类别下的整合概率进行降序排列,根据标注的比例阈值,选择训练图像块,并对每个训练图像块赋值类别标签;
步骤5:根据标注的比例阈值与计算比例的差值,对于病理图像中处于计算比例与比例阈值之间的训练图像块给予更高的训练权重,权重与差值呈正比,进行自适应权重赋值;使用权重调整后的训练图像块训练神经网络,损失函数为各级放大倍数损失函数项、整合损失函数项及比例拟合损失函数项之和,其中比例拟合损失函数项为若分类任务目标类别的计算比例低于比例阈值,则比例阈值与计算比例的差值作为比例拟合损失函数项,若计算比例大于等于比例阈值,则损失函数中比例拟合损失函数项为零;
步骤6:根据训练结果调整比例阈值对模型迭代训练,通过训练好的神经网络模型计算病理图像含有各个分类任务目标类别的比例。
步骤3~步骤6具体参考自适应多放大倍数整合比例学习模块的实现过程。
本发明实施例中收集TCGA(The Cancer Genome Atlas)数据库中的肝细胞肝癌、食管腺癌、胃腺癌、结肠腺癌、直肠腺癌、胰腺癌、宫颈腺癌、食管鳞癌、头颈鳞癌、宫颈鳞癌、肉瘤等数据集。对所有图像进行比例标签标定,以肝样分化和普通腺癌分化的分类目标为例,C=3,分别为非癌变组织C 0、普通腺癌组织C 1、肝样腺癌组织C 2。其中仅有肝细胞肝癌中的图像含有C 2组织,其余数据均不含。
经过数据预处理和模型训练后,将最佳模型应用于三家三甲医院收集的胃肠道腺癌数据 (分别有135、95、351例),识别其是否含有肝样分化,即肝样腺癌特征。本发明针对胃肠道肝样腺癌的识别任务,在三家三甲医院病理科的日常病理检查中,胃肠道肝样分化检出率为0%、8.5%、56%,本方法构建模型检出率可达100%、80%、93.8%,假阳性均在10%左右,在尽可能低地增加额外工作负担的基础上,最大限度地提升检出率。
上述实施例用来解释说明本发明,而不是对本发明进行限制,在本发明的精神和权利要求的保护范围内,对本发明作出的任何修改和改变,都落入本发明的保护范围。

Claims (10)

  1. 一种基于自适应比例学习的肿瘤组织病理分类系统,其特征在于,该系统包括比例标签标注模块、前景分割与图像块定位模块和自适应多放大倍数整合比例学习模块;
    所述比例标签标注模块获取若干肿瘤组织病理切片并进行数字化扫描,将扫描后的病理图像按照分类任务目标类别进行人工标注,构建数据集;
    所述前景分割与图像块定位模块将病理图像在不同的放大倍数下,根据设定的目标图像块重叠率计算病理图像的缩略图尺寸并利用缩略图的RGB通道和灰度值的差值分布特征分割肿瘤组织前景,去除肿瘤组织背景,缩略图中每个像素点对应一个图像块;
    所述自适应多放大倍数整合比例学习模块通过神经网络模型计算数据集中分割后的图像块在不同放大倍数下属于各个分类任务目标类别的概率,得到病理图像含有各个分类任务目标类别的比例,作为计算比例,对于每个分类任务目标类别,分别将计算的不同放大倍数下概率最小值与不同放大倍数下概率最大值的二分之一进行比较,取其中较大值作为图像块在该分类任务目标类别下的整合概率;将所有图像块同一类别下的整合概率进行降序排列,根据标注的比例阈值,选择训练图像块,并对每个训练图像块赋值类别标签;根据标注的比例阈值与计算比例的差值,对于病理图像中处于计算比例与比例阈值之间的训练图像块给予更高的训练权重,权重与差值呈正比,进行自适应权重赋值;使用权重调整后的训练图像块训练神经网络,损失函数为各级放大倍数损失函数项、整合损失函数项及比例拟合损失函数项之和,其中比例拟合损失函数项为若分类任务目标类别的计算比例低于比例阈值,则比例阈值与计算比例的差值作为比例拟合损失函数项,若计算比例大于等于比例阈值,则损失函数中比例拟合损失函数项为零,并根据训练结果调整比例阈值对模型迭代训练,通过训练好的神经网络模型计算病理图像含有各个分类任务目标类别的比例。
  2. 根据权利要求1所述的一种基于自适应比例学习的肿瘤组织病理分类系统,其特征在于,所述比例标签标注模块共获取n张病理切片的全尺寸数字化扫描图像,构成数据集记为B={B 1,...,B i,...,B n},其中B i为第i张病理图像;分类任务目标类别共计C类,针对第i张病理图像B i,构建比例标签向量R i为:
    Figure PCTCN2022124693-appb-100001
    其中,
    Figure PCTCN2022124693-appb-100002
    为第i个病理图像中第k类的比例阈值,且满足
    Figure PCTCN2022124693-appb-100003
    T表示转置。
  3. 根据权利要求1所述的一种基于自适应比例学习的肿瘤组织病理分类系统,其特征在于,所述前景分割与图像块定位模块计算病理图像的缩略图尺寸具体过程如下:记目标图像块尺寸为S tar(pixels)*S tar(pixels),pixels为像素,目标图像块分辨率为R tar,目标图像块 重叠率为O tar,对原始尺寸为W ori(pixels)×H ori(pixels),原始分辨率为R ori的病理图像B i进行目标缩略图获取,W ori(pixels)和H ori(pixels)分别为原始病理图像尺寸的宽和高,则目标缩略图的宽和高尺寸分别为:
    Figure PCTCN2022124693-appb-100004
    目标缩略图对应病理图像B i的目标分割区域左上角点坐标为
    Figure PCTCN2022124693-appb-100005
    其中,mod表示取余数,将缩略图的目标分割区域,进行像素级分割,目标缩略图中每一个像素点对应一个的图像块,图像块的尺寸为
    Figure PCTCN2022124693-appb-100006
  4. 根据权利要求1所述的一种基于自适应比例学习的肿瘤组织病理分类系统,其特征在于,所述前景分割与图像块定位模块利用缩略图的RGB通道和灰度值的差值分布特征分割肿瘤组织前景具体过程如下:提取缩略图红V Red、绿V Green、蓝V Blue通道值以及灰度图值V Grey,计算V Red-V Grey,V Green-V Grey,V Blue-V Grey,V Red-V Green,V Blue-V Green这五种差值密度分布的分割阈值;若缩略图上的一像素点超过上述五个分割阈值的数量大于等于3,则该像素点对应的图像块被视为组织前景,否则,该像素点对应的图像块作为背景剔除。
  5. 根据权利要求2所述的一种基于自适应比例学习的肿瘤组织病理分类系统,其特征在于,所述损失函数中各级放大倍数损失函数项如下:
    Figure PCTCN2022124693-appb-100007
    其中,op表示不同的放大倍数,ω k为第k类计算比例中的训练图像块的训练权重,
    Figure PCTCN2022124693-appb-100008
    为处于计算比例和比例阈值之间的训练图像块的训练权重;
    Figure PCTCN2022124693-appb-100009
    为第k类训练图像块的集合,
    Figure PCTCN2022124693-appb-100010
    为第k类中第j个图像块的整合概率,
    Figure PCTCN2022124693-appb-100011
    为第k类中第j个图像块的标签;
    Figure PCTCN2022124693-appb-100012
    为图像块在各放大倍数下归类为第k类的概率;N i为第i个病理图像中前景图像块的数量。
  6. 根据权利要求5所述的一种基于自适应比例学习的肿瘤组织病理分类系统,其特征在于,所述损失函数中整合损失函数项Loss combine如下:
    Figure PCTCN2022124693-appb-100013
  7. 根据权利要求5所述的一种基于自适应比例学习的肿瘤组织病理分类系统,其特征在于,所述损失函数中比例拟合损失函数项为根据去除背景图像块后的病理图像中的训练图像块数量,通过随机升采样或者随机降采样,使得一个训练批次中的训练图像块均来自同一张病理图像:比例拟合损失函数项
    Figure PCTCN2022124693-appb-100014
    定义为:
    Figure PCTCN2022124693-appb-100015
  8. 根据权利要求5所述的一种基于自适应比例学习的肿瘤组织病理分类系统,其特征在于,所述自适应多放大倍数整合比例学习模块根据神经网络训练结果调整比例阈值具体公式如下:
    Figure PCTCN2022124693-appb-100016
    其中,
    Figure PCTCN2022124693-appb-100017
    表示调整后的比例阈值,
    Figure PCTCN2022124693-appb-100018
    表示调整前的比例阈值,α为调整率。
  9. 根据权利要求5所述的一种基于自适应比例学习的肿瘤组织病理分类系统,其特征在于,训练图像块的具体选择过程如下:根据分类任务目标类别中的第k类对应多放大倍数整合概率进行降序排列,得
    Figure PCTCN2022124693-appb-100019
    此时
    Figure PCTCN2022124693-appb-100020
    对应的图像块在第k类中概率最高,
    Figure PCTCN2022124693-appb-100021
    对应的图像块在第k类中概率最低;对于病理图像B i中归类为第k类的图像块,根据标注的比例阈值,选择在比例阈值内的图像块作为训练图像块:
    Figure PCTCN2022124693-appb-100022
    其中,
    Figure PCTCN2022124693-appb-100023
    表示
    Figure PCTCN2022124693-appb-100024
    对应的训练图像块;赋值类别标签
    Figure PCTCN2022124693-appb-100025
  10. 一种基于自适应比例学习的肿瘤组织病理分类方法,其特征在于,该方法包括如下步骤:
    步骤1:获取若干肿瘤组织病理切片并进行数字化扫描,将扫描后的病理图像按照分类任务目标类别进行人工标注,构建数据集;
    步骤2:将病理图像在不同的放大倍数下,根据设定的目标图像块重叠率计算病理图像的缩略图尺寸并利用缩略图的RGB通道和灰度值的差值分布特征分割肿瘤组织前景,去除肿瘤组织背景,对缩略图进行像素级分割,每个像素点对应一个图像块;
    步骤3:通过神经网络模型计算数据集中分割后的图像块在不同放大倍数下属于各个分类任务目标类别的概率,得到病理图像含有各个分类任务目标类别的比例,作为计算比例;
    步骤4:对于每个分类任务目标类别,分别将计算的不同放大倍数下概率最小值与不同放大倍数下概率最大值的二分之一进行比较,取其中较大值作为图像块在该分类任务目标类别下的整合概率;将所有图像块同一类别下的整合概率进行降序排列,根据标注的比例阈值,选择训练图像块,并对每个训练图像块赋值类别标签;
    步骤5:根据标注的比例阈值与计算比例的差值,对于病理图像中处于计算比例与比例阈值之间的训练图像块给予更高的训练权重,权重与差值呈正比,进行自适应权重赋值;使用权重调整后的训练图像块训练神经网络,损失函数为各级放大倍数损失函数项、整合损失函数项及比例拟合损失函数项之和,其中比例拟合损失函数项为若分类任务目标类别的计算比例低于比例阈值,则比例阈值与计算比例的差值作为比例拟合损失函数项,若计算比例大于等于比例阈值,则损失函数中比例拟合损失函数项为零;
    步骤6:根据训练结果调整比例阈值对模型迭代训练,通过训练好的神经网络模型计算病理图像含有各个分类任务目标类别的比例。
PCT/CN2022/124693 2021-11-03 2022-10-11 基于自适应比例学习的肿瘤组织病理分类系统及方法 WO2023078041A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202111291695.XA CN113723573B (zh) 2021-11-03 2021-11-03 基于自适应比例学习的肿瘤组织病理分类系统及方法
CN202111291695.X 2021-11-03

Publications (1)

Publication Number Publication Date
WO2023078041A1 true WO2023078041A1 (zh) 2023-05-11

Family

ID=78686597

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2022/124693 WO2023078041A1 (zh) 2021-11-03 2022-10-11 基于自适应比例学习的肿瘤组织病理分类系统及方法

Country Status (2)

Country Link
CN (1) CN113723573B (zh)
WO (1) WO2023078041A1 (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116934635A (zh) * 2023-09-18 2023-10-24 苏州可帮基因科技有限公司 基于图像处理技术的病理图像质控方法及设备
CN117058292A (zh) * 2023-07-28 2023-11-14 北京透彻未来科技有限公司 基于数字病理图像的色阶图渲染系统
CN117392693A (zh) * 2023-12-11 2024-01-12 苏州可帮基因科技有限公司 病理图像去笔迹的方法及设备
CN117392468A (zh) * 2023-12-11 2024-01-12 山东大学 基于多示例学习的癌症病理图像分类系统、介质及设备
CN117422912A (zh) * 2023-10-20 2024-01-19 哈尔滨工业大学 一种基于提示学习的组织病理图像多任务分类系统
CN117670895A (zh) * 2024-02-01 2024-03-08 华南理工大学 基于切片重染色技术的免疫组化病理图像细胞分割方法

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113723573B (zh) * 2021-11-03 2022-01-14 浙江大学 基于自适应比例学习的肿瘤组织病理分类系统及方法
CN114820502B (zh) * 2022-04-21 2023-10-24 济宁医学院附属医院 一种用于肠粘膜组织中蛋白激酶ck2的着色检测方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109528230A (zh) * 2018-11-21 2019-03-29 济南浪潮高新科技投资发展有限公司 一种基于多级变换网络的乳腺肿瘤分割方法及装置
US20190156159A1 (en) * 2017-11-20 2019-05-23 Kavya Venkata Kota Sai KOPPARAPU System and method for automatic assessment of cancer
CN113723573A (zh) * 2021-11-03 2021-11-30 浙江大学 基于自适应比例学习的肿瘤组织病理分类系统及方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108765408B (zh) * 2018-05-31 2021-09-10 杭州同绘科技有限公司 构建癌症病理图像虚拟病例库的方法以及基于卷积神经网络的多尺度癌症检测系统
CN111079862B (zh) * 2019-12-31 2023-05-16 西安电子科技大学 基于深度学习的甲状腺乳头状癌病理图像分类方法
CN113221978A (zh) * 2021-04-27 2021-08-06 浙江师范大学 基于弱监督学习的结直肠癌数字病理图像判别方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190156159A1 (en) * 2017-11-20 2019-05-23 Kavya Venkata Kota Sai KOPPARAPU System and method for automatic assessment of cancer
CN109528230A (zh) * 2018-11-21 2019-03-29 济南浪潮高新科技投资发展有限公司 一种基于多级变换网络的乳腺肿瘤分割方法及装置
CN113723573A (zh) * 2021-11-03 2021-11-30 浙江大学 基于自适应比例学习的肿瘤组织病理分类系统及方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
YE QIANCHENG; ZHANG QI; TIAN YU; ZHOU TIANSHU; GE HONGBIN; WU JIAJUN; LU NA; BAI XUELI; LIANG TINGBO; LI JINGSONG: "Method of Tumor Pathological Micronecrosis Quantification Via Deep Learning From Label Fuzzy Proportions", IEEE JOURNAL OF BIOMEDICAL AND HEALTH INFORMATICS, vol. 25, no. 9, 6 April 2021 (2021-04-06), Piscataway, NJ, USA , pages 3288 - 3299, XP011876398, ISSN: 2168-2194, DOI: 10.1109/JBHI.2021.3071276 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117058292A (zh) * 2023-07-28 2023-11-14 北京透彻未来科技有限公司 基于数字病理图像的色阶图渲染系统
CN117058292B (zh) * 2023-07-28 2024-04-26 北京透彻未来科技有限公司 基于数字病理图像的色阶图渲染系统
CN116934635A (zh) * 2023-09-18 2023-10-24 苏州可帮基因科技有限公司 基于图像处理技术的病理图像质控方法及设备
CN116934635B (zh) * 2023-09-18 2023-12-12 苏州可帮基因科技有限公司 基于图像处理技术的病理图像质控方法及设备
CN117422912A (zh) * 2023-10-20 2024-01-19 哈尔滨工业大学 一种基于提示学习的组织病理图像多任务分类系统
CN117392693A (zh) * 2023-12-11 2024-01-12 苏州可帮基因科技有限公司 病理图像去笔迹的方法及设备
CN117392468A (zh) * 2023-12-11 2024-01-12 山东大学 基于多示例学习的癌症病理图像分类系统、介质及设备
CN117392468B (zh) * 2023-12-11 2024-02-13 山东大学 基于多示例学习的癌症病理图像分类系统、介质及设备
CN117392693B (zh) * 2023-12-11 2024-03-01 苏州可帮基因科技有限公司 病理图像去笔迹的方法及设备
CN117670895A (zh) * 2024-02-01 2024-03-08 华南理工大学 基于切片重染色技术的免疫组化病理图像细胞分割方法
CN117670895B (zh) * 2024-02-01 2024-04-19 华南理工大学 基于切片重染色技术的免疫组化病理图像细胞分割方法

Also Published As

Publication number Publication date
CN113723573A (zh) 2021-11-30
CN113723573B (zh) 2022-01-14

Similar Documents

Publication Publication Date Title
WO2023078041A1 (zh) 基于自适应比例学习的肿瘤组织病理分类系统及方法
CN103518224B (zh) 用于分析微生物生长的方法
CN111986150B (zh) 一种数字病理图像的交互式标注精细化方法
CN107771212B (zh) 菌落对比度收集
Song et al. A deep learning based framework for accurate segmentation of cervical cytoplasm and nuclei
US8077958B2 (en) Computer-aided pathological diagnosis system
CN104376147B (zh) 基于图像的风险分数的图像分析系统
CN110648322B (zh) 一种子宫颈异常细胞检测方法及系统
CN107067402B (zh) 医疗图像处理装置及其乳房图像处理方法
Tosta et al. Segmentation methods of H&E-stained histological images of lymphoma: A review
CN103971126A (zh) 一种交通标志识别方法和装置
CN104282008B (zh) 对图像进行纹理分割的方法和装置
Jadhav et al. Soybean leaf disease detection and severity measurement using multiclass SVM and KNN classifier
CN109035227A (zh) 对ct图像进行肺部肿瘤检测与诊断的系统
Apou et al. Detection of lobular structures in normal breast tissue
CN113096184A (zh) 一种复杂背景下硅藻定位与识别方法
CN115187852A (zh) 一种藏医尿诊悬浮物识别方法及装置
CN111767809A (zh) 一种基于激光共聚焦显微技术的细胞智能识别方法
CN109147932B (zh) 癌细胞her2基因扩增分析方法及系统
CN110853030B (zh) 生物反应器病毒感染细胞质量评价方法
CN103366183B (zh) 一种局灶性病灶的非参数自动检测方法
CN112990015A (zh) 一种病变细胞自动识别方法、装置和电子设备
Lim et al. Cell image processing methods for automatic cell pattern recognition and morphological analysis of mesenchymal stem cells-An algorithm for cell classification and adaptive brightness correction
CN112017208A (zh) 一种基于深度学习的多细胞球识别与分类方法
CN110051384B (zh) 结合医学统计信息的胎儿颈背透明物位置检测方法及系统