WO2023197612A1

WO2023197612A1 - 一种基于自动数据增广的医学图像分割方法

Info

Publication number: WO2023197612A1
Application number: PCT/CN2022/134722
Authority: WO
Inventors: 刘敏; 刘庆浩; 张哲�; 范文培; 王耀南
Original assignee: 湖南大学
Priority date: 2022-04-15
Filing date: 2022-11-28
Publication date: 2023-10-19
Also published as: CN114693935A

Abstract

本发明公开了一种基于自动数据增广的医学图像分割方法，包括：S1、将原始训练集按照设定比例随机划分为训练集和验证集；S2、构建数据增广搜索空间，得到采样子策略；S3、将采样子策略在训练集上进行训练，在每次迭代中，通过随机梯度下降更新网络权重，将更新后的网络权重用来计算验证集损失，通过近端迭代更新策略参数，当验证集损失最小时，得到数据增广子策略；S4、在重训练阶段，将数据增广子策略应用在原始训练集上进行数据增广，在增广后的训练集上进行训练，获得最优的网络权重，采用该网络权重进行推理，得到目标区域。本发明采用的算法在基本网络架构下实现了先进的性能，该算法的搜索策略的效率至少提高了一个数量级。

Description

一种基于自动数据增广的医学图像分割方法

技术领域

本发明属于医学图像分割技术领域，涉及一种基于自动数据增广的医学图像分割方法。

背景技术

近年来，深度神经网络在医学图像分割方面取得了长足的进步，为智能医疗的快速发展做出了贡献，有利于患者的疾病诊断、病理分析和手术规划。基于现有的医学图像分割数据集，国内外学者已经提出了多种医学分割模型。但医学图像分割模型的性能很大程度上依赖于大规模的标记数据，然而医学图像的数据规模普遍较小。这是因为患者隐私保护意识的增强使得患者病例数据的获取变得更加困难，同时需要花费专业医师的大量的时间和精力来标记医学图像。此外，由于疾病的多样性和检测方法的多样性，疾病的多模态数据具有跨度大、密度低的特点。因此，在医学图像分割中仍然存在许多挑战和许多需要解决的问题。

数据增广是一种有效的扩大数据规模的方法，已广泛应用于计算机视觉任务中，并取得了显著的效果。值得一提的是，数据增广经常被用来解决医学图像数据不足的问题，由于医学图像分割中典型的数据增广方法包括旋转、垂直翻转和随机缩放，需要识别的不同类型疾病之间的样本数量存在较大差异，从而产生了多种最优的数据增广策略。实验表明，选择不合适的数据增广策略会降低模型的分割精度。换句话说，我们需要为新的医学图像分割任务设计合理有效的数据增广策略，这需要专业经验和大量时间来手动调整数据增强操作的概率和幅度。

基于此，有必要开发一种基于自动数据增广的医学图像分割方法。

发明内容

针对医学图像分割数据集及现有数据增广方法存在的问题，本发明的目的在于提供一种基于自动数据增广的医学图像分割方法，该方法为医学图像分割任务设计了专用的搜索空间，适用于大多数医学图像分割任务，进而提升深度学习医学图像分割模型的分割精度。

为了达到上述目的，本发明提供以下技术方案：

本发明提供一种基于自动数据增广的医学图像分割方法，包括以下步骤：

S1、将原始训练集按照设定比例随机划分为训练集和验证集；

S2、构建数据增广搜索空间，得到基于所述搜索空间的采样子策略；

S3、将步骤S2所得采样子策略在步骤S1所得训练集上进行训练，在每次迭代中，通过随机梯度下降更新网络权重，将更新后的网络权重应用在步骤S1所得验证集上，计算验证集损失并用于前向传播，通过近端迭代更新策略参数，当验证集损失最小时，得到数据增广子策略；

S4、在重训练阶段，将步骤S3所得数据增广子策略应用在原始训练集(步骤S1所述训练集)上进行数据增广，在增广后的训练集上进行训练，获得最优的网络权重，采用该网络权重进行推理，得到目标区域。

优选的，所述步骤S1具体为：

将未进行数据增广的原始训练集按照1:1的比例随机划分为训练集Φ _train和验证集Φ _Val，所述训练集和验证集包括带有标注信息的医学图像分割数据库。

优选的，所述步骤S2包括以下步骤：

S201、为原始数据集设计一个搜索空间S，搜索空间S中使用17种操作，包括对比度增强、亮度调节、Gamma变换、高斯噪声、自适应直方图均衡化、水平翻转、垂直翻转、弹性变换、光学畸变、网格畸变、旋转、随机缩放、仿射变换、水平平移、垂直平移、水平错切、垂直错切；

S202、搜索空间S中子策略分布符合分类分布，分类分布如公式(1)、(2)所示，搜索空间S中包含136个子策略，根据分类分布得到采样子策略；

公式(1)中，x代表图像；S为数据增广策略搜索空间；s为子策略；

为采样得到的子策略；s(x)为将子策略应用到图像x上；h _s为one-hot向量；

公式(2)中，H _s为分类分布；a _s表示应用子策略被应用的概率；

根据伯努利分布采样确定两个数据增强方法，将采样的两个数据增强方法按顺序应用在每个批次的图像上；

同时，为了增加策略的多样性，需要在连续范围内设置数据增强方法的幅度并确定区间的范围；除了数据增强方法的幅度，还需要搜索这些操作被应用的概率。

优选的，所述步骤S3包括以下步骤：

S301、将采样子策略应用在步骤S1所得训练集上，然后训练神经网络，在每次迭代中，通过随机梯度下降更新网络权重，将更新后的网络权重用来计算验证集损失L _val，通过近端迭代方式来降低验证集损失，如公式(3)、(4)所示，当验证集损失L _val最小时，获得N个数据增广子策略；

min L _val(w ^*,Φ _val) (3)

s.t.w ^*＝argmin E(L _train(w,φ,Φ _train)) (4)

公式(3)中，w ^*为最优的网络权重；

公式(4)中，s.t.w ^*为最优的网络权重；w为网络权重；E表示为网络训练过程中损失函数的数学期望；φ为策略参数φ＝{a，b，v}；L _train为训练集损失；

S302、在训练网络的每一次迭代中，根据验证集损失L _val是否为最小，通过近端迭代更新策略参数φ＝{a，b，v}；

其中，参数a表示应用子策略被应用的概率，参数b表示应增强方法被应用的概率，参数v表示子策略中每个增强方法的幅值。

进一步优选的，为解决公式(3)～(4)的优化问题，采用的近端迭代为：

将φ优化为一个受约束Q ₂的连续变量，引入一个离散

在迭代过程中

受到由φ导出的约束Q ₁的约束；

其中，Q＝Q ₁∩Q ₂；

Q ₁＝{φ|||φ|| ₀＝1}；

Q ₂＝{φ|0≤φ≤1}；

式中，Q为Q ₁约束和Q ₂约束的交集；‖φ‖ ₀表示φ的零范数；

最终可以得到近端迭代为：

其中，prox _Q(φ)为近端迭代；φ为策略参数，φ＝{a，b，v}。

与现有技术相比，本发明具有以下优点：

本发明提供一种基于自动数据增广的医学图像分割方法，在公开可用的肝肿瘤数据集上的实验结果表明，所提出的算法在基本网络架构下实现了先进的性能。

本发明提供一种基于自动数据增广的医学图像分割方法，与现有算法相比，该算法的搜索策略的效率至少提高了一个数量级。

附图说明

图1是本发明一种基于自动数据增广的医学图像分割方法的流程图。

图2是本发明一种基于自动数据增广的医学图像分割方法的策略搜索流程图。

图3为自动数据增广策略搜索阶段验证集损失比较结果。

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

下面对公开可用的LiTs数据集进行了实验，LiTs数据集是一个公开可用的肝脏肿瘤数据集，包含肝脏和肿瘤标签。数据由MICCAI和ISBI组织的2017年肝肿瘤分割挑战赛提供。训练集和测试集分别包含130张CT影像和70张CT影像。

如图1-2所示，本发明提供一种基于自动数据增广的医学图像分割方法，包括以下步骤：

步骤一、将未进行数据增广的LiTs原始训练集按照1:1的比例随机划分为训练集和验证集，所述训练集和验证集包括带有标注信息的医学图像分割数据库；

步骤二、构建数据增广搜索空间，得到基于搜索空间的采样子策略；

S201、为LiTs数据集设计一个搜索空间，搜索空间中使用17种操作，包括对比度增强、亮度调节、Gamma变换、高斯噪声、自适应直方图均衡化、水平翻转、垂直翻转、弹性变换、光学畸变、网格畸变、旋转、随机缩放、仿射变换、水平平移、垂直平移、水平错切、垂直错切；

公式(2)中，H _s为分类分布；a _s表示子策略被应用的概率；s为子策略；

根据伯努利分布采样两个数据增强方法，将采样的两个数据增强方法按顺序应用在每个批次的图像上；

同时，为了增加策略的多样性，需要在连续范围内设置数据增强方法的幅度并确定区间的范围；除了数据增强方法的幅度，还需要搜索这些操作被应用的概率；

步骤三、将步骤二所得采样子策略在训练集上进行训练，在每次迭代中，通过随机梯度下降更新网络权重，将更新后的网络权重用来计算验证集损失，通过近端迭代更新策略参数，当验证集损失最小时，得到数据增广子策略；

S301、迭代搜索数据增广策略过程，将采样子策略应用在训练集上，然后训练神经网络，在每次迭代中，通过随机梯度下降更新网络权重，将更新后的网络权重应用在验证集上，计算验证集损失L _val，通过近端迭代方式来降低验证集损失以此来优化策略参数，如公式(3)、(4)所示，当验证集损失L _val最小时，结束迭代搜索数据增广子策略过程，获得N个数据增广子策略，N个数据增广子策略的概率按从大到小排列；

min L _val(w ^*,Φ _val) (3)

s.t.w ^*＝argmin E(L _train(w,φ,Φ _train)) (4)

公式(3)中，w ^*为最优的网络权重。

公式(4)中，s.t.w ^*为最优的网络权重；w为网络权重；E表示为网络训练过程中损失函数的数学期望；φ为策略参数，φ＝{a，b，v}；L _train为训练集损失；

其中，参数a表示应用子策略被应用的概率，参数b表示应增强方法被应用的概率，参数v表示子策略中每个增强方法的幅值；

步骤四、在重训练阶段，将获得的N个数据增广子策略应用在LiTs原始训练集上进行数据增广，在增广后的训练集上进行训练获得最优的网络权重，采用该网络权重进行推理，最终获得LiTs数据集中所要分割的肿瘤区域。

与现有方法的比较：本发明旨在搜索得到一组适用于多个医学图像分割任务的数据增强子策略，然后将搜索阶段得到的子策略应用于常见的医学分割网络，例如UNet、UNet++、DenseUNet、MANet、nnUNet和FPN。DenseNet通过链接通道上的特征来实现特征重用，以更少的参数和计算成本实现更好的性能。选择Densenet161作为UNet的编码器，它是UNet的一个变体，称为 DenseUNet。

本发明在LiTs数据集上进行了比较实验，肝肿瘤分割的比较结果如表1所示。表1的结果表明，搜索得到的数据增强策略应用于网络时可以提高分割精度，并且本发明提出的方法取得的最佳分割结果优于nnUNet，nnUNet被认为是医学图像分割中最好的分割框架。此外，如表4所示，本发明提出的算法大约需要5小时搜索数据增广策略。相比之下，现有数据增广方法需的搜索时间超过100小时。这些证明了本发明提出的算法对于医学图像分割的有效性和重要性。

表1.LiTs数据集肝肿瘤分割的比较结果

表2.传统和自动数据增强算法在LiTs数据集上的比较结果

表3.LiTs数据集上传统和自动数据增强算法的比较结果

表4.GPU小时数比较

此外，本发明将自动数据增强算法DADA从自然图像域应用于医学图像分割，然后我们选择传统的数据增强策略以及DADA与所提出的算法与本发明方法进行比较。在实现中，MANet是一个比较新颖的肝肿瘤分割网络，被选为肝肿瘤数据集上的baseline，*表示表2中方法提出时所采用的数据增强策略。另外，选择UNet作为LiTs数据集上的baseline，*表示传统数据增强变换的组合，包括表3中的随机亮度对比度、随机伽马、弹性变换、网格畸变、光学畸变和旋转缩放。

如表2和表3所示，本发明所采用算法的性能超过了DADA算法和传统数据增强算法，这证实了所提出算法的效率。此外，我们还绘制了搜索阶段验证集损失的变化曲线如图3所示，该算法解决了DADA算法鲁棒性不强的问题，而且收敛速度也优于DADA算法。这些实验证明了本发明方法的卓越鲁棒性和良好的收敛性能。

Claims

一种基于自动数据增广的医学图像分割方法，包括以下步骤：

S1、将原始训练集按照设定比例随机划分为训练集和验证集；

S2、构建数据增广搜索空间，得到基于所述搜索空间的采样子策略；

S3、将步骤S2所得采样子策略在步骤S1所得训练集上进行训练，在每次迭代中，通过随机梯度下降更新网络权重，将更新后的网络权重用来计算验证集损失，通过近端迭代更新策略参数，当验证集损失最小时，得到数据增广子策略；

S4、在重训练阶段，将步骤S3所得数据增广子策略应用在原始训练集上进行数据增广，在增广后的训练集上进行训练，获得最优的网络权重，采用该网络权重进行推理，得到目标区域。
根据权利要求1所述一种基于自动数据增广的医学图像分割方法，其特征在于，所述步骤S1具体为：

将未进行数据增广的原始训练集按照1:1的比例随机划分为训练集Φ _train和验证集Φ _val，所述训练集和验证集包括带有标注信息的医学图像分割数据库。
根据权利要求1所述一种基于自动数据增广的医学图像分割方法，其特征在于，所述步骤S2包括以下步骤：

S201、为原始数据集设计一个搜索空间S，搜索空间S中使用17种操作，包括对比度增强、亮度调节、Gamma变换、高斯噪声、自适应直方图均衡化、水平翻转、垂直翻转、弹性变换、光学畸变、网格畸变、旋转、随机缩放、仿射变换、水平平移、垂直平移、水平错切、垂直错切；

S202、搜索空间S中子策略分布符合分类分布，分类分布如公式(1)、(2)所示，搜索空间S中包含136个子策略，根据分类分布得到采样子策略；

公式(1)中，x代表图像；S为数据增广策略搜索空间；s为子策略；
为采样得到的子策略；s(x)为将子策略应用到图像x上；h _s为one-hot向量；

公式(2)中，H _s为分类分布；a _s表示子策略被应用的概率；

根据伯努利分布采样两个数据增强方法，将采样的两个数据增强方法按顺序应用在每个批次的图像上；

同时，为了增加策略的多样性，需要在连续范围内设置数据增强方法的幅度并确定区间的范围；除了数据增强方法的幅度，还需要搜索这些操作被应用的概率。
根据权利要求1所述一种基于自动数据增广的医学图像分割方法，其特征在于，所述步骤S3包括以下步骤：

S301、将采样子策略应用在步骤S1所得训练集上，然后训练神经网络，在每次迭代中，通过随机梯度下降更新网络权重，将更新后的网络权重用来计算验证集损失L _val，通过近端迭代方式来降低验证集损失，如公式(3)、(4)所示，当验证集损失L _val最小时，获得N个数据增广子策略；

min L _val(w ^*,Φ _val) (3)

s.t.w ^*＝argmin E(L _train(w,φ,Φ _train)) (4)

公式(3)中，w ^*为最优的网络权重；

公式(4)中，s.t.w ^*为最优的网络权重；w为网络权重；E表示为网络训练过程中损失函数的数学期望；φ为策略参数φ＝{a，b，v}；L _train为训练集损失；

S302、在训练网络的每一次迭代中，根据验证集损失L _val是否为最小，通过近端迭代更新策略参数φ＝{a，b，v}；

其中，参数a表示应用子策略被应用的概率，参数b表示应增强方法被应用的概率，参数v表示子策略中每个增强方法的幅值。
根据权利要求4所述一种基于自动数据增广的医学图像分割方法，其特征在于，为解决公式(3)～(4)的优化问题，采用的近端迭代为：

将φ优化为一个受约束Q ₂的连续变量，引入一个离散
在迭代过程中
受到由φ导出的约束Q ₁的约束；

其中，Q＝Q ₁∩Q ₂；

Q ₁＝{φ|||φ|| ₀＝1}；

Q ₂＝{φ|0≤φ≤1}；

式中，Q为Q ₁约束和Q ₂约束的交集；‖φ‖ ₀表示φ的零范数；

最终可以得到近端迭代为：

其中，prox _Q(φ)为近端迭代；φ为策略参数，φ＝{a，b，v}。