WO2020224403A1

WO2020224403A1 - 分类任务模型的训练方法、装置、设备及存储介质

Info

Publication number: WO2020224403A1
Application number: PCT/CN2020/085006
Authority: WO
Inventors: 沈荣波; 周可; 田宽; 颜克洲; 江铖
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2019-05-07
Filing date: 2020-04-16
Publication date: 2020-11-12
Also published as: CN110097130A; CN110097130B; EP3968222B1; EP3968222A1; US20210319258A1; EP3968222A4

Abstract

一种基于人工智能的分类任务模型的训练方法、装置、设备及存储介质，涉及机器学习技术领域，所述方法包括：采用第一数据集训练初始特征提取器得到特征提取器（101），该第一数据集是类别不均衡数据集；构建生成对抗网络，该生成对抗网络包括特征提取器和初始特征生成器（102）；采用第二类别样本对生成对抗网络进行训练，得到特征生成器（103）；构建分类任务模型，该分类任务模型包括特征生成器和特征提取器（104）；采用第一数据集对分类任务模型进行训练（105）；其中，特征生成器用于在训练过程中对第二类别样本在特征空间进行扩增。通过特征生成器对少数类别样本在特征空间进行扩增，提高最终训练得到的分类任务模型的精度。

Description

分类任务模型的训练方法、装置、设备及存储介质

本申请要求于2019年05月07日提交中国专利局、申请号为201910377510.3、申请名称为“分类任务模型的训练方法、装置、设备及存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请实施例涉及机器学习技术领域，特别涉及分类任务模型的训练。

背景技术

机器学习对于处理分类任务具有较好的性能表现，例如基于深度神经网络构建分类任务模型，并通过适当的训练样本对该模型进行训练，完成训练的分类任务模型即可用于处理分类任务，如图像识别、语音识别等分类任务。

在训练分类任务模型时，训练数据集中包含的训练样本的类别可能并不均衡，例如正样本的数量远少于负样本的数量，这样的训练数据集可以称为类别不均衡数据集。如果采用类别不均衡数据集对分类任务模型进行训练，会导致最终得到的分类任务模型的性能表现不佳。

发明内容

本申请实施例提供了一种基于人工智能的分类任务模型的训练方法、装置、设备及存储介质，可用于解决相关技术提供的样本上采样手段，无法训练得到高精度的分类任务模型的技术问题。所述技术方案如下：

一方面，本申请实施例提供一种分类任务模型的训练方法，所述方法由计算机设备执行，所述方法包括：

采用第一数据集训练初始特征提取器得到特征提取器；其中，所述第一数据集是包括第一类别样本和第二类别样本的类别不均衡数据集，所述第一类别样本的数量大于所述第二类别样本的数量，所述第一数据集是通过医疗影像确定的；

构建生成对抗网络，所述生成对抗网络包括所述特征提取器和初始特征生成器；其中，所述初始特征生成器用于生成与所述特征提取器相同维度的特征向量；

采用所述第二类别样本对所述生成对抗网络进行训练，得到特征生成器；

构建分类任务模型，所述分类任务模型包括所述特征生成器和所述特征提取器；

采用所述第一数据集对所述分类任务模型进行训练；其中，所述特征生成器用于在训练过程中对所述第二类别样本在特征空间进行扩增，训练后的所述分类任务模型用于对医疗影像进行病灶分类。

另一方面，本申请实施例提供一种分类任务模型的训练装置，所述装置包括：

第一训练模块，用于采用第一数据集训练初始特征提取器得到特征提取器；其中，所述第一数据集是包括第一类别样本和第二类别样本的类别不均衡数据集，所述第一类别样本的数量大于所述第二类别样本的数量，所述第一数据集是通过医疗影像确定的；

第一构建模块，用于构建生成对抗网络，所述生成对抗网络包括所述特征提取器和初始特征生成器；其中，所述初始特征生成器用于生成与所述特征提取器相同维度的特征向量；

第二训练模块，用于采用所述第二类别样本对所述生成对抗网络进行训练，得到特征生成器；

第二构建模块，用于构建分类任务模型，所述分类任务模型包括所述特征生成器和所述特征提取器；

第三训练模块，用于采用所述第一数据集对所述分类任务模型进行训练；其中，所述特征生成器用于在训练过程中对所述第二类别样本在特征空间进行扩增，训练后的所述分类任务模型用于对医疗影像进行病灶分类。

再一方面，本申请实施例提供一种计算机设备，包括：

处理器、通信接口、存储器和通信总线；

其中，所述处理器、所述通信接口和所述存储器通过所述通信总线完成相互间的通信；所述通信接口为通信模块的接口；

所述存储器，用于存储程序代码，并将所述程序代码传输给所述处理器；处理器，用于调用存储器中程序代码的指令执行以上方面的分类任务模型的训练方法。

又一方面，本申请实施例提供一种存储介质，所述存储介质用于存储计算机程序，所述计算机程序用于执行以上方面的分类任务模型的训练方法。

又一方面，本申请实施例提供了一种包括指令的计算机程序产品，当其在计算机上运行时，使得所述计算机执行以上方面的分类任务模型的训练方法。

本申请实施例提供的技术方案至少包括如下有益效果：

本申请实施例提供的技术方案中，基于生成对抗网络训练得到特征生成器，通过该特征生成器对少数类别样本(即类别不均衡数据集中数量偏少的一类训练样本)在特征空间进行扩增，从特征层面进行扩增，而非采用样本上采样手段对少数类别样本进行简单复制，使得最终训练得到的分类任务模型避免出现过拟合的情况，提高最终训练得到的分类任务模型的精度。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一个实施例提供的分类任务模型的训练方法的流程图；

图2示例性示出了初始的分类任务模型的结构示意图；

图3示例性示出了生成对抗网络的结构示意图；

图4示例性示出了分类任务模型的结构示意图；

图5示例性示出了本申请技术方案的整体架构图；

图6和图7示例性示出了两组实验结果的示意图；

图8是本申请一个实施例提供的分类任务模型的训练装置的框图；

图9是本申请一个实施例提供的计算机设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

在本申请实施例中，涉及人工智能(Artificial Intelligence,AI)技术中的机器学习(Machine learning，ML)，以及机器学习中的深度学习(Deep Learning)，包括各类人工神经网络(Artificial Neural Network,ANN)。

其中，AI是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，AI是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。AI也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

AI技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。AI基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。AI软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

在本申请实施例中，执行分类任务模型的训练方法的计算机设备可以具备机器学习能力，以通过机器学习能力对分类任务模型进行训练。

机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络等技术。

本申请实施例中涉及的分类任务模型，是指通过机器学习训练得到的、用于处理分类任务的机器学习模型。该分类任务模型可以是深度学习分类任务模型，即基于深度神经网络构建的分类任务模型，如基于深度卷积神经网络构建的分类任务模型。该分类任务模型除了可以用于处理医疗影像中的病灶识别分类任务，还可用于处理图像识别、语音识别等分类任务，本申请实施例对该分类任务模型的具体应用场景不作限定。

本申请实施例提供的方法，各步骤的执行主体可以是计算机设备，该计算机设备是指具备数据计算、处理和存储能力的电子设备，如PC(Personal Computer，个人计算机)或服务器。

请参考图1，其示出了本申请一个实施例提供的分类任务模型的训练方法的流程图。该方法可以包括以下几个步骤(101～105)：

步骤101，采用第一数据集训练初始特征提取器得到特征提取器，第一数据集是包括第一类别样本和第二类别样本的类别不均衡数据集，第一类别样本的数量大于第二类别样本的数量。

第一类别样本和第二类别样本是第一数据集中两种不同类别的样本。例如，第一类别样本为正样本，第二类别样本为负样本；或者，第一类别样本为负样本，第二类别样本为正样本。第一类别样本的数量大于第二类别样本的数量，即第一类别样本可以称为多数类别样本，第二类别样本可以称为少数类别样本。在大多数场景下，负样本的数量大于甚至远大于正样本的数量，因此，第一类别样本可以是负样本，相应地第二类别样本则为正样本。

特征提取器是分类任务模型中用于提取样本特征的部分，特征提取器也称为编码器(encoder)。分类任务模型包括特征提取器和分类器，特征提取器的输出端和分类器的输入端对接，特征提取器从模型的输入样本中提取特征向量，分类器用于根据该特征向量确定输入样本所属的类别。以分类任务模型用于图像识别为例，特征提取器用于对输入图像进行映射编码，输出维度远低于输入图像像素的特征向量，特征提取器获得了一种非线性的、局部到全局的特征映射，融合了低层的视觉特征和高层的语义信息。

在示例性实施例中，分类任务模型基于深度卷积神经网络构建，特征提取器可以包括多个卷积层。例如，分类任务模型为Inception-v3模型，Inception-v3模型是一种深度神经网络模型，其对图像分类任务具有较好的性能表现。另外，Inception-v3模型的另一优点是可以将预训练好的Inception-v3模型作为初始化的分类任务模型来使用，而不必对分类任务模型中的参数进行随机初始化，这有助于提高模型的训练效率。分类器可以采用归一化指数函数(Softmax)分类器或其它分类器，本申请实施例对此不作限定。

在示例性实施例中，步骤101包括如下几个子步骤：

1、构建初始分类任务模型，初始分类任务模型包括初始特征提取器和初始分类器；

如上文介绍，初始分类任务模型可以是预训练好的Inception-v3模型。

2、采用第一数据集对初始分类任务模型进行训练，得到特征提取器，该特征提取器为初始特征提取器通过前述初始训练后得到的。

第一数据集中包括第一类别样本和第二类别样本，每一个训练样本根据其所属类别设定有相应的标签。例如，第一类别样本的标签为1，第二类别样本的标签为0；或者，第一类别样本的标签为0，第二类别样本的标签为1。将第一数据集中的训练样本(包括第一类别样本和第二类别样本)输入至初始的分类任务模型，将模型输出的分类结果和标签进行比对，计算该模型对应的损失函数值；然后，根据损失函数值使用反向传播算法计算模型中各个参数的梯度；最后，使用梯度更新模型中的各个参数，更新的步调由学习率控制。其中，损失函数可以采用交叉熵(Cross Entropy，CE)损失函数。

在初始分类任务模型满足停止训练条件时，停止对该模型的训练，得到初始训练后的分类任务模型。该初始训练后的分类任务模型中包含初始训练后的特征提取器，该初始训练后的特征提取器被用于下述的生成对抗网络中。其中，初始的分类任务模型的停止训练条件可以预先进行设定，如模型精度达到预设要求、训练轮数达到预设轮数或训练时长达到预设时长等，本申请实施例对此不作限定。

如图2所示，其示例性示出了初始的分类任务模型的结构示意图。该初始的分类任务模型包括特征提取器E _I和分类器C _I，特征提取器E _I的输入端即为模型的输入端，特征提取器E _I的输出端和分类器C _I的输入端对接，分类器C _I的输出端即为模型的输出端。采用第一数据集(包括多数类别样本和少数类别样本)对该初始的分类任务模型进行训练，得到初始训练后的分类任务模型。该初始训练后的分类任务模型包括初始训练后的特征提取器E _I和初始训练后的分类器C _I。

步骤102，构建生成对抗网络，该生成对抗网络包括特征提取器和初始特征生成器。

在生成对抗网络中，特征生成器的输出端和特征提取器的输出端，分别和域分类器的输入端对接。

特征提取器即为上述步骤101中由初始特征提取器通过初始训练后得到的特征提取器。

初始特征生成器用于生成与特征提取器相同维度的特征向量。例如，特征提取器输出的特征向量的维度为20，则初始特征生成器生成的特征向量的维度也为20。初始特征生成器也可以采用多个卷积层构建，如包括6个卷积层，前5个卷积层的卷积核尺寸为3*3，最后一个卷积层的卷积核尺寸为1*1，对应的每个卷积层的输出特征图数量分别为64、128、256、512、1024和2048，每个卷积层后都可以跟随一个批量归一化(batch norm)层和一个激活函数层，例如线性整流函数(Rectified Linear Unit，ReLU)层。

在一种可能的实现方式中，生成对抗网络中还可以包括域分类器，域分类器用于对特征提取器输出的特征向量和特征生成器输出的特征向量进行区分。域分类器利用对抗学习来调整特征生成器，使其输出的特征向量尽可能地接近特征提取器输出的特征向量，通过这样一个对抗学习的过程找到最大-最小化博弈均衡的模型参数。

步骤103，采用第二类别样本对生成对抗网络进行训练，得到特征生成器。

在对生成对抗网络进行训练的过程中，特征提取器的参数固定，也即不对特征提取器的参数进行更新。特征提取器的输入是第二类别样本，也即少数类别样本，输出是从上述第二类别样本中提取到的特征向量。

初始特征生成器的输入包括先验数据与噪声数据的叠加，输出是与特征提取器同维度的特征向量。先验数据可以从第一数据集的第二类别样本中提取，也可以从第二数据集中与第二类别样本同类别的样本中提取。其中，第二数据集可以是同类任务中不同于第一数据集的另一数据集。噪声数据可以是随机噪声数据。以先验数据为64*64的图像为例，噪声数据也可以是64*64的图像，但噪声数据的图像中各个像素的像素值是随机生成的。将先验数据与噪声数据叠加，即为将先验数据与噪声数据中相同位置像素的像素值进行加权求和，最终得到一张叠加后的图像。

初始特征生成器从该叠加后的图像中提取得到特征向量。另外，考虑到特征生成器的网络层数可能较少，因此其输入不能过大，所以先验数据可以是对样本图像进行缩小后得到的小尺寸的样本图像，如64*64的样本图像。

在本申请实施例中，一种可能的实现方式中初始特征生成器的输入并非完全是噪声数据，完全从噪声数据中生成与真实样本类似的特征向量的话，缺乏有效的约束，初始特征生成器的输入是先验数据与噪声数据的叠加，这样可以抑制生成对抗网络训练过程中不收敛和容易崩溃的问题，增加生成对抗网络的鲁棒性。

在示例性实施例中，步骤103包括如下几个子步骤：

1、在生成对抗网络的每一轮训练过程中，进行第一参数更新和第二参数更新，所述第一参数更新包括：为特征提取器的输入赋予第一标签，为初始特征生成器的输入赋予第二标签；

2、计算域分类器的第一损失函数值；

3、根据第一损失函数值对域分类器的参数进行更新；

4、所述第二次参数更新包括：屏蔽特征提取器的输入，为初始特征生成器的输入赋予第一标签；

5、计算域分类器的第二损失函数值；

6、根据第二损失函数值对初始特征生成器的参数进行更新。

在生成对抗网络的训练过程中，初始特征生成器和域分类器互相进行对抗，即在每一轮训练过程中进行两次反向传播计算，第一次固定初始特征生成器的参数，更新域分类器的参数，第二次固定域分类器的参数，更新初始特征生成器的参数。上述第一标签和第二标签是两个不同的标签，例如第一标签为1且第二标签为0，或第一标签为0且第二标签为1。

在一个示例中，首先，为特征提取器的输入赋予标签1，为初始特征生成器的输入赋予标签0，计算域分类器的第一损失函数值，根据该第一损失函数值反向传播调整域分类器的参数；然后，屏蔽特征提取器的输入，为初始特征生成器的输入赋予标签1，计算域分类器的第二损失函数值，根据该第二损失函数值反向传播调整初始特征生成器的参数。

如图3所示，其示例性示出了生成对抗网络的结构示意图。该生成对抗网络包括特征提取器E _I、特征生成器G和域分类器D。特征提取器E _I的输出端和特征生成器G的输出端分别与域分类器D的输入端对接。特征生成器G的输入为先验数据和噪声数据的叠加，特征提取器E _I的输入为第一数据集中的少数类别样本。特征生成器G被用于下面的分类任务模型中。

步骤104，构建分类任务模型，该分类任务模型包括特征生成器和特征提取器。该分类任务模型还可以进一步包括分类器。

在分类任务模型中，特征生成器的输出端和特征提取器的输出端，分别和分类器的输入端对接。

特征生成器即为上述步骤103中利用生成对抗网络训练得到的特征生成器。本步骤中的特征提取器和分类器采用与步骤101中初始分类任务模型相同的结构和配置。可选地，本步骤中的特征提取器采用步骤101中训练得到的特征提取器的参数进行初始化。

步骤105，采用第一数据集对分类任务模型进行训练；其中，特征生成器用于对第二类别样本在特征空间进行扩增。

在对分类任务模型进行训练的过程中，配合原有的类别不均衡的第一数据集，利用生成对抗网络训练得到的特征生成器对少数类别样本在特征空间进行扩增，将类别不均衡的学习任务转化为类别均衡的学习任务，重新训练得到分类任务模型。

在示例性实施例中，分类任务模型还包括数据清洗单元，通过该数据清洗单元对特征生成器和特征提取器输出的异常特征向量进行过滤。数据清洗单元可以是一个通过软件、硬件或者软硬件结合实现的功能单元，通过采用合适的数据清洗技术(如Tomek Link算法)来抑制特征生成器生成的一些异常特征向量，从而进一步提高最终训练得到的分类任务模型的精度。

在示例性实施例中，通过数据清洗单元，可以从特征生成器和特征提取器输出的特征向量中，筛选出符合预设条件的特征向量对，该符合预设条件的特征向量对是指标签不同且相似度符合阈值的两个特征向量，例如相似度最大的一组特征向量或较大的多组特征向量。

然后将上述符合预设条件的特征向量对作为异常特征向量进行过滤。两个特征向量之间的相似度可以通过欧式距离算法或其它相似度算法进行计算得到，本申请实施例对此不作限定。示例性地，对于特征生成器和特征提取器输出的所有特征向量，遍历该所有特征向量，对于每一个特征向量，找到与该特征向量最相似的另一特征向量，比对这两个特征向量的标签是否相同，如果这两个特征向量的标签不相同，如一个特征向量的标签为1且另一个特征向量的标签为0，则这两个特征向量即为符合预设条件的特征向量对，将这两个特征向量作为异常特征向量进行过滤。

如图4所示，其示例性示出了分类任务模型的结构示意图。该分类任务模型包括特征生成器G、特征提取器E _F、分类器C _F以及数据清洗单元。特征生成器G的输出端和特征提取器E _F的输出端，分别与数据清洗单元的输入端对接，数据清洗单元的输出端与分类器C _F的输入端对接。特征提取器EF与图2所示的分类任务模型中的特征提取器E _I具有相同的结构和配置，分类器C _F与图2所示的分类任务模型中的分类器C ₁具有相同的结构和配置。采用第一数据集(包括多数类别样本和少数类别样本)对该分类任务模型进行训练，当满足预设的停止训练条件时，停止对该分类任务模型的训练，得到分类任务模型。其中，预设的停止训练条件可以是模型精度达到预设要求、训练轮数达到预设轮数或训练时长达到预设时长等，本申请实施例对此不作限定。

综上所述，本申请实施例提供的技术方案中，基于生成对抗网络训练得到特征生成器，通过该特征生成器对少数类别样本(即类别不均衡数据集中数量偏少的一类训练样本)在特征空间进行扩增，从特征层面进行扩增，而非采用样本上采样手段对少数类别样本进行简单复制，使得最终训练得到的分类任务模型避免出现过拟合的情况，提高最终训练得到的分类任务模型的精度。

另外，本申请实施例提供的技术方案中，在训练分类任务模型的过程中，还通过数据清洗单元对特征生成器和特征提取器输出的异常特征向量进行过滤，实现抑制特征生成器生成的一些异常特征向量，从而进一步提高最终训练得到的分类任务模型的精度。

另外，在本申请实施例中，特征生成器的输入并非完全是噪声数据，完全从噪声数据中生成与真实样本类似的特征向量的话，缺乏有效的约束，特征生成器的输入是先验数据与噪声数据的叠加，这样可以抑制生成对抗网络训练过程中不收敛和容易崩溃的问题，增加生成对抗网络的鲁棒性。

下面，结合图5，对本申请实施例提供的技术方案进行整体说明。本申请实施例提供的分类任务模型的训练过程可以包括如下3个步骤：

第一步：训练初始特征提取器；

在本步骤中，构建初始的分类任务模型，包括特征提取器E _I和分类器C _I，采用类别不均衡数据集对该初始的分类任务模型进行训练，得到特征提取器E _I。

第二步：训练特征生成器；

在本步骤中，构建生成对抗网络，包括初始训练后的特征提取器E _I、初始特征生成器G和域分类器D，在训练过程中，固定特征提取器E _I的参数不变，利用生成对抗网络训练得到特征生成器G。

第三步：训练最终的分类任务模型。

在本步骤中，构建分类任务模型，包括特征生成器G、特征提取器E _F、数据清洗单元和分类器E _F，在训练过程中，固定特征生成器G的参数不变，配合原有的类别不均衡数据集，利用特征生成器G对少数类别样本在特征空间进行扩增，将类别不均衡的学习任务转化为类别均衡的学习任务，训练得到最终的分类任务模型。

本申请实施例提供的技术方案，可应用于AI领域的机器学习分类任务的模型训练过程中，特别适用于训练数据集为类别不均衡数据集的分类任务模型的训练过程中。以对类别不均衡的医疗影像的分类任务为例，训练数据集可以包括多张从医疗影像中提取的子图，这些子图有的是正样本(也即病灶区域的图像)，有的是负样本(也即非病灶区域的图像)，负样本的数量往往远大于正样本的数量。在这种应用场景下，分类任务模型可以称为影像学病灶判别模型，其输入是一张从医疗影像中提取的子图，输出是该子图是否为病灶区域的判别结果。通过生成对抗网络训练得到特征生成器，利用该特征生成器对少数类别样本在特征空间进行扩增，最终训练出更准确的影像学病灶判别模型，辅助医生做出病灶诊断分析，例如乳腺钼靶图像中的肿块检测分析。

本方案分别在一个包含2194张钼靶影像的数据集和一个camelyon2016病理图像数据集上测试，对图像进行感兴趣区域(region of interest，ROI)提取得到子图集合，分别使用了1:10和1:20的类别不均衡比例。测试的结果如下表-1和表-2所示。

表-1

表-2

上述表-1是在钼靶影像的数据集上的测试结果，表-2是在camelyon2016病理图像数据集上的测试结果。

在上述表-1和表-2中，方案1代表不对数据集做任何处理，方案2代表对数据集进行样本下采样处理，方案3代表对数据集进行样本上采样处理，方案4代表对数据集从样本空间进行扩增，方案5代表采用本申请技术方案对数据集从特征空间进行扩增，且不包含数据清洗步骤，方案6代表采用本申请技术方案对数据集从特征空间进行扩增，且包含数据清洗步骤。

在上述表-1和表-2中，Acc和AUC均为模型评价参数。其中，Acc(Accuracy)代表最终训练得到的分类任务模型的准确率，Acc越大，代表模型的性能越优，Acc越小，代表模型的性能越差。AUC(Area under the ROC curve)表示ROC(receiver operating characteristic curve，受试者工作特征曲线)曲线下的面积，AUC直观反映了ROC曲线表达的分类能力，AUC越大，代表模型的性能越优，AUC越小，代表模型的性能越差。

图6中(a)部分示出了上述6种方案在钼靶影像的数据集、1:10的类别不均衡比例下的ROC曲线及相应的AUC值。图6中(b)部分示出了上述6种方案在钼靶影像的数据集、1:20的类别不均衡比例下的ROC曲线及相应的AUC值。

图7中(a)部分示出了上述6种方案在camelyon2016病理图像数据集、1:10的类别不均衡比例下的ROC曲线及相应的AUC值。图7中(b)部分示出了上述6种方案在camelyon2016病理图像数据集、1:20的类别不均衡比例下的ROC曲线及相应的AUC值。

从上述测试结果的图表中可以看出，本申请技术方案大多优于样本上采样、样本下采样、样本空间扩增技术等其它方案，且增加数据清洗步骤后的方案能够进一步提升最终训练得到的分类任务模型的性能。

下述为本申请装置实施例，可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节，请参照本申请方法实施例。

请参考图8，其示出了本申请一个实施例提供的分类任务模型的训练装置的框图。该装置具有实现上述方法示例的功能，所述功能可以由硬件实现，也可以由硬件执行相应的软件实现。该装置可以是计算机设备，也可以设置在计算机设备中。该装置800可以包括：第一训练模块810、第一构建模块820、第二训练模块830、第二构建模块840和第三训练模块850。

第一训练模块810，用于采用第一数据集训练初始特征提取器得到特征提取器；其中，所述第一数据集是包括第一类别样本和第二类别样本的类别不均衡数据集，所述第一类别样本的数量大于所述第二类别样本的数量，所述第一数据集是通过医疗影像确定的。

第一构建模块820，用于构建生成对抗网络，所述生成对抗网络包括所述特征提取器和初始特征生成器；其中，所述初始特征生成器用于生成与所述特征提取器相同维度的特征向量。

第二训练模块830，用于采用所述第二类别样本对所述生成对抗网络进行训练，得到特征生成器。

第二构建模块840，用于构建分类任务模型，所述分类任务模型包括所述特征生成器和所述特征提取器。

第三训练模块850，用于采用所述第一数据集对所述分类任务模型进行训练；其中，所述特征生成器用于在训练过程中对所述第二类别样本在特征空间进行扩增。

在一些可能的设计中，所述生成对抗网络还包括域分类器，所述域分类器用于对所述特征提取器输出的特征向量和所述特征生成器输出的特征向量进行区分，所述第二训练模块830，用于：在所述生成对抗网络的每一轮训练过程中，进行第一参数更新和第二参数更新，所述第一参数更新包括：为所述特征提取器的输入赋予第一标签，为所述特征生成器的输入赋予第二标签；计算所述域分类器的第一损失函数值；根据所述第一损失函数值对所述域分类器的参数进行更新；所述第二参数更新包括：屏蔽所述特征提取器的输入，为所述特征生成器的输入赋予所述第一标签；计算所述域分类器的第二损失函数值；根据所述第二损失函数值对所述特征生成器的参数进行更新。

在一些可能的设计中，所述初始特征生成器的输入包括先验数据与噪声数据的叠加；其中，所述先验数据从所述第一数据集的所述第二类别样本中提取，或者，所述先验数据从第二数据集中与所述第二类别样本同类别的样本中提取。

在一些可能的设计中，所述分类任务模型还包括数据清洗单元，所述第三训练模块还用于：通过所述数据清洗单元对所述特征生成器和所述特征提取器输出的异常特征向量进行过滤。

在一些可能的设计中，所述第三训练模块还用于：通过所述数据清洗单元，从所述特征生成器和所述特征提取器输出的特征向量中，筛选出符合预设条件的特征向量对，所述符合预设条件的特征向量对包括标签不同且相似度大于阈值的两个特征向量；将所述符合预设条件的特征向量对作为所述异常特征向量进行过滤。

在一些可能的设计中，所述第一训练模块810，用于：构建初始的分类任务模型，所述初始分类任务模型包括所述初始特征提取器和初始分类器；采用所述第一数据集对所述初始分类任务模型进行训练，得到特征提取器。

需要说明的是，上述实施例提供的装置，在实现其功能时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的装置与方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

请参考图9，其示出了本申请一个实施例提供的计算机设备的结构示意图。该计算机设备可以是任何具备数据处理和存储功能的电子设备，如PC或服务器。该计算机设备用于实施上述实施例中提供的分类任务模型的训练方法。具体来讲：

所述计算机设备900包括中央处理单元(CPU)901、包括随机存取存储器(RAM)902和只读存储器(ROM)903的系统存储器904，以及连接系统存储器904和中央处理单元901的系统总线905。所述计算机设备900还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(I/O系统)906，和用于存储操作系统913、应用程序914和其他程序模块915的大容量存储设备907。

所述基本输入/输出系统906包括有用于显示信息的显示器908和用于用户输入信息的诸如鼠标、键盘之类的输入设备909。其中所述显示器908和输入设备909都通过连接到系统总线905的输入输出控制器910连接到中央处理单元901。所述基本输入/输出系统906还可以包括输入输出控制器910以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器910还提供输出到显示屏、打印机或其他类型的输出设备。

所述大容量存储设备907通过连接到系统总线905的大容量存储控制器(未示出)连接到中央处理单元901。所述大容量存储设备907及其相关联的计算机可读介质为计算机设备900提供非易失性存储。也就是说，所述大容量存储设备907可以包括诸如硬盘或者CD-ROM驱动器之类的计算机可读介质(未示出)。

不失一般性，所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM、EEPROM、闪存或其他固态存储其技术，CD-ROM、DVD或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的系统存储器904和大容量存储设备907可以统称为存储器。

根据本申请的各种实施例，所述计算机设备900还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即计算机设备900可以通过连接在所述系统总线905上的网络接口单元911连接到网络912，或者说，也可以使用网络接口单元911来连接到其他类型的网络或远程计算机系统(未示出)。

所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、至少一段程序、代码集或指令集经配置以由一个或者一个以上处理器执行，以实现上述实施例提供的分类任务模型的训练方法。

在示例性实施例中，本申请实施例还提供一种计算机可读存储介质，用于存储计算机程序，该计算机程序用于执行上述实施例提供的分类任务模型的训练方法。在示例性实施例中，上述计算机可读存储介质可以是ROM、RAM、CD-ROM、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供了一种计算机程序产品，当该计算机程序产品被执行时，其用于实现上述实施例提供的分类任务模型的训练方法。

应当理解的是，在本文中提及的“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。另外，本文中描述的步骤编号，仅示例性示出了步骤间的一种可能的执行先后顺序，在一些其它实施例中，上述步骤也可以不按照编号顺序来执行，如两个不同编号的步骤同时执行，或者两个不同编号的步骤按照与图示相反的顺序执行，本申请实施例对此不作限定。

以上所述仅为本申请的示例性实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

一种分类任务模型的训练方法，所述方法由计算机设备执行，所述方法包括：

采用第一数据集训练初始特征提取器得到特征提取器；其中，所述第一数据集是包括第一类别样本和第二类别样本的类别不均衡数据集，所述第一类别样本的数量大于所述第二类别样本的数量，所述第一数据集是通过医疗影像确定的；

构建生成对抗网络，所述生成对抗网络包括所述特征提取器和初始特征生成器；其中，所述初始特征生成器用于生成与所述特征提取器相同维度的特征向量；

采用所述第二类别样本对所述生成对抗网络进行训练，得到特征生成器；

构建分类任务模型，所述分类任务模型包括所述特征生成器和所述特征提取器；

采用所述第一数据集对所述分类任务模型进行训练；其中，所述特征生成器用于在训练过程中对所述第二类别样本在特征空间进行扩增，训练后的所述分类任务模型用于对医疗影像进行病灶分类。
根据权利要求1所述的方法，所述生成对抗网络还包括域分类器，所述域分类器用于对所述特征提取器输出的特征向量和所述特征生成器输出的特征向量进行区分，所述采用所述第二类别样本对所述生成对抗网络进行训练，得到特征生成器，包括：

在所述生成对抗网络的每一轮训练过程中，进行第一参数更新和第二参数更新，所述第一参数更新包括：

为所述特征提取器的输入赋予第一标签，为所述初始特征生成器的输入赋予第二标签；

计算所述域分类器的第一损失函数值；

根据所述第一损失函数值对所述域分类器的参数进行更新；

所述第二参数更新包括：

屏蔽所述特征提取器的输入，为所述初始特征生成器的输入赋予所述第一标签；

计算所述域分类器的第二损失函数值；

根据所述第二损失函数值对所述初始特征生成器的参数进行更新。
根据权利要求1所述的方法，所述初始特征生成器的输入包括先验数据与噪声数据的叠加；

其中，所述先验数据从所述第一数据集的所述第二类别样本中提取，或者，所述先验数据从第二数据集中与所述第二类别样本同类别的样本中提取。
根据权利要求1至3任一项所述的方法，所述分类任务模型还包括数据清洗单元，在采用所述第一数据集对所述分类任务模型进行训练的过程中，所述方法还包括：

通过所述数据清洗单元对所述特征生成器和所述特征提取器输出的异常特征向量进行过滤。
根据权利要求4所述的方法，所述通过所述数据清洗单元对所述特征生成器和所述特征提取器输出的异常特征向量进行过滤，包括：

通过所述数据清洗单元从所述特征生成器和所述特征提取器输出的特征向量中，筛选出符合预设条件的特征向量对，所述符合预设条件的特征向量对包括标签不同且相似度大于阈值的两个特征向量；

将所述符合预设条件的特征向量对作为所述异常特征向量进行过滤。
根据权利要求1至3任一项所述的方法，所述采用第一数据集训练初始特征提取器得到特征提取器，包括：

构建初始分类任务模型，所述初始分类任务模型包括所述初始特征提取器；

采用所述第一数据集对所述初始分类任务模型进行训练，得到特征提取器。
一种分类任务模型的训练装置，所述装置包括：

第一训练模块，用于采用第一数据集训练初始特征提取器得到特征提取器；其中，所述第一数据集是包括第一类别样本和第二类别样本的类别不均衡数据集，所述第一类别样本的数量大于所述第二类别样本的数量，所述第一数据集是通过医疗影像确定的；

第一构建模块，用于构建生成对抗网络，所述生成对抗网络包括所述特征提取器和初始特征生成器；其中，所述初始特征生成器用于生成与所述特征提取器相同维度的特征向量；

第二训练模块，用于采用所述第二类别样本对所述生成对抗网络进行训练，得到特征生成器；

第二构建模块，用于构建分类任务模型，所述分类任务模型包括所述完成训练的特征生成器和所述特征提取器；

第三训练模块，用于采用所述第一数据集对所述分类任务模型进行训练；其中，所述特征生成器用于在训练过程中对所述第二类别样本在特征空间进行扩增。
根据权利要求7所述的装置，所述生成对抗网络还包括域分类器，所述域分类器用于对所述特征提取器输出的特征向量和所述特征生成器输出的特征向量进行区分，所述第二训练模块，用于：

在所述生成对抗网络的每一轮训练过程中，进行第一参数更新和第二参数更新，所述第一参数更新包括：

为所述特征提取器的输入赋予第一标签，为所述特征生成器的输入赋予第二标签；

计算所述域分类器的第一损失函数值；

根据所述第一损失函数值对所述域分类器的参数进行更新；

所述第二参数更新包括：

屏蔽所述特征提取器的输入，为所述特征生成器的输入赋予所述第一标签；

计算所述域分类器的第二损失函数值；

根据所述第二损失函数值对所述特征生成器的参数进行更新。
根据权利要求7所述的装置，所述初始特征生成器的输入包括先验数据与噪声数据的叠加；

其中，所述先验数据从所述第一数据集的所述第二类别样本中提取，或者，所述先验数据从第二数据集中与所述第二类别样本同类别的样本中提取。
根据权利要求7至9任一项所述的装置，其特征在于，所述分类任务模型还包括数据清洗单元，所述第三训练模块还用于：

通过数据清洗单元对所述特征生成器和所述特征提取器输出的异常特征向量进行过滤。
根据权利要求10所述的装置，，所述第三训练模块还用于：

通过所述数据清洗单元从所述特征生成器和所述特征提取器输出的特征向量中，筛选出符合预设条件的特征向量对，所述符合预设条件的特征向量对包括标签不同且相似度大于阈值的两个特征向量；

将所述符合预设条件的特征向量对作为所述异常特征向量进行过滤。
根据权利要求7至9任一项所述的装置，所述第一训练模块还用于：

构建初始分类任务模型，所述初始分类任务模型包括所述初始特征提取器；

采用所述第一数据集对所述初始分类任务模型进行训练，得到所述特征提取器。
一种计算机设备，所述计算机设备包括：

处理器、通信接口、存储器和通信总线；

其中，所述处理器、所述通信接口和所述存储器通过所述通信总线完成相互间的通信；所述通信接口为通信模块的接口；

所述存储器，用于存储程序代码，并将所述程序代码传输给所述处理器；

所述处理器，用于调用存储器中程序代码的指令执行权利要求1至6任一项所述的方法。
一种计算机可读存储介质，所述存储介质用于存储计算机程序，所述计算机程序用于执行权利要求1至6任一项所述的方法
一种包括指令的计算机程序产品，当其在计算机上运行时，使得所述计算机执行权利要求1-12任意一项所述的数据处理方法。