WO2022032471A1

WO2022032471A1 - 一种神经网络模型的训练方法、装置、存储介质及设备

Info

Publication number: WO2022032471A1
Application number: PCT/CN2020/108381
Authority: WO
Inventors: 李镇; 张敏清
Original assignee: 香港中文大学（深圳）
Priority date: 2020-08-11
Filing date: 2020-08-11
Publication date: 2022-02-17

Abstract

本发明适用于模型训练技术领域，提供了一种神经网络模型的训练方法、装置及系统，所述方法包括：获取原始数据集，并根据所述原始数据集训练原始神经网络模型；从所述原始神经网络模型中识别出噪声标签；对所述噪声标签进行修改，并根据修改后的数据集训练新神经网络模型。本发明通过先以原始数据集训练出原始神经网络模型，并在原始神经网络模型中识别出噪声标签，从而确定原始数据集中的错误标签，在对错误标签纠正之后，最终根据修改后的数据集训练新神经网络模型，由于直接从网络模型中确定出错误标签并对其进行纠正，准确性高，同样具备了很好的可解释性，使得最终训练得到的新神经网络模型具有较好的抗干扰效果。

Description

一种神经网络模型的训练方法、装置、存储介质及设备

技术领域

本发明属于模型训练技术领域，尤其涉及一种神经网络模型的训练方法、装置、存储介质及设备。

背景技术

深度学习技术已经在图像处理领域中取得了巨大的成功，它们的成功都离不开神经网络模型的训练。在训练神经网络模型的过程中，数据及对应的标签(金标准)是除网络模型之外的最关键因素。

如果数据的标签中存在一些噪声，即错误的标签，则会对网络的训练造成极大的负面影响，进而导致神经网络模型的表现变差，即模型在标签被噪声污染时易受干扰。因此，在标签中存在噪声的情况下如何保证网络模型的性能，使得模型的训练具备一定抗干扰能力，是一个非常值得研究的技术。

现有技术当中，目前大多通过自监督的方式找出有噪声的标签，并在训练模型计算的损失函数的时候，降低它们的权重，来达到抗干扰的效果，但这种方式存在不精确、缺乏解释性等缺点，最终对模型的抗干扰效果提升有限。

发明内容

本发明实施例提供一种神经网络模型的训练方法、装置、存储介质及设备，旨在解决现有对噪声标签的处理方式不精确、导致对模型的抗干扰效果提升有限的技术问题。

本发明实施例是这样实现的，一种神经网络模型的训练方法，所述方法包括：

获取原始数据集，并根据所述原始数据集训练原始神经网络模型；

从所述原始神经网络模型中识别出噪声标签；

对所述噪声标签进行修改，并根据修改后的数据集训练新神经网络模型。

进一步地，所述从所述原始神经网络模型中识别出噪声标签的步骤包括。

利用置信度学习技术从所述原始神经网络模型中识别出噪声标签。

进一步地，所述利用置信度学习技术从所述原始神经网络模型中识别出噪声标签的步骤包括：

计算所述原始神经网络模型对于每个类别的预测概率；

基于所述预测概率参数计算出噪声标签与真实标签的混淆矩阵；

将所述混淆矩阵正则化，得到噪声标签与真实标签的联合分布；

基于所述混淆矩阵和/或所述联合分布，计算出所述噪声标签。

进一步地，基于所述混淆矩阵和所述联合分布，计算出所述噪声标签的步骤包括：

基于所述混淆矩阵和所述联合分布的交集或并集，计算出所述噪声标签。

进一步地，所述预测概率包括平均预测概率和预测概率的中位数。

进一步地，根据修改后的数据集训练新神经网络模型的步骤包括：

根据所述修改后的数据集重新进行神经网络模型训练，以训练得到所述新神经网络模型；或者

根据所述修改后的数据集对所述原始神经网络模型进行调整，以调整得到所述新神经网络模型。

进一步地，所述对所述噪声标签进行修改的步骤包括：

利用空间标签平滑归一化技术对所述噪声标签进行修改。

进一步地，所述神经网络模型为图像分割网络模型，所述对所述噪声标签进行修改的步骤包括：

以像素为单位对所述噪声标签进行修改。

本发明实施例还提供了一种神经网络模型的训练装置，所述装置包括：

数据获取模块，用于获取原始数据集，并根据所述原始数据集训练原始神经网络模型；

噪声识别模块，用于从所述原始神经网络模型中识别出噪声标签；

模型训练模块，用于对所述噪声标签对应的原始数据进行修改，并根据修改后的数据集训练新神经网络模型。

本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述的神经网络模型的训练方法。

本发明实施例还提供了一种神经网络模型的训练设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述的神经网络模型的训练方法。

本发明所达到的有益效果为：通过先以原始数据集训练出原始神经网络模型，并在原始神经网络模型中识别出噪声标签，从而确定原始数据集中的错误标签，在对错误标签纠正之后，最终根据修改后的数据集训练新神经网络模型，由于直接从网络模型中确定出错误标签并对其进行纠正，准确性高，同样具备了很好的可解释性，使得最终训练得到的新神经网络模型具有较好的抗干扰效果。

附图说明

图1是本发明实施例一当中的神经网络模型的训练方法的流程图；

图2是本发明实施例二当中的神经网络模型的训练方法的流程图；

图3是本发明实施例二当中的神经网络模型的训练方法的过程说明图；

图4为本发明实施例三当中的神经网络模型的训练装置的结构框图；

图5是本发明实施例四当中的神经网络模型的训练设备的结构框图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

实施例一

请参阅图1，所示为本发明实施例一当中的神经网络模型的训练方法，所述方法具体包括步骤S01-步骤S03：

步骤S01，获取原始数据集，并根据所述原始数据集训练原始神经网络模型。

其中，原始数据集可以为图像样本集，例如医学图像样本集。在获取得到原始数据集之后，可基于原始数据集进行神经网络训练，以训练得到原始神经网络模型，例如，可对图像样本集进行图像分割神经网络训练，得到图像分割网络模型。又如，原始数据集还可以为文本数据集，对文本数据集进行训练，得到半监督多标记学习模型。

步骤S02，从所述原始神经网络模型中识别出噪声标签。

在具体实施时，可以利用置信度学习(Confident Learning，简称CL)技术从原始神经网络模型中识别出潜在的噪声标签。一般情况下，对于包含少数噪声标签的原始数据集，CL技术可以从原始神经网络模型中找到标签一致的真实标签，而与真实标签不一致的标签，即为潜在的错误标签，即噪声标签。例如，医学图像的分割模型通常需要大量精细标注分割掩模版的数据，为了加快标注掩模版的进度，通常会采取多医师标注的方法。但是不同医师由于其临床经验的不同，存在一定的标注主观性，这样的主观性往往会使得总体数据的标注标准不一致。由于这些不一致的标注(即噪声标签)是少数，因此模型可以利用置信度学习技术学习一致的标注(即真实标签)，再找出这些少数的不一致的标注及所在的区域，从而识别出噪声标签。

示例而非限定，当原始神经网络模型为图像分割网络模型时，在训练网络模型的过程中，会生成像素级的噪声识别图，可以从噪声识别图中识别出标签不一致的区域，即识别出噪声标签所在的区域。

步骤S03，对所述噪声标签进行修改，并根据修改后的数据集训练新神经网络模型。

在具体实施时，可以采用空间标签平滑归一化(Spatial Label Smoothing Regularization，简称SLSR)技术对噪声标签进行修改，以将噪声标签修改为跟对应的真实标签保持一致。

其中，所述修改后的数据集为经过噪声标签修改之后的原始数据集，即噪声标签修改完之后，以修改后的数据集训练新神经网络模型。具体地，所述根据修改后的数据集训练新神经网络模型的步骤可以按以下两种方式当中的任一种进行具体实施：

方式一、根据所述修改后的数据集重新进行神经网络模型训练，以训练得到所述新神经网络模型；

方式二、根据所述修改后的数据集对所述原始神经网络模型进行调整，以调整得到所述新神经网络模型。

针对第一种方式，本方法在训练神经网络模型时候具体采取老师-学生(Teacher-Student)框架，即原始神经网络模型为老师(Teacher)模型，新神经网络模型为学生(Student)模型，则整个过程为，可以先使用含有噪声标签的原始数据集训练一个老师(Teacher)模型；再利用CL技术基于老师(Teacher)模型识别出潜在的噪声标签；最后基于识别出的潜在噪声，使用SLSR技术对噪声标签进行修改，以修改原始数据集，最后根据修改后的数据集重新进行模型训练，得到学生(Student)模型。

针对第二种方式，本方法在训练神经网络模型时候具体采取单模型训练框架，即新神经网络模型是在原始神经网络模型的基础上经过调整后得到的，则整个过程为，可以先使用含有噪声标签的原始数据集训练一个模型；再利用CL技术基于训练好的模型识别出潜在的噪声标签；最后基于识别出的潜在噪声，使用SLSR技术对噪声标签进行修改，将修改后的标签用于微调之前训练好的模型。

综上，本实施例当中的神经网络模型的训练方法，通过先以原始数据集训练出原始神经网络模型，并在原始神经网络模型中识别出噪声标签，从而确定原始数据集中的错误标签，在对错误标签纠正之后，最终根据修改后的数据集训练新神经网络模型，由于直接从网络模型中确定出错误标签并对其进行纠正，准确性高，同样具备了很好的可解释性，使得最终训练得到的新神经网络模型具有较好的抗干扰效果。

实施例二

请参阅图2，所示为本发明实施例二当中的神经网络模型的训练方法，本实施例当中的检测方法与第一实施例当中检测方法的不同之处在于，本实施例当中的神经网络模型的训练方法还进一步包括步骤S11-步骤S14：

步骤S11，获取原始图像样本集，并根据所述原始图像样本集训练原始图像分割网络模型。

在本实施例当中，本方法在训练神经网络模型时候具体采取老师-学生(Teacher-Student)框架，则原始图像分割网络模型为老师(Teacher)模型。

步骤S12，利用置信度学习技术从所述原始图像分割网络模型中识别出噪声标签。

具体地，步骤S12具体包括如下细化步骤：

计算所述原始神经网络模型对于每个类别的预测概率；

其中，基于所述混淆矩阵和所述联合分布，计算出所述噪声标签的步骤包括：

具体地，所述预测概率包括平均预测概率和预测概率的中位数，即在具体实施时，可以以平均预测概率或预测概率的中位数来计算出噪声标签。例如当以平均预测概率来计算出噪声标签时，整个过程如下：

给定原始图像样本集

其中包含n个数据x以及噪声标签

通过以下四个步骤即可识别出潜在噪声：

(1)对于每个标注

的数据x，老师(Teacher)模型(即原始图像分割网络模型)可以提供该样本确实属于j类的预测概率

的取值范围为0-1。基于标注

的所有训练数据，可以计算出该类样本的平均预测概率t _j作为后续选取噪声样本的阈值，其中

(2)基于t _j可以计算出标记为

但真实标签可能为y ^*＝j的数据，即混淆矩阵

其中

M代表训练集中包含样本所属的类别个数。

(3)将混淆矩阵正则化，即可得到噪声标签与真实标签的联合分布

(4)基于混淆矩阵以及联合分布，可以分别使用它们本身，或是它们的交集、并集，总共四种方式，计算噪声标签。

步骤S13，利用空间标签平滑归一化技术，并以像素为单位对所述噪声标签进行修改。

其中，对于SLSR技术，利用

是指示函数，当括号内的·为逻辑真，则输出1否则输出0。即可将识别出的噪声标签进行修改，其中∈是超参数。修改后的标签即可用于训练学生(Student)模型。另外，在在训练图像分割网络模型的过程中，会生成像素级的噪声识别图，因此可以以像素为单位对噪声标签进行修改，以获得更加精确的结果。

步骤S14，根据所述修改后的数据集重新进行神经网络模型训练，以训练得到新图像分割网络模型。

其中，所述新图像分割网络模型为学生(Student)模型。

具体地，本实现例当中神经网络模型的训练方法的整个过程为，可以先使用含有噪声标签的原始数据集训练一个老师(Teacher)模型；再利用CL技术基于老师(Teacher)模型识别出潜在的噪声标签；最后基于识别出的潜在噪声，使用SLSR技术对噪声标签进行修改，以修改原始数据集，最后根据修改后的数据集重新进行模型训练，得到学生(Student)模型，整个过程如图3所示。

本实施例提出的神经网络模型的训练方法，适用于任何基于有监督学习的图像分割任务。对于噪声标签，本方法显式地计算出噪声标签所在的区域，因此同样具备了很好的可解释性；并且以像素为单位对于噪声标签进行修改，获得了更加精确的结果。特别是对于医学影像分割这类标注困难、容易出现噪声标注的应用，本方法在相关数据集针对性地进行了实验，实验结果证明了本方法较以往方法有着更强的鲁棒性以及准确性。

实施例三

本发明另一方面还提出一种神经网络模型的训练装置，请参阅图4，所示为本发明实施例三提供的神经网络模型的训练装置，所述装置包括：

数据获取模块11，用于获取原始数据集，并根据所述原始数据集训练原始神经网络模型；

噪声识别模块12，用于从所述原始神经网络模型中识别出噪声标签；

模型训练模块13，用于对所述噪声标签对应的原始数据进行修改，并根据修改后的数据集训练新神经网络模型。

在具体实施时，可以利用置信度学习(Confident Learning，简称CL))技术从原始神经网络模型中识别出潜在的噪声标签。一般情况下，对于包含少数噪声标签的原始数据集，CL技术可以从原始神经网络模型中找到标签一致的真实标签，而与真实标签不一致的标签，即为潜在的错误标签，即噪声标签。例如，医学图像的分割模型通常需要大量精细标注分割掩模版的数据，为了加快标注掩模版的进度，通常会采取多医师标注的方法。但是不同医师由于其临床经验的不同，存在一定的标注主观性，这样的主观性往往会使得总体数据的标注标准不一致。由于这些不一致的标注(即噪声标签)是少数，因此模型可以利用置信度学习技术学习一致的标注(即真实标签)，再找出这些少数的不一致的标注及所在的区域，从而识别出噪声标签。

进一步地，在本发明一些可选实施例当中，所述噪声识别模块12还用于利用置信度学习技术从所述原始神经网络模型中识别出噪声标签。

进一步地，在本发明一些可选实施例当中，所述噪声识别模块12包括：

概率计算单元，用于计算所述原始神经网络模型对于每个类别的预测概率；

矩阵计算单元，用于基于所述预测概率参数计算出噪声标签与真实标签的混淆矩阵；

正则化单元，用于将所述混淆矩阵正则化，得到噪声标签与真实标签的联合分布；

噪声识别单元，用于基于所述混淆矩阵和/或所述联合分布，计算出所述噪声标签。

进一步地，在本发明一些可选实施例当中，所述噪声识别单元还用于基于所述混淆矩阵和所述联合分布的交集或并集，计算出所述噪声标签。

其中，所述预测概率包括平均预测概率和预测概率的中位数。

进一步地，在本发明一些可选实施例当中，所述模型训练模块13还用于根据所述修改后的数据集重新进行神经网络模型训练，以训练得到所述新神经网络模型；或者

进一步地，在本发明一些可选实施例当中，所述模型训练模块13包括：

噪声修改单元，用于利用空间标签平滑归一化技术对所述噪声标签进行修改。

进一步地，在本发明一些可选实施例当中，所述噪声修改单元还用于以像素为单位对所述噪声标签进行修改。

上述各模块、单元被执行时所实现的功能或操作步骤与上述方法实施例大体相同，在此不再赘述。

综上，本实施例当中的神经网络模型的训练装置，通过先以原始数据集训练出原始神经网络模型，并在原始神经网络模型中识别出噪声标签，从而确定原始数据集中的错误标签，在对错误标签纠正之后，最终根据修改后的数据集训练新神经网络模型，由于直接从网络模型中确定出错误标签并对其进行纠正，准确性高，同样具备了很好的可解释性，使得最终训练得到的新神经网络模型具有较好的抗干扰效果。

实施例四

请参阅图5，本发明实施例四提出一种神经网络模型的训练设备，包括处理器10、存储器20以及存储在存储器上并可在处理器上运行的计算机程序30，所述处理器10执行所述程序30时实现如上述的神经网络模型的训练方法。

其中，处理器10在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器或其他数据处理芯片，用于运行存储器 20中存储的程序代码或处理数据，例如执行访问限制程序等。

其中，存储器20至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、磁性存储器、磁盘、光盘等。存储器20在一些实施例中可以是神经网络模型的训练设备的内部存储单元，例如该神经网络模型的训练设备的硬盘。存储器20在另一些实施例中也可以是神经网络模型的训练设备的外部存储装置，例如神经网络模型的训练设备上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，存储器20还可以既包括神经网络模型的训练设备的内部存储单元也包括外部存储装置。存储器20不仅可以用于存储安装于神经网络模型的训练设备的应用软件及各类数据，还可以用于暂时地存储已经输出或者将要输出的数据。

需要指出的是，图5示出的结构并不构成对神经网络模型的训练设备的限定，在其它实施例当中，该神经网络模型的训练设备可以包括比图示更少或者更多的部件，或者组合某些部件，或者不同的部件布置。

综上，本实施例当中的神经网络模型的训练设备，通过先以原始数据集训练出原始神经网络模型，并在原始神经网络模型中识别出噪声标签，从而确定原始数据集中的错误标签，在对错误标签纠正之后，最终根据修改后的数据集训练新神经网络模型，由于直接从网络模型中确定出错误标签并对其进行纠正，准确性高，同样具备了很好的可解释性，使得最终训练得到的新神经网络模型具有较好的抗干扰效果。

本领域技术人员可以理解，在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。

计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或它们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

一种神经网络模型的训练方法，其特征在于，所述方法包括：

获取原始数据集，并根据所述原始数据集训练原始神经网络模型；

从所述原始神经网络模型中识别出噪声标签；

对所述噪声标签进行修改，并根据修改后的数据集训练新神经网络模型。
如权利要求1所述的神经网络模型的训练方法，其特征在于，所述从所述原始神经网络模型中识别出噪声标签的步骤包括。

利用置信度学习技术从所述原始神经网络模型中识别出噪声标签。
如权利要求2所述的神经网络模型的训练方法，其特征在于，所述利用置信度学习技术从所述原始神经网络模型中识别出噪声标签的步骤包括：

计算所述原始神经网络模型对于每个类别的预测概率；

基于所述预测概率参数计算出噪声标签与真实标签的混淆矩阵；

将所述混淆矩阵正则化，得到噪声标签与真实标签的联合分布；

基于所述混淆矩阵和/或所述联合分布，计算出所述噪声标签。
如权利要求3所述的神经网络模型的训练方法，其特征在于，基于所述混淆矩阵和所述联合分布，计算出所述噪声标签的步骤包括：

基于所述混淆矩阵和所述联合分布的交集或并集，计算出所述噪声标签。
如权利要求3或4任一项所述的神经网络模型的训练方法，其特征在于，所述预测概率包括平均预测概率和预测概率的中位数。
如权利要求1所述的神经网络模型的训练方法，其特征在于，根据修改后的数据集训练新神经网络模型的步骤包括：

根据所述修改后的数据集重新进行神经网络模型训练，以训练得到所述新神经网络模型；或者

根据所述修改后的数据集对所述原始神经网络模型进行调整，以调整得到所述新神经网络模型。
如权利要求1所述的神经网络模型的训练方法，其特征在于，所述对所述噪声标签进行修改的步骤包括：

利用空间标签平滑归一化技术对所述噪声标签进行修改。
如权利要求1所述的神经网络模型的训练方法，其特征在于，所述神经网络模型为图像分割网络模型，所述对所述噪声标签进行修改的步骤包括：

以像素为单位对所述噪声标签进行修改。
一种神经网络模型的训练装置，其特征在于，所述装置包括：

数据获取模块，用于获取原始数据集，并根据所述原始数据集训练原始神经网络模型；

噪声识别模块，用于从所述原始神经网络模型中识别出噪声标签；

模型训练模块，用于对所述噪声标签对应的原始数据进行修改，并根据修改后的数据集训练新神经网络模型。
一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1－8任一所述的神经网络模型的训练方法。
一种神经网络模型的训练设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1－8任一所述的神经网络模型的训练方法。