WO2023071743A1

WO2023071743A1 - 网络模型训练方法、装置和计算机可读存储介质

Info

Publication number: WO2023071743A1
Application number: PCT/CN2022/124171
Authority: WO
Inventors: 栗伟清; 韩炳涛; 屠要峰; 王永成; 刘涛
Original assignee: 中兴通讯股份有限公司
Priority date: 2021-10-25
Filing date: 2022-10-09
Publication date: 2023-05-04
Also published as: CN113947196A

Abstract

本申请公开了网络模型训练方法、装置和计算机可读存储介质，通过对预训练模型依次进行自监督预训练、领域数据微调和知识蒸馏，例如使用海量数据无监督预训练超大规模神经网络模型，利用有限标注样本对预训练模型进行微调，使用知识蒸馏方法将微调后的超大模型压缩为目标模型，以满足目标设备的部署要求。

Description

网络模型训练方法、装置和计算机可读存储介质

相关申请的交叉引用

本申请基于申请号为202111239621.1、申请日为2021年10月25日的中国专利申请提出，并要求该中国专利申请的优先权，该中国专利申请的全部内容在此引入本申请作为参考。

技术领域

本申请实施例涉及但不限于深度学习技术领域，特别是涉及一种网络模型训练方法、装置和计算机可读存储介质。

背景技术

目前，人工智能(AI)技术以机器学习特别是深度学习为核心，在计算机视觉、语音和自然语言等应用领域迅速发展，开始对各个行业进行赋能，但是AI在工业界的落地进程与学术界取得的研究成果相比略显缓慢，这当然存在很多原因，现在工业界应用落地时存在的一个非常普遍的缺陷是，模型的通用性和泛化性比较差，针对一个特定领域的问题，过去一般需要经过采集数据、人工标注、设计模型、训练模型和反复调参等过程最终输出一个可用的模型，开发周期长，而当面对一个新领域的问题时，模型无法复用，又得把这个过程重新来一遍，耗费大量的人力物力。造成这个缺陷的原因主要有两个：一个是人工标注成本太高，某些特定领域需要领域专家进行标注，比如医疗行业；另一个是这种小作坊定制化模型的开发模式，严重依赖场景数据，模型通用性和泛化性太差，无法复用，不具备新任务、新场景的快速扩展能力，开发周期长。

发明内容

以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。

第一方面，本申请实施例提供了一种网络模型训练方法，包括：获取无标签数据对预训练模型进行训练；修改所述预训练模型的输出层为目标任务对应的输出层，生成微调模型；获取所述目标任务的有标签数据对所述微调模型进行训练，生成教师网络；根据所述目标任务构建学生网络；利用多个所述教师网络对所述学生网络进行知识蒸馏，以确定蒸馏损失函数；基于所述蒸馏损失函数对所述学生网络进行迭代训练，生成所述目标任务的目标网络模型。

第二方面，本申请实施例提供了一种网络模型训练装置，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上第一方面所述的网络模型训练方法。

第三方面，本申请实施例提供了一种电子设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上第一方面所述的网络模型训练方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可执行程序，所述计算机可执行程序用于使计算机执行如上第一方面所述的网络模型训练方法。

本申请的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请而了解。本申请的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

附图用来提供对本申请技术方案的进一步理解，并且构成说明书的一部分，与本申请实施例一起用于解释本申请技术方案，并不构成对本申请技术方案的限制。

图1是本申请一个实施例提供的一种网络模型训练方法的主流程图；

图2是本申请一个实施例提供的三大阶段组成示意图；

图3是本申请一个实施例提供的一种网络模型训练方法的子流程图；

图4是本申请一个实施例提供的采用自监督对比学习进行预训练大模型的原理图；

图5是本申请一个实施例提供的投影头内部结构示意图；

图6是本申请一个实施例提供的一种网络模型训练方法的子流程图；

图7是本申请一个实施例提供的使用领域数据进行微调的原理图；

图8是本申请一个实施例提供的一种网络模型训练方法的子流程图；

图9是本申请一个实施例提供的一种教师网络知识蒸馏学生网络的原理图；

图10是本申请一个实施例提供的网络模型训练装置结构示意图；

图11是本申请一个实施例提供的电子设备结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。

应了解，在本申请实施例的描述中，多个(或多项)的含义是两个以上，大于、小于、超过等理解为不包括本数，以上、以下、以内等理解为包括本数。如果有描述到“第一”、“第二”等只是用于区分技术特征为目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。

目前，人工智能技术以机器学习特别是深度学习为核心，在计算机视觉、语音和自然语言等应用领域迅速发展，开始对各个行业进行赋能，但是AI在工业界的落地进程与学术界取得的研究成果相比略显缓慢，这当然存在很多原因，现在工业界应用落地时存在的一个非常普遍的缺陷是，模型的通用性和泛化性比较差，针对一个特定领域的问题，过去一般需要经过采集数据、人工标注、设计模型、训练模型和反复调参等过程最终输出一个可用的模型，开发周期长，而当面对一个新领域的问题时，模型无法复用，又得把这个过程重新来一遍，耗费大量的人力物力。造成这个缺陷的原因主要有两个：一个是人工标注成本太高，某些特定领域需要领域专家进行标注，比如医疗行业；另一个是这种小作坊定制化模型的开发模式，严重依赖场景数据，模型通用性和泛化性太差，无法复用，不具备新任务、新场景的快速扩展能力，开发周期长。

针对人工标注成本高和AI应用开发定制化的问题，本申请实施例提供了一种网络模型训练方法、装置和计算机可读存储介质,基于大规模无标签数据使用自监督对比学习方法来预训练超大规模网络模型，之后对预训练超大规模网络模型进行微调和知识蒸馏，并最终应用于目标任务。通过对预训练模型依次进行自监督预训练、领域数据微调和知识蒸馏，即使用海量数据无监督预训练超大规模神经网络模型，利用有限标注样本对预训练模型进行微调，使用知识蒸馏方法将微调后的超大模型压缩为目标模型，即满足目标设备的部署要求。基于此，可以减少对标注数据的依赖，降低人工标注的成本，可以解决人工标注数据成本高的问题，并可以提高模型的通用性和泛化性，使得本申请输出的目标模型在目标任务上的精度超越了原定制化模型。

如图1所示，图1是本申请一个实施例提供的一种网络模型训练方法的流程图。网络模型训练方法包括但不限于如下步骤：

步骤101，获取无标签数据对预训练模型进行训练；

步骤102，修改预训练模型的输出层为目标任务对应的输出层，生成微调模型；

步骤103，获取目标任务的有标签数据对微调模型进行训练，生成教师网络；

步骤104，根据目标任务构建学生网络；

步骤105，利用多个教师网络对学生网络进行知识蒸馏，以确定蒸馏损失函数；

步骤106，基于蒸馏损失函数对学生网络进行迭代训练，生成目标任务的目标网络模型。

可以理解的是，如图2所示，本申请是由自监督对比学习训练、领域数据微调和知识蒸馏三大阶段依次组成。通过获取无标签数据对预训练模型进行训练，修改预训练模型的输出层为目标任务对应的输出层，生成微调模型，获取目标任务的有标签数据对微调模型进行训练，生成教师网络，根据目标任务构建学生网络，利用多个教师网络对学生网络进行知识蒸馏，以确定蒸馏损失函数，基于蒸馏损失函数对学生网络进行迭代训练，生成目标任务的目标网络模型。需要指出的是，在本申请中的预训练模型是超大规模神经网络模型。通过对预训练模型依次进行自监督预训练、领域数据微调和知识蒸馏，即使用海量数据无监督预训练超大规模神经网络模型，利用有限标注样本对预训练模型进行微调，使用知识蒸馏方法将微调后的超大模型压缩为目标模型，即满足目标设备的部署要求，比如算力、内存、预测精度和推理性能等。基于此，可以减少对标注数据的依赖，降低人工标注的成本，可以解决人工标注数据成本高的问题，并可以提高模型的通用性和泛化性，使得本申请输出的目标模型在目标任务上的精度超越了原定制化模型。因此，使用无标注的数据进行预训练大模型的训练，同时依托预训练大模型强大的通用化能力可以改变过去一种场景一个模型的开发模式，缩短开发周期并降低开发成本，并可以获得比原来所用模型更好的精度，预训练模型使得由原来的手工调参、依靠专家的阶段，进入到了大规模、可复制的大工业施展的阶段，最终加快AI的落地进程。

可以理解的是，在自监督预训练阶段，利用海量无标注的数据，采用自监督对比学习方法来训练超大预训练模型，隐式地学习到了通用视觉句表征知识。为了减少对标注数据的依赖，可以使用弱监督或者无监督(如自监督)的方法进行训练，同时可以克服有监督训练的固有缺陷，即有监督学习通过标签训练得到的模型往往只能学到一些任务特定的知识，而不能学习到一种通用的知识，因此有监督学习学到的特征表示难以迁移到其他任务。而自监督学习是基于数据本身的内在特征，其提供的信息远比标签丰富，所以泛化性能较有监督学习方式更好，但是同有监督训练方法相比，自监督学习方法训练的模型精度比有监督学习的模型要低一些，同时需要更多的数据和更大的模型参数量，也就意味着需要更多的算力和更长的训练时间。

可以理解的是，自监督学习可以利用无标签数据来对网络进行训练。它可以把自己定义的伪标签当作训练的信号，然后把学习到的表示用作目标任务里。而对比学习被当作自监督学习中一个非常重要的一部分，其主要原理是：将一个样本的不同的、增强过的新样本们在嵌入空间中尽可能地拉近，然后让不同的样本之间尽可能地拉远。

可以理解的是，在领域数据微调阶段，针对具体的任务对网络进行修正，在预训练阶段通过自监督学习从大规模数据中获得与具体任务无关的预训练模型，在本阶段，将预训练模型应用于特定任务上，首先修改模型的输出层为特定任务对应的输出层，然后使用有限的有标签数据对模型进行有监督的训练，旨在利用其标注样本对预训练网络的参数进行调整，使其渐渐适应目标任务的特性。

可以理解的是，在知识蒸馏阶段，是在Teacher-Student(教师-学生)框架中，将复杂、学习能力强的网络(Teacher)学到的特征表示“知识”蒸馏出来，传递给参数量小、学习能力弱的网络(Student)。教师网络中学习到的特征表示可作为监督信息，训练学生网络以模仿教师网络的行为。

需要说明的是，本申请的第一个阶段，即自监督预训练阶段，由于使用了大规模数据集和大规模的网络模型，基于大规模数据集的大网络模型的预训练需要庞大的计算资源，训练时会非常吃算力，预估所需时间可能是以周甚至月计数的，所以拥有的硬件资源(特别是深度学习专用加速设备如GPU)越多，算力越强，能够大大减少训练所需时间，进行这种大规模的训练，一般都需要在具备超强分布式并行计算的AI专用平台上进行。

如图3所示，步骤101可以包括但不限于如下子步骤：

步骤1011，从原始图像中随机采样；

步骤1012，对采样的每张图像做两种不同的数据增强，得到第一样本和第二样本；

步骤1013，将第一样本和第二样本分别进行特征表达提取以及非线性变换，得到第一样本的特征表示和第二样本的特征表示；

步骤1014，根据第一样本的特征表示和第二样本的特征表示确定第一样本和第二样本之间的对比损失函数；

步骤1015，基于对比损失函数对预训练模型进行训练。

可以理解的是，如图4所示，从原始图像中随机采样，对采样的每张图像x做两种不同的数据增强，得到第一样本v1和第二样本v2。v1经过编码器网络F1输出特征y1，y1经过投影头g1非线性变换得到第一样本的特征表示z1；而同时，v2经过编码器网络F2输出特征y2，y2经过投影头g2非线性变换得到第一样本的特征表示z2。然后计算第一样本v1和第二样本v2之间的对比损失Loss，可以根据第一样本的特征表示z1和第二样本的特征表示z2来确定第一样本v1和第二样本v2之间的对比损失函数，基于对比损失函数对预训练模型进行训练。自监督对比学习是基于无标签的数据来训练网络模型，经过训练的网络能够从图像中提取到有意义的特征表示，有利于提高其他目标任务的性能，其核心思想是通过计算样本表示间的距离，拉近正样本，拉远负样本。也就是说，当能够区分该样本的正负例时，得到的特征表示就够用了。

可以理解的是，从原始图像中随机采样一个Batch的数据，对Batch里的每张图像做两种不同的数据增强，比如Random Crop和Color Distortion，假设Batch的大小为N，数据增强之后得到2N张图片；图片进入编码器网络进行特征表达提取得到Embedding，目前常用的编码器网络一般是基于ResNet-50模型基础上加宽两倍和4倍后的模型，实验表明，网络的参数量越大，性能越好。本实例可以采用基于Transformer的ViT网络作为基础编码器网络；编码得到特征表示之后，如图5所示，通过一系列的Dense层和ReLU层组成的投影头的非线性变换投影成新的表示形式；计算对比损失，同一张图像的不同数据增强看做是正样例对,同一个Batch里面的其他图像都是负样例，对比损失函数是噪声对比估计(NCE)损失，公式如下：

其中，s _i,j表示第一样本和第二样本两个样例的余弦相似度。l(i，j)表示任意一个样例与其他样例之间的对比损失。L表示对所有样例之间的对比损失求平均值得到的平均对比损失。

经验表明：多个数据增强方法的组合至关重要，能够保证生成有效的特征表示，相比监督学习,无监督学习能够从数据增强里获得更多的好处；Batch Size越大越好，训练时长越长越好。

可以理解的是，模型越大，表达能力和泛化能力越强，并更加的通用化，当迁移到目标任务时性能会有保证。目前常用的网络模型一般是CNN网络，如基于ResNet-50模型基础上加宽两倍和4倍后的模型，在本申请自监督对比学习预训练阶段，引入了Transformer网络作为基础编码器网络，相比与CNN网络，表达能力以及知识抽取能力更加的强大。

如图6所示，步骤102可以包括但不限于如下子步骤：

步骤1021，将预训练模型除了输出层以外的所有参数对应复制到微调模型；

步骤1022，除去预训练模型的输出层，根据目标任务的特性添加新的输出层；

步骤1023，对新的输出层的参数随机初始化。

可以理解的是，如图7所示，微调是将任务无关的预训练大模型迁移到任务已知场景中的一种方式。将预训练模型除了输出层(Output Layer)外的所有参数对应复制到微调模型；除去预训练模型的输出层，并根据目标任务的特性添加新的输出层，并将输出层的参数随机初始化；使用目标任务有标签的数据进行训练，通常使用较小的学习速率对模型进行训练，使其渐渐适应目标任务的特性。

如图8所示，步骤105可以包括但不限于如下子步骤：

步骤1051，对多个教师网络按照权重进行集成并融合输出；

步骤1052，基于教师网络的融合输出和学生网络反向传播误差的对应关系确定蒸馏损失函数。

可以理解的是，经过微调的预训练模型，仍然存在参数量大、计算量大的问题，如果想很好地应用在目标任务上，特别是资源比较受限的边缘侧或端侧设备上，必须对模型进行压缩，而知识蒸馏就具有模型压缩的思想，通过一步一步地使用一个较大的已经训练好的网络去教导一个较小的网络确切地去做什么。然后，通过尝试复制大网络在每一层的输出(不仅仅是最终的损失)，小网络被训练以学习大网络的准确行为。具体实践中，可以使用多个教师网络来蒸馏小网络，即多模型集成蒸馏。

可以理解的是，如图9所示，知识蒸馏具体流程可以包括：构建学生网络，根据具体任务以及场景要求来设计学生网络模型，并建立与教师网络的对应关系；教师网络前向传播。所有的教师网络执行前向传播，以获得所有中间输出，并执行数据增强；对所有的教师网络的输出进行按权重进行集成，融合为一个输出；学生网络执行反向传播过程，完成参数更新。利用教师网络的融合输出和学生网络反向传播误差的对应关系，使学生网络能够学会复制教师网络的行为，最终形成优化的学生网络，蒸馏损失函数定义如下：

其中，对于有标签的数据，使用-(1-α)L _student计算，对于无标签的数据，使用L _distill计算。

把大模型作为教师网络，让一个小模型作为学生网络来学习，接近大模型的能力，但是模型的参数减少很多。

另外，一般情况下，教师网络要比学生网络大很多，相应地前向计算也会更加耗时，而前向计算完毕之后，学生网络需要进行反向传播进行模型参数更新，而教师网络不需要执行反向传播过程，所以为了加快知识蒸馏的计算，在学生网络进行反向传播时，就可以让教师网络执行下一个Batch数据的前向计算而不必等到学习网络反向传播计算完成。

可以理解的是，在知识蒸馏阶段采用了多个教师网络，每个教师网络的输出按权重进行集成，最终融合为一个输出，来对学生网络进行蒸馏；为了提高计算效率，在学生网络进行反向传播阶段，即让教师网络执行前向传播。

使用本申请提出的自监督对比学习训练、领域数据微调和知识蒸馏三大阶段训练优化，可以减少对标注数据的依赖，降低人工标注的成本，使用无标注的数据进行预训练大模型的训练，同时依托预训练大模型强大的通用化能力可以改变过去一种场景一个模型的开发模式，缩短开发周期并降低开发成本，并可以获得比原来所用模型更好的精度，预训练模型使得由原来的手工调参、依靠专家的阶段，进入到了大规模、可复制的大工业施展的阶段，最终加快AI的落地进程。

如图10所示，本申请实施例还提供了一种网络模型训练装置。

在实施例中，该网络模型训练装置包括：一个或多个处理器和存储器，图10中以一个处理器及存储器为例。处理器和存储器可以通过总线或者其他方式连接，图10中以通过总线连接为例。

存储器作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序以及非暂态性计算机可执行程序，如上述本申请实施例中的网络模型训练方法。处理器通过运行存储在存储器中的非暂态软件程序以及程序，从而实现上述本申请实施例中的网络模型训练方法。

存储器可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储执行上述本申请实施例中的网络模型训练方法所需的数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中，存储器可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至该网络模型训练装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

实现上述本申请实施例中的网络模型训练方法所需的非暂态软件程序以及程序存储在存储器中，当被一个或者多个处理器执行时，执行上述本申请实施例中的网络模型训练方法，例如，执行以上描述的图1中的方法步骤101至步骤106，图3中的方法步骤1011至步骤1015，图6中的方法步骤1021至步骤1023，图8中的方法步骤1051至步骤1052，通过获取无标签数据对预训练模型进行训练，修改预训练模型的输出层为目标任务对应的输出层，生成微调模型，获取目标任务的有标签数据对微调模型进行训练，生成教师网络，根据目标任务构建学生网络，利用多个教师网络对学生网络进行知识蒸馏，以确定蒸馏损失函数，基于蒸馏损失函数对学生网络进行迭代训练，生成目标任务的目标网络模型。通过对预训练模型依次进行自监督预训练、领域数据微调和知识蒸馏，即使用海量数据无监督预训练超大规模神经网络模型，利用有限标注样本对预训练模型进行微调，使用知识蒸馏方法将微调后的超大模型压缩为目标模型，即满足目标设备的部署要求。基于此，可以减少对标注数据的依赖，降低人工标注的成本，可以解决人工标注数据成本高的问题，并可以提高模型的通用性和泛化性，使得本申请输出的目标模型在目标任务上的精度超越了原定制化模型。

如图11所示，本申请实施例还提供了一种电子设备。

在实施例中，该电子设备包括：一个或多个处理器和存储器，图11中以一个处理器及存储器为例。处理器和存储器可以通过总线或者其他方式连接，图11中以通过总线连接为例。

此外，本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机可执行程序，该计算机可执行程序被一个或多个控制处理器执行，例如，被图10中的一个处理器执行，可使得上述一个或多个处理器执行上述本申请实施例中的网络模型训练方法，例如，执行以上描述的图1中的方法步骤101至步骤106，图3中的方法步骤1011至步骤1015，图6中的方法步骤1021至步骤1023，图8中的方法步骤1051至步骤1052，通过获取无标签数据对预训练模型进行训练，修改预训练模型的输出层为目标任务对应的输出层，生成微调模型，获取目标任务的有标签数据对微调模型进行训练，生成教师网络，根据目标任务构建学生网络，利用多个教师网络对学生网络进行知识蒸馏，以确定蒸馏损失函数，基于蒸馏损失函数对学生网络进行迭代训练，生成目标任务的目标网络模型。通过对预训练模型依次进行自监督预训练、领域数据微调和知识蒸馏，即使用海量数据无监督预训练超大规模神经网络模型，利用有限标注样本对预训练模型进行微调，使用知识蒸馏方法将微调后的超大模型压缩为目标模型，即满足目标设备的部署要求。基于此，可以减少对标注数据的依赖，降低人工标注的成本，可以解决人工标注数据成本高的问题，并可以提高模型的通用性和泛化性，使得本申请输出的目标模型在目标任务上的精度超越了原定制化模型。

因此，使用无标注的数据进行预训练大模型的训练，同时依托预训练大模型强大的通用化能力可以改变过去一种场景一个模型的开发模式，缩短开发周期并降低开发成本，并可以获得比原来所用模型更好的精度，预训练模型使得由原来的手工调参、依靠专家的阶段，进入到了大规模、可复制的大工业施展的阶段，最终加快AI的落地进程。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器，如中央处理器、数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读程序、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读程序、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

以上是对本申请的较佳实施进行了具体说明，但本申请并不局限于上述实施方式，熟悉本领域的技术人员在不违背本申请精神的共享条件下还可作出种种等同的变形或替换，这些等同的变形或替换均包括在本申请权利要求所限定的范围内。

Claims

一种网络模型训练方法，包括：

获取无标签数据对预训练模型进行训练；

修改所述预训练模型的输出层为目标任务对应的输出层，生成微调模型；

获取所述目标任务的有标签数据对所述微调模型进行训练，生成教师网络；

根据所述目标任务构建学生网络；

利用多个所述教师网络对所述学生网络进行知识蒸馏，以确定蒸馏损失函数；

基于所述蒸馏损失函数对所述学生网络进行迭代训练，生成所述目标任务的目标网络模型。
根据权利要求1所述的方法，其中，所述获取无标签数据对预训练模型进行训练，包括：

从原始图像中随机采样；

对采样的每张图像做两种不同的数据增强，得到第一样本和第二样本；

将第一样本和第二样本分别进行特征表达提取以及非线性变换，得到所述第一样本的特征表示和所述第二样本的特征表示；

根据所述第一样本的特征表示和所述第二样本的特征表示确定所述第一样本和所述第二样本之间的对比损失函数；

基于所述对比损失函数对所述预训练模型进行训练。
根据权利要求2所述的方法，其中，所述将第一样本和第二样本分别进行特征表达提取以及非线性变换，得到所述第一样本的特征表示和所述第二样本的特征表示，包括：

将第一样本和第二样本分别输入至编码器网络进行特征表达提取，得到第一特征表示和第二特征表示；

将所述第一特征表示和所述第二特征表示输入至投影头进行非线性变换投影成所述第一样本的特征表示和所述第二样本的特征表示，其中，所述投影头由Dense层和ReLU层组成。
根据权利要求3所述的方法，其中，所述编码器网络为视觉Transformer编码器网络。
根据权利要求1所述的方法，其中，所述修改所述预训练模型的输出层为目标任务对应的输出层，生成微调模型，包括：

将所述预训练模型除了输出层以外的所有参数对应复制到所述微调模型；

除去所述预训练模型的输出层，根据所述目标任务的特性添加新的输出层；

对新的输出层的参数随机初始化。
根据权利要求1所述的方法，其中，所述利用多个所述教师网络对所述学生网络进行知识蒸馏，以确定蒸馏损失函数，包括：

对多个所述教师网络按照权重进行集成并融合输出；

基于所述教师网络的融合输出和所述学生网络反向传播误差的对应关系确定蒸馏损失函数。
根据权利要求6所述的方法，其中，所述教师网络执行前向传播，并执行数据增强。
一种网络模型训练装置，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，所述处理器执行所述计算机程序时实现如权利要求1至7中任意一项所述的网络模型训练方法。
一种电子设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，所述处理器执行所述计算机程序时实现如权利要求1至7中任意一项所述的网络模型训练方法。
一种计算机可读存储介质，存储有计算机可执行程序，当所述计算机可执行程序被处理器执行时，使得所述处理器执行如权利要求1至7任意一项所述的网络模型训练方法。