WO2023024920A1

WO2023024920A1 - 模型训练方法、系统、集群及介质

Info

Publication number: WO2023024920A1
Application number: PCT/CN2022/111734
Authority: WO
Inventors: 童贝; 喻晓源
Original assignee: 华为云计算技术有限公司
Priority date: 2021-08-24
Filing date: 2022-08-11
Publication date: 2023-03-02
Also published as: CN115718869A; US20240202535A1; EP4386585A1

Abstract

一种人工智能（AI）模型训练方法，包括：确定待训练的第一模型和待训练的第二模型（S502），第一模型和第二模型为异构的两种AI模型，将训练数据输入第一模型和第二模型，获得第一模型对训练数据进行推理后的第一输出，以及第二模型对训练数据进行推理后的第二输出（S504），然后以第二输出为第一模型的监督信号，结合第一输出迭代更新第一模型的模型参数，直至第一模型满足第一预设条件（S506）。该方法利用与第一模型互补的第二模型对训练数据进行推理后的输出作为监督信号，训练第一模型，促进第一模型加速收敛，无需在大规模数据集上预训练，缩短了训练时间，提高了训练效率。

Description

模型训练方法、系统、集群及介质

本申请要求于2021年08月24日提交中国国家知识产权局、申请号为202110977567.4、发明名称为“模型训练方法、系统、集群及介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及人工智能(artificial intelligence，AI)技术领域，尤其涉及一种模型训练方法、模型训练系统以及计算设备集群、计算机可读存储介质、计算机程序产品。

背景技术

随着AI技术的不断发展，很多新的AI模型也随之产生。其中，AI模型是指通过机器学习等AI技术开发和训练得到的用于实现特定AI任务的算法模型。AI任务是指利用AI模型的功能完成的任务。其中，AI任务可以包括语言翻译、智能问答等自然语言处理(natural language processing，NLP)任务，或者目标检测、图像分类等计算机视觉(computer vision，CV)任务。

新的AI模型通常是AI领域的专家针对特定的AI任务而提出的，并且这些AI模型在上述特定的AI任务取得了较好的效果。因此，很多研究者尝试将这些新的AI模型引入其他的AI任务。以转换器(transformer)模型为例，transformer模型是一种基于注意力机制对输入数据的各个部分进行加权的深度学习模型。该transformer模型在很多NLP任务中均获得了显著的效果，很多研究者尝试将transformer模型引入CV任务，例如图像分类任务、目标检测任务等等。

然而，将AI模型(例如是transformer模型)引入新的AI任务时，通常需要先在较大的数据集上进行预训练，由此导致整个训练过程需要花费较长时间，例如一些AI模型可能需要训练数千天，难以满足业务的需求。

发明内容

本申请提供了一种AI模型训练方法，该方法利用与第一模型互补的第二模型对训练数据进行推理后的输出作为监督信号，训练第一模型，促进第一模型加速收敛，无需在大规模数据集上预训练，缩短了训练时间，提高了训练效率。本申请还提供了上述方法对应的模型训练系统、计算设备集群、计算机可读存储介质以及计算机程序产品。

第一方面，本申请提供了一种AI模型训练方法。该方法可以由模型训练系统执行。该模型训练系统可以是用于训练AI模型的软件系统，计算设备或计算设备集群通过运行该软件系统的程序代码，以执行AI模型训练方法。该模型训练系统也可以是用于训练AI模型的硬件系统。下文以该模型训练系统为软件系统进行示例说明。

具体地，模型训练系统确定待训练的第一模型和待训练的第二模型，该第一模型和第二模型为异构的两种AI模型，然后将训练数据输入所述第一模型和所述第二模型，获得所述第一模型对所述训练数据进行推理后的第一输出，以及所述第二模型对所述训练数据进行推理后的第二输出，接着以所述第二输出为所述第一模型的监督信号，结合所述第一输出迭代更新所述第一模型的模型参数，直至所述第一模型满足第一预设条件。

该方法中，模型训练系统利用与第一模型性能互补的第二模型对训练数据进行推理后的第二输出，为第一模型的训练加入额外的监督信号，促进第一模型向与该第一模型互补的第二模型学习，使得第一模型可以加速收敛，无需在大规模的数据集上进行预训练，大幅缩短了训练时间，提高了第一模型训练的效率，满足了业务的需求。

在一些可能的实现方式中，模型训练系统还可以以所述第一输出为所述第二模型的监督信号，结合所述第二输出迭代更新所述第二模型的模型参数，直至所述第二模型满足第二预设条件。

如此，模型训练系统利用与第二模型性能互补的第一模型对训练数据进行推理后的第一输出，为第二模型的训练加入额外的监督信号，促进第二模型向与该第二模型互补的第一模型学习，使得第二模型可以加速收敛，无需在大规模的数据集上进行预训练，大幅缩短了训练时间，提高了第二模型训练的效率，满足了业务的需求。

在一些可能的实现方式中，所述第一输出包括所述第一模型从所述训练数据中提取的第一特征和基于所述第一特征推理的第一概率分布中的至少一个，所述第二输出包括所述第二模型从所述训练数据中提取的第二特征和基于所述第二特征推理的第二概率分布中的至少一个。

模型训练系统以第二输出为第一模型的监督信号，结合第一输出迭代更新所述第一模型的模型参数，可以通过如下方式实现：根据所述第一特征和所述第二特征确定第一对比损失，和/或者，根据所述第一概率分布和所述第二概率分布确定第一相对熵损失；然后根据所述第一对比损失和所述第一相对熵损失中的至少一个，迭代更新所述第一模型的模型参数。

基于上述对比损失和/或相对熵损失进行梯度回流，模型训练系统不仅可以使得AI模型学习到如何区分不同的类别，还能够使AI模型参考另一个AI模型的概率估计(或称作概率分布)来提升自身的泛化能力。

在一些可能的实现方式中，模型训练系统在迭代更新所述第一模型的模型参数时，可以先根据所述第一对比损失的梯度和所述第一相对熵损失的梯度迭代更新所述第一模型的模型参数。当所述第一模型的监督损失与所述第二模型的监督损失的差值小于第一预设阈值时，停止执行根据所述第一对比损失的梯度迭代更新所述第一模型的模型参数。

该方法中，模型训练系统通过对梯度回流进行限制，例如限制对比损失的梯度回流至第一模型，可以避免性能较差的模型对性能较好的模型产生误导，导致模型朝着错误的方向收敛，由此可以促进第一模型高效收敛。

在一些可能的实现方式中，模型训练系统在迭代更新所述第二模型的模型参数时，可以先根据所述第二对比损失的梯度和所述第二相对熵损失的梯度迭代更新所述第二模型的模型参数。当所述第二模型的监督损失与所述第一模型的监督损失的差值小于第二预设阈值时，停止执行根据所述第二相对熵损失的梯度迭代更新所述第二模型的模型参数。

模型训练系统通过对梯度回流进行限制，例如限制相对熵损失的梯度回流至第二模型，可以避免性能较差的模型对性能较好的模型产生误导，导致模型朝着错误的方向收敛，由此可以促进第二模型高效收敛。

在一些可能的实现方式中，由于模型结构的差异，训练第一模型的分支和训练第二模型的分支的学习速度、数据利用效率及表征能力的上限可以是不同的，模型训练系统可以调整训练策略，实现在训练的不同阶段，由训练效果好(如收敛快、精度高)的分支充当老师的角色(即提供监督信号的角色)，促进训练效果较差的分支进行学习。在训练效果接近的情况下，两个分支可以互为合作伙伴，相互学习。随着训练的递进，分支的角色可以发生互换。也即异构的两个AI模型在训练过程中可以自主地选择相应角色达到互相促进的目的，提高了训练效率。

在一些可能的实现方式中，所述第一模型为转换器模型，所述第二模型为卷积神经网络模型。转换器模型和卷积神经网络模型的性能互补，因此，模型训练系统可以采用互补学习的方式训练转换器模型和卷积神经网络模型，提高训练效率。

在一些可能的实现方式中，模型训练系统可以根据用户通过用户界面的选择，确定所述待训练的第一模型和所述待训练的第二模型，或者是根据用户设置的AI任务的类型确定所述待训练的第一模型和所述待训练的第二模型。

该方法中，模型训练系统支持根据AI任务的类型自适应地确定待训练的第一模型和待训练的第二模型，提升了AI模型训练的自动化程度，并且，模型训练系统也支持人为干预，例如人工选择待训练的第一模型和待训练的第二模型，实现交互式训练。

在一些可能的实现方式中，模型训练系统可以接收用户通过用户界面配置的训练参数，也可以根据用户设置的AI任务的类型以及所述第一模型、所述第二模型，确定训练参数。如此，模型训练系统可以支持自适应确定训练参数，进而实现全自动的AI模型训练方案，此外，模型训练系统也支持人工干预的方式配置训练参数，满足了个性化的业务需求。

在一些可能的实现方式中，模型训练系统可以输出已训练的第一模型和已训练的第二模型中的至少一个，以通过已训练的第一模型和已训练的第二模型中的至少一个进行推理。也即模型训练系统可以实现联合训练及可拆卸推理(例如使用其中一个AI模型进行推理)，由此提升了部署AI模型的灵活性，降低AI模型部署的难度。

在一些可能的实现方式中，所述训练参数包括训练轮次、优化器类型、学习率更新策略、模型参数初始化方式和训练策略中的一种或多种。模型训练系统可以按照上述训练参数，迭代更新第一模型的模型参数，以提升第一模型的训练效率。

第二方面，本申请提供了一种模型训练系统。所述系统包括：

交互单元，用于确定待训练的第一模型和待训练的第二模型，所述第一模型和所述第二模型为异构的两种AI模型；

训练单元，用于将训练数据输入所述第一模型和所述第二模型，获得所述第一模型对所述训练数据进行推理后的第一输出，以及所述第二模型对所述训练数据进行推理后的第二输出；

所述训练单元，还用于以所述第二输出为所述第一模型的监督信号，结合所述第一输出迭代更新所述第一模型的模型参数，直至所述第一模型满足第一预设条件。

在一些可能的实现方式中，所述训练单元还用于：

以所述第一输出为所述第二模型的监督信号，结合所述第二输出迭代更新所述第二模型的模型参数，直至所述第二模型满足第二预设条件。

在一些可能的实现方式中，所述第一输出包括所述第一模型从所述训练数据中提取的第一特征和基于所述第一特征推理的第一概率分布中的至少一个，所述第二输出包括所述第二模型从所述训练数据中提取的第二特征和基于所述第二特征推理的第二概率分布中的至少一个；

所述训练单元具体用于：

根据所述第一特征和所述第二特征确定第一对比损失，和/或者，根据所述第一概率分布和所述第二概率分布确定第一相对熵损失；

根据所述第一对比损失和所述第一相对熵损失中的至少一个，迭代更新所述第一模型的模型参数。

在一些可能的实现方式中，所述训练单元具体用于：

根据所述第一对比损失的梯度和所述第一相对熵损失的梯度迭代更新所述第一模型的模型参数；

当所述第一模型的监督损失与所述第二模型的监督损失的差值小于第一预设阈值时，停止执行根据所述第一对比损失的梯度迭代更新所述第一模型的模型参数。

在一些可能的实现方式中，所述第一模型为转换器模型，所述第二模型为卷积神经网络模型。

在一些可能的实现方式中，所述交互单元具体用于：

根据用户通过用户界面的选择，确定所述待训练的第一模型和所述待训练的第二模型；或者，

根据用户设置的AI任务的类型确定所述待训练的第一模型和所述待训练的第二模型。

在一些可能的实现方式中，所述交互单元还用于：

接收用户通过用户界面配置的训练参数；和/或，

根据用户设置的AI任务的类型以及所述第一模型、所述第二模型，确定训练参数。

在一些可能的实现方式中，所述训练参数包括训练轮次、优化器类型、学习率更新策略、模型参数初始化方式和训练策略中的一种或多种。

第三方面，本申请提供一种计算设备集群，所述计算设备集群包括至少一台计算设备。至少一台计算设备包括至少一个处理器和至少一个存储器。所述处理器、所述存储器进行相互的通信。所述至少一个处理器用于执行所述至少一个存储器中存储的指令，以使得计算设备集群执行如第一方面或第一方面的任一种实现方式所述的方法。

第四方面，本申请提供一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，所述指令指示计算设备或计算设备集群执行上述第一方面或第一方面的任一种实现方式所述的方法。

第五方面，本申请提供了一种包含指令的计算机程序产品，当其在计算设备或计算设备集群上运行时，使得计算设备或计算设备集群执行上述第一方面或第一方面的任一种实现方式所述的方法。本申请在上述各方面提供的实现方式的基础上，还可以进行进一步组合以提供更多实现方式。

附图说明

为了更清楚地说明本申请实施例的技术方法，下面将对实施例中所需使用的附图作以简单地介绍。

图1为本申请实施例提供的一种模型训练系统的系统架构图；

图2为本申请实施例提供的一种模型选择界面的示意图；

图3为本申请实施例提供的一种训练参数配置界面的示意图；

图4为本申请实施例提供的一种模型训练系统的部署环境示意图；

图5为本申请实施例提供的一种模型训练方法的流程图；

图6为本申请实施例提供的一种模型训练方法的流程示意图；

图7为本申请实施例提供的一种模型训练进程示意图；

图8为本申请实施例提供的一种计算设备集群的结构示意图。

具体实施方式

本申请实施例中的术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。

为了便于理解本申请实施例，首先，对本申请涉及的部分术语进行解释说明。

AI任务是指利用AI模型的功能完成的任务。AI任务可以分为自然语言处理(natural language processing，NLP)任务、计算机视觉(computer vision，CV)任务、自动语音识别(automatic speech recognition，ASR)任务等不同类型。

AI模型是指通过机器学习等AI技术开发和训练得到的用于实现特定AI任务的算法模型。本申请实施例中也将AI模型简称为“模型”。不同类型的AI任务可以通过各自对应的AI模型完成。例如，语言翻译或者智能问答等NLP任务可以通过transformer模型完成。又例如，图像分类或目标检测等CV任务可以通过卷积神经网络(convolutional neural network，CNN)模型完成。

由于一些AI模型在特定的AI任务上取得较好的效果，很多研究者尝试将这些AI模型引入其他AI任务。例如transformer模型在很多NLP任务中均获得了显著的效果，很多研究者尝试将transformer模型引入CV任务。将transformer模型引入CV任务时，通常需要将图像进行序列化。以图像分类任务为例，先对输入图像进行分块，提取每个分块的特征表示以实现输入图像的序列化，然后将分块的特征表示输入到transformer模型对输入图像分类。

然而，NLP任务中词表包括的词的数量是有限的，CV任务中输入图像的模式通常有无限可能，如此导致transformer模型引入到CV任务等其他任务中时，需要在较大的数据集上进行预训练，进而导致整个训练过程需要花费较长时间。例如一些AI模型引入到其他AI任务可能需要训练数千天，难以满足业务需求。

有鉴于此，本申请实施例提供了一种AI模型训练方法。该方法可以由模型训练系统执行。模型训练系统可以是用于训练AI模型的软件系统，该软件系统可以部署在计算设备集群中。计算设备集群通过运行上述软件系统的程序代码，从而执行本申请实施例的AI模型训练方法。在一些实施例中，模型训练系统也可以是硬件系统，该硬件系统运行时执行本申请实施例的AI模型训练方法。

具体地，模型训练系统可以确定待训练的第一模型和待训练的第二模型，其中，第一模型和第二模型为异构的两种AI模型，也即第一模型和第二模型为不同结构类型的AI模型，例如一个AI模型可以为transformer模型，另一个AI模型可以为CNN模型。由于异构的两种AI模型的性能通常是互补的。为此，模型训练系统可以通过互补学习的方式对第一模型和第二模型进行联合训练。

其中，模型训练系统对第一模型和第二模型进行联合训练的过程为，将训练数据输入第一模型和第二模型，获得第一模型对训练数据进行推理后的第一输出，以及第二模型对训练数据进行推理后的第二输出，然后以第二输出为第一模型的监督信号，结合第一输出迭代更新第一模型的模型参数，直至第一模型满足第一预设条件。

在该方法中，模型训练系统利用第二模型对训练数据进行推理后的第二输出为第一模型的训练加入额外的监督信号，促进第一模型向与该第一模型互补的第二模型学习，使得第一模型可以加速收敛，无需在大规模的数据集上进行预训练，大幅缩短了训练时间，提高了第一模型训练的效率，满足了业务的需求。

为了使得本申请的技术方案更加清楚、易于理解，下面先对模型训练系统的架构进行介绍。

参见图1所示的模型训练系统的架构图，模型训练系统100包括交互单元102和训练单元104。其中，交互单元102可以通过浏览器(browser)或客户端(client)与用户交互。

具体地，交互单元102用于确定待训练的第一模型和待训练的第二模型，该第一模型和第二模型为异构的两种AI模型。训练单元104用于将训练数据输入第一模型和第二模型，获得第一模型进行推理后的第一输出，以及第二模型对训练数据进行推理后的第二输出，然后以第二输出为所述第一模型的监督信号，结合所述第一输出迭代更新所述第一模型的模型参数，直至所述第一模型满足第一预设条件。进一步地，训练单元104还用于以所述第一输出为第二模型的监督信号，结合第二输出迭代更新第二模型的模型参数，直至第二模型满足第二预设条件。

在一些可能的实现方式中，交互单元102可以通过浏览器或客户端与用户交互，从而确定待训练的第一模型和待训练的第二模型。例如，交互单元102可以根据用户通过用户界面的选择，确定待训练的第一模型和待训练的第二模型。又例如，交互单元102可以根据用户设置的AI任务的类型自动地确定待训练的第一模型和待训练的第二模型。

下面以交互单元102根据用户通过用户界面的选择，确定待训练的第一模型和待训练的第二模型进行示例说明。其中，用户界面包括模型选择界面。该模型选择界面可以是图形用户界面(graphical user interface，GUI)或者是命令用户界面(command user interface，CUI)。本实施例以模型选择界面为GUI进行示例说明。交互单元102可以响应于客户端或浏览器的请求，向客户端或浏览器提供模型选择界面的页面元素，以使客户端或浏览器根据该页面元素渲染模型选择界面。

参见图2所示的模型选择界面的示意图，模型选择界面200承载有模型选择控件，例如是第一模型选择控件202和第二模型选择控件204。当模型选择控件被触发时，可以在该界面中向用户呈现可选择模型列表，可选择模型列表中包括至少一种模型，每种模型包括至少一个实例，用户可以从可选择模型列表中选择一种模型的一个实例作为第一模型，以及从可选择模型列表中选择另一种模型的一个实例作为第二模型。在该示例中，第一模型可以为transformer模型的一个实例，第二模型可以为CNN模型的一个实例。模型选择界面200还承载有确定控件206和取消控件208。其中，确定控件206用于确定用户的模型选择操作，取消控件208用于取消用户的模型选择操作。

其中，可选择模型列表中模型的实例可以是模型训练系统内置的，也可以是用户预先上传的。在一些可能的实现方式中，用户也可以实时上传AI模型的实例，以便于交互单元102将用户上传的多个AI模型的实例确定为待训练的第一模型和待训练的第二模型。具体地，可选择模型列表中可以包括自定义选项，当用户选择该选项，可以触发上传AI模型的实例的流程，交互单元102可以将用户实时上传的AI模型的实例确定为待训练的第一模型和待训练的第二模型。

训练单元104在进行模型训练时，可以按照训练参数进行模型训练。该训练参数可以是用户手动配置的，也可以是训练单元104自动确定或自适应调整的。训练参数可以包括训练轮次、优化器类型、学习率更新策略、模型参数初始化方式和训练策略中的一种或多种。

训练轮次是指训练期数或训练轮数。一期也即一个时期(epoch)是指训练集中的每个样本参与模型训练一次。优化器是指用于更新模型参数的算法，基于此，优化器类型可以包括梯度下降、动量优化、自适应学习率优化等不同类型。其中，梯度下降还可以进一步细分为批量梯度下降(batch gradient descent，BGD)、随机梯度下降(stochastic gradient descent)或者小批量梯度下降(mini-batch gradient descent)。动量优化包括标准动量(momentum)优化如或者是牛顿加速梯度(nesterov accelerated gradient，NAG)优化。自适应学习率优化包括AdaGrad、RMSProp、Adam或者AdaDelta等等。

学习率是指模型参数更新幅度的控制因子，通常可以设置为0.01、0.001或者是0.0001等等。学习率更新策略可以为分段常数衰减、指数衰减、余弦衰减或者倒数衰减等。模型参数初始化方式包括使用预训练模型进行模型参数初始化，在一些实施例中，模型参数初始化方式还可以包括高斯分布初始化等。训练策略是指训练模型采用的策略。训练策略可以分为单阶段训练策略和多阶段训练策略。当优化器类型为梯度下降时，训练策略还可以包括各个训练阶段的梯度回流方式。

下面以用户通过用户界面手动配置训练参数进行示例说明。用户界面包括训练参数配置界面，该训练参数配置界面可以是GUI，也可以是CUI。本申请实施例以训练参数配置界面为GUI进行示例说明。

参见图3所示的训练参数配置界面的示意图，训练参数配置界面300承载有训练轮次配置控件302、优化器类型配置控件304、学习率更新策略配置控件306、模型初始化方式配置控件308和训练策略配置控件310。

其中，训练轮次配置控件302支持用户通过直接输入数值的方式或者加减数值的方式配置训练轮次，例如用户可以通过训练轮次配置控件302直接输入数值100，从而配置训练轮次为100轮。优化器类型配置控件304、学习率更新策略配置控件306、模型参数初始化方式配置控件308和训练策略配置控件310支持用户通过下拉选择方式进行相应的参数配置。在该示例中，用户可以配置优化器类型为Adam，学习率更新策略为指数衰减，模型参数初始化方式为根据预训练模型进行初始化，训练策略为三阶段训练策略。

训练参数配置界面300还承载有确定控件312和取消控件314。当确定控件312被触发时，浏览器或客户端可以将用户配置的上述训练参数提交至模型训练系统100。当取消控件314被触发时，则用户对训练参数的配置被取消。

需要说明的是，图3是以用户对第一模型和第二模型统一配置训练参数进行示例说明，在一些可能的实现方式中，用户也可以对第一模型和第二模型分别配置训练参数。

在一些可能的实现方式中，训练参数也可以根据用户设置的AI任务的类型以及第一模型和第二模型自动确定。具体地，模型训练系统100可以维护AI任务的类型、第一模型、第二模型的映射关系，当模型训练系统100确定AI任务的任务类型以及待训练的第一模型、待训练的第二模型后，可以基于上述映射关系确定训练参数。

图1仅仅是模型训练系统100的一种示意性划分方式，在本申请实施例其他可能的实现方式中，模型训练系统100还可以按照其他方式进行划分。本申请实施例对此不作限定。

模型训练系统100可以具有多种部署方式。在一些可能的实现方式中，模型训练系统100可以集中部署在云环境、边缘环境或终端，也可以分布式部署在云环境、边缘环境或终端中的不同环境。

云环境指示云服务提供商拥有的，用于提供计算、存储、通信资源的中心计算设备集群。中心计算设备集群包括一个或多个中心计算设备，该中心计算设备例如可以是中心服务器。边缘环境指示在地理位置上距离端设备(即端侧设备)较近的，用于提供计算、存储、通信资源的边缘计算设备集群。边缘计算设备集群包括一个或多个边缘计算设备。该边缘计算设备例如可以是边缘服务器或者计算盒子等。终端包括但不限于台式机、笔记本电脑、智能手机等用户终端。

下面以模型训练系统100集中式地部署在云环境，向用户提供训练AI模型的云服务进行示例说明。

参见图4所示的模型训练系统100的部署环境示意图，如图4所示，模型训练系统100集中部署在云环境中，例如是部署在云环境的一个中心服务器中。如此，模型训练系统100可以提供训练AI模型的云服务，以供用户使用。

具体地，部署在云环境中的模型训练系统100可以对外提供云服务的应用程序编程接口(application programming interface，API)。浏览器或客户端可以调用该API，以进入模型选择界面200。用户可以通过该模型选择界面200选择AI模型的实例，模型训练系统100根据用户的选择，确定待训练的第一模型和待训练的第二模型。其中，用户提交选择的AI模型的实例后，浏览器或客户端可以进入训练参数配置界面300。用户可以通过训练参数配置界面300承载的控件配置训练轮次、优化器类型、学习率更新策略、模型参数初始化方式和训练策略等训练参数。模型训练系统100根据用户配置的上述训练参数，对第一模型和第二模型进行联合训练。

具体地，云环境中的模型训练系统100可以根据将训练数据输入第一模型和第二模型，获得第一模型对训练数据进行推理后的第一输出，以及第二模型对训练数据进行推理后的第二输出，以第二输出为第一模型的监督信号，结合第一输出迭代更新第一模型的模型参数，直至第一模型满足第一预设条件。其中，模型训练系统100在迭代更新第一模型的模型参数时，可以根据配置的训练参数，采用梯度下降法迭代更新第一模型的参数，以及采用指数衰减方式更新学习率。

接下来，从模型训练系统100的角度，对本申请实施例提供的AI模型训练方法进行介绍。

参见图5所示的AI模型训练方法的流程图，该方法包括：

S502：模型训练系统100确定待训练的第一模型和待训练的第二模型。

第一模型和第二模型为异构的两种AI模型。其中，异构是指AI模型的结构类型不同。AI模型通常是由多个神经元(cell)连接形成，因此，AI模型的结构类型可以根据神经元的结构类型确定。当神经元的结构类型不同时，基于该神经元形成的AI模型的结构类型可以是不同的。

在一些可能的实现方式中，异构的两种AI模型的性能可以是互补的。其中，性能可以通过不同指标衡量。该指标例如可以是精度、推理时间等。异构的两种AI模型的性能互补可以是第一模型在第一指标的表现优于第二模型在第一指标的表现，第二模型在第二指标的表现优于第一模型。例如，低参数量的AI模型的推理时间短于高参数量的AI模型的推理时间，高参数量的AI模型的精度高于低参数量的AI模型的精度。

基于此，第一模型和第二模型可以是transformer模型、CNN模型、循环神经网络(recurrent neural network，RNN)模型中的不同模型。例如，第一模型可以是transformer模型，第二模型可以是CNN模型。

模型训练系统100可以通过多种方式确定待训练的第一模型和待训练的第二模型。下面分别对不同实现方式进行介绍。

第一种实现方式，模型训练系统100根据用户通过用户界面的选择，确定待训练的第一模型和待训练的第二模型。具体地，模型训练系统100可以响应于客户端或浏览器的请求，返回页面元素，以使客户端或浏览器基于该页面元素，向用户呈现模型选择界面200。用户可以通过模型选择界面200选择不同结构类型的AI模型的实例，例如选择transformer模型、CNN模型、循环神经网络(recurrent neural network，RNN)模型中任意两种模型的实例，模型训练系统100可以将用户选择的模型的实例确定为待训练的第一模型和待训练的第二模型。在一些实施例中，模型训练系统100可以确定transformer模型的实例为待训练的第一模型，确定CNN模型的实例为待训练的第二模型。

第二种实现方式，模型训练系统100获取任务类型，根据任务类型与AI模型的映射关系，确定与该任务类型匹配的模型为待训练的第一模型和待训练的第二模型。例如，任务类型为图像分类时，模型训练系统100可以根据任务类型与AI模型的映射关系，确定该图像分类任务匹配的AI模型包括transformer模型和CNN模型，因而可以将transformer模型的实例和CNN模型的实例确定为待训练的第一模型和待训练的第二模型。

其中，与任务类型匹配的AI模型包括多个。模型训练系统100可以根据业务需求从多个与任务类型匹配的AI模型中确定待训练的第一模型和待训练的第二模型。业务需求可以包括对模型性能的需求、模型大小的需求等。其中，模型性能可以通过精度、推理时间、推理速度等指标表征。

例如，模型训练系统100可以根据对模型大小的需求确定16层transformer模型如16层视觉转换器基础模型(vision transformer base/16，ViT-B/16)为待训练的第一模型，确定50层残差网络模型(residual network-50，ResNet-50)为待训练的第二模型。当然，模型训练系统100也可以基于用户的选择，确定ViT-B/16为待训练的第一模型，以及确定ResNet-50为待训练的第二模型。其中，ResNet为CNN模型的一个示例，ResNet通过短路连接解决深度CNN模型中梯度消失或梯度爆炸的问题。

S504：模型训练系统100将训练数据输入第一模型和第二模型，获得第一模型对训练数据进行推理后的第一输出，以及第二模型对训练数据进行推理后的第二输出。

具体地，模型训练系统100可以获取训练数据集，然后将训练数据集中的训练数据分成若干批，例如是按照预先设置的批大小(batch size)分成若干批，接着将训练数据分批输入第一模型和第二模型，获得第一模型对训练数据进行推理后的第一输出和第二模型对训练数据进行推理后的第二输出。

其中，第一模型对训练数据进行推理后的第一输出包括第一模型从训练数据中提取的第一特征和基于第一特征推理的第一概率分布中的至少一个。类似地，第二模型对训练数据进行推理后的第二输出包括第二模型从训练数据中提取的第二特征和基于第二特征推理的第二概率分布中的至少一个。

需要说明的是，模型训练系统100也可以不对训练数据集中的训练数据进行分批，而是将训练数据集中的训练数据逐个输入第一模型和第二模型，获得第一模型对训练数据进行推理后的第一输出，以及第二模型对训练数据进行推理后的第二输出。也即，模型训练系统100可以采用离线训练方式，或者在线训练方式训练AI模型，本申请实施例对此不作限定。

S506：模型训练系统100以第二输出为第一模型的监督信号，结合第一输出迭代更新第一模型的模型参数，直至第一模型满足第一预设条件。

在本实施例中，第二模型对训练数据进行推理后的第二输出可以作为第一模型的监督信号，用于监督训练第一模型。模型训练系统100监督训练第一模型的过程可以为，模型训练系统100根据第一模型从训练数据中提取的第一特征和第二模型从训练数据中提取的第二特征确定第一对比损失，以及根据第一概率分布和第二概率分布确定第一相对熵损失，然后根据第一对比损失和第一相对熵损失中的至少一个，迭代更新第一模型的模型参数。

对比损失主要用于表征同一训练数据经过不同AI模型进行降维处理(例如是特征提取)后产生的损失。对比损失可以根据第一模型对训练数据进行特征提取得到的第一特征以及第二模型对训练数据进行特征提取得到第二特征得到，例如是根据第一特征和第二特征的距离得到。

在一些实施例中，模型训练系统100可以通过公式(1)确定第一模型和第二模型的对比损失：

其中，L _cont表征对比损失，N为一个批次中训练数据的数量，z表征特征，例如

和

分别表征第一模型对第i个训练数据进行特征提取所得的第一特征和第二模型对第i个训练数据进行特征提取所得的第二特征。类似地，

和

分别表征第一模型对第j个训练数据进行特征提取所得的第一特征和第二模型对第j个训练数据进行特征提取所得的第二特征。i和j可以取值为1至N的任意整数(包括1和N两个端点)。特征可以通过特征向量或特征矩阵等形式表征。P表征特征的相似度的逻辑回归(softmax)概率。其中，特征的相似度可以通过特征向量的距离表征，例如通过特征向量的余弦距离进行表征。另外，第一特征和第二特征的相似度的逻辑回归概率与第二特征和第一特征的相似度的逻辑回归概率通常是不相等的，例如

基于上述公式(1)可知，当一个批次中的训练数据比较相似，而第一特征和第二特征在特征空间的距离较大，则说明当前的模型性能不好，可以加大对比损失。类似地，当一个批次中的训练数据完全不相似，而第一特征和第二特征在特征空间的距离反而较小，则对比损失会加大。通过设置上述对比损失，可以实现在提取到不合适的特征时进行惩罚，反向促进AI模型(例如是第一模型)提取合适的特征。

相对熵损失，也称作KL散度(Kullback-Leibler divergence，KLD)，是对不同概率分布的非对称性的度量，主要用于表征不同模型对同一训练数据进行预测产生的损失。对于图像分类任务而言，相对熵损失可以是同一训练数据经过第一模型和第二模型的分类器进行分类所产生的损失。相对熵可以根据不同概率分布确定。下面以图像分类任务中的相对熵损失进行示例说明。

在一些实施例中，模型训练系统100可以通过公式(2)确定第一模型和第二模型的相对熵损失：

其中，N表示一个批次中训练数据的数量，P ₁(i)表示第一模型对第i个训练数据分类的概率分布，也即第一概率分布，P ₂(i)表示第二模型对第i个训练数据分类的概率分布，也即第二概率分布。其中，P ₁(i)、P ₂(i)为离散的。

基于上述公式(2)可知，P ₁(i)>P ₂(i)时，相对熵损失将会增加，并且，P ₁(i)越大，相对熵损失增加幅度越大。通过设置上述相对熵损失，可以实现在第二模型分类到不准确的类别时进行惩罚。

需要说明的是，相对熵损失(KL散度)不具有对称性，从分布P ₁到分布P ₂的相对熵损失通常并不等于从分布P ₂到分布P ₁的相对熵损失，也即D _KL(P ₁||P ₂)≠D _KL(P ₂||P ₁)。

模型训练系统100可以根据第一特征和第二特征，结合上述公式(1)确定第一对比损失，以及根据第一概率分布和第二概率分布，结合上述公式(2)确定第一相对熵损失，然后模型训练系统100可以根据第一对比损失的梯度和第一相对熵损失的梯度中的至少一个，迭代更新第一模型的模型参数。该模型参数是指通过训练数据能够学习到的参数。例如，第一模型为深度学习模型时，第一模型的模型参数可以包括神经元的权重w和偏置b。

其中，模型训练系统100在迭代更新第一模型的模型参数时，可以根据预先配置的训练参数迭代更新第一模型的模型参数。其中，训练参数包括优化器类型，该优化器类型可以是梯度下降、动量优化等不同类型，梯度下降进一步包括批量梯度下降、随机梯度下降或者小批量梯度下降。模型训练系统100可以根据预先配置的优化器类型，迭代更新第一模型的模型参数，例如模型训练系统100可以通过梯度下降迭代更新第一模型的模型参数。

预先配置的训练参数还包括学习率更新策略，相应地，模型管理系统100可以根据该学习率更新策略更新学习率，例如可以按照指数衰减更新学习率。当模型管理系统100迭代更新第一模型的模型参数时，可以根据梯度(具体是第一对比损失的梯度和第一相对熵损失的梯度中的至少一个)和更新后的学习率迭代更新第一模型的模型参数。

第一预设条件可以根据业务需求进行设置。例如，第一预设条件可以设置为第一模型的性能达到预设性能。其中，性能可以通过精度、推理时间等指标进行衡量。又例如，第一预设条件可以设置为第一模型的损失值趋于收敛，或者第一模型的损失值小于预设值。

第一模型的性能可以通过第一模型在测试数据集的表现确定。训练AI模型的数据集包括训练数据集、验证数据集和测试数据集。其中，训练数据集用于学习模型参数，如学习第一模型中神经元的权重，进一步地，还可以学习第一模型中神经元的偏置。验证数据集用于选择第一模型的超参数，如模型层数、神经元数量、学习率等。测试数据集用于评价模型的性能。测试数据集既不参与确定模型参数的过程，也不参与选择超参数的过程。为了保障评价准确度，测试数据集中的测试数据通常使用一次。基于此，模型训练系统100可以将测试数据集中的测试数据输入第一模型，根据第一模型对测试数据进行推理后的输出以及测试数据的标签对第一模型的性能进行评价。如果已训练的第一模型的性能达到预设性能，则模型训练系统100可以输出已训练的第一模型，否则模型训练系统100可以退回模型选择或训练参数配置以进行模型优化，直至已训练的第一模型的性能达到预设性能。

S508：模型训练系统100以第一输出为第二模型的监督信号，结合第二输出迭代更新第二模型的模型参数，直至第二模型满足第二预设条件。

具体地，模型训练系统100还可以根据第一输出对第二模型进行监督训练。其中，第一输出包括第一模型从训练数据中提取的第一特征和基于第一特征推理的第一概率分布中的至少一个。第二输出包括第二模型从训练数据中提取的第二特征和基于第二特征推理的第二概率分布中的至少一个。模型训练系统100可以根据第二输出和第一输出确定第二对比损失，根据第二概率分布和第一概率分布确定第二相对熵损失。接着，模型训练系统100可以根据第二对比损失和第二相对熵损失中的至少一个，迭代更新第二模型的模型参数，直至第二模型满足第二预设条件。

其中，第二对比损失的计算方式可以参考上述公式(1)，第二相对熵损失的计算方式可以参考上述公式(2)，本实施例在此不再赘述。

进一步地，模型训练系统100在迭代更新第二模型的模型参数时，可以按照预先设置的针对第二模型的训练参数，迭代更新第二模型的模型参数。其中，训练参数可以包括优化器类型，模型训练系统100可以按照该优化器类型，迭代更新第二模型的参数。例如，优化器类型可以为随机梯度下降，则模型训练系统100可以通过随机梯度下降方式，迭代更新第二模型的参数。训练参数还可以包括学习率更新策略。模型训练系统100可以按照学习率更新策略更新学习率，相应地，模型训练系统100可以基于第二对比损失的梯度和第二相对熵损失的梯度中的至少一个，以及更新后的学习率，迭代更新第二模型的模型参数。

与第一预设条件类似，第二预设条件可以根据业务需求进行设置。例如，第二预设条件可以设置为第二模型的性能达到预设性能。其中，性能可以通过精度、推理时间等指标进行衡量。又例如，第二预设条件可以设置为第二模型的损失值趋于收敛，或者第二模型的损失值小于预设值。

需要说明的是，上述S508为可选步骤，执行本申请实施例的AI模型训练方法也可以不执行上述S508。

基于上述内容描述，本申请实施例提供了一种AI模型训练方法。该方法中，模型训练系统100利用第二模型对训练数据进行推理后的第二输出为第一模型的训练加入额外的监督信号，促进第一模型向与该第一模型互补的第二模型学习，使得第一模型可以加速收敛，使得第一模型可以加速收敛，由此可以实现针对性地训练，无需在大规模的数据集上进行预训练，大幅缩短了训练时间，提高了第一模型训练的效率，满足了业务的需求。

并且，模型训练系统100还可以利用第一模型对训练数据进行推理后的第一输出为第二模型的训练加入额外的监督信号，促进第二模型向与该第二模型互补的第一模型学习，使得第二模型可以加速收敛，无需在大规模的数据集上进行预训练，大幅缩短了训练时间，提高了第二模型训练的效率，满足了业务的需求。

随着训练过程的进行，第一模型的性能、第二模型的性能可以发生变化。例如，第一模型的性能可以由低于第二模型的性能变化为高于第二模型的性能，如果仍基于第一对比损失的梯度和第一相对熵损失的梯度，迭代更新第一模型的模型参数，可以导致第二模型对第一模型产生误导，影响第一模型的训练。基于此，模型训练系统100还可以采用梯度受限回流方式，迭代更新第一模型的模型参数。

其中，梯度受限回流是指对部分梯度进行回流，以迭代更新模型参数。例如，回流对比损失的梯度，或者回流相对熵损失的梯度，以迭代更新模型参数。在实际应用时，模型训练系统100可以在第一模型的性能显著高于第二模型的性能时，采用梯度受限回流方式，迭代更新第一模型的模型参数。

其中，第一模型的性能如精度也可以通过第一模型的监督损失表征。监督损失也称作交叉熵损失(cross entropy loss)。监督损失可以通过公式(3)计算得到：

其中，x _i表示第i个训练数据，n表示一批训练数据中训练数据的数据量。p(x _i)表示真实概率分布，q(x _i)表示预测概率分布，例如是第一模型推理的第一概率分布。通常情况下，第一模型的监督损失越小，表明第一模型的推理结果与标签越接近，第一模型的精度越高，第一模型的监督损失越大，表面第一模型的推理结果与标签越不接近，第一模型的精度越低。

基于此，模型训练系统100训练第一模型的过程可以包括如下步骤：

S5062：模型训练系统100根据所述第一对比损失的梯度和所述第一相对熵损失的梯度迭代更新所述第一模型的模型参数。

具体地，在训练的起始阶段，第一模型和第二模型的性能互补，模型训练系统100可以将第一对比损失的梯度以及第一相对熵损失的梯度均进行回流，以便基于第一对比损失的梯度和第一相对熵损失的梯度，迭代更新第一模型的模型参数。

S5064：当所述第一模型的监督损失与所述第二模型的监督损失的差值小于第一预设阈值时，模型训练系统100停止执行根据所述第一对比损失的梯度迭代更新所述第一模型的模型参数。

具体地，模型训练系统100可以参照上述公式(3)分别确定第一模型的监督损失和第二模型的监督损失。当第一模型的监督损失和第二模型的监督损失的差值小于第一预设阈值时，表明第一模型的监督损失显著小于第二模型的监督损失。基于此，模型训练系统100可以触发梯度受限回流，例如仅回流第一相对熵损失的梯度。模型训练系统100停止执行根据第一对比损失的梯度迭代更新所述第一模型的模型参数。

需要说明的是，S5064是以模型训练系统100回流第一相对熵损失的梯度进行示例说明，在本申请实施例其他可能的实现方式中，模型训练系统100也可以回流第一对比损失的梯度，以便根据第一对比损失的梯度迭代更新第一模型的模型参数。

类似地，当模型训练系统100还利用第一模型的输出作为监督信号，训练第二模型时，也可以在满足梯度受限回流的触发条件时，仅回流部分梯度(例如是第二相对熵损失的梯度)，根据部分梯度迭代更新第二模型的模型参数。

通过设置上述损失，模型训练系统100不仅可以使得AI模型学习到如何区分不同的类别，还能够使AI模型参考另一个AI模型的概率估计来提升自身泛化能力。而且，通过对梯度回流进行限制，例如限制对比损失的梯度回流至第一模型，或者限制相对熵损失的梯度回流至第二模型，可以避免性能较差的模型对性能较好的模型产生误导，导致模型朝着错误的方向收敛，由此可以促进第一模型和第二模型高效收敛。

此外，由于模型结构的差异，训练第一模型的分支和训练第二模型的分支的学习速度、数据利用效率及表征能力的上限可以是不同的，模型训练系统100可以调整训练策略，实现在训练的不同阶段，由训练效果好(如收敛快、精度高)的分支充当老师的角色(即提供监督信号的角色)，促进训练效果较差的分支进行学习。在训练效果接近的情况下，两个分支可以互为合作伙伴，相互学习。随着训练的递进，分支的角色可以发生互换。也即异构的两个AI模型在训练过程中可以自主地选择相应角色达到互相促进的目的，提高了训练效率。

接下来，结合一个实例对本申请实施例的AI模型训练方法进行说明。

参见图6所示的AI模型训练方法的流程示意图，如图6所示，模型训练系统100获取多个待训练的AI模型，具体为CNN模型的实例和transformer模型的实例，也称作CNN branch(分支)和transformer branch。其中，每个分支包括骨干网络和分类器，骨干网络用于从输入图像中提取特征向量，分类器用于基于特征向量进行图像分类。

在一个训练阶段，CNN模型和transformer模型可以互为老师模型(例如是提供监督信号的模型)和学生模型(例如是基于监督信号进行学习的模型)。模型训练系统100根据CNN模型从训练数据(例如是输入图像)中提取的特征和transformer模型从训练数据中提取的特征可以确定对比损失。模型训练系统100根据CNN模型对输入图像分类所得的各类别的概率分布以及transformer模型自身对输入图像分类所得的各类别的概率分布可以确定相对熵损失。如图6中指向transformer分支的虚线所示，对比损失的梯度可以回流至transformer模型，模型训练系统100可以根据该对比损失的梯度更新transformer模型的模型参数。如图6中指向CNN分支的虚线所示，相对熵损失(KL散度)的梯度可以回流至CNN模型，模型训练系统100可以根据相对熵损失的梯度更新CNN模型的模型参数。

在另一个训练阶段，当transformer模型的监督损失(通常采用交叉熵损失)远小于CNN模型的监督损失时，对比损失的梯度可以停止回流至transformer模型。模型训练系统100可以根据相对熵损失的梯度更新CNN模型的模型参数。当transformer模型的监督损失远大于CNN模型的监督损失时，相对熵损失的梯度可以停止回流至CNN模型。模型训练系统100可以根据该对比损失的梯度更新transformer模型的模型参数。

需要说明的是，对比损失通常是对偶的，因此，对比损失的梯度也可以回流至第二模型，例如回流至CNN模型。也即，模型训练系统100可以根据对比损失的梯度以及相对熵损失的梯度更新CNN模型的模型参数。

本申请实施例还在多个数据集上对通过本申请的AI模型训练方法训练得到的AI模型的性能进行验证，具体参见下表：

表1模型在多个数据集上的精度

其中，表1示出了本申请实施例联合训练所输出的两个模型，以及独立训练的两个模型在ImageNet、Real、V2、CIFAR 10、CIFAR100、Flowers以及stanford Cars等数据集上的精度。需要说明的是，该精度是模型预测输入图像类别时排序第一的类别的精度，即Top1的精度。由表1可知，本申请实施例联合训练的CNN模型(例如是表1中联合训练的ResNet-50)和联合训练的transformer模型(例如是表1中联合训练的ViT-Base)的精度，相较于独立训练的CNN模型(例如是表1中的ResNet-50)和独立训练的transformer模型(例如是表1中的ViT-Base)有所提升，尤其是在V2数据集上提升较为显著。

此外，相比于独立训练的ResNet-50、ViT-Base，联合训练的ResNet-50和ViT-Base能够更快收敛。参见图7所示的各模型的训练进程示意图，联合训练的ResNet-50和ViT-Base通常在20轮以内可以趋于收敛，而独立训练的ResNet-50和ViT-Base通常在20轮以后趋于收敛。由此可见，异构的AI模型互相学习联合训练，可以有效地缩短训练时间，提高训练效率。

在该示例中，模型训练系统100加入类似对比学习方式的学习目标，利用从一个AI模型学习到的特征为另一个AI模型的训练加入额外的监督信号，AI模型可以基于该监督信号针对性地更新模型参数，因此，可以实现加速收敛。由于两个异构的AI模型天然的异构特点以及表征能力上的差异，可以有效防止对比学习中常见的模型坍塌和退化解等问题的发生。

并且，该方法无需人为设计启发式的结构算子促进模型收敛、提升模型性能，尽可能保持模型原有结构的特征，减少结构细节上的修改，从而提升模型训练系统100的弹性、扩展性，具有较好的通用性。

上文结合图1至图7对本申请实施例提供的AI模型训练方法进行了详细介绍，下面将结合附图对本申请实施例提供的模型训练系统进行介绍。

参见图1所示的模型训练系统100的结构示意图，该系统100包括：

交互单元102，用于确定待训练的第一模型和待训练的第二模型，所述第一模型和所述第二模型为异构的两种AI模型；

训练单元104，用于将训练数据输入所述第一模型和所述第二模型，获得所述第一模型对所述训练数据进行推理后的第一输出，以及所述第二模型对所述训练数据进行推理后的第二输出；

所述训练单元104，还用于以所述第二输出为所述第一模型的监督信号，结合所述第一输出迭代更新所述第一模型的模型参数，直至所述第一模型满足第一预设条件。

在一些可能的实现方式中，所述训练单元104还用于：

所述训练单元104具体用于：

在一些可能的实现方式中，所述训练单元104具体用于：

在一些可能的实现方式中，所述交互单元102具体用于：

在一些可能的实现方式中，所述交互单元102还用于：

接收用户通过用户界面配置的训练参数；和/或，

根据本申请实施例的模型训练系统100可对应于执行本申请实施例中描述的方法，并且模型训练系统100的各个模块/单元的上述和其它操作和/或功能分别为了实现图5所示实施例中的各个方法的相应流程，为了简洁，在此不再赘述。

本申请实施例还提供一种计算设备集群。该计算设备集群可以是云环境、边缘环境或者终端设备中的至少一台计算设备形成的计算设备集群。该计算设备集群具体用于实现如图1所示实施例中模型训练系统100的功能。

图8提供了一种计算设备集群的结构示意图，如图8所示，计算设备集群80包括多台计算设备800，计算设备800包括总线801、处理器802、通信接口803和存储器804。处理器802、存储器804和通信接口803之间通过总线801通信。

总线801可以是外设部件互连标准(peripheral component interconnect，PCI)总线或扩展工业标准结构(extended industry standard architecture，EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，图8中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

处理器802可以为中央处理器(central processing unit，CPU)、图形处理器(graphics processing unit，GPU)、微处理器(micro processor，MP)或者数字信号处理器(digital signal processor，DSP)等处理器中的任意一种或多种。

通信接口803用于与外部通信。例如，通信接口803可以用于接收用户通过用户界面选择的第一模型和第二模型，接收用户配置的训练参数，或者通信接口803用于输出已训练的第一模型和/或已训练的第二模型等等。

存储器804可以包括易失性存储器(volatile memory)，例如随机存取存储器(random access memory，RAM)。存储器804还可以包括非易失性存储器(non-volatile memory)，例如只读存储器(read-only memory，ROM)，快闪存储器，硬盘驱动器(hard disk drive，HDD)或固态驱动器(solid state drive，SSD)。

存储器804中存储有可执行代码，处理器802执行该可执行代码以执行前述AI模型训练方法。

具体地，在实现图1所示实施例的情况下，且图1实施例中所描述的模型训练系统100的各部分如交互单元102、训练单元104的功能为通过软件实现的情况下，执行图1中功能所需的软件或程序代码可以存储在计算设备集群80中的至少一个存储器804中。至少一个处理器802执行存储器804中存储的程序代码，以使得计算设备集群800执行前述AI模型训练方法。

本申请实施例还提供了一种计算机可读存储介质。所述计算机可读存储介质可以是计算设备能够存储的任何可用介质或者是包含一个或多个可用介质的数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘)等。该计算机可读存储介质包括指令，所述指令指示计算设备执行上述AI模型训练方法。

本申请实施例还提供了一种计算机程序产品。所述计算机程序产品包括一个或多个计算机指令。在计算设备上加载和执行所述计算机指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算设备或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算设备或数据中心进行传输。所述计算机程序产品可以为一个软件安装包，在需要使用前述AI模型训练方法的任一方法的情况下，可以下载该计算机程序产品并在计算设备上执行该计算机程序产品。

上述各个附图对应的流程或结构的描述各有侧重，某个流程或结构中没有详述的部分，可以参见其他流程或结构的相关描述。

Claims

一种人工智能AI模型训练方法，其特征在于，所述方法包括：

确定待训练的第一模型和待训练的第二模型，所述第一模型和所述第二模型为异构的两种AI模型；

将训练数据输入所述第一模型和所述第二模型，获得所述第一模型对所述训练数据进行推理后的第一输出，以及所述第二模型对所述训练数据进行推理后的第二输出；

以所述第二输出为所述第一模型的监督信号，结合所述第一输出迭代更新所述第一模型的模型参数，直至所述第一模型满足第一预设条件。
根据权利要求1所述的方法，其特征在于，所述方法还包括：

以所述第一输出为所述第二模型的监督信号，结合所述第二输出迭代更新所述第二模型的模型参数，直至所述第二模型满足第二预设条件。
根据权利要求1或2所述的方法，其特征在于，所述第一输出包括所述第一模型从所述训练数据中提取的第一特征和基于所述第一特征推理的第一概率分布中的至少一个，所述第二输出包括所述第二模型从所述训练数据中提取的第二特征和基于所述第二特征推理的第二概率分布中的至少一个；

所述以所述第二输出为所述第一模型的监督信号，结合所述第一输出迭代更新所述第一模型的模型参数，包括：

根据所述第一特征和所述第二特征确定第一对比损失，和/或者，根据所述第一概率分布和所述第二概率分布确定第一相对熵损失；

根据所述第一对比损失和所述第一相对熵损失中的至少一个，迭代更新所述第一模型的模型参数。
根据权利要求3所述的方法，其特征在于，所述根据所述第一对比损失和所述第一相对熵损失中的至少一个，迭代更新所述第一模型的模型参数，包括：

根据所述第一对比损失的梯度和所述第一相对熵损失的梯度迭代更新所述第一模型的模型参数；

当所述第一模型的监督损失与所述第二模型的监督损失的差值小于第一预设阈值时，停止执行根据所述第一对比损失的梯度迭代更新所述第一模型的模型参数。
根据权利要求1至4任一项所述的方法，其特征在于，所述第一模型为转换器模型，所述第二模型为卷积神经网络模型。
根据权利要求1至5任一项所述的方法，其特征在于，所述确定待训练的第一模型和待训练的第二模型，包括：

根据用户通过用户界面的选择，确定所述待训练的第一模型和所述待训练的第二模型；或者，

根据用户设置的AI任务的类型确定所述待训练的第一模型和所述待训练的第二模型。
根据权利要求1至6任一项所述的方法，其特征在于，所述方法还包括：

接收用户通过用户界面配置的训练参数；和/或，

根据用户设置的AI任务的类型以及所述第一模型、所述第二模型，确定训练参数。
根据权利要求7所述的方法，其特征在于，所述训练参数包括训练轮次、优化器类型、学习率更新策略、模型参数初始化方式和训练策略中的一种或多种。
一种模型训练系统，其特征在于，所述系统包括：

交互单元，用于确定待训练的第一模型和待训练的第二模型，所述第一模型和所述第二模型为异构的两种AI模型；

训练单元，用于将训练数据输入所述第一模型和所述第二模型，获得所述第一模型对所述训练数据进行推理后的第一输出，以及所述第二模型对所述训练数据进行推理后的第二输出；

所述训练单元，还用于以所述第二输出为所述第一模型的监督信号，结合所述第一输出迭代更新所述第一模型的模型参数，直至所述第一模型满足第一预设条件。
根据权利要求9所述的系统，其特征在于，所述训练单元还用于：

以所述第一输出为所述第二模型的监督信号，结合所述第二输出迭代更新所述第二模型的模型参数，直至所述第二模型满足第二预设条件。
根据权利要求9或10所述的系统，其特征在于，所述第一输出包括所述第一模型从所述训练数据中提取的第一特征和基于所述第一特征推理的第一概率分布中的至少一个，所述第二输出包括所述第二模型从所述训练数据中提取的第二特征和基于所述第二特征推理的第二概率分布中的至少一个；

所述训练单元具体用于：

根据所述第一特征和所述第二特征确定第一对比损失，和/或者，根据所述第一概率分布和所述第二概率分布确定第一相对熵损失；

根据所述第一对比损失和所述第一相对熵损失中的至少一个，迭代更新所述第一模型的模型参数。
根据权利要求11所述的系统，其特征在于，所述训练单元具体用于：

根据所述第一对比损失的梯度和所述第一相对熵损失的梯度迭代更新所述第一模型的模型参数；

当所述第一模型的监督损失与所述第二模型的监督损失的差值小于第一预设阈值时，停止执行根据所述第一对比损失的梯度迭代更新所述第一模型的模型参数。
根据权利要求9至12任一项所述的系统，其特征在于，所述第一模型为转换器模型，所述第二模型为卷积神经网络模型。
根据权利要求9至13任一项所述的系统，其特征在于，所述交互单元具体用于：

根据用户通过用户界面的选择，确定所述待训练的第一模型和所述待训练的第二模型；或者，

根据用户设置的AI任务的类型确定所述待训练的第一模型和所述待训练的第二模型。
根据权利要求9至14任一项所述的系统，其特征在于，所述交互单元还用于：

接收用户通过用户界面配置的训练参数；和/或，

根据用户设置的AI任务的类型以及所述第一模型、所述第二模型，确定训练参数。
根据权利要求15所述的系统，其特征在于，所述训练参数包括训练轮次、优化器类型、学习率更新策略、模型参数初始化方式和训练策略中的一种或多种。
一种计算设备集群，其特征在于，所述计算设备集群包括至少一台计算设备，所述至少一台计算设备包括至少一个处理器和至少一个存储器，所述至少一个存储器中存储有计算机可读指令，所述至少一个处理器执行所述计算机可读指令，使得所述计算设备集群执行如权利要求1至8任一项所述的方法。
一种计算机可读存储介质，其特征在于，包括计算机可读指令，当所述计算机可读指令在计算设备或计算设备集群上运行时，使得所述计算设备或计算设备集群执行如权利要求1至8任一项所述的方法。
一种计算机程序产品，其特征在于，包括计算机可读指令，当所述计算机可读指令在计算设备或计算设备集群上运行时，使得所述计算设备或计算设备集群执行如权利要求1至8任一项所述的方法。