WO2021238586A1

WO2021238586A1 - 一种训练方法、装置、设备以及计算机可读存储介质

Info

Publication number: WO2021238586A1
Application number: PCT/CN2021/091597
Authority: WO
Inventors: 张梦阳; 王兵; 周宇飞; 郑宜海
Original assignee: 华为技术有限公司
Priority date: 2020-05-27
Filing date: 2021-04-30
Publication date: 2021-12-02
Also published as: CN113743426A

Abstract

本申请提供了一种训练方法、装置及相关设备。该方法在对待训练模型进行训练之前，先确定第一样本集中样本的困难权重分布，然后根据待训练模型的任务目标和上述困难权重分布，对第一样本集进行调整，获得第二样本集，最后使用第二样本集对待训练模型进行训练。使用本申请提供的训练方法，可以结合待训练模型的任务目标的复杂程度和每个样本的困难权重，选择合适数量的困难样本进行训练，解决了困难样本难以标注导致待训练模型的训练精度出现瓶颈的问题，使得待训练模型的训练精度得到提升。

Description

一种训练方法、装置、设备以及计算机可读存储介质

本申请要求于2020年05月27日提交中国知识产权局、申请号为202010462418.X、申请名称为“一种训练方法、装置、设备以及计算机可读存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及人工智能(Artificial Intelligence，AI)领域，尤其涉及一种训练方法、装置、设备以及计算机可读存储介质。

背景技术

随着科学技术的不断发展，AI模型在视频图像、语音识别、自然语言处理等相关领域得到了广泛应用。AI模型通常需要使用大量的样本对其进行训练，在训练AI模型时，困难样本(Hard samples)图像的作用往往大于简单样本图像。其中，困难样本指的是模型难以判别的样本，具体可以是模糊、曝光过度、轮廓不清晰的样本，还可以是与其他样本非常类似的样本。在AI模型的学习过程中，即便是大量的简单样本，都很难对AI模型的预测精度带来大幅提升，而困难样本图像往往会给AI模型的预测精度带来大幅度的提升。

但是，在对AI模型的训练过程中，通过人工去筛选困难样本是一个浪费人力和时间的工程，通过计算设备标注困难样本的精度又很差，困难样本难以标注的现状使得AI模型的训练精度出现瓶颈。

发明内容

本申请提供了一种训练方法、装置设备以及计算机可读存储介质，用于解决当前困难样本难以标注使得AI模型的训练精度出现瓶颈的问题。

第一方面，提供了一种训练方法，该方法包括以下步骤：

获取第一样本集，在确定第一样本集中样本的困难权重分布后，先根据待训练模型的任务目标以及第一样本集中样本的困难权重分布，调整第一样本集获得第二样本集，最后利用第二样本集对待训练模型进行训练。

实施第一方面描述的方法，可以在对待训练模型进行训练之前，先确定第一样本集中样本的困难权重分布，然后根据待训练模型的任务目标和上述困难权重分布，对第一样本集进行调整，获得第二样本集，最后使用第二样本集对待训练模型进行训练。这样，训练设备200在训练待训练模型的过程中，可以结合待训练模型的任务目标的复杂程度和每个样本的困难权重，选择合适数量的困难样本进行训练，解决了困难样本难以标注导致待训练模型的训练精度出现瓶颈的问题，使得待训练模型的训练精度得到提升。

在一种可能的实现方式中，待训练模型的任务目标包括待训练模型经训练完成后的应用场景、待训练模型经训练完成后需实现的事件类型以及待训练模型的训练精度目标中的一种或者多种。待训练模型为AI模型，例如：神经网络模型。

实施上述实现方式，不同待训练模型的任务目标的难易程度不同，在训练一个用于实现简单任务目标的待训练模型，比如室内闸机场景的人脸识别，训练时使用的第二样本集可以包含较多困难权重小的样本，使用大量简单样本进行训练、较少量的困难样本进行辅助训练，可以在实现任务目标的同时，提高训练速度；反之，如果训练一个用于实现复杂任务目标的待训练模型，比如室外视频监控场景中的人脸识别，训练时使用的第二样本集可以包含较多困难权重大的样本，这样，使用大量困难样本进行训练、较少量简单样本进行辅助训练，可以使得待训练模型能够更加专注于困难样本的学习，针对性的提升待训练模型的训练精度，从而达到强化学习的目的。

在一种可能的实现方式中，根据待训练模型的任务目标和第一样本集中样本的困难权重分布，调整第一样本集，获得第二样本集时，可以先根据待训练模型的任务目标和第一样本集中样本的困难权重分布，确定用于训练待训练模型的样本集应达到的目标困难权重分布，然后增加或减少第一样本集中的样本数量，或者，改变第一样本集中部分样本的困难权重，获得第二样本集，其中，第二样本集中样本的困难权重分布等于或者近似于目标困难权重分布。

具体实现中，用于训练待训练模型的训练设备可以维护一个对应关系库，该对应关系库内存储有多个任务目标与多个目标困难权重分布的对应关系，这样，在训练设备确定了第一样本集困难权重分布之后，可以根据待训练模型的任务目标以及上述对应关系库，确定该任务目标对应的目标困难权重分布，从而根据第一样本集的困难权重分布和目标困难权重分布的差距，调整第一样本集的困难权重分布，获得用于训练待训练模型的第二样本集。

需要说明的，在根据目标困难权重分布对第一样本集进行调整时，调整后得到的第二样本集中样本的困难权重分布可以是等于目标困难权重分布，也可以是近似于目标困难权重分布。其中，近似于目标困难权重分布指的是第二样本集的困难权重分布于目标困难权重分布之间的差值小于第三阈值h ₃，举例来说，如果第三阈值h ₃＝0.2，仍以上述例子为例，目标困难权重分布为困难样本：简单样本＝3:2＝1.5，第一样本集的困难权重分布为困难样本：简单样本＝3:7，调整第一样本集后，获得的第二样本集的困难权重分布也可以是8:5＝1.6，其中，第二样本集的困难权重分布与目标困难权重分布之间的差值1.6-1.5＝0.1小于第三阈值h ₃＝0.2。应理解，上述举例仅用于说明，并不能构成具体限定。

实施上述实现方式，在对第一样本集的困难权重分布进行调整时，根据待训练模型的任务目标来确定目标困难权重分布，再根据目标困难权重分布对第一样本集的困难权重分布进行调整，这样获得的第二样本集更适用于训练待训练模型，可以针对性的提升待训练模型的训练精度，达到强化学习的目的。

在一种可能的实现方式中，确定第一样本集中样本的困难权重分布时，可以先将第一样本集的每个样本输入至特征提取模型，获得每个样本的特征信息，然后根据每个样本的特征信息，确定第一样本集中的多类样本的参考特征信息，再基于每个样本的特征信息与对应类别的参考特征信息之间的相似度，确定每个样本对应的困难权重，从而获得第一样本集中样本的困难权重分布。

具体实现中，特征提取模型用于提取样本的特征信息，可以是在获取第一样本集之前训练好的AI模型，特征提取模型可以采用业界已有的用于提取样本特征的AI模型中的任一种，比如，用于目标检测的特征描述子(Histogram of Oriented Gradient，HOG)、局部二值模式(Local Binary Pattern，LBP)、卷积神经网络的卷积层等等，本申请不作具体限定。并且，上述样本集的来源可以包括手机或监控摄像头、本地离线数据以及互联网公开数据等等，本申请不作具体限定。

特征提取模型提取的每个样本的特征信息具体可以是特征向量或特征矩阵。假设第一类样本中的样本数量为n个，该类样本中每一个样本输入特征提取模型后获得的特征信息分别为特征向量B ₁,B ₂,…,B _n，那么该类样本的参考特征信息可以是这n个特征向量的平均向量A，也可以是n个特征向量中最接近上述平均向量A的一个特征向量B _j，其中，j∈n，还可以是将每类样本的特征向量映射到2D空间之后，将分布最密集的区域的点对应的特征向量确定为该类样本的参考特征信息，本申请不对参考特征信息的确定方法进行限定。

需要说明的，特征信息是特征向量的情况下，每个样本的困难权重可以根据每个样本的特征向量与对应类别的参考特征向量之间的距离来确定，每个样本的特征向量与对应类别的参考特征向量之间的距离越大，表该样本的特征向量与对应类别的参考特征向量之间的相似度越小，该样本的困难权重越大，也就是说距离与困难权重之间呈正比例关系，相似度与困难权重之间呈反比例关系。

实施上述实现方式，用特征提取模型提取样本集内每个样本的特征信息和每类样本的信息，再根据每个样本的特征信息与对应类别的参考特征信息之间的相似度或者距离，确定每个样本的困难权重，这样获得的第一样本集的困难权重分布是基于样本本身的特征获得的，与训练模型的结构以及训练使用的方法无关，可以很好的反映出样本的困难程度，困难样本标注的精度很高，从而解决了由于困难样本难以标注使得AI模型的训练精度出现瓶颈的问题。

在一种可能的实现方式中，在利用第二样本集对待训练模型进行训练之前，上述方法还可以包括以下步骤：根据第二样本集中样本的困难权重分布，调整待训练模型的损失函数的权重参数。

举例来说，如果待训练模型的任务目标常用的损失函数为Loss0，样本的权重参数为α _i，那么待训练模型的损失函数Loss1的公式可以如下：

Loss1＝α _iLoss

实施上述实现方式，困难权重越大的样本输入待训练模型后，获得的损失函数值越大，使用该损失函数对待训练模型进行反向传播监督训练，可以使得待训练模型更加倾向于利用困难样本进行参数更新待训练模型，可以更加集中于学习困难样本的特征，更倾向于利用困难样本进行参数更新，从而达到待训练模型针对困难样本进行强化训练的目的，进而提升模型对困难样本的特征表达能力。

第二方面，提供了一种训练装置，该装置包括：获取单元，用于获取第一样本集，第一样本集包括多个样本；确定单元，用于确定第一样本集中样本的困难权重分布；调整单元，用于根据待训练模型的任务目标和第一样本集中样本的困难权重分布，调整第一样本集，获得第二样本集；训练单元，用于利用第二样本集，对待训练模型进行训练。

在一种可能的实现方式中，待训练模型的任务目标包括待训练模型经训练完成后的应用场景、待训练模型经训练完成后需实现的事件类型以及待训练模型的训练精度目标中的一种或者多种。

在一种可能的实现方式中，调整单元具体用于根据待训练模型的任务目标和第一样本集中样本的困难权重分布，确定用于训练待训练模型的样本集应达到的目标困难权重分布；调整单元用于增加或减少第一样本集中的样本数量，或者，改变第一样本集中部分样本的困难权重，获得第二样本集，其中，第二样本集中样本的困难权重分布等于或者近似于目标困难权重分布。

在一种可能的实现方式中，确定单元具体用于将第一样本集的每个样本输入至特征提取模型，获得每个样本的特征信息，其中，每个样本对应一个类别；确定单元用于根据每个样本的特征信息，确定第一样本集中的多类样本的参考特征信息，其中，每类样本包括至少一个类别相同的样本；确定单元用于基于每个样本的特征信息与对应类别的参考特征信息之间的相似度，确定每个样本对应的困难权重；确定单元用于根据第一样本集中每个样本的困难权重，获得第一样本集中样本的困难权重分布。

在一种可能的实现方式中，在利用第二样本集，对待训练模型进行训练之前，调整单元还用于根据第二样本集中样本的困难权重分布，调整待训练模型的损失函数的权重参数。

第三方面，提供了一种计算机程序产品，包括计算机程序，当计算机程序被计算设备读取并执行时，实现如第一方面所描述的方法。

第四方面，提供了一种计算机可读存储介质，包括指令，当指令在计算设备上运行时，使得计算设备实现如第一方面描述的方法。

第五方面，提供了一种计算设备，包括处理器和存储器，处理器执行存储器中的代码实现如第一方面描述的方法。

第六方面，提供了一种芯片，包括存储器和处理器；该存储器与处理器耦合，处理器包括调制解调处理器，存储器用于存储计算机程序代码，计算机程序代码包括计算机指令，处理器从存储器中读取计算机指令，以使得所述芯片执行如第一方面描述的方法。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。

图1是一种训练和预测系统的结构示意图；

图2是一种应用场景中的困难样本示例图；

图3是本申请提供的一种训练设备的结构示意图；

图4是本申请提供的一种训练方法的流程示意图；

图5是一种卷积神经网络的结构示意图；

图6是一种应用场景中每类样本参考特征信息的示例图；

图7是一种应用场景中的第一样本集的数据分布于第二样本集的数据分布示例图；

图8是本申请提供的训练方法在一种应用场景中的流程示意图；

图9是本申请提供的一种芯片的结构示意图；

图10是本申请提供的一种计算设备的结构示意图。

具体实施方式

本申请的实施方式部分使用的术语仅用于对本申请的具体实施例进行解释，而非旨在限定本申请。

首先，对本申请涉及的部分术语进行解释说明。

损失函数(Loss Function)：损失函数是用来估量模型的预测值f(x)与真实值y的不一致程度，通常为一个非负实值函数。损失函数的值越小，模型的鲁棒性越好，损失函数一般用于调节网络学习方向。例如，一个5分类问题，输入的一张图片的展示分类结果为第4类，那么图片的真实值可以是y＝(0,0,0,1,0)，如果模型的预测结果为f(x)＝(0.1,0.15,0.05,0.6,0.1)，此时损失函数的值为-log(0.6)。如果损失函数的值的阈值为-log(0.9)，那么该模型仍需要进一步的训练，通过损失函数来调节网络学习方向，能够获得最终性能良好的模型。其中，上述损失函数的公式仅用于举例说明，本申请不对损失函数的具体公式进行限定。

特征提取(Feature Extraction)：对某一测量值进行变换，以突出该测量值具有代表性特征的一种方法。

反向传播：神经网络可以采用误差反向传播(Back Propagation，BP)算法在训练过程中修正初始的神经网络模型中参数的大小，使得神经网络模型的重建误差损失越来越小。具体地，前向传递输入信号直至输出会产生误差损失，通过反向传播误差损失信息(比如损失函数的值)来更新初始的神经网络模型中的参数，从而使得误差损失收敛。反向传播算法是以误差损失为主导的反向传播运动，旨在得到最优的神经网络模型参数，例如权重矩阵。

其次，对本申请涉及的应用场景进行解释说明。

人工智能(Artificial Intelligence,AI)：是利用数字计算机或者数字计算机控制的计算设备模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。人工智能的应用场景十分广泛，比如人脸识别、车辆识别、行人重识别、数据处理应用等等。

AI模型是一种实现AI的数学方法集合。可以使用大量的样本对AI模型进行训练来使训练完成的AI模型获得预测的能力，例如，训练一个分类垃圾邮件的模型，训练阶段可以先将一个已标注出多个垃圾邮件标签和多个非垃圾邮件标签的样本集对神经网络进行训练，神经网络不断捕捉这些邮件和标签的联系对网络结构参数进行自我调整和完善，然后在预测阶段，神经网络可以对没有标签的新邮件进行是否是垃圾邮件的分类。应理解，上述举例用于说明，并不能构成具体限定。

下面对AI模型的训练和预测系统的结构进行解释说明。如图1所示，图1是一种AI模型训练和预测系统的架构图，该系统100是AI领域常用的系统架构，该系统1000包括：训练设备100、执行设备200、数据库130、客户设备140以及数据采集设备150。该系统100中的各个部件可以通过网络相互连接，这里的网络可以是有线网络也可以是无线网络，还可以是二者的混合。其中，

训练设备200可以是物理服务器，比如X86服务器、ARM服务器等等，也可以是基于通用的物理服务器结合网络功能虚拟化(Network Functions Virtualization，NFV)技术实现的虚拟机(Virtual Machine，VM)，虚拟机指通过软件模拟的具有完整硬件系统功能的、运行在一个完全隔离环境中的完整计算机系统，比如云数据内的虚拟机，本申请不作具体限定。

训练设备200用于使用数据库130中的样本集对待训练模型进行训练，获得目标模型，并将其发送至执行设备100。具体地，训练设备200可以在对待训练模型进行训练时，将待训练模型的输出数据与样本数据的标签进行对比，并根据对比结果不断调整待训练模型的结构参数，直到训练设备200输出数据与样本数据的标签小于一定的阈值，从而完成待训练模型的训练，获得目标模型。其中，这里的待训练模型以及目标模型可以是任一种AI模型，比如上述例子中用于分类垃圾邮件的神经网络模型，也可以是图像分类模型，也可以是语义识别模型等等，本申请不作具体限定。数据库130中维护的样本集不一定都来自于数据采集设备150，也有可能从其他设备接收得到。数据库130可以是本地数据库，也可以是云端或者其他第三方平台的数据库，本申请不作具体限定。

执行设备100可以是终端，如手机终端、平板电脑、笔记本电脑、增强现实/虚拟现实、车载终端等等，还可以是服务器或云端设备等，本申请不作具体限定。

执行设备100用于根据训练设备200训练好的目标模型实现各种各样的功能。具体的，在图1中，用户可以通过客户设备140向执行设备100输入数据，使用目标模型对输入数据进行预测，获得输出结果。执行设备100可以将输出结果返回给客户设备140，以供用户查看执行设备100输出的结果，具体的呈现形式可以是显示、声音、动作等具体方式；执行设备100也可以将输出结果作为新的样本，存入数据库130，以供训练设备200使用新的样本重新调整目标模型的结构参数，提升目标模型性能。

举例来说，客户设备140为手机终端，执行设备100为云端设备，训练好的目标模型为语义识别模型，用户可以通过客户设备140向执行设备输入待识别的文字数据，执行设备100通过目标模型对上述待识别的文字数据进行语义识别，将语义识别的结果返回至客户设备140，使得用户可以通过用户设备(手机终端)查看语义识别的结果。

值得注意的，附图1仅是本申请实施例提供的一种系统架构的示意图，图中所示设备、器件、模块等之间的位置关系不构成任何限制，例如，在附图1中，数据库130相对训练设备200是外部存储器，在其它情况下，也可以将数据库130置于训练设备200中，本申请不作具体限定。

综上可知，AI领域各种应用的实现依赖于AI模型，通过AI模型实现不同的功能，例如分类、识别、检测等等，而AI模型需要使用样本集预先训练后才能放入执行设备中使用。在使用样本集的样本数据对AI模型进行训练时，困难样本(HardSamples)的作用往往大于简单样本。其中，困难样本指的是AI模型难以判别的样本，具体可以分为两类，一类是模糊、曝光过度、轮廓不清晰的样本，该类样本无论采用何种算法的AI模型、何种初始化参数都会让AI模型预测错误；另一类是与其他样本非常类似、导致AI模型难以区分的样本，该类样本仅对于当前的AI模型来说是困难样本，但是并不是对于所有的AI模型而言均为困难样本。举例来说，如图1所示，在训练一个用于识别“吉娃娃”这一宠物犬的AI模型时，图1中带有“曲奇”标签的样本1、样本3和样本5与“吉娃娃”的轮廓外形难以区分，因此是困难样本。在训练一个用于识别“猫”的AI模型时，图1中带有“曲奇”标签的样本1、样本3和样本5与“猫”有较好的区分度，因此不是困难样本。应理解，图1仅用于举例说明，并不能构成具体限定。

在AI模型的训练过程中，即便是大量的简单样本，都很难对AI模型的预测精度带来大幅提升，而困难样本往往会给AI模型的预测精度带来大幅度的提升。因此，如何从大量训练样本中筛选出困难样本对AI模型进行强化训练，一直是研究人员十分关注的问题。

一般来说，困难样本可以通过人工标注或者机器标注的方式获得。人工标注困难样本不仅是一个浪费人力和时间的工程，因为个人认知偏差、工作疲劳等原因标注精度也无法保证，并且，计算设备是通过检查每个像素的方式获得样本特征，一些人眼看起来并不类似的样本，对于AI模型来说也可能属于困难样本，导致人工标注困难样本的精度很差。

机器标注困难样本虽然简便快捷，但是标注精度很差。如果仅仅将预测错误的样本标注为困难样本，将漏标很多困难样本，因为预测正确的样本也有可能是困难样本。举例来说，样本A的标签为(0,1)表示该样本属于第2类，如果样本A输入分类模型M ₁后的预测向量为(0.4,0.6)，即分类模型M ₁的分类结果显示样本A属于第2类，分类结果是正确的，但是预测向量(0.4,0.6)与样本标签(0,1)的差距很大，损失函数的值也很大，样本A虽然是分类正确的样本，但是也是该分类模型M ₁难以判别的样本，属于困难样本。因此，将分类错误的样本作为困难样本，标注精度很差。如果将损失函数的值较大的样本作为困难样本，可能会将一些简单样本也错误的标注成困难样本，参考前述内容可知，损失函数是用来估量模型的预测值与真实值的不一致程度，而造成模型的预测值与真实值不一致的原因很多，可能是因为该样本确实是困难样本，也可能是选择的模型结构或者训练方法有缺陷，而样本本身并不是难判别的困难样本。因此，将损失函数的值较大的样本作为困难样本，标注精度也很差。

综上可知，对AI模型的训练过程中，通过人工去筛选困难样本是一个浪费人力和时间的工程，通过计算设备标注困难样本的精度又很差，而困难样本难以标注的现状使得AI模型的训练精度出现瓶颈。

为了解决上述困难样本难以标注导致AI模型的训练精度出现瓶颈的问题，本申请提供了一种训练设备200，该训练设备200可以适用于图1所示的AI模型训练和预测系统中，如图3所示，训练设备200可以包括获取单元210、确定单元220、调整单元230、数据库140、数据库150以及训练单元240。

获取单元210用于获取第一样本集，其中，第一样本集包括多个样本。

确定单元220用于确定第一样本集中样本的困难权重分布。

其中，样本的困难权重越高，该样本对于待训练模型来说越属于困难样本，样本的困难权重越低，该样本对于待训练模型来说越属于简单样本。样本的困难权重分布指的是每种困难权重对应的样本数量之比，比如样本集A中困难样本权重为1的样本数量为1000个，困难样本权重为2的样本数量为2000个，困难样本权重为3的样本数量为3000个，那么样本集A中样本的困难权重分布为1:2:3，应理解，上述举例仅用于说明，并不能作为具体限定。

具体实现中，确定单元220可以使用数据库150中的特征提取模型来确定第一样本集中样本的困难权重分布。具体地，确定单元220可以使用数据库150中的特征提取模型，对第一样本集内的每个样本进行特征提取，获得每个样本的特征信息，然后根据每类样本中每个样本的特征信息，确定每类样本的参考特征信息，最后根据每个样本的特征信息与对应类别的参考特征信息之间的相似度，确定每个样本对应的困难权重。举例来说，确定单元220可以将第一样本集输入数据库150中的特征提取模型，获得第一样本集中每个样本的特征向量，然后将每类样本的特征向量的平均向量作为该类样本的参考特征信息，最后根据每个样本的特征向量与对应类别的平均向量之间的相似度或者距离，来确定每个样本对应的困难权重。

调整单元230用于根据每个样本的困难权重和待训练模型的任务目标，调整第一样本集的困难权重分布，获得第二样本集。

在一实施例中，调整单元230可以先根据待训练模型的任务目标确定用于训练待训练模型的样本集应达到的目标困难权重分布，然后根据第一样本集中样本的困难权重分布，对第一样本集的样本数量进行增加或者减少，或者，对第一样本集中部分样本进行改变，获得第二样本集，使得第二样本集中样本的困难权重分布等于或近似于目标困难权重分布。

举例来说，如果第一样本集有3种困难权重(分别为α ₁、α ₂和α ₃)的样本，第一样本集的困难权重分布为α ₁：α ₂：α ₃＝1:2:3，调整单元230可以先根据待训练模型的任务目标的难易程度，确定用于待训练模型的目标困难权重分布为α ₁：α ₂：α ₃＝1:1:1，然后对第一样本集进行调整，可以减少困难权重为α ₂与α ₃的样本数量，也可以增加困难权重为α ₁的样本，使得第一样本集的困难权重分布变为1:2:3，从而获得第二样本集。应理解，上述举例仅用于说明，本申请不对困难权重的数量进行限定。

可以理解的，训练一个用于实现简单任务目标的待训练模型，比如室内闸机场景的人脸识别，训练时使用的第二样本集可以包含较多困难权重小的样本，这样，使用大量简单样本进行训练、较少量的困难样本进行辅助训练，可以在实现任务目标的同时，提高训练速度；反之，如果训练一个用于实现复杂任务目标的待训练模型，比如室外视频监控场景中的人脸识别，训练时使用的第二样本集可以包含较多困难权重大的样本，这样，使用大量困难样本进行训练、较少量简单样本进行辅助训练，可以使得待训练模型能够更加专注于困难样本的学习，针对性的提升待训练模型的训练精度，从而达到强化学习的目的。

训练单元240用于利用第二样本集，对待训练模型进行训练，获得训练好的目标模型。

具体实现中，训练单元240使用第二样本集对训练模型进行训练之前，可以先根据第二样本集中每个样本的困难权重，调整待训练模型的损失函数的权重参数，然后利用第二样本集对待训练模型进行训练时，根据损失函数对待训练模型进行反向传播监督训练，获得目标模型。其中，待训练模型的损失函数中，第二样本集每个样本的困难权重与损失函数的值呈正比例关系，使得困难权重大的困难样本对损失函数的影响更大，AI模型可以更加集中于学习困难样本的特征，更倾向于利用困难样本进行参数更新，从而达到待训练模型针对困难样本进行强化训练的目的，提高待训练模型的性能。

需要说明的，图3中所示设备和单元之间的位置关系不构成任何限制，例如，在附图3中，数据库130相对训练设备200是外部存储器，在其它情况下，也可以将数据库130置于训练设备200中；数据库140以及数据库150相对训练设备200是内部存储器，在其他情况下，也可以将数据库140和/或数据库150置于外部存储器中。

综上可知，本申请实施例提供的训练设备200，可以在对待训练模型进行训练之前，先确定第一样本集中样本的困难权重分布，然后根据待训练模型的任务目标和上述困难权重分布，对第一样本集进行调整，获得第二样本集，最后使用第二样本集对待训练模型进行训练。这样，训练设备200在训练待训练模型的过程中，可以结合待训练模型的任务目标的复杂程度和每个样本的困难权重，选择合适数量的困难样本进行训练，解决了困难与安保难以标注导致的AI模型训练精度出现瓶颈的问题，使得AI模型的训练精度得到提升。

下面对本申请提供的训练方法进行详细描述，该方法应用于图3实施例中的训练设备200。如图4所示，该方法可以包括以下步骤：

S210：训练设备200获取第一样本集，其中，该第一样本集包括多个样本。

其中，样本可以是任何形式的样本，比如图像样本、文字样本、语音样本、生物数据(例如指纹、虹膜)样本等等。第一样本集可以包括多个类别的样本，比如一类样本全部都是“曲奇”图像，一类样本全部是同一个人脸的各个角度的图像，一类样本全部都是同一个型号的车辆在不同角度和不同场景中的图像，具体可以根据待训练模型的任务目标来对第一样本集进行分类。举例来说，如果待训练模型的任务目标是人脸识别，那么可以将同一个人物的人脸图像分为一个类别，比如类别1为小明的人脸照片，类别2为小刚的人脸照片。应理解，上述举例仅用于说明，并不能构成具体限定。

S220：训练设备200确定第一样本集中样本的困难权重分布。

在一实施例中，可以通过特征提取模型对每个样本进行特征提取后，根据提取到的特征信息来确定每个样本的困难权重，再获得第一样本集中样本的困难权重分布。具体地，可以将第一样本集的每个样本输入特征提取模型，获得每个样本的特征信息，其中，每个样本对应一个类别，然后根据每个样本的特征信息，确定第一样本集中的多类样本的参考特征信息，其中，每类样本包括至少一个类别相同的样本，基于每个样本的特征信息与对应类别的参考特征信息之间的相似度，确定每个样本对应的困难权重，根据第一样本集中每个样本的困难权重，获得第一样本集中样本的困难权重分布。步骤S220将在下文的步骤S221-步骤S224进行描述。

S230：训练设备200根据待训练模型的任务目标和第一样本集中样本的困难权重分布，调整第一样本集，获得第二样本集。

其中，待训练模型的任务目标包括待训练模型经训练完成后的应用场景、待训练模型经训练完成后需实现的事件类型以及待训练模型的训练精度目标中的一种或者多种，举例来说，视频监控的应用场景下的人脸识别模型和手机解锁的应用场景下的人脸识别模型，在训练时所需样本的目标困难权重分布是不同的；身份识别这一事件类型和服装识别这一事件类型，在训练模型时所需样本的目标困难权重分布时不同的；低训练精度目标和高训练精度目标的待训练模型，在训练时所需样本的目标困难权重分布也是不同的。应理解，上述举例仅用于说明，并不能构成具体限定。

可以理解的，训练一个用于实现简单任务目标的模型，比如室内闸机场景的人脸识别，训练时使用的第二样本集可以包含较多困难权重小的样本，这样，使用大量简单样本进行训练、较少量的困难样本进行辅助训练，可以在实现任务目标的同时，提高训练速度；反之，如果训练一个用于实现复杂任务目标的模型，比如室外视频监控场景中的人脸识别，训练时使用的第二样本集可以包含较多困难权重大的样本，这样，使用大量困难样本进行训练、较少量简单样本进行辅助训练，可以使得待训练模型能够更加专注于困难样本的学习，针对性的提升待训练模型的训练精度，从而达到强化学习的目的。

具体实现中，训练设备200可以维护一个对应关系库，该对应关系库内存储有多个任务目标与多个目标困难权重分布的对应关系，这样，在训练设备200确定了数据库130内第一样本集困难权重分布之后，可以根据待训练模型的任务目标以及上述对应关系库，确定该任务目标对应的目标困难权重分布，从而根据第一样本集的困难权重分布和目标困难权重分布的差距，调整第一样本集的困难权重分布，获得用于训练待训练模型的第二样本集。需要说明的，上述对应关系库可以存储于训练设备200的内部存储器中，也可以存储于训练设备200的外部存储器中，具体可以由训练设备的处理能力和存储能力决定，本申请不作具体限定。

在一实施例中，在根据目标困难权重分布对第一样本集进行调整时，可以增加或减少第一样本集中的样本数量，或者，改变第一样本集中部分样本的困难权重，获得第二样本集。举例来说，如果任务目标为室外视频监控场景中的人脸识别，根据对应关系库确定该任务目标需要的目标困难权重分布为困难样本：简单样本＝3:2，其中，困难样本为困难权重α高于第一阈值h ₁的样本，简单样本为困难权重α低于第二阈值h ₂的样本，而此时第一样本集P1中包含10000个样本，困难样本数量为3000，简单样本数量为7000，即第一样本集的困难权重分布为困难样本：简单样本＝3:7，在对第一样本集调整困难权重分布时，可以通过数据增强的方式，将3000个困难样本扩充为6000个困难样本，再从7000个简单样本中随机选择4000个简单样本，将这6000个困难样本和4000个简单样本组成第二样本集P2，第二样本集P2的困难权重分布为困难样本：简单样本＝3:2。

再举例来说，如图7左侧的柱状图所示，训练设备200基于每个样本的困难权重统计整个第一样本集的困难权重分布后，困难权重α ₁＝1的样本数量为3000，困难权重α ₂＝2的样本数量为2500，困难权重α ₃＝3的样本数量为2000，困难权重α ₄＝4的样本数量为1000，困难权重α ₅＝5的样本数量为500，即第一样本集的困难权重分布为α ₁：α ₂：α ₃：α ₄： α ₅＝6:5:4:2:1。假设当前的任务目标所需的目标困难权重分布如图7右侧的柱状图所示，即α ₁：α ₂：α ₃：α ₄：α ₅＝25:25:20:18:16，也就是说，困难权重α为1的样本数量为2500，困难权重α为2的样本数量为2500，困难权重α为3的样本数量为2000，困难权重α为4的样本数量为1800，困难权重α为5的样本数量为1600。此时困难权重α为4和困难权重α为5的样本数量不足，因此可以增加困难权重α为4和困难权重α为5的样本，最终可以将第一样本集的困难权重分布调整为如图7右侧的柱状图所示，从而获得第二样本集。应理解，图7仅用于举例说明，并不能构成具体限定。

具体实现中，增加第一样本集中的样本数量，或者，改变第一样本集中部分样本的困难权重，这一过程可以通过数据增强来实现，数据增强可以是指，对部分困难样本或者简单样本进行随机扰动从而获得更多的困难样本或者简单样本，其中，所述随机扰动包括加噪声点、改变光照信息、改变环境信息(比如天气、背景、时间)等等。数据增强还可以是指，将部分困难样本或者简单样本输入生成对抗网络(Generative Adversarial Networks,GAN)后，获得更多的困难样本或者简单样本，其中，GAN可以包括判别网络以及生成网络，其中，生成网络用于根据输入数据生成图片，判别网络用于判别输入的图片是否是真实图片。GAN在训练过程中，生成网络的目标是尽量生成出真实的图片使得判别网络的输出结果为真实，判别网络的目标是尽量判别出准确的结果，即判别出生成网络生成的图片的数据结果为虚假，两个网络形成一个动态“博弈”的过程，最终训练好的GAN可以生成“以假乱真”的图片，从而获得更多的困难样本或者简单样本。

S240：训练设备200利用第二样本集，对待训练模型进行训练。

在一实施例中，使用第二样本集对待训练模型进行训练之前，根据第二样本集中样本的困难权重，调整待训练模型的损失函数的权重参数，然后利用第二样本集对待训练模型进行训练时，可以根据上述损失函数对待训练模型进行反向传播监督训练，获得训练后的待训练模型，其中，该损失函数中每个样本的困难权重与损失函数的值呈正比例关系，因此，困难权重越大的样本输入待训练模型后，获得的损失函数值越大，使用该损失函数对待训练模型进行反向传播监督训练，可以使得待训练模型更加倾向于利用困难样本进行参数更新。

具体地，如果待训练模型的任务目标常用的损失函数为Loss0，那么待训练模型的损失函数Loss1的公式可以如下：

Loss1＝α _iLoss (1)

这样，困难权重大的困难样本对损失函数的影响更大，在使用上述损失函数对待训练模型进行反向传播监督训练时，待训练模型可以更加集中于学习困难样本的特征，更倾向于利用困难样本进行参数更新，从而达到待训练模型针对困难样本进行强化训练的目的，进而提升模型对困难样本的特征表达能力。应理解，公式3仅用于举例说明，待训练模型的损失函数Loss1的公式还可以是其他Loss1与α _i呈正比例关系的公式，本申请不作具体限定。

举例来说，如果Loss0的公式为：

其中，w和b是待训练模型的参数，x是输入数据，y是输出数据，m是输入数据的数量，n为待训练模型分类的类别数，举例来说，待训练模型是五分类模型，那么n＝5。在待训练模型的训练过程中，Loss1的公式可以是：

应理解，上述公式仅用于举例说明，Loss0的具体公式可以采用业界已有的各种Loss公式中的任一种，比如均方差损失函数、交叉熵损失函数等等，本申请不作具体限定。

下面对上述步骤S220处，训练设备200确定第一样本集中样本的困难权重分布的具体过程进行详细描述。该步骤可以详细分为以下步骤：

步骤S221：将第一样本集的每个样本输入至特征提取模型，获得每个样本的特征信息，其中，每个样本对应一个类别。

具体实现中，特征提取模型提取的每个样本的特征信息具体可以是特征向量或特征矩阵，为例便于本申请更好的被理解，下文统一以特征信息为特征向量为例进行举例说明。其中，特征向量是以向量形式表示的样本的数值型特征，可以较为有效的表征样本特征，通常情况下，特征向量是一个多维度的向量，比如512维的向量、1024维的向量，本申请不对向量的具体维度进行限定。需要说明的，特征提取模型用于提取样本的某一类特征，不同的特征提取模型针对同一样本提取出的特征向量是不同的，用于提取人脸属性的特征提取模型可以提取出样本A的眼睛、鼻子和嘴巴等特征，用于提取车辆属性的特征提取模型可以提取出样本A的车轮、钢铁材质等特征。因此，特征提取模型可以根据待训练模型的任务目标来确定，如果待训练模型是人脸识别网络，那么步骤S221使用的特征提取模型是用于提取人脸属性特征的特征提取模型，如果待训练模型是车辆识别网络，那么步骤S220使用的特征提取模型时用于提取车辆属性特征的特征提取模型，应理解，上述举例仅用于说明，并不能构成具体限定。

可以理解的，简单样本和困难样本输入特征提取模型后获得的特征向量是不同的，简单样本提取出的特征向量质量很好，困难样本提取出的特征向量质量很差，其中，特征向量的质量取决于其区分不同类别的图像样本的能力，良好的特征应该是信息丰富的，不受噪声和一系列变换的影响，输入分类器之后可以快速获得样本所属的类别，相反，质量差的特征信息匮乏，输入分类器之后很难确定样本所属的类别。举例来说，用于提取人脸属性的特征提取模型，对简单样本进行特征提取时，可以很容易地提取出该样本包含眼睛、鼻子和嘴巴的特征，困难样本则难以提取出该样本是否包含眼睛鼻子和嘴巴的特征，因此，简单样本之间的特征向量应该是类似的，困难样本的特征向量与简单样本的特征向量是不同的。

具体实现中，数据库150中的特征提取模型用于提取样本的特征信息，可以是在步骤S210之前训练好的AI模型，特征提取模型可以采用业界已有的用于提取样本特征的AI模型中的任一种，比如，用于目标检测的特征描述子(Histogram of Oriented Gradient，HOG)、局部二值模式(Local Binary Pattern，LBP)、卷积神经网络的卷积层等等，本申请不作具体限定。并且，上述样本集的来源可以包括手机或监控摄像头、本地离线数据以及互联网公开数据等等，本申请不作具体限定。

下面以卷积神经网络为例，对特征提取模型进行举例说明。

卷积神经网络(Convolutional Neuron Network,CNN)是一种带有卷积结构的深度神经网络，是一种深度学习(Deep Learning)架构，深度学习架构是指通过计算设备学习的算法，在不同的抽象层级上进行多个层次的学习。作为一种深度学习架构，CNN是一种前馈(Feed-Forward)人工神经网络，该前馈人工神经网络中的各个神经元对输入其中的图像中的重叠区域作出响应。如图5所示，卷积神经网络(CNN)300可以包括输入层310，卷积层/池化层320以及神经网络层330，其中，池化层为可选的网络层。

(1)卷积层/池化层320：如图5所示卷积层/池化层320可以包括如示例321-326层，在一种实现中，321层为卷积层，322层为池化层，323层为卷积层，324层为池化层，325为卷积层，326为池化层；在另一种实现方式中，321、322为卷积层，323为池化层，324、325为卷积层，326为池化层。即卷积层的输出可以作为随后的池化层的输入，也可以作为另一个卷积层的输入以继续进行卷积操作。

以卷积层321为例，卷积层321可以包括很多个卷积算子，卷积算子也称为核，其在图像处理中的作用相当于一个从输入图像矩阵中提取特定信息的过滤器，卷积算子本质上可以是一个权重矩阵，这个权重矩阵通常被预先定义，在对图像进行卷积操作的过程中，权重矩阵通常在输入图像上沿着水平方向一个像素接着一个像素(或两个像素接着两个像素，这取决于步长stride的取值)的进行处理，从而完成从图像中提取特定特征的工作。该权重矩阵的大小应该与图像的大小相关，需要注意的是，权重矩阵的纵深维度(Depth Dimension)和输入图像的纵深维度是相同的，在进行卷积运算的过程中，权重矩阵会延伸到输入图像的整个深度。因此，和一个单一的权重矩阵进行卷积会产生一个单一纵深维度的卷积化输出，但是大多数情况下不使用单一权重矩阵，而是应用维度相同的多个权重矩阵。每个权重矩阵的输出被堆叠起来形成卷积图像的纵深维度。不同的权重矩阵可以用来提取图像中不同的特征，例如一个权重矩阵用来提取图像边缘信息，另一个权重矩阵用来提取图像的特定颜色，又一个权重矩阵用来对图像中不需要的噪点进行模糊化等等，该多个权重矩阵维度相同，经过该多个维度相同的权重矩阵提取后的特征图维度也相同，再将提取到的多个维度相同的特征图合并形成卷积运算的输出，获得最终的特征向量。

这些权重矩阵中的权重值在实际应用中需要经过大量的训练得到，通过训练得到的权重值形成的各个权重矩阵可以从输入图像中提取特定信息，生成特征向量，再将特征向量输入神经网络层进行分类处理，从而帮助卷积神经网络300进行正确的预测。

当卷积神经网络300有多个卷积层的时候，初始的卷积层(例如321)往往提取较多的一般特征，该一般特征也可以称之为低级别的特征；随着卷积神经网络300深度的加深，越往后的卷积层(例如326)提取到的特征越来越复杂，比如高级别的语义之类的特征，语义越高的特征越适用于待解决的问题。

(2)池化层：由于常常需要减少训练参数的数量，因此卷积层之后常常需要周期性的引入池化层，即如图5中320所示例的321-326各层，可以是一层卷积层后面跟一层池化层，也可以是多层卷积层后面接一层或多层池化层。在图像处理过程中，池化层的唯一目的就是减少图像的空间大小。池化层可以包括平均池化算子和/或最大池化算子，以用于对输入图像进行采样得到较小尺寸的图像。平均池化算子可以在特定范围内对图像中的像素值进行计算产生平均值。最大池化算子可以在特定范围内取该范围内值最大的像素作为最大池化的结果。另外，就像卷积层中用权重矩阵的大小应该与图像大小相关一样，池化层中的运算符也应该与图像的大小相关。通过池化层处理后输出的图像尺寸可以小于输入池化层的图像的尺寸，池化层输出的图像中每个像素点表示输入池化层的图像的对应子区域的平均值或最大值。

(3)神经网络层330：

在经过卷积层/池化层320的处理后，卷积神经网络300还不足以输出所需要的输出信息。因为如前所述，卷积层/池化层320只会提取特征，并减少输入图像带来的参数。然而为了生成最终的输出信息(所需要的类信息或别的相关信息)，卷积神经网络300需要利用神经网络层330来生成一个或者一组所需要的类的数量的输出。因此，在神经网络层330中可以包括多层隐含层(如图5所示的331、332至33n)以及输出层340，该多层隐含层中所包含的参数可以根据具体的任务类型的相关训练数据进行预先训练得到。

在神经网络层330中的多层隐含层之后，也就是整个卷积神经网络300的最后层为输出层340，该输出层340具有类似分类交叉熵的损失函数，具体用于计算预测误差，一旦整个卷积神经网络300的前向传播(如图5由310至340的传播为前向传播)完成，反向传播(如图5由340至310的传播为反向传播)就会开始更新前面提到的各层的权重值以及偏差，以减少卷积神经网络300的损失及卷积神经网络300通过输出层输出的结果和理想结果之间的误差。

综上可知，输入层310、卷积层/池化层320用于提取样本特征，获得样本的特征向量，神经网络层330用于根据卷积层/池化层320提取的特征向量对输入图像进行分类，因此，本申请所需的特征提取模型，可以简单理解为只包含卷积层/池化层320、不包含神经网络层330的卷积神经网络。应理解，上述举例仅用于说明，并不能构成具体限定。

步骤S222：根据每个样本的特征信息，确定第一样本集中多类样本的参考特征信息，其中，每类样本包括至少一个类别相同的样本。

举例来说，假设第一类样本中的样本数量为n个，该类样本中每一个样本的特征信息分别为特征向量B ₁,B ₂,…,B _n，那么该类样本的参考特征信息可以是这n个向量的平均向量A，也可以是n个向量中最接近上述平均向量A的一个向量B _j，其中，j∈n，同理，可以获得其他类别样本的向量，当参考特征信息用向量的形式表示时，参考特征信息也称为参考特征向量。举例来说，如果每个样本的特征信息是512维的特征向量，那么将步骤S221获得的多维特征向量映射到2D空间，以坐标点的形式绘制在平面直角坐标系中，每类样本的参考特征信息可以如图6所示。应理解，图6仅用于举例说明，每类样本的参考特征信息还可以是将每类样本的特征向量映射到2D空间之后，将分布最密集的区域的点对应的特征向量确定为该类样本的参考特征信息，本申请不对参考特征信息的确定方法进行限定。

步骤S223：基于每个样本的特征信息与对应类别的参考特征信息之间的相似度，确定每个样本对应的困难权重。

其中，每个样本的特征信息与对应类别的参考特征信息之间的相似度越大，该样本的困难权重越小，也就是说相似度与困难权重之间呈反比例关系，可以理解的，在特征信息是特征向量的情况下，每个样本的困难权重可以根据每个样本的特征向量与对应类别的参考特征向量之间的距离来确定，每个样本的特征向量与对应类别的参考特征向量之间的距离越大，表该样本的特征向量与对应类别的参考特征向量之间的相似度越小，该样本的困难权重越大，也就是说距离与困难权重之间呈正比例关系。

举例来说，如果第一类样本中每一个样本输入特征提取模型后获得的特征向量为B ₁,B ₂,…,B _n，参考特征向量为向量A，那么可以根据特征向量B ₁与参考特征向量A之间的距离确定特征向量B ₁的困难权重，根据特征向量B ₂与参考特征向量A之间的距离确定特征向量B ₂的困难权重，…，根据特征向量B _n与参考特征向量A之间的距离确定特征向量B _n的困难权重。以此类推，可以根据每个样本与对应类别的参考特征向量之间的距离，确定每个样本的困难权重。

具体实现中，一个样本的特征向量与参考特征向量之间的距离可以是余弦距离(CosineDistance)、欧氏距离(Euclidean Distance)、曼哈顿距离(Manhattan Distance)、切比雪夫距离(Chebyshev Distance)、闵可夫斯基距离(Minkowski Distance)等等，一个样本的特征信息与参考特征信息之间的相似度可以是余弦相似度(Cosine Similarity)、调整余弦相似度(Adjusted Cosine Similarity)、皮尔森相关系数(Pearson Correlation Coefficient)杰卡德相似系数(Jaccard Coefficient)等等，本申请不作具体限定。

举例来说，某类样本的参考特征向量为A，特征向量为B _i＝{B ₁,B ₂,…,B _n}，那么参考特征向量A与特征向量B _i之间的距离公式D _i(余弦距离)可以是：

基于公式(4)可以确定每个样本的特征向量B _i与参考特征向量A之间的距离D _i。应理解，上述公式4仅用于举例说明，并不能构成具体限定。

参考图5实施例可知，用于提取样本特征的特征提取模型包括多个用于提取特定特征的权重矩阵，每一个权重矩阵都可以提取到特定的颜色、特定的边缘信息等等，因此对于简单样本来说，权重矩阵都可以很好的提取到特定的颜色、特定的边缘信息等等，不同的简单样本提取得到的特征向量十分类似；而对于困难样本，权重矩阵可能无法提取到特定的颜色、特定的边缘信息等等，因此困难样本提取得到的特征向量与简单样本提取到的特征向量差距很大。这样，通过确定每一个样本提取的特征向量与参考特征向量之间的距离，可以很好的确定该样本的困难程度，样本的特征向量与参考特征向量之间的距离越大，样本的特征向量与参考特征向量相似度越小，表示该样本越属于困难样本，困难权重也就越大，相反，样本的特征向量与参考特征向量之间的距离越小，样本的特征向量与参考特征向量相似度越大，表示该样本越属于简单样本，困难权重也就越小。因此，困难权重α _i的公式可以是：

α _i＝T×D _i i＝1,2,…,n (5)

其中，T为大于1的常量，应理解，上述公式5仅用于说明，困难权重α的公式可以是其他困难权重α与距离D呈正比例关系的公式，本申请不作具体限定。

同理可知，如果样本的困难权重α是根据样本的特征信息与陈坤特征信息之间的相似度S来确定的，困难权重的公式可以是：

α _i＝T-S _i i＝1,2,…,n (6)

应理解，上述公式6仅用于说明，困难权重α的公式可以是其他困难权重α与相似度S呈反比例关系的公式，本申请不作具体限定。

在一实施例中，公式5和公式6中，困难权重α _i中的常量T可以是可调的常量，具体地，在训练待训练模型的初期阶段，T可以是一个较大的常量，使得困难样本的困难权重更高，损失函数的值更大，待训练模型的学习重心越偏向于困难样本。在训练待训练模型的末期，T可以适当变小，因为此时AI模型已经趋向于收敛，可以不再需要偏向于耗时较多的困难样本，从而提高训练速度。

步骤S224：根据第一样本集中每个样本的困难权重，获得第一样本集中样本的困难权重分布。

可以理解的，用特征提取模型提取样本集内每个样本的特征向量和每类样本的向量，再根据每个样本的特征向量与对应类别的向量之间的相似度或者距离，确定每个样本的困难权重，这样获得的第一样本集的困难权重分布是基于样本本身的特征获得的，与训练模型的结构以及训练使用的方法无关，可以很好的反映出样本的困难程度，困难样本标注的精度很高，从而解决了由于困难样本难以标注使得AI模型的训练精度出现瓶颈的问题。

在一实施例中，训练设备获得第一样本集中样本的困难权重分布之后，可以将第一样本集的困难权重分布也存储在数据库130中，这样，当数据库130中存储了许多样本集的困难权重分布之后，如果训练设备需要训练AI模型时，根据待训练的AI模型的任务目标确定目标困难权重分布之后，可以直接从数据库130中获取接近于目标困难权重分布的样本集对待训练的AI模型进行训练。举例来说，数据库130存储3个样本集，分别为样本集X1、X2以及X3，数据库130还存储有样本集X1的困难权重分布Y1＝1:1，样本集X2的困难权重分布Y2＝1:2，以及样本集X3的困难权重分布Y3＝1:5，训练设备200可以根据待训练模型的任务目标以及前述内容中的对应关系库，获得与该任务目标对应的目标困难权重分布Y0＝1:6，然后在数据库130中获取困难权重分布与目标困难权重分布Y0最接近的样本集，也就是样本集X3。这样，训练设备200可以不用执行步骤S230调整困难权重分布，直接选择与目标困难权重分布相同或者相似的样本集作为第二样本集，对待训练的AI模型进行训练，进一步提高AI模型的训练速度。

综上可知，本申请提供了一种模型训练方法，可以在对待训练模型进行训练之前，先确定第一样本集中样本的困难权重分布，然后根据待训练模型的任务目标和上述困难权重分布，对第一样本集进行调整，获得第二样本集，最后使用第二样本集对待训练模型进行训练。这样，训练设备200在训练待训练模型的过程中，可以结合待训练模型的任务目标的复杂程度和每个样本的困难权重，选择合适数量的困难样本进行训练，解决了困难样本难以标注导致AI模型的训练精度出现瓶颈的问题，使得AI模型的训练精度得到提升。

下面结合图8，对本申请提供的训练方法进行举例说明。如图8所示，假设当前待训练模型的任务目标为室外视频监控场景中的人脸识别，是一个较为复杂的任务场景，用于训练待训练模型的第一样本集包括两类样本，第一类样本是ID1的人脸图像(比如人物Ann 在各个角度的人脸图像)，包括样本X11～X14，第二类样本是ID2的人脸图像(比如人物Lisa在各个角度的人脸图像)，包括样本X21～X24，一共有8个样本。在这一应用场景下，如图8所示，本申请提供的训练方法包括以下步骤：

步骤1、将第一样本集的每类样本中的每一个样本输入特征提取模型，获得每个样本的特征向量。其中，特征提取模型用于提取人脸特征。如图8所示，将样本X11～X14输入特征提取模型可以获得特征向量A11～A14，将样本X21～X24输入特征提取模型可以获得特征向量A21～A24。具体可以参考前述内容的步骤S221，这里不展开赘述。

步骤2、确定第一样本集每类样本的参考特征向量。其中，每类样本的参考特征向量可以是每类样本的特征向量的平均值，也可以是最接近该平均值的一个特征向量，还可以是将每类样本的特征向量映射到2D空间之后，将分布最密集的区域的点对应的特征向量确定为该类样本的参考特征信息，本申请不对参考特征信息的确定方法进行限定。图8以最接近平均值的一个特征向量为例进行了说明，比如图8所示的参考特征向量A14和参考特征向量A21。具体可以参考前述内容的步骤S222，这里不展开赘述。

步骤3、确定每个特征向量与对应类别的参考特征向量之间的距离。如图8所示，可以计算特征向量A14与A11之间的距离D11，特征向量A14与A12之间的距离D12，特征向量A13与A14之间的距离D13，特征向量A14与A14之间的距离为0，同理，可以计算出第二类样本中特征向量A21与A22之间的距离D21，特征向量A21与A23之间的距离D22，特征向量A21与A24之间的距离D23，特征向量A21与A21之间的距离为0。其中，距离可以是前述内容中的余弦距离、欧式距离、曼哈顿距离、切比雪夫距离以及曼哈顿距离中的任一种，本申请不作具体限定。该步骤可以参考前述内容中的步骤S223及其可选步骤，这里不展开赘述。

步骤4、确定第一样本集的每个样本的困难权重α，获得第一样本集的困难权重分布。困难权重的公式可以参考公式5，即α ₁₁＝T×D11，α ₁₂＝T×D12，以此类推，可以获得8个样本中每个样本的困难权重如图8所示，其中，困难权重大于第一阈值h ₁的样本用深色表示，也就是样本X11和样本X22的困难权重高于阈值。该步骤可以参考前述内容中的步骤S224及其可选步骤，这里不展开赘述。

步骤5、根据待训练模型的任务目标确定待训练模型的目标困难权重，根据该目标困难权重调整第一样本集的困难权重分布，获得第二样本集。如图8所示，第一样本集的困难权重分布为困难样本：非困难样本＝1:3，假设任务目标对应的目标困难权重为困难样本：非困难样本＝3:1，但是由于第一样本集困难样本只有两个，也就是X11和X22，因此需要通过数据增量方法对困难样本进行扩充，使得扩充后的困难样本(6个)与非困难样本(2个)之间的数量比达到3:1，从而获得用于训练待训练模型的第二样本集。该步骤可以参考前述内容中的步骤S230及其可选步骤，这里不展开赘述。

步骤6、使用第二样本集对待训练模型进行训练。其中，待训练模型的损失函数可以如公式3所示，该损失函数使得待训练模型的训练过程中，困难权重大的困难样本对损失函数的影响加大，进而使得待训练模型可以更加集中于学习困难样本的特征，更加倾向于利用困难样本进行参数更新，从而达到强化学习的目的。并且，可以在训练初期将困难权重中的常量T设置为较高值，使得困难样本在训练待训练模型时的影响力达到最高，然后在训练末期将困难权重中的常量T设置为较低值，此时待训练模型已经趋向于收敛，可以不再需要偏向于耗时较多的困难样本，从而提高训练速度。该步骤可以参考前述内容中的步骤S240及其可选步骤，这里不展开赘述。

上述训练方法通过使用特征提取模型对第一样本集中的每一个样本进行特征提取，根据第一样本集的每一个样本提取到的特征向量确定同类样本的参考特征向量，再根据同类样本中每一个样本的特征向量与参考特征向量之间的距离，确定每一个样本的困难权重，然后根据该困难权重调整第一样本集的困难权重分布，使用调整困难权重分布后的第二样本集对待训练模型进行训练，这样，训练设备200在训练待训练模型的过程中，可以结合待训练模型的任务目标的复杂程度和每个样本的困难权重，选择合适数量的困难样本进行训练，解决了困难与安保难以标注导致的AI模型训练精度出现瓶颈的问题，使得AI模型的训练精度得到提升。并且，由于待训练模型的损失函数的权重参数根据第二样本集的困难权重分布进行了调整，该损失函数的值与困难权重呈正比例关系，样本的困难权重越大，使用该样本训练待训练模型获得的损失函数值越大，使得待训练模型可以更加集中于学习困难样本的特征，从而达到针对困难样本的强化训练效果，进一步提高AI模型的预测精度。

上述详细阐述了本申请实施例的方法，为了便于更好的实施本申请实施例上述方案，相应地，下面还提供用于配合实施上述方案的相关设备。

图9为本申请实施例提供的一种芯片硬件结构，该芯片包括神经网络处理器50。该芯片可以被设置在前述内容中的训练设备200、训练设备200中，用以完成训练单元240的训练工作以及提取模块211的特征提取工作。如图5所示的卷积神经网络中各层的算法均可在如图9所示的芯片中得以实现。

需要说明的，神经网络处理器(Neural-network Processing Unit，NPU)900可以作为协处理器挂载到主CPU(Host CPU)上，由主CPU800分配任务，主CPU800就像管理者，负责判断哪些数据需要由NPU核来执行，从而发出指令触发NPU900进行数据的处理。NPU900还可以集成到CPU，比如麒麟970，也可以作为一个单独的芯片。NPU900的核心部分为运算电路903，通过控制器904控制运算电路903提取存储器中的矩阵数据并进行乘法运算，比如图5实施例中的卷积运算。

在一些实现中，运算电路903内部包括多个处理单元(Process Engine,PE)。在一些实现中，运算电路903是二维脉动阵列。运算电路903还可以是一维脉动阵列或者能够执行例如乘法和加法这样的数学运算的其它电子线路。在一些实现中，运算电路903是通用的矩阵处理器。

举例来说，假设有输入矩阵A，权重矩阵B，输出矩阵C。运算电路从权重存储器902中取矩阵B相应的数据，并缓存在运算电路中每一个PE上。运算电路从输入存储器901中取矩阵A数据与矩阵B进行矩阵运算，得到的矩阵的部分结果或最终结果，保存在累加器(Accumulator)908中。

统一存储器906用于存放输入数据以及输出数据。权重数据直接通过存储单元访问控制器(Direct Memory Access Controller,DMAC)905被搬运到权重存储器902中。输入数据也通过DMAC被搬运到统一存储器906中。

总线接口单元(Bus Interface Unit,BIU)910用于通过总线协议(Advanced eXtensible Interface,AXI)与存储单元访问控制器905和取指存储器(Instruction Fetch Buffer,IFB)909交互。

总线接口单元910，用于供取指存储器909从外部存储器获取指令，还用于存储单元访问控制器905从外部存储器获取输入矩阵A或者权重矩阵B的原数据。

存储单元访问控制器905主要用于将外部存储器中的输入数据搬运到统一存储器906或将权重数据搬运到权重存储器902中或将输入数据搬运到输入存储器901中。

向量计算单元907包括多个运算处理单元，在需要的情况下，对运算电路的输出做进一步处理，如向量乘法，向量加法，指数运算，对数运算，大小比较等等。主要用于神经网络中非卷积/FC层网络计算，如池化(Pooling)，批归一化(Batch Normalization)，局部响应归一化(Local Response Normalization)等。

在一些实现中，向量计算单元能907将经过处理的输出向量存储到统一缓存器906。例如，向量计算单元907可以将非线性函数应用到运算电路903的输出，例如累加值的向量，用以生成激活值。在一些实现中，向量计算单元907生成归一化的值、合并值，或二者均有。在一些实现中，处理过的输出的向量能够用作到运算电路903的激活输入，例如用于在神经网络中的后续层中的使用。

控制器904连接的取指存储器(Instruction Fetch Buffer)909，用于存储控制器904使用的指令；控制器904，用于调用取指存储器909中缓存的指令，实现控制该运算加速器的工作过程。

一般地，统一存储器906，输入存储器901，权重存储器902以及取指存储器909均为片上存储器(On-chip Memory)。外部存储器私有于该NPU硬件架构。该外部存储器可以为双倍数据率同步动态随机存储器(Double Data Rate Synchronous Dynamic Random Access Memory，DDR SDRAM)、高带宽存储器(High Bandwidth Memory，HBM)或其他可读可写的存储器。

图10是本申请提供的一种计算设备的硬件结构示意图。其中，计算设备1000可以是图2-图10实施例中的训练设备200。如图10所示，计算设备1000包括：处理器1010、通信接口1020、存储器1030以及神经网络处理器1050。其中，处理器1010、通信接口1020、存储器1030以及神经网络处理器1050可以通过内部总线1040相互连接，也可通过无线传输等其他手段实现通信。本申请实施例以通过总线1040连接为例，总线1040可以是外设部件互连标准(Peripheral Component Interconnect,PCI)总线或扩展工业标准结构(Extended Industry Standard Architecture,EISA)总线等。所述总线1040可以分为地址总线、数据总线、控制总线等。为便于表示，图10中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

所述处理器1010可以由至少一个通用处理器构成，例如中央处理器(Central Processing Unit，CPU)，或者CPU和硬件芯片的组合。上述硬件芯片可以是专用集成电路(Application-Specific Integrated Circuit，ASIC)、可编程逻辑器件(Programmable Logic Device，PLD)或其组合。上述PLD可以是复杂可编程逻辑器件(Complex Programmable Logic Device，CPLD)、现场可编程逻辑门阵列(Field-Programmable Gate Array，FPGA)、通用阵列逻辑(Generic Array Logic，GAL)或其任意组合。处理器1010执行各种类型的数字存储指令，例如存储在存储器1030中的软件或者固件程序，它能使计算设备1000提供较宽的多种服务。

所述存储器1030用于存储程序代码，并由处理器1010来控制执行，以执行上述图2-图8中任一实施例中训练设备200的处理步骤。所述程序代码中可以包括一个或多个软件模块。这一个或多个软件模块可以为图3所示实施例中提供的软件模块，如获取单元、确定单元、调整单元和训练单元，其中，获取单元可以用于获取第一样本集，确定单元可以用于确定第一样本集的困难权重分布，调整单元可以用于根据第一样本集的每个样本对应的困难权重以及待训练模型的任务目标，调整第一样本集的困难权重分布获得第二样本集，训练单元可以用于使用第二样本集的待训练模型进行训练，具体可用于执行前述方法的步骤S210-步骤S230及其可选步骤、步骤1-步骤6及其可选步骤，还可以用于执行图2-图8实施例描述的其他由训练设备执行的步骤，这里不再进行赘述。

需要说明的是，本实施例可以是通用的物理服务器实现的，例如，ARM服务器或者X86服务器，也可以是基于通用的物理服务器结合NFV技术实现的虚拟机实现的，所述虚拟机指通过软件模拟的具有完整硬件系统功能的、运行在一个完全隔离环境中的完整计算机系统，本申请不作具体限定。

神经网络处理器1050可以用于通过存储器1030的训练程序以及样本数据得到推理模型，以执行本文讨论方法的至少一部分，其中，神经网络处理器1050的硬件结构具体可参考图9。

所述存储器1030可以包括易失性存储器(Volatile Memory)，例如随机存取存储器(Random Access Memory，RAM)；存储器1030也可以包括非易失性存储器(Non-Volatile Memory)，例如只读存储器(Read-Only Memory，ROM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive，HDD)或固态硬盘(Solid-State Drive，SSD)；存储器1030还可以包括上述种类的组合。存储器1030可以存储有第一样本集和/或第二样本集，存储器1030可以存储有程序代码，具体可以包括用于执行图2-图8实施例描述的其他步骤的程序代码，这里不再进行赘述。

通信接口1020可以为有线接口(例如以太网接口)，可以为内部接口(例如高速串行计算机扩展总线(Peripheral Component Interconnect express,PCIe)总线接口)、有线接口(例如以太网接口)或无线接口(例如蜂窝网络接口或使用无线局域网接口)，用于与与其他设备或模块进行通信。

需要说明的，图10仅仅是本申请实施例的一种可能的实现方式，实际应用中，所述计算设备还可以包括更多或更少的部件，这里不作限制。关于本申请实施例中未示出或未描述的内容，可参见前述图2-图8所述实施例中的相关阐述，这里不再赘述。

应理解，图10所示的计算设备还可以是至少一个服务器构成的计算机集群，本申请不作具体限定。

本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在处理器上运行时，图2-图8所示的方法流程得以实现。

本申请实施例还提供一种计算机程序产品，当所述计算机程序产品在处理器上运行时，图2-图8所示的方法流程得以实现。

上述实施例，可以全部或部分地通过软件、硬件、固件或其他任意组合来实现。当使用软件实现时，上述实施例可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括至少一个计算机指令。在计算机上加载或执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以为通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据通过有线(例如同轴电缆、光纤、数字用户线(Digital Subscriber Line,DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含至少一个可用介质集合的服务器、数据等数据存储设备。所述可用介质可以是磁性介质(例如，软盘、硬盘、磁带)、光介质(例如，高密度数字视频光盘(Digital Video Disc,DVD)、或者半导体介质。半导体介质可以是SSD。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

一种训练方法，其特征在于，所述方法包括：

获取第一样本集，所述第一样本集包括多个样本；

确定所述第一样本集中样本的困难权重分布；

根据待训练模型的任务目标和所述第一样本集中样本的困难权重分布，调整所述第一样本集，获得第二样本集；

利用所述第二样本集，对所述待训练模型进行训练。
根据权利要求1所述的方法，其特征在于，所述待训练模型的任务目标包括所述待训练模型经训练完成后的应用场景、所述待训练模型经训练完成后需实现的事件类型以及所述待训练模型的训练精度目标中的一种或者多种。
根据权利要求1或2所述的方法，其特征在于，所述根据待训练模型的任务目标和所述第一样本集中样本的困难权重分布，调整所述第一样本集，获得第二样本集，包括：

根据所述待训练模型的任务目标和所述第一样本集中样本的困难权重分布，确定用于训练所述待训练模型的样本集应达到的目标困难权重分布；

增加或减少所述第一样本集中的样本数量，或者，改变所述第一样本集中部分样本的困难权重，获得第二样本集，其中，所述第二样本集中样本的困难权重分布等于或者近似于所述目标困难权重分布。
根据权利要求1-3任一项所述的方法，其特征在于，所述确定所述第一样本集中样本的困难权重分布包括：

将所述第一样本集的每个样本输入至特征提取模型，获得所述每个样本的特征信息，其中，所述每个样本对应一个类别；

根据所述每个样本的特征信息，确定所述第一样本集中的多类样本的参考特征信息，其中，每类样本包括至少一个类别相同的样本；

基于所述每个样本的特征信息与对应类别的参考特征信息之间的相似度，确定所述每个样本对应的困难权重；

根据所述第一样本集中每个样本的困难权重，获得所述第一样本集中样本的困难权重分布。
根据权利要求1至4任一项所述的方法，其特征在于，在利用所述第二样本集，对所述待训练模型进行训练之前，所述方法还包括：

根据所述第二样本集中样本的困难权重分布，调整所述待训练模型的损失函数的权重参数。
一种训练装置，其特征在于，所述装置包括：

获取单元，用于获取第一样本集，所述第一样本集包括多个样本；

确定单元，用于确定所述第一样本集中样本的困难权重分布；

调整单元，用于根据待训练模型的任务目标和所述第一样本集中样本的困难权重分布，调整所述第一样本集，获得第二样本集；

训练单元，用于利用所述第二样本集，对所述待训练模型进行训练。
根据权利要求6所述的装置，其特征在于，所述待训练模型的任务目标包括所述待训练模型经训练完成后的应用场景、所述待训练模型经训练完成后需实现的事件类型以及所述待训练模型的训练精度目标中的一种或者多种。
根据权利要求6或7所述的装置，其特征在于，

所述调整单元具体用于：

根据所述待训练模型的任务目标和所述第一样本集中样本的困难权重分布，确定用于训练所述待训练模型的样本集应达到的目标困难权重分布；

增加或减少所述第一样本集中的样本数量，或者，改变所述第一样本集中部分样本的困难权重，获得第二样本集，其中，所述第二样本集中样本的困难权重分布等于或者近似于所述目标困难权重分布。
根据权利要求6至8任一项所述的装置，其特征在于，

所述确定单元具体用于：

将所述第一样本集的每个样本输入至特征提取模型，获得所述每个样本的特征信息，其中，所述每个样本对应一个类别；

根据所述每个样本的特征信息，确定所述第一样本集中的多类样本的参考特征信息，其中，每类样本包括至少一个类别相同的样本；

基于所述每个样本的特征信息与对应类别的参考特征信息之间的相似度，确定所述每个样本对应的困难权重；

根据所述第一样本集中每个样本的困难权重，获得所述第一样本集中样本的困难权重分布。
根据权利要求6至9任一项所述的装置，其特征在于，在利用所述第二样本集，对所述待训练模型进行训练之前，所述训练单元还用于：根据所述第二样本集中样本的困难权重分布，调整所述待训练模型的损失函数的权重参数。
一种计算机可读存储介质，其特征在于，包括指令，当所述指令在计算设备上运行时，使得所述计算设备执行如权利要求1至5任一权利要求所述的方法。
一种计算设备，其特征在于，包括处理器和存储器，所述处理器执行所述存储器中的代码执行如权利要求1至5任一权利要求所述的方法。
一种计算机程序产品，其特征在于，包括计算机程序，当所述计算机程序被计算设备读取并执行时，使得所述计算设备行如权利要求1至5任一权利要求所述的方法。