WO2022188327A1

WO2022188327A1 - 定位图获取模型的训练方法和装置

Info

Publication number: WO2022188327A1
Application number: PCT/CN2021/106885
Authority: WO
Inventors: 尚方信; 杨叶辉; 王磊; 许言午
Original assignee: 北京百度网讯科技有限公司
Priority date: 2021-03-09
Filing date: 2021-07-16
Publication date: 2022-09-15
Also published as: CN113033549A; CN113033549B

Abstract

本公开公开了定位图获取模型的训练方法和装置，涉及图像处理技术领域，尤其涉及计算机视觉、深度学习等人工智能领域。该方案为：将样本图像输入定位图获取模型进行类别识别，获取识别出的每个类别的定位图；获取样本图像的标签信息，并结合每个类别的定位图的像素值，获取每个类别对应的损失函数；基于每个类别对应的损失函数，对定位图获取模型进行反向调整，并返回使用下一个样本图像对调整后的定位图像获取模型继续训练，直至训练结束生成目标定位图获取模型。本公开通过类别的定位图和样本图像的标签信息，确定每个类型的损失函数，进而生成模型的损失函数以反向调整模型参数，以引导模型筛选更高注意力的区域，得到优化的定位图。

Description

定位图获取模型的训练方法和装置

相关申请的交叉引用

本公开要求于2021年3月09日提交的中国专利申请号“202110258523.6”的优先权，其全部内容通过引用并入本文。

技术领域

本公开涉及图像处理技术领域，尤其涉及计算机视觉、深度学习等人工智能领域。

背景技术

图像识别是人工智能的一个重要领域，在图像识别的发展中，定位图识别是其中的一项重要技术，有关定位图识别方面的研究取得了很大的进展，定位图识别为进一步的图像识别、分析和理解奠定了基础。

发明内容

本公开提供了一种定位图获取模型的训练方法。通过类别的定位图和样本图像的标签信息，最终确定模型的损失函数来反向调整模型参数，，以引导定位图获取模型筛选更高注意力的区域，从而实现定位图的优化。

根据本公开的另一方面，提供了一种定位图获取模型的训练装置。

根据本公开的另一方面，提供了一种电子设备。

根据本公开的另一方面，提供了一种非瞬时计算机可读存储介质。

根据本公开的另一方面，提供了一种计算机程序产品。

为达上述目的，本公开第一方面实施例提出了一种定位图获取模型的训练方法，该方法包括：

将样本图像输入定位图获取模型进行类别识别，获取识别出的每个类别的定位图；

获取样本图像的标签信息，并针对每个类别，根据样本图像的标签信息和每个类别的定位图的像素值和样本图像的标签信息，获取每个类别对应的损失函数；

基于每个类别对应的损失函数，对定位图获取模型进行反向调整，并返回使用下一个样本图像对调整后的定位图像获取模型继续训练，直至训练结束生成目标定位图获取模型。

为达上述目的，本公开第二方面实施例提出了一种定位图获取模型的训练装置，该装置包括：

第一获取模块，用于将样本图像输入定位图获取模型进行类别识别，获取识别出的每个类别的定位图；

第二获取模块，用于获取样本图像的标签信息，并根据样本图像的标签信息和每个根据类别的定位图的像素值，获取每个类别对应的损失函数；

调整模块，用于基于每个类别对应的损失函数，对定位图获取模型进行反向调整，并返回使用下一个样本图像对调整后的定位图像获取模型继续训练，直至训练结束生成目标定位图获取模型。

为达上述目的，本公开第三方面实施例提出了一种电子设备，包括至少一个处理器，以及

与至少一个处理器通信连接的存储器；其中，

存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行本公开第一个方面实施例的定位图获取模型的训练方法。

为达上述目的，本公开第四方面实施例提出了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，计算机指令用于使计算机执行本公开第一个方面实施例的定位图获取模型的训练方法。

为达上述目的，本公开第五方面实施例提出了一种计算机程序产品，包括计算机程序，计算机程序在被处理器执行时实现本公开第一个方面实施例的定位图获取模型的训练方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开一个实施例的定位图获取模型的训练方法的流程图；

图2是根据本公开另一个实施例的定位图获取模型的训练方法的流程图；

图3是根据本公开另一个实施例的定位图获取模型的训练方法的流程图；

图4是根据本公开另一个实施例的定位图获取模型的训练方法的流程图；

图5是根据本公开一个实施例的定位图获取模型的训练方法的示意图；

图6是根据本公开一个实施例的定位图获取模型的训练装置的结构图；

图7是可以实现本公开实施例的电子设备的结构示意图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

图像处理(Image Processing)，用计算机对图像进行分析，以达到所需结果的技术。又称影像处理。图像处理一般指数字图像处理。数字图像是指用工业相机、摄像机、扫描仪等设备经过拍摄得到的一个大的二维数组，该数组的元素称为像素，其值称为灰度值。图像处理技术一般包括图像压缩，增强和复原，匹配、描述和识别3个部分。

深度学习(Deep Learning，简称DL)，是机器学习(Machine Learning，简称ML)领域中一个新的研究方向，它被引入机器学习使其更接近于最初的目标——人工智能。深度学习是学习样本数据的内在律和表示层次，这些学习过程中获得的信息对诸如文字，图像和声音等数据的解释有很大的帮助。它的最终目标是让机器能够像人一样具有分析学习能力，能够识别文字、图像和声音等数据。深度学习是一个复杂的机器学习算法，在语音和图像识别方面取得的效果，远远超过先前相关技术。

计算机视觉(Computer Vision)，是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取‘信息’的人工智能系统。这里所指的信息指Shannon定义的，可以用来帮助做一个“决定”的信息。因为感知可以看作是从感官信号中提取信息，所以计算机视觉也可以看作是研究如何使人工系统从图像或多维数据中“感知”的科学。

人工智能(Artificial Intelligence，简称AI)，是研究使计算机来模拟人生的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科，既有硬件层面的技术，也有软件层面的技术。人工智能硬件技术一般包括计算机视觉技术、语音识别技术、自然语言处理技术以及及其学习/深度学习、大数据处理技术、知识图谱技术等几大方面。

图1是本公开一个实施例的定位图获取模型的训练方法的流程图，如图1所示，该定位图获取模型的训练方法包括以下步骤：

S101，将样本图像输入定位图获取模型进行类别识别，获取识别出的每个类别的定位图。

将样本图像进行预处理操作后输入定位图获取模型。样本图像经过预处理后可以消除图像中无关的噪声，简化数据的同时可以增强有关信息的可检测性。可选地，预处理过程包括数字化、平滑、复原或增强等。

本公开实施例中，定位图获取模型可以包括分类网络，基于该分类网络对输入的样本图像进行类别识别。可选地，分类网络中包括特征提取器及分类器，其中：

特征提取器包括卷积层、池化层以及归一层，该特征提取器可用于对样本图像进行特征提取，得到样本图像对应的特征向量。实现中将经过预处理后的样本图像输入分类网络中，由特征提取器中的卷积层对样本图像进行卷积运算，提取出样本图像的特征图；然后由池化层进行池化操作，在保留样本图像主要特征的同时减少特征维度，以降低计算量；样本图像进行卷积运算和池化操作后，数据分布很可能被改变，为了解决训练过程中中间层数据分布变化较大的情况，还需将样本图像的特征图进行归一化处理，最终提取到样本图像的特征向量。

分类器包括全连接层，用于整合特征向量，全连接层将特征提取器输出的特征向量进行全连接操作，进一步地，确定出样本图像对应的类别的定位图。不同的样本图像可以对应不同的类别。实现中，基于分类器对样本图像的类型识别结果，确定每个类别的定位图，本公开实施例中，定位图可以理解为类别的类激活图(Class Cctivation Map，CAM)。其中，类激活图用于反映样本图像中每个位置对类别的重要程度，因此可以基于位置对类别的重要程度，确定该位置是否为属于该类别的位置，进而从定位图中确定该类别的定位目标。

可选地，分类网络可以自行构造，也可以使用卷积神经网络、ResNet(残差网络)、DenseNet(密集卷积网络)等网络模型。

S102，获取样本图像的标签信息，并根据样本图像的标签信息和每个类别的定位图的像素值，获取每个类别对应的损失函数。

预先标记样本图像的标签信息，在多分类网络中，样本图像的标签信息包括每个类别的标签，其中一个标签的取值为1，剩余类别的标签取值均为0，即样本图像的标签信息可以表示成y _n＝{0,0,1...,0}。

本公开实施例中，获取的定位图实际上是一个矩阵，其中，矩阵中的元素即为定位图上的位置点，元素的取值即为定位图的像素值。定位图上每个位置点的像素值可以反映出该位置点对类别的重要程度。而样本图像的标签信息可以直接反映出样本图像是否属于某一类别。因此，可以在定位图像获取模型中，可以基于样本图像的标签信息和每个类别的定位图的像素值，获取每个类别对应的损失函数。例如，样本图像中包括类别A、类别B和类别C。其中，基于样本图像的标签信息和类别A的定位图的像素值，可以获取到类别A对应的损失函数。基于样本图像的标签信息和类别B的定位图的像素值，可以获取到类别B对应的损失函数。进一步地，基于样本图像的标签信息和类别C的定位图的像素值，可以获取到类别C对应的损失函数。也就是说，针对样本图像中识别出的每个类别均需要获取到类别对应的损失函数。

本公开实施例，通过构建每个类别的损失函数对定位图获取模型进行训练来减小误差，最终生成目标定位图获取模型，以获取优化的定位图。

S103，基于每个类别对应的损失函数，对定位图获取模型进行反向调整，并返回使用下一个样本图像对调整后的定位图像获取模型继续训练，直至训练结束生成目标定位图获取模型。

在获取到每个类别的损失函数后，由于定位图获取模型需要对每个类别进行识别，因此需要综合考虑每个类别的损失函数，因此可以对每个类别的损失函数进行求和或者根据类别对相应的损失函数进行加权，来获取定位图获取模型的整体损失函数，并根据该模型的整体损失函数确定定位图获取模型的梯度信息，将梯度信息反向传播至定位图获取模型的每一层，并对定位图获取模型每一层的参数如权重进行调整。

每次训练一次就会调整定位图获取模型的参数，在调整结束后，在未满足模型训练结束条件之前，就使用下一个样本图像对调整后的定位图像获取模型继续训练，直至训练结束生成目标定位图获取模型。可选地，训练结束条件可以是达到预设的训练次数或者训练后误差小于预设阈值。

在上述实例的基础之上，获取到目标定位图获取模型之后，可以对任意图像进行类型识别，以获取该任意图像的定位图，进而可以获取到图像中的目标。本公开实施例中定位图获取模型在无精准标注的情况下，不仅使模型输出更准确和全面的定位图，而且也使模型的分类结果更优，也就是说，定位图获取模型为一种标注精度弱于输出精度的“弱监督”模型。

本公开实施例所提出的定位图获取模型的训练方法，首先将样本图像输入定位图获取模型进行类别识别，获取识别出的每个类别的定位图；然后针对每个类别，根据类别的定位图的像素值和样本图像的标签信息，获取类别对应的损失函数；最后基于每个类别对应的损失函数，对定位图获取模型进行反向调整，并返回使用下一个样本图像对调整后的定位图像获取模型继续训练，直至训练结束生成目标定位图获取模型。本公开实施例通过类别的定位图和样本图像的标签信息，最终确定模型的损失函数进而反向调整模型参数，以引导定位图获取模型筛选更高注意力的区域，使得模型不再进关注目标最具判别性的区域，从而实现定位图的优化。而且，基于类别的定位图构建损失函数，可以使得与类别无关的图像信息则受到压制。

在上述实施例的基础上，获取类别对应的损失函数的过程，如图2所示，可以包括以下步骤：

S201，针对每个类别，根据类别的定位图的像素值，获取定位图的像素均值。

本公开实施例中，输入的样本图像长度为H个像素点，宽度为W个像素点，样本图像共有z个特征，其中，每个特征可以对应一个通道数。本公开实施例中，由定位图获取模型可以输出类别的定位图，该定位图可以表示为：

其中，M _c(x,y)表示第c个类别的定位图M在位置点(x,y)处的像素值；

表示全连接层中第k个通道的权向量，k≤z；f _k(x,y)表示样本图像对应的特征图f在位置点(x,y)的第k个通道上的值。

在获取到定位图每个位置点的像素值之后，可以对位置点上的像素值求平均，以获取定位图的像素均值。可选地，为改进模型，减小数据分布变化，本公开实施例可以对定位图中每个位置点的像素值进行约束，以将像素值约束值同一目标取值范围内。本公开实施例中，将定位图中的每个位置点的像素值的取值从(-∞，+∞)约束至[0，+∞)。例如，可以像素值进行平分根或者取绝对值等。进一步地，基于设定值，例如定位图获取模型的超参数，再将像素值约束至目标取值范围内。

可选地，可以基于如下公式对定位图上位置点的像素值进行约束：

其中，

用于将定位图中每个位置点(x,y)处的像素值的取值范围从(-∞，+∞)约束至[0，+∞)。进一步地，η为定位图获取模型预设的超参数，min(·)为取最小值的运算，用于选取

与超参数η中的最小值作为位置点(x,y)处被约束后的像素值；也就是说，超参数η是目标取值范围的上限值；也就是说，约束后的像素值的目标取值范围为[0,η]。

基于目标取值范围内每个位置点对应的被约束后的像素值和定位图的分辨率，获取定位图的像素均值A _n,c。

其中，(u×v)为定位图的分辨率，CCAM _n,c为第n张定位图的第c个类别约束后的像素值。

S202，基于样本图像的标签信息，获取样本图像在类别上的标签值。

本公开实施例中举例说明如何根据样本图像的标签信息获取标签值。若所有样本图像包含的类别按顺序排列有：{兔子、小狗，小猫，...，小鸟}，则标签为“小猫”的第n张样本图像，其标注标签为y _n＝{0,0,1...,0}，即小猫类别标签值为1，其余类别标签值置0。y _n,c为第n张样本图像的标注标签y _n＝{0,0,1...,0}在第c个类别上的取值。

S203，根据像素均值和标签值，确定该类别的损失函数。

针对第c个类别，根据第n个样本图像的类别c的定位图的像素均值A _n,c和第n个样本图像在类别c的标签值y _n,c，构造类别c的损失函数：

其中，N表示数据集中一共N张样本图像。

本公开实施例中，所构建的损失函数可以实现在y _n,c为1时，说明第n张样本图像包括了类别c的图像，即第n个样本图像的定位图相对该类别c是重要的，本公开实施例中可以通过类别c的上述损失函数，将定位图的像素值均值A _n,c，向着增大的方向调整，即增加定位图的像素值；在y _n,c为0时，说明第n张样本图像不包括类别c的图像，即第n个样本图像的定位图相对该类别c是不重要的，本公开实施例中可以通过类别c的上述损失函数，将定位图的像素值均值A _n,c，向着减小的方向调整，即减小定位图的像素值，以此来引导定位图获取模型尽可能选取高注意力的区域，减小损失函数的值。

在上述实施例的基础上，基于类别的损失函数，对定位图获取模型进行反向调整的过程，如图3所示，可以包括以下步骤：

S301，对所有类别对应的损失函数进行求和，获取定位图获取模型的第一损失函数。

基于步骤S203所获取的某一类别的损失函数，求出所有类别的损失函数，并对所有类别对应的损失函数进行求和，作为定位图获取模型的第一损失函数。

其中，m表示数据集共有m个类别，α为预设的参数，L _c为类别c的第一损失函数。

S302，获取定位图获取模型的第二损失函数。

第二损失函数需适用每个类别的定位图，是分类网络通用的损失函数，可选地，可以使用交叉熵损失函数作为第二损失函数。在训练过程中，可以基于训练误差获取到第二损失函数。

S303，基于第一损失函数和第二损失函数，确定定位图获取模型的总损失函数。

将第一损失函数与第二损失函数进行求和，作为定位图获取模型的总损失函数。

L _total＝L ₁+L ₂

其中，L ₂表示第二损失函数。

S304，基于总损失函数，确定定位图获取模型的梯度信息，并基于梯度信息反向调整定位图获取模型。

利用总损失函数对定位图获取模型进行训练，确定定位图获取模型的梯度信息，将梯度信息反向传播至定位图获取模型的每一层，并对定位图获取模型每一层的参数如权重进行调整。

图4为本公开实施例中提供的另一种定位图获取模型的训练方法。该定位图获取模型的训练方法包括以下步骤：

S401，将样本图像输入定位图获取模型进行类别识别，获取识别出的每个类别的定位图。

S402，针对每个类别，根据类别的定位图的像素值，获取定位图的像素均值。

S403，基于样本图像的标签信息，获取样本图像在类别上的标签值。

S404，根据像素均值和标签值，确定类别的损失函数。

S405，对所有类别对应的损失函数进行求和，获取定位图获取模型的第一损失函数。

S406，获取定位图获取模型的第二损失函数。

S407，基于第一损失函数和第二损失函数，确定定位图获取模型的总损失函数。

S408，基于总损失函数，确定定位图获取模型的梯度信息，并基于梯度信息反向调整定位图获取模型。

S409，返回使用下一个样本图像对调整后的定位图像获取模型继续训练，直至训练结束生成目标定位图获取模型。

图5是本公开实施例提供的定位图获取模型的训练方法的示意图，举例说明，以一张“小狗”的图像，输入到定位获取模型中，如图5所示，可以通过特征提取器获取特征图，并输入分类器获取特征向量，进而进行类别识别，获取识别出的每个类别的定位图；基于定位图的标签信息和像素值，获取类别对应的损失函数，基于所有类别对应的损失函数，对定位图获取模型进行反向调整，并返回使用下一个样本图像对调整后的定位图像获取模型继续训练，直至训练结束生成目标定位图获取模型。

图6是根据本公开一个实施例的定位图获取模型的训练装置的结构图，如图6所示，定位图获取模型的训练装置600包括：

第一获取模块61，用于将样本图像输入定位图获取模型进行类别识别，获取识别出的每个类别的定位图；

第二获取模块62，用于获取样本图像的标签信息，并根据样本图像的标签信息和每个根据类别的定位图的像素值，获取每个类别对应的损失函数；

调整模块63，用于基于每个类别对应的损失函数，对定位图获取模型进行反向调整，并返回使用下一个样本图像对调整后的定位图像获取模型继续训练，直至训练结束生成目标定位图获取模型。

需要说明的是，前述对定位图获取模型的训练方法实施例的解释说明也适用于该实施例的定位图获取模型的训练装置，此处不再赘述。

本公开实施例所提出的定位图获取模型的训练装置，首先将样本图像输入定位图获取模型进行类别识别，获取识别出的每个类别的定位图；然后针对每个类别，根据类别的定位图的像素值和样本图像的标签信息，获取类别对应的损失函数；最后基于每个类别对应的损失函数，对定位图获取模型进行反向调整，并返回使用下一个样本图像对调整后的定位图像获取模型继续训练，直至训练结束生成目标定位图获取模型。本公开实施例通过类别的定位图和样本图像的标签信息，优化模型的损失函数来降低损失函数的值，通过反向调整引导定位图获取模型筛选更高注意力的区域，从而实现定位图的优化。

进一步的，在本公开实施例一种可能的实现方式中，第二获取模块62，还用于：针对每个类别，根据类别的定位图的像素值，获取定位图的像素均值；基于样本图像的标签信息，获取样本图像在类别上的标签值；根据像素均值和标签值，确定类别的损失函数。

进一步的，在本公开实施例一种可能的实现方式中，调整模块63，还用于：对所有类别对应的损失函数进行求和，获取定位图获取模型的第一损失函数；获取定位图获取模型的第二损失函数；基于第一损失函数和第二损失函数，确定位图获取模型的总损失函数；基于总损失函数，确定定位图获取模型的梯度信息，并基于梯度信息反向调整定位图获取模型。

进一步的，在本公开实施例一种可能的实现方式中，第二获取模块62，还用于：将定位图中每个位置点的像素值约束至目标取值范围内；基于目标取值范围内每个位置点对应的被约束后的像素值和定位图的分辨率，获取定位图的像素均值。

进一步的，在本公开实施例一种可能的实现方式中，第二获取模块62，还用于：针对定位图上任一位置点的像素值，将像素值与定位图获取模型中指定的超参数进行比较，选取像素值与超参数中最小值，作为任一位置点对应的被约束后的像素值，其中，超参数用于确定目标取值范围的上限值。

进一步的，在本公开实施例一种可能的实现方式中，第一获取模块61，还用于：针对每个类别，基于类别对应的定位图获取模型中分类权向量和本图像的特征向量，获取类别的定位图。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图7是本公开的实施例提供的电子设备的结构示意图。如图7所示，该电子设备700包括包括存储介质71、处理器72及存储在存储器71上并可在处理器72上运行的计算机程序产品，处理器执行计算机程序时，实现前述的定位图获取模型训练方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)、互联网和区块链网络。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务端可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务(“Virtual Private Server”，或简称“VPS”)中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

一种定位图获取模型的训练方法，包括：

将样本图像输入定位图获取模型进行类别识别，获取识别出的每个类别的定位图；

获取所述样本图像的标签信息，并根据所述样本图像的标签信息和每个所述类别的定位图的像素值，获取每个所述类别对应的损失函数；

基于每个所述类别对应的损失函数，对所述定位图获取模型进行反向调整，并返回使用下一个样本图像对调整后的定位图像获取模型继续训练，直至训练结束生成目标定位图获取模型。
根据权利要求1所述的方法，其中，所述根据所述样本图像的标签信息和每个所述类别的定位图的像素值，获取每个所述类别对应的损失函数，包括：

针对每个所述类别，根据所述类别的定位图的像素值，获取所述定位图的像素均值；

基于所述样本图像的标签信息，获取所述样本图像在所述类别上的标签值；

根据所述像素均值和所述标签值，确定所述类别的损失函数。
根据权利要求1或2所述的方法，其中，所述基于每个所述类别对应的损失函数，对所述定位图获取模型进行反向调整，包括：

对所有所述类别对应的损失函数进行求和，获取所述定位图获取模型的第一损失函数；

获取所述定位图获取模型的第二损失函数；

基于所述第一损失函数和所述第二损失函数，确定所述定位图获取模型的总损失函数；

基于所述总损失函数，确定所述定位图获取模型的梯度信息，并基于所述梯度信息反向调整所述定位图获取模型。
根据权利要求2所述的方法，其中，所述根据所述定位图的像素值，获取所述定位图的像素均值，包括：

将所述定位图中每个位置点的像素值约束至目标取值范围内；

基于所述目标取值范围内每个位置点对应的被约束后的像素值和所述定位图的分辨率，获取所述定位图的像素均值。
根据权利要求4所述的方法，其中，所述将所述定位图中每个位置点的像素值约束至目标取值范围内，包括：

针对所述定位图上任一位置点的像素值，将所述像素值与所述定位图获取模型中指定的超参数进行比较，选取所述像素值与所述超参数中最小值，作为所述任一位置点对应的所述被约束后的像素值，其中，所述超参数用于确定所述目标取值范围的上限值。
根据权利要求1所述的方法，其中，所述获取识别出的每个类别的定位图，包括：

针对每个类别，基于所述类别对应的所述定位图获取模型中分类权向量和所述样本图像的特征向量，获取所述类别的定位图。
一种定位图获取模型的训练装置，包括：

第一获取模块，用于将样本图像输入定位图获取模型进行类别识别，获取识别出的每个类别的定位图；

第二获取模块，用于获取所述样本图像的标签信息，并根据所述样本图像的标签信息和每个根据所述类别的定位图的像素值，获取每个所述类别对应的损失函数；

调整模块，用于基于每个所述类别对应的损失函数，对所述定位图获取模型进行反向调整，并返回使用下一个样本图像对调整后的定位图像获取模型继续训练，直至训练结束生成目标定位图获取模型。
根据权利要求7所述的装置，其中，所述第二获取模块，还用于：

针对每个所述类别，根据所述类别的定位图的像素值，获取所述定位图的像素均值；

基于所述样本图像的标签信息，获取所述样本图像在所述类别上的标签值；

根据所述像素均值和所述标签值，确定所述类别的损失函数。
根据权利要求7或8所述的装置，其中，所述调整模块，还用于：

对所有所述类别对应的所述损失函数进行求和，获取所述定位图获取模型的第一损失函数；

获取所述定位图获取模型的第二损失函数；

基于所述第一损失函数和所述第二损失函数，确定所述位图获取模型的总损失函数；

基于所述总损失函数，确定所述定位图获取模型的梯度信息，并基于所述梯度信息反向调整所述定位图获取模型。
根据权利要求8所述的装置，其中，所述第二获取模块，还用于：

将所述定位图中每个位置点的像素值约束至目标取值范围内；

基于所述目标取值范围内每个位置点对应的被约束后的像素值和所述定位图的分辨率，获取所述定位图的像素均值。
根据权利要求10所述的装置，其中，所述第二获取模块，还用于：

针对所述定位图上任一位置点的像素值，将所述像素值与所述定位图获取模型中指定的超参数进行比较，选取所述像素值与所述超参数中最小值，作为所述任一位置点对应的所述被约束后的像素值，其中，所述超参数用于确定所述目标取值范围的上限值。
根据权利要求7所述的装置，其中，所述第一获取模块，还用于：

针对每个类别，基于所述类别对应的所述定位图获取模型中分类权向量和所述本图像的特征向量，获取所述类别的定位图。
一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-6中任一项所述的方法。
一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-6中任一项所述的方法。
一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-6中任一项所述的方法。