WO2023124278A1

WO2023124278A1 - 图像处理模型的训练方法、图像分类方法及装置

Info

Publication number: WO2023124278A1
Application number: PCT/CN2022/120011
Authority: WO
Inventors: 刘童; 上官泽钰
Original assignee: 京东方科技集团股份有限公司
Priority date: 2021-12-29
Filing date: 2022-09-20
Publication date: 2023-07-06
Also published as: CN114299363A; US20240203097A1

Abstract

本申请公开了一种图像处理模型的训练方法、图像分类方法及装置，该训练方法通过对多张原始图像进行裁剪，可以有效扩充训练样本的数量，确保训练得到的图像处理模型的效果较好。并且，用于训练图像处理模型的每个正样本对中的两个训练样本的类别相同，而负样本对中的两个训练样本的类别不同。由此，可以确保训练得到的图像处理模型能够较好的学习到不同类别的图像的特征，进而进一步改善了图像处理模型的效果。

Description

图像处理模型的训练方法、图像分类方法及装置

本申请要求于2021年12月29日提交的申请号为202111640853.8、发明名称为“图像处理模型的训练方法、图像分类方法及装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及机器学习领域，特别涉及一种图像处理模型的训练方法、图像分类方法及装置。

背景技术

在机器学习领域，可以采用大量训练样本对图像处理模型进行训练，以确保训练得到的图像处理模型的性能较好。例如，对于图像分类模型，需要获取大量不同类别的图像作为训练样本，以对图像分类模型进行训练。

但是，由于某些场景下能够的训练样本的数量有限(例如某些类别的图像的数量有限)，导致训练得到的图像处理模型的效果较差。

发明内容

本申请提供了一种图像处理模型的训练方法、图像分类方法及装置。所述技术方案如下：

一方面，提供了一种图像处理模型的训练方法，所述方法包括：

获取多个原始图像集，每个所述原始图像集包括多张相同类别的原始图像，且不同所述原始图像集包括的原始图像的类别不同；

对所述多个原始图像集中的多张原始图像进行裁剪，得到训练样本集，所述训练样本集包括多个训练样本，每个所述训练样本为一张原始图像，或者对一张原始图像进行裁剪得到的子图像；

从所述训练样本集中确定多个正样本对和多个负样本对，其中每个所述正样本对包括基于同一个原始图像集中的不同原始图像得到的两个训练样本，每个所述负样本对包括基于不同原始图像集中的原始图像得到的两个训练样本；

采用所述多个正样本对和多个负样本对训练图像处理模型。

可选地，对于所述多个原始图像集中用于裁剪的每一张原始图像，随机生成位于目标尺寸范围内的一个裁剪尺寸；基于所述原始图像的尺寸和所述裁剪尺寸确定裁剪区域的参考点；基于所述裁剪尺寸和所述参考点在所述原始图像中确定所述裁剪区域，并对所述裁剪区域进行裁剪。

可选地，所述目标尺寸范围包括宽度范围和高度范围，所述裁剪尺寸包括位于所述宽度范围内的宽度，以及位于所述高度范围内的高度；所述裁剪区域为矩形区域，所述裁剪区域的参考点为所述矩形区域的一个顶点，或所述矩形区域的中心点。

可选地，从所述训练样本集中确定多个备选样本对，每个所述备选样本对均包括基于同一个原始图像集中的不同原始图像得到的两个训练样本；确定每个所述备选样本对的相似度；将相似度大于相似度阈值的所述备选样本对确定为正样本对。

可选地，采用卷积神经网络提取每个所述备选样本对中的每个训练样本的特征向量；对于每个所述备选样本对，采用相似度度量算法处理所述备选样本对中的两个训练样本的特征向量，得到所述备选样本对的相似度。

可选地，从所述训练样本集中确定数量与所述多个正样本对的数量相同的多个负样本对。

可选地，将每个所述正样本对的真值均标记为1，并将每个所述负样本对的真值均标记为0；采用标记后的所述多个正样本对，以及标记后的所述多个负样本对训练图像处理模型。

另一方面，提供了一种图像分类方法，所述方法包括：

获取待分类的目标图像；

将所述目标图像输入至图像分类模型，得到所述图像分类模型输出的所述目标图像的类别；其中，所述图像分类模型采用如上述方面所述图像处理模型的训练方法训练得到。

可选地，将目标图像输入至图像分类模型，得到所述图像分类模型输出的所述目标图像与不同类别的参考图像的相似度；将所述不同类别的参考图像中，与所述目标图像的相似度最高的参考图像的类别确定为所述目标图像的类别。

可选地，将目标图像输入至图像分类模型，得到所述图像分类模型输出的所述目标图像与不同类别的图像特征的相似度；将所述不同类别的图像特征中，与所述目标图像的相似度最高的图像特征的类别确定为所述目标图像的类别；其中，每个类别的图像特征是对所述类别的多个训练样本进行特征提取得到的。

又一方面，提供了一种图像处理模型的训练装置，所述装置包括：

获取模块，用于获取多个原始图像集，每个所述原始图像集包括多张相同类别的原始图像，且不同所述原始图像集包括的原始图像的类别不同；

裁剪模块，用于对所述多个原始图像集中的多张原始图像进行裁剪，得到训练样本集，所述训练样本集包括多个训练样本，每个所述训练样本为一张原始图像，或者对一张原始图像进行裁剪得到的子图像；

确定模块，用于从所述训练样本集中确定多个正样本对和多个负样本对，其中每个所述正样本对包括基于同一个原始图像集中的不同原始图像得到的两个训练样本，每个所述负样本对包括基于不同原始图像集中的原始图像得到的两个训练样本；

训练模块，用于采用所述多个正样本对和多个负样本对训练图像处理模型。

可选地，所述裁剪模块用于：

对于所述多个原始图像集中用于裁剪的每一张原始图像，随机生成位于目标尺寸范围内的一个裁剪尺寸；

基于所述原始图像的尺寸和所述裁剪尺寸确定裁剪区域的参考点；

基于所述裁剪尺寸和所述参考点在所述原始图像中确定所述裁剪区域，并对所述裁剪区域进行裁剪。

可选地，所述确定模块用于：

从所述训练样本集中确定多个备选样本对，每个所述备选样本对均包括基于同一个原始图像集中的不同原始图像得到的两个训练样本；

确定每个所述备选样本对的相似度；

将相似度大于相似度阈值的所述备选样本对确定为正样本对。

可选地，所述确定模块用于：

采用卷积神经网络提取每个所述备选样本对中的每个训练样本的特征向量；

对于每个所述备选样本对，采用相似度度量算法处理所述备选样本对中的两个训练样本的特征向量，得到所述备选样本对的相似度。

可选地，所述确定模块，用于从所述训练样本集中确定数量与所述多个正样本对的数量相同的多个负样本对。

可选地，所述训练模块用于：

将每个所述正样本对的真值均标记为1，并将每个所述负样本对的真值均标记为0；

采用标记后的所述多个正样本对，以及标记后的所述多个负样本对训练图像处理模型。

再一方面，提供了一种图像分类装置，所述装置包括：

获取模块，用于获取待分类的目标图像；

分类模块，用于将所述目标图像输入至图像分类模型，得到所述图像分类模型输出的所述目标图像的类别；其中，所述图像分类模型采用上述方面所述的图像处理模型的训练装置训练得到。

可选地，所述分类模块用于：

将目标图像输入至图像分类模型，得到所述图像分类模型输出的所述目标图像与不同类别的参考图像的相似度；

将所述不同类别的参考图像中，与所述目标图像的相似度最高的参考图像的类别确定为所述目标图像的类别。

可选地，所述分类模块用于：

将目标图像输入至图像分类模型，得到所述图像分类模型输出的所述目标图像与不同类别的图像特征的相似度；

将所述不同类别的图像特征中，与所述目标图像的相似度最高的图像特征的类别确定为所述目标图像的类别；其中，每个类别的图像特征是对所述类别的多个训练样本进行特征提取得到的。

再一方面，提供了一种图像处理设备，所述图像处理设备包括处理器和存储器，所述存储器中存储有指令，所述指令由所述处理器加载并执行以实现如上述方面所述的图像处理模型的训练方法，或如上述方面所述的图像分类方法。

再一方面，提供了一种计算机可读存储介质，所述存储介质中存储有指令，所述指令由处理器加载并执行以实现如上述方面所述的图像处理模型的训练方法，或如上述方面所述的图像分类方法。

再一方面，提供了一种计算机程序产品，该计算机程序产品包括计算机指令，该计算机指令由处理器加载并执行以实现如上述方面所述的图像处理模型的训练方法，或如上述方面所述的图像分类方法。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种图像处理模型的训练系统的结构示意图；

图2是本申请实施例提供的一种图像处理模型的训练方法的流程示意图；

图3是本申请实施例提供的另一种图像处理模型的训练方法的流程示意图；

图4是本申请实施例提供的一种原始图像的裁剪示意图；

图5是本申请实施例提供的一种图像分类方法的流程示意图；

图6是本申请实施例提供的一种图像处理模型的训练装置的结构示意图；

图7是本申请实施例提供的一种图像分类装置的结构示意图；

图8是本申请实施例提供的一种图像处理设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。本申请实施例提供的图像处理模型的训练方法可以应用于样本数量较少(即小样本)场景，相应的，该训练方法也可以称为小样本学习方法。小样本学习的目标就是在样本有限的情况下实现相对较好的模型训练精度。

为了改善小样本学习方法的性能，一般会从数据(即训练样本)、模型和训练算法三方面进行改进。其中，对训练样本进行改进时，可以对训练样本进行转换得到新的训练样本，从而扩充训练样本集合。或者，可以对若标注或无标准样本进行转换得到新的训练样本，从而扩充训练样本集合。又或者，可以对训练样本的类似数据集中的数据进行转换得到新的训练样本，从而扩充训练样本集合。对模型进行改进时，可以采用多任务学习、嵌入学习和基于外部记忆的学习方法对模型进行训练。对训练算法进行优化时，可以采用改善已有参数、改善元学习(meta-learning)参数或学习优化器等方式。

图1是本申请实施例提供的一种图像处理模型的训练系统的结构示意图。参见图1，该系统包括：服务器110和终端120。该服务器110与终端120之间建立有线或无线通信连接。可选地，该服务器110可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统。该终端120可以是个人计算机(personal computer，PC)、平板电脑、智能手机、可穿戴设备、智能机器人等具备数据计算、处理和存储能力的终端。

在本申请实施例中，该系统中的终端设备120可以用于获取用于模型训练的原始图像集，并将该原始图像发送至服务器110。服务器110进而可以对该原始图像集中的原始图像进行处理，并将处理后的原始图像作为训练样本，对图像处理模型进行训练。该训练后的图像处理模型能应用于图像分类任务、图像识别任务或者图像分割任务等。

或者，该系统可以是一种能够执行具体图像处理任务(例如图像分类任务)的系统。相应的，该系统中的终端设备120可以用于获取待检测的原始图像，并将该待检测的原始图像发送至服务器110进行检测。服务器110中预先存储有已完成训练的图像处理模型。服务器110获取到待检测的原始图像后，可以将该原始图像输入至图像处理模型，该图像处理模型进而能够对该原始图像进行检测和识别，并输出检测结果。之后，服务器110可以将该检测结果发送至终端120。

图2是本申请实施例提供的一种图像处理模型的训练方法的流程图，该方法可以应用于图像处理设备，该图像处理设备可以是如图1所示的服务器110。参见图2，该方法包括：

步骤101、获取多个原始图像集。

图像处理设备可以获取其预先存储的多个原始图像集，或者可以获取其他设备(例如终端)发送的多个原始图像集。其中，每个原始图像集包括多张相同类别的原始图像，且不同原始图像集包括的原始图像的类别不同。可以理解的是，每个原始图像集包括的所有原始图像的类别均相同，即每个原始图像集只包括一个类别的原始图像。该多个原始图像集中的每张原始图像的类别可以是人工标注的，且该类别可以是指原始图像中主体对象的类别。

步骤102、对多个原始图像集中的多张原始图像进行裁剪，得到训练样本集。

图像处理设备能够对每个原始图像集中的多张原始图像进行裁剪，得到训练样本集。例如，图像处理设备能够对每个原始图像集中的每一张原始图像均进行裁剪。图像处理设备对多张原始图像进行裁剪后得到的训练样本集包括多个训练样本，每个训练样本为一张原始图像，或者为对一张原始图像进行裁剪得到的子图像。

其中，对一张原始图像进行裁剪得到的子图像的张数可以大于或等于1。并且，从一张原始图像中裁剪得到的任意两张子图像的尺寸和/或在该原始图像中的位置不同。可选地，每张子图像的尺寸和/或在该原始图像中的位置可以是图像处理设备随机确定的，或者，也可以是图像处理设备中预先配置的。

可以理解的是，对一张原始图像进行裁剪后得到的任一张子图像的类别与该张原始图像的类别相同。通过对原始图像集中的每一张原始图像进行裁剪处理，并将裁剪得到的子图像作为训练样本，可以有效扩充训练样本集中训练样本的数量。

步骤103、从训练样本集中确定多个正样本对和多个负样本对。

图像处理设备得到训练样本集后，可以从训练样本集中确定多个正样本对和多个负样本对。其中，每个负样本对包括基于不同原始图像集中的原始图像得到的两个训练样本。每个正样本对包括基于同一个原始图像集中的不同原始图像得到的两个训练样本。也即是，图像处理设备可以将类别相同且来自不同原始图像的两个训练样本确定为一个正样本对，并可以将类别不同的两个训练样本确定为一个负样本对。

可以理解的是，由于每个正样本对中的两个训练样本的类别相同，因此可以确保每个正样本对中的两个训练样本均包括同一类别的主体对象的部分或全部图像特征。由此，可以确保基于该正样本对训练图像处理模型后，图像处理模型能够准确学习到该类别的主体对象的特征。

步骤104、采用多个正样本对和多个负样本对训练图像处理模型。

在本申请实施例中，图像处理设备中预先存储有初始的图像处理模型。该图像处理模型可以为卷积神经网络(convolutional neural networks，CNN)模型。图像处理设备从训练样本集中确定出多个正样本对和负样本对后，可以采用该多个正样本对以及和正样本数量相同的负样本对训练该图像处理模型。并且，图像处理设备可以在该图像处理模型的精度达到预设精度，或者该图像处理模型的训练轮数达到预设轮数时，停止对该图像处理模型的训练。

可以理解的是，每个原始图像集中，不同原始图像中的主体对象的位置和大小均存在差异。因此，在原始图像集所包括的原始图像的数量有限的场景下，若直接采用该原始图像集训练图像处理模型，则图像处理模型难以准确地获取到同一类别的不同原始图像中的主体对象的特征。相应的，训练得到的图像处理模型的效果也较差。而在本申请实施例中，由于可以对原始图像进行裁剪得到训练样本集，该训练样本集中用于训练图像处理模型的每个正样本对中的两个训练样本的类别相同，而负样本对中的两个训练样本的类别不同，因此可以确保训练得到的图像处理模型能够较好的学习到不同类别的图像的特征，即不同类别的主体对象的特征。

综上所述，本申请实施例提供了一种图像处理模型的训练方法。该训练方法通过对多张原始图像进行裁剪，可以有效扩充训练样本的数量，确保训练得到的图像处理模型的效果较好。并且，用于训练图像处理模型的每个正样本对中的两个训练样本的类别相同，而负样本对中的两个训练样本的类别不同。由此，可以确保训练得到的图像处理模型能够较好的学习到不同类别的图像的特征，进而进一步改善了图像处理模型的效果。

图3是本申请实施例提供的另一种图像处理模型的训练方法的流程图。该方法可以应用于图像处理设备，该图像处理设备可以是如图1所示的服务器110。参见图3，该方法包括：

步骤201、获取多个原始图像集。

图像处理设备可以获取其预先存储的多个原始图像集，或者可以获取其他设备(例如终端)发送的多个原始图像集。其中，每个原始图像集包括多张相同类别的原始图像，且不同原始图像集包括的原始图像的类别不同。可以理解的是，每个原始图像集包括的所有原始图像的类别均相同，即每个原始图像集只包括一个类别的原始图像。该多个原始图像集中的每张原始图像的类别可以是人工标注的，且该类别可以是指原始图像中主体对象的类别。其中，不同原始图像集所包括的原始图像的张数可以相同，也可以不同。

可选地，原始图像的类别可以是动物的物种类别，或者可以是植物的物种类别，又或者还可以是食物的种类类别，再或者还可以是家具的种类类别。本申请实施例对此不做限定。

例如，假设待训练的图像处理模型是用于识别动物的物种类别的模型，则图像处理设备中可以预先存储有多个不同物种的原始图像集。其中，每个物种的原始图像集中包括多张该物种的原始图像。

步骤202、对于多个原始图像集中用于裁剪的每一张原始图像，随机生成位于目标尺寸范围内的一个裁剪尺寸。

图像处理设备获取到多个原始图像集后，可以对该多个原始图像集中用于裁剪的每一张原始图像，随机生成位于目标尺寸范围内的一个裁剪尺寸，以便基于生成的每个裁剪尺寸，在一张原始图像中裁剪出一个子图像。其中，该目标尺寸范围可以是图像处理设备预先存储的，且该目标尺寸范围可以是基于一张原始图像的尺寸确定的。例如，该目标尺寸范围的上限可以等于一张原始图像的尺寸。

可选地，图像处理设备对一张原始图像进行裁剪时的裁剪区域可以为矩形区域。相应的，该目标尺寸范围可以包括宽度范围和高度范围，裁剪尺寸包括位于该宽度范围内的宽度，以及位于该高度范围内的高度。

可以理解的是，该裁剪区域还可以为其他形状的区域，相应的，该目标尺寸范围可以包括其他参数的范围。例如，若裁剪区域为圆形，则该目标尺寸范围可以是半径或直径的范围。

示例的，假设目标尺寸范围中的宽度范围为[W _max，W _min]，高度范围为[H _max，H _min]。某个原始图像集D中包括K张原始图像，对于该K张原始图像中的第k(k为不大于K的整数)张原始图像I _k，图像处理设备可以随机生成T个裁剪尺寸，即图像处理设备可以对该第k张原始图像I _k进行T(T为大于1的整数)次裁剪，以得到T张子图像。其中，该T个裁剪尺寸中的第t个(t为不大于T的整数)裁剪尺寸的宽度w _t满足：W _max≤w _t≤W _min，高度h _t满足:H _max≤h _t≤H _min。

步骤203、基于原始图像的尺寸和裁剪尺寸确定裁剪区域的参考点。

图像处理设备还可以基于待裁剪的原始图像的尺寸，以及随机生成的一个裁剪尺寸，确定裁剪区域的参考点。该参考点用于确定裁剪区域在待裁剪的原始图像中的位置。在本申请实施例中，图像处理设备确定出的参考点需使得裁剪区域位于待裁剪的原始图像内。

可选地，该裁剪区域可以为矩形区域，裁剪区域的参考点可以为矩形区域的一个顶点(例如矩形区域的左上顶点)，或矩形区域的中心点。或者，若该裁剪区域为圆形，则该裁剪区域的参考点可以为圆形区域的圆心。

步骤204、基于裁剪尺寸和参考点在原始图像中确定裁剪区域，并对裁剪区域进行裁剪。

对于待裁剪的一张原始图像，图像处理设备可以基于随机确定出裁剪尺寸，以及确定出的参考点，在该张原始图像中确定出一个裁剪区域，进而可以对该裁剪区域进行裁剪，得到一个子图像。

可选地，对于用于裁剪的每一张原始图像，图像处理设备均可以基于上述步骤202至步骤204所示的方法，确定出多个裁剪区域。该多个裁剪区域的尺寸和/或在原始图像中的位置不同。相应的，图像处理设备对每一张原始图像进行裁剪后，可以得到多张子图像。可以理解的是，图像处理设备可以将每一张原始图像均作为一个训练样本，并可以将每一张子图像均作为一个训练样本。

还可以理解的是，图像处理设备对不同原始图像进行裁剪得到的子图像的个数可以相同，也可以不同。假设图像处理设备在每一张原始图像中均裁剪出了T张子图像，则图像处理设备基于每一张原始图像可以生成T+1个训练样本。

示例的，假设待裁剪的一张原始图像如图4所示，则图像处理设备可以在该张原始图像中确定出a1至a6共6个裁剪区域。图像处理设备对该6个裁剪区域进行裁剪后，可以得到6张子图像。

步骤205、从训练样本集中确定多个备选样本对。

图像处理设备对多个原始图形集中的多张原始图像均进行裁剪后，可以得到一个训练样本集。该训练样本集包括多个训练样本，其中每个训练样本为一张原始图像，或者为对一张原始图像进行裁剪得到的子图像。之后，图像处理设备可以从训练样本集中确定出多个备选样本对，其中每个备选样本对均包括基于同一个原始图像集中的不同原始图像得到的两个训练样本。也即是，每个备选样本对包括的两个训练样本是基于两个相同类别的原始图像得到的。

步骤206、采用CNN提取每个备选样本对中的每个训练样本的特征向量。

图像处理设备从训练样本集中确定出多个备选样本对后，可以将每个备选样本对中的每个训练样本输入CNN。CNN可以对输入的训练样本进行特征提取，并计算出每个训练样本的特征向量。

在本申请实施例中，图像处理设备可以先采用大量带标签的图像数据集，例如图像网络(ImageNet)数据集，对一个初始的CNN进行训练，从而使得该CNN能够较好地提取训练样本的特征，并具备一定的图像分类能力。其中，该CNN的基本结构可以包括卷积层、池化层以及全连接层。其中，在CNN的网络结构中，卷积层和池化层交替分布。卷积层可以通过卷积计算提取出训练样本的特征，池化层可以对输入至CNN模型的训练样本进行降采样处理，即对训练样本进行缩小处理，并同时保留训练样本中的重要信息。全连接层基于卷积层确定的图像特征，对图像进行分类。

图像处理设备在完成对初始CNN的训练后，可以去除该CNN的全连接层。之后，图像处理设备可以将每个备选样本对中的每个训练样本输入至去除全连接层后的CNN。CNN可以对输入的训练样本进行特征提取，并计算出每个训练样本的特征向量。

步骤207、对于每个备选样本对，采用相似度度量算法处理备选样本对中的两个训练样本的特征向量，得到备选样本对的相似度。

其中，该相似度度量算法可以包括：余弦距离(也称为余弦相似度)，欧几里得度量(也称欧氏距离)和巴塔恰里雅距离(也称为巴氏距离)等算法。

步骤208、将相似度大于相似度阈值的备选样本对确定为正样本对。

图像处理设备确定出每个备选样本对的相似度后，可以将该多个备选样本对中相似度大于相似度阈值的备选样本对确定为正样本对。其中，该相似度阈值可以是图像处理设备中预先配置的固定值。

可选地，图像处理设备可以采用聚类(例如K均值聚类)算法，按照各个备选样本对的相似度，对该多个备选样本对进行聚类。例如，图像处理设备可以将该多个备选样本对聚成两类，并将相似度较高的一类备选样本对确定为正样本对。

可以理解的是，每个备选样本对中的两个训练样本虽来自同一类别的两个原始图像，但该两个训练样本中包含的图像特征可能存在较大差异。例如，该两个训练样本中的至少一个训练样本可能不包含该类别的主体对象的图像特征，或者，若两个训练样本可能包含主体对象的不同部位的图像特征。本申请实施例通过计算该两个训练样本的相似度，并将相似度大于相似度阈值的备选样本对确定为正样本对，可以使得图像处理设备确定出的每个正样本对中的两个训练样本的相似度较高，即该两个训练样本均包括同一类别的主体对象的图像特征的概率较高。相应的，采用该多个正样本对训练图像处理模型，则可以确保该图像处理模型能够较好地学习到同一类别对应的多个主体对象的特征。

示例的，假设图像处理设备采用K均值聚类算法确定正样本对，则图像处理设备可以将相似度值0.75和相似度值0.25作为两个聚类中心。之后，图像处理设备可以分别算每个备选样本对的相似度值与该两个聚类中心之间的距离，并将每个备选样本对的相似度值分配给距离其最近的聚类中心。最后，图像处理设备可以将以相似度值0.75为聚类中心的多个相似度对应的多个备选样本对确定为正样本对。

步骤209、从训练样本集中确定数量与多个正样本对的数量相同的多个负样本对。

图像处理设备从多个备选样本对中确定出多个正样本对后，可以从训练样本集中确定出数量与多个正样本对的数量相同的多个负样本对。其中，每个负样本对包括基于不同原始图像集中的原始图像得到的两个训练样本。

可以理解的是，图像处理设备确定出的多个正样本对和多个负样本对将用于图像处理模型的训练。若用于训练的多个正样本对的数量和负样本对的数量相同，则可以使得图像处理模型的训练效果较好。

还可以理解的是，该多个负样本对的数量也可以与多个正样本对的数量不同。

步骤210、将每个正样本对的真值均标记为1，并将每个负样本对的真值均标记为0。

图像处理设备确定出多个正样本对和多个负样本对后，可以将该多个正样本对中的每个正样本对的真值(ground truth)均标记为1，并将多个负样本对中的每个负样本对的真值均标记为0。其中，样本对的真值也可以称为该样本对的标签，该真值用于表征该样本对中的两个训练样本的相似度情况。

步骤211、采用标记后的多个正样本对，以及标记后的多个负样本对训练图像处理模型。

在本申请实施例中，图像处理设备中预先存储有初始的图像处理模型。图像处理设备可以采用标记后的多个正样本对，以及标记后的多个负样本对，对该初始图像处理模型进行多轮训练。并且，图像处理设备可以在该图像处理模型的精度达到预设精度，或者该图像处理模型的训练轮数达到预设轮数时，停止对该图像处理模型的训练。

其中，该预设轮数与用于训练图像处理模型的样本对的数量(即正样本对和负样本对的总数)可以负相关。即用于训练的样本对的数量越多，图像处理模型的训练轮数可以越少。示例的，若用于训练图像处理模型的样本对的数量为100万个，则该预设轮数可以为10轮。若用于训练的样本对的数量为1万个，则该预设轮数可以为100轮。

可以理解的是，在对图像处理模型进行训练的过程中，图像处理设备可以将每个正样本对中的两个训练样本，以及每个负样本对中的两个训练样本均依次输入至图像处理模型。该图像处理模型进而可以提取输入的每个样本对的中两个训练样本的特征，并确定每个训练样本的特征向量。之后。该图像处理模型可以基于每个训练样本的特征向量，确定每个样本对的相似度。最后，图像处理设备可以基于图像处理模型确定的每个正样本的相似度与该正样本对的真值的差值，以及每个负样本对的相似度与该负样本对的真值的差值，对该图像处理模型的参数进行调节，以优化图像处理模型的精度。

可选地，图像处理设备所训练的图像处理模型可以是上述步骤206中所采用的去除全连接层的CNN。

在完成对该图像处理模型的训练后，图像处理设备可以将该图像处理模型应用于具体的图像处理任务(例如图像分类任务、图像识别任务或者图像分割任务等)。

可以理解的是，本申请实施例提供的图像处理模型的训练方法的步骤的先后顺序可以进行适当调整，步骤也可以根据情况进行相应增减。例如，上述步骤202和步骤203可以根据情况删除，相应的，在上述步骤204中，图像处理设备可以对原始图像中固定的裁剪区域进行裁剪。任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化的方法，都应涵盖在本申请的保护范围之内，因此不再赘述。

综上所述，本申请实施例提供了一种图像处理模型的训练方法。该训练方法通过对多张原始图像进行裁剪，可以有效扩充训练样本的数量，确保训练得到的图像处理模型的效果较好。并且，用于训练图像处理模型的每个正样本对中的两个训练样本的类别相同，且相似度较高，而负样本对中的两个训练样本的类别不同。由此，可以确保训练得到的图像处理模型能够较好的学习到不同类别的图像的特征，进而进一步改善了图像处理模型的效果。

图5是本申请实施例提供的一种图像分类方法的流程示意图，该方法可以应用于图像处理设备。该图像处理设备可以是图1所示场景中的服务器110或终端120。参见图5，该方法可以包括如下步骤。

步骤301、获取待分类的目标图像。

在本申请实施例中，若该图像处理设备为服务器，则服务器可以获取终端发送的待分类的目标图像。若该图像处理设备为终端，则该终端中可以预先存储有待分类的目标图像，或者，该终端可以获取其他设备(例如另一终端)发送的待分类的目标图像。可以理解的是，该待分类的目标图像不具有人工标注的类别，即当前该目标图像的类别是未知的。

步骤302、将目标图像输入至图像分类模型，得到图像分类模型输出的目标图像的类别。

图像处理设备中预先存储有图像分类模型，且该图像分类模型可以采用上述方法实施例提供的图像处理模型的训练方法训练得到。图像处理设备获取到待分类的目标图像后，可以将该待分类的目标图像输入至图像分类模型，图像分类模型进而能够识别该目标图像的类别并输出。

可以理解的是，若该图像处理设备为终端，则该图像分类模型可以是由服务器发送至该终端的。

作为一种可能的示例，上述步骤302可以包括如下步骤：

302a1、将目标图像输入至图像分类模型，得到图像分类模型输出的目标图像与不同类别的参考图像的相似度。

图像分类模型可以提取输入的目标图像的图像特征，并基于该目标图像的图像特征与不同类别的多张参考图像的图像特征，确定该目标图像与不同类别的多张参考图像的相似度。也即是，该图像分类模型可以将目标图像分别与每一张参考图像进行对比，以确定该目标图像与每一张参考图像的相似度。其中，该多张参考图像可以是训练图像分类模型时所采用的训练样本。

302a2、将不同类别的参考图像中，与目标图像的相似度最高的参考图像的类别确定为目标图像的类别。

在本申请实施例中，图像处理设备计算得到目标图像与每一张参考图像的相似度后，可以将与目标图像的相似度最高的参考图像的类别确定为目标图像的类别。

对于每个类别包括多张参考图像的场景，图像处理设备可以计算目标图像与该类别的各张参考图像的相似度的均值。之后，图像处理设备可以将相似度的均值最高的类别，确定为目标图像的类别。

作为另一种可能的实施例，上述步骤302可以包括如下步骤：

步骤302b1、将目标图像输入至图像分类模型，得到图像分类模型输出的目标图像与不同类别的图像特征的相似度。

图像分类模型可以提取该目标图像的图像特征，并基于该目标图像的图像特征与不同类别的图像特征，确定该目标图像与不同类别的图像特征的相似度。其中，每个类别的图像特征是对该类别中的多个训练样本进行特征提取得到的。可选地，可以将该类别的多个训练样本的图像特征的均值确定为该类别的图像特征。

步骤302b2、将不同类别的图像特征中，与目标图像的相似度最高的图像特征的类别确定为目标图像的类别。

图像分类模型基于目标图像和多个不同类别的图像特征的相似度来确定目标图像的类别，可以使得图像处理模型能够快速地确定出目标图像类别，从而提高分类效率。

综上所述，本申请实施例提供了一种图像分类方法。该方法能够将待分类的目标图像输入至图像分类模型，该图像分类模型进而能够输出该目标图像的类别。由于该图像分类模型是基于上述方法实施例提供的图像处理模型的训练方法训练得到的，因此该图像分类模型的性能较好。也即是，该图像分类模型能够较好地提取出目标图像的图像特征，并基于该目标图像的图像特征准确地确定出该目标图像的类别。

图6是本申请实施例提供的一种图像处理模型的训练装置的结构框图，如图6所示，该装置包括：

获取模块401，用于获取多个原始图像集，每个原始图像集包括多张相同类别的原始图像，且不同原始图像集包括的原始图像的类别不同。

裁剪模块402，用于对多个原始图像集中的多张原始图像进行裁剪，得到训练样本集，该训练样本集包括多个训练样本，每个训练样本为一张原始图像，或者对一张原始图像进行裁剪得到的子图像。

确定模块403，用于从训练样本集中确定多个正样本对和多个负样本对，其中每个正样本对包括基于同一个原始图像集中的不同原始图像得到的两个训练样本，每个负样本对包括基于不同原始图像集中的原始图像得到的两个训练样本。

训练模块404，用于采用多个正样本对和多个负样本对训练图像处理模型。

可选地，该裁剪模块402用于：对于多个原始图像集中用于裁剪的每一张原始图像，随机生成位于目标尺寸范围内的一个裁剪尺寸；基于原始图像的尺寸和裁剪尺寸确定裁剪区域的参考点；基于裁剪尺寸和参考点在原始图像中确定裁剪区域，并对裁剪区域进行裁剪。

可选地，目标尺寸范围包括宽度范围和高度范围，裁剪尺寸包括位于宽度范围内的宽度，以及位于高度范围内的高度；该裁剪区域为矩形区域，裁剪区域的参考点为矩形区域的一个顶点，或矩形区域的中心点。

可选地，该确定模块403用于：从训练样本集中确定多个备选样本对，每个备选样本对均包括基于同一个原始图像集中的不同原始图像得到的两个训练样本；确定每个备选样本对的相似度；将相似度大于相似度阈值的备选样本对确定为正样本对。

可选地，该确定模块403用于：采用卷积神经网络提取每个备选样本对中的每个训练样本的特征向量；对于每个备选样本对，采用相似度度量算法处理备选样本对中的两个训练样本的特征向量，得到备选样本的相似度。

可选地，该确定模块403用于从训练样本集中确定数量与多个正样本对的数量相同的多个负样本对。

可选地，该训练模块404用于：将每个正样本对的真值均标记为1，并将每个负样本对的真值均标记为0；采用标记后的多个正样本对，以及标记后的多个负样本对训练图像处理模型。

综上所述，本申请实施例提供了一种图像处理模型的训练装置，该装置通过对多张原始图像进行裁剪，可以有效扩充训练样本的数量，确保训练得到的图像处理模型的效果较好。并且，用于训练图像处理模型的每个正样本对中的两个训练样本的类别相同，且相似度较高，而负样本对中的两个训练样本的类别不同。由此，可以确保训练得到的图像处理模型能够较好的学习到不同类别的图像的特征，进而进一步改善了图像处理模型的效果。

图7是本申请实施例提供的一种图像分类装置的结构框图，如图7所示，该装置包括：

获取模块501，用于获取待分类的目标图像。

分类模块502，用于将目标图像输入至图像分类模型，得到图像分类模型输出的目标图像的类别；其中，该图像分类模型采用上述实施例提供的图像处理模型的训练装置训练得到。

可选地，该分类模块502用于：将目标图像输入至图像分类模型，得到图像分类模型输出的目标图像与不同类别的参考图像的相似度；将不同类别的参考图像中，与目标图像的相似度最高的参考图像的类别确定为目标图像的类别。

可选地，该分类模块502用于：将目标图像输入至图像分类模型，得到图像分类模型输出的目标图像与不同类别的图像特征的相似度；将不同类别的图像特征中，与目标图像的相似度最高的图像特征的类别确定为目标图像的类别；其中，每个类别的图像特征是对类别的多个训练样本进行特征提取得到的。

综上所述，本申请实施例提供了一种图像分类装置，该图像分类装置能够将待分类的目标图像输入至图像分类模型，该图像分类模型进而能够输出该目标图像的类别。由于该图像分类模型是基于上述装置实施例提供的图像处理模型的训练装置训练得到，因此该图像分类模型的性能较好。也即是，该图像分类模型能够较好地提取出目标图像的图像特征，并基于该目标图像的图像特征准确地确定出该目标图像的类别。

可以理解的是，上述实施例提供的图像处理模型的训练装置和图像分类装置，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。

另外，上述实施例提供的图像处理模型的训练装置和图像处理模型的训练方法实施例属于同一构思，图像分类装置与图像分类装置方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

本申请的实施例还提供了一种图像处理设备，该图像处理设备可以为计算机设备，例如可以为服务器或者终端。并且，该图像处理设备可以包括上述实施例提供的图像处理模型的训练装置，和/或图像分类装置。

如图8所示，该图像处理设备可以包括处理器601和存储器602，该存储器602中存储有指令，该指令由处理器601加载并执行以实现上述方法实施例提供的图像处理模型的训练方法，或上述方法实施例提供的图像分类方法。

本申请的实施例还提供了一种计算机可读存储介质，该存储介质中存储有指令，指令由处理器加载并执行以实现上述方法实施例提供的图像处理模型的训练方法，或上述方法实施例提供的图像分类方法。

本申请的实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，由处理器加载并执行以实现如上述方面所述的图像处理模型的训练方法，或如上述方面所述的图像分类方法。

可以理解的是，本申请中术语“至少一个”是指一个或多个，“多个”的含义是指两个或两个以上。

在本文中提及的“和/或”，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上仅为本申请的示例性实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

一种图像处理模型的训练方法，其特征在于，所述方法包括：

获取多个原始图像集，每个所述原始图像集包括多张相同类别的原始图像，且不同所述原始图像集包括的原始图像的类别不同；

对所述多个原始图像集中的多张原始图像进行裁剪，得到训练样本集，所述训练样本集包括多个训练样本，每个所述训练样本为一张原始图像，或者对一张原始图像进行裁剪得到的子图像；

从所述训练样本集中确定多个正样本对和多个负样本对，其中每个所述正样本对包括基于同一个原始图像集中的不同原始图像得到的两个训练样本，每个所述负样本对包括基于不同原始图像集中的原始图像得到的两个训练样本；

采用所述多个正样本对和多个负样本对训练图像处理模型。
根据权利要求1所述的方法，其特征在于，所述对所述多个原始图像集中的多张原始图像样本进行裁剪，包括：

对于所述多个原始图像集中用于裁剪的每一张原始图像，随机生成位于目标尺寸范围内的一个裁剪尺寸；

基于所述原始图像的尺寸和所述裁剪尺寸确定裁剪区域的参考点；

基于所述裁剪尺寸和所述参考点在所述原始图像中确定所述裁剪区域，并对所述裁剪区域进行裁剪。
根据权利要求2所述的方法，其特征在于，所述目标尺寸范围包括宽度范围和高度范围，所述裁剪尺寸包括位于所述宽度范围内的宽度，以及位于所述高度范围内的高度；

所述裁剪区域为矩形区域，所述裁剪区域的参考点为所述矩形区域的一个顶点，或所述矩形区域的中心点。
根据权利要求1至3任一所述的方法，其特征在于，从所述训练样本集中确定多个正样本对，包括：

从所述训练样本集中确定多个备选样本对，每个所述备选样本对均包括基于同一个原始图像集中的不同原始图像得到的两个训练样本；

确定每个所述备选样本对的相似度；

将相似度大于相似度阈值的所述备选样本对确定为正样本对。
根据权利要求4所述的方法，其特征在于，所述确定每个所述备选样本对的相似度，包括：

采用卷积神经网络提取每个所述备选样本对中的每个训练样本的特征向量；

对于每个所述备选样本对，采用相似度度量算法处理所述备选样本对中的两个训练样本的特征向量，得到所述备选样本对的相似度。
根据权利要求1至5任一所述的方法，其特征在于，从所述训练样本集中确定多个负样本对，包括：

从所述训练样本集中确定数量与所述多个正样本对的数量相同的多个负样本对。
根据权利要求1至6任一所述的方法，其特征在于，所述采用所述多个正样本对和多个负样本对训练图像处理模型，包括：

将每个所述正样本对的真值均标记为1，并将每个所述负样本对的真值均标记为0；

采用标记后的所述多个正样本对，以及标记后的所述多个负样本对训练图像处理模型。
一种图像分类方法，其特征在于，所述方法包括：

获取待分类的目标图像；

将所述目标图像输入至图像分类模型，得到所述图像分类模型输出的所述目标图像的类别；

其中，所述图像分类模型采用如权利要求1至7任一所述的方法训练得到。
根据权利要求8所述的方法，其特征在于，所述将所述目标图像输入至图像分类模型，得到所述图像分类模型输出的所述目标图像的类别，包括：

将目标图像输入至图像分类模型，得到所述图像分类模型输出的所述目标图像与不同类别的参考图像的相似度；

将所述不同类别的参考图像中，与所述目标图像的相似度最高的参考图像的类别确定为所述目标图像的类别。
根据权利要求8所述的方法，其特征在于，所述将目标图像输入至图像分类模型，得到所述图像分类模型输出的所述目标图像的类别，包括：

将目标图像输入至图像分类模型，得到所述图像分类模型输出的所述目标图像与不同类别的图像特征的相似度；

将所述不同类别的图像特征中，与所述目标图像的相似度最高的图像特征的类别确定为所述目标图像的类别；

其中，每个类别的图像特征是对所述类别的多个训练样本进行特征提取得到的。
一种图像处理模型的训练装置，其特征在于，所述装置包括：

获取模块，用于获取多个原始图像集，每个所述原始图像集包括多张相同类别的原始图像，且不同所述原始图像集包括的原始图像的类别不同；

裁剪模块，用于对所述多个原始图像集中的多张原始图像进行裁剪，得到训练样本集，所述训练样本集包括多个训练样本，每个所述训练样本为一张原始图像，或者对一张原始图像进行裁剪得到的子图像；

确定模块，用于从所述训练样本集中确定多个正样本对和多个负样本对，其中每个所述正样本对包括基于同一个原始图像集中的不同原始图像得到的两个训练样本，每个所述负样本对包括基于不同原始图像集中的原始图像得到的两个训练样本；

训练模块，用于采用所述多个正样本对和多个负样本对训练图像处理模型。
一种图像分类装置，其特征在于，所述装置包括：

获取模块，用于获取待分类的目标图像；

分类模块，用于将所述目标图像输入至图像分类模型，得到所述图像分类模型输出的所述目标图像的类别；

其中，所述图像分类模型采用如权利要求11所述的图像处理模型的训练装置训练得到。
一种图像处理设备，其特征在于，所述图像处理设备包括处理器和存储器，所述存储器中存储有指令，所述指令由所述处理器加载并执行以实现如权利要求1至7任一所述的图像处理模型的训练方法，或如权利要求8至10任一所述的图像分类方法。
一种计算机可读存储介质，其特征在于，所述存储介质中存储有指令，所述指令由处理器加载并执行以实现如权利要求1至7任一所述的图像处理模型的训练方法，或如权利要求8至10任一所述的图像分类方法。