WO2020224405A1

WO2020224405A1 - 图像处理方法、装置、计算机可读介质及电子设备

Info

Publication number: WO2020224405A1
Application number: PCT/CN2020/085021
Authority: WO
Inventors: 金坤; 赵世杰; 易阳; 李峰; 左小祥
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2019-05-06
Filing date: 2020-04-16
Publication date: 2020-11-12
Also published as: EP3968180A1; CN110222220A; CN110222220B; US11978241B2; JP2022517835A; US20210319243A1; JP7163504B2; EP3968180A4

Abstract

一种图像处理方法、装置、计算机可读介质及电子设备。该图像处理方法包括：提取待处理图像的特征图（S210）；将所述特征图划分为多个目标区域（S220）；根据各个所述目标区域的特征向量，确定各个所述目标区域的权重（S230）；根据各个所述目标区域的权重和各个所述目标区域的特征向量，生成所述待处理图像的特征向量（S240）。上述方案能够根据图像中各个目标区域的特征向量对各个目标区域进行加权处理，进而能够弱化图像中的非显著性区域，并突出图像中的显著性区域，有效提高了生成的图像特征向量的准确性和合理性。

Description

图像处理方法、装置、计算机可读介质及电子设备

本申请要求于2019年5月6日提交的申请号为201910369974X、发明名称为“图像处理方法、装置、计算机可读介质及电子设备”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及计算机及通信技术领域，具体而言，涉及一种图像处理方法、装置、计算机可读介质及电子设备。

背景技术

在图像处理领域，例如，图像检索、图像识别技术中，从图像中提取出的特征向量极大影响了图像处理结果的准确性，而相关技术提出的特征提取方式存在很多不合理的地方，也就导致提取出的特征向量不准确，进而会影响到最终的处理结果。

发明内容

本申请的实施例提供了一种图像处理方法、装置、计算机可读介质及电子设备，进而至少在一定程度上可以提高确定出的图像特征向量的准确性和合理性。

本申请的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本申请的实践而习得。

根据本申请实施例的一个方面，提供了一种图像处理方法，包括：提取待处理图像的特征图；将所述特征图划分为多个目标区域；根据各个所述目标区域的特征向量，确定各个所述目标区域的权重；根据各个所述目标区域的权重和各个所述目标区域的特征向量，生成所述待处理图像的特征向量。

根据本申请实施例的一个方面，提供了一种图像处理方法，包括：将待处理图像输入至图像处理模型中，所述图像处理模型包括卷积模块、视觉注意力模块和特征合并模块，其中，所述卷积模块用于提取所述待处理图像的特征图；所述视觉注意力模块用于将所述特征图划分为多个目标区域，并根据各个所述目标区域的特征向量确定各个所述目标区域的权重；所述特征合并模块用于根据各个所述目标区域的权重和各个所述目标区域的特征向量，生成所述待处理图像的特征向量；获取所述图像处理模型生成的所述待处理图像的特征向量。

根据本申请实施例的一个方面，提供了一种图像处理装置，包括：提取单元，用于提取待处理图像的特征图；划分单元，用于将所述特征图划分为多个目标区域；确定单元，用于根据各个所述目标区域的特征向量，确定各个所述目标区域的权重；生成单元，用于根据各个所述目标区域的权重和各个所述目标区域的特征向量，生成所述待处理图像的特征向量。

在本申请的一些实施例中，基于前述方案，所述划分单元配置为：根据预定的区域划分方式对所述特征图进行划分，得到所述多个目标区域；或对所述特征图进行ROI(Region Of Interest，感兴趣区域)池化操作，以将ROI映射到所述特征图中得到所述多个目标区域。

在本申请的一些实施例中，基于前述方案，所述划分单元配置为：根据预定的至少一种区域划分方式对所述特征图进行划分，得到各种所述区域划分方式所对应的特征图区域；将各种所述区域划分方式所对应的特征图区域作为所述目标区域。

在本申请的一些实施例中，基于前述方案，所述确定单元配置为：对各个所述目标区域的特征向量进行降维处理，得到各个所述目标区域对应的特征标量；对各个所述目标区域对应的特征标量进行归一化处理，得到各个所述目标区域的权重。

在本申请的一些实施例中，基于前述方案，所述确定单元配置为：将各个所述目标区域的特征向量输入至输出维度为1维的全连接层，根据所述全连接层的输出确定各个所述目标区域对应的特征标量。

在本申请的一些实施例中，基于前述方案，所述生成单元配置为：根据各个所述目标区域的权重和各个所述目标区域的特征向量，计算各个所述目标区域加权后的特征向量；根据各个所述目标区域加权后的特征向量生成所述待处理图像的特征向量。

在本申请的一些实施例中，基于前述方案，所述生成单元配置为：将各个所述目标区域加权后的特征向量进行合并处理，得到所述待处理图像的特征向量；或将各个所述目标区域加权后的特征向量进行合并处理，对合并处理后的特征向量进行归一化处理，得到所述待处理图像的特征向量。

在本申请的一些实施例中，基于前述方案，所述的图像处理装置还包括：检索单元，用于根据所述待处理图像的特征向量，检索与所述待处理图像相匹配的图像。

根据本申请实施例的一个方面，提供了一种图像处理装置，包括：处理单元，用于将待处理图像输入至图像处理模型中，所述图像处理模型包括卷积模块、视觉注意力模块和特征合并模块，其中，所述卷积模块用于提取所述待处理图像的特征图；所述视觉注意力模块用于将所述特征图划分为多个目标区域，并根据各个所述目标区域的特征向量确定各个所述目标区域的权重；所述特征合并模块用于根据各个所述目标区域的权重和各个所述目标区域的特征向量，生成所述待处理图像的特征向量；获取单元，用于获取所述图像处理模型生成的所述待处理图像的特征向量。

在本申请的一些实施例中，基于前述方案，所述的图像处理装置还包括：训练单元，用于获取标记了特征向量的图像样本，通过所述图像样本对所述图像处理模型进行训练。

在本申请的一些实施例中，基于前述方案，所述处理单元配置为通过所述卷积模块中的任一卷积层提取所述待处理图像的特征图。

根据本申请实施例的一个方面，提供了一种计算机可读介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上述实施例中所述的图像处理方法。

根据本申请实施例的一个方面，提供了一种电子设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如上述实施例中所述的图像处理方法。

在本申请的一些实施例所提供的技术方案中，通过将待处理图像的特征图划分为多个目标区域，根据各个目标区域的特征向量确定各个目标区域的权重，以根据各个目标区域的权重和各个目标区域的特征向量生成待处理图像的特征向量，使得在确定图像的特征向量时，能够根据图像中各个目标区域的特征向量对各个目标区域进行加权处理，进而能够弱化图像中的非显著性区域(如背景区域)，并突出图像中的显著性区域(如前景区域)，有效提高了生成的图像特征向量的准确性和合理性，有利于提升图像检索的效果。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1示出了可以应用本申请实施例的技术方案的示例性系统架构的示意图；

图2示出了根据本申请的一个实施例的图像处理方法的流程图；

图3示出了根据本申请的一个实施例的确定各个目标区域的权重的流程图；

图4示出了根据本申请的一个实施例的根据各个目标区域的权重和各个目标区域的特征向量，生成待处理图像的特征向量的流程图；

图5示出了根据本申请的一个实施例的图像处理方法的流程图；

图6示出了根据本申请的一个实施例的图像处理方法的流程图；

图7示出了根据本申请的一个实施例的区域划分方式的示意图；

图8示出了根据本申请的一个实施例的图像检索模型的结构示意图；

图9示出了根据本申请的一个实施例的图像中各区域的权重示意图；

图10示出了根据本申请的一个实施例的图像检索结果示意图；

图11示出了根据本申请的一个实施例的图像处理装置的框图；

图12示出了根据本申请的一个实施例的图像处理装置的框图；

图13示出了适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本申请将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本申请的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本申请的技术方案而没有特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本申请的各方面。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

图1示出了可以应用本申请实施例的技术方案的示例性系统架构的示意图。

如图1所示，系统架构可以包括终端设备(如图1中所示智能手机101、平板电脑102和便携式计算机103中的一种或多种，当然也可以是台式计算机等等)、网络104和服务器105。网络104用以在终端设备和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线通信链路、无线通信链路等等。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。比如服务器105可以是多个服务器组成的服务器集群等。

在本申请的一个实施例中，用户可以通过终端设备(如图1中所示智能手机101、平板电脑102或便携式计算机103)指定待处理图像，比如用户通过终端设备将待处理图像发送给服务器105，或者用户通过终端设备在服务器105提供的图像中选择待处理图像。

在本申请的一个实施例中，服务器105在确定待处理图像之后，可以提取待处理图像的特征图，比如可以通过CNN(Convolutional Neural Network，卷积神经网络)模型中的任一卷积层来提取待处理图像的特征图。在提取出待处理图像的特征图之后，可以将该特征图划分为多个目标区域，然后根据各个目标区域的特征向量，确定出各个目标区域的权重，进而可以根据各个目标区域的权重和各个目标区域的特征向量，生成待处理图像的特征向量。可见，由于本申请实施例的技术方案在确定图像的特征向量时，能够根据图像中各个目标区域的特征向量对各个目标区域进行加权处理，进而能够弱化图像中的非显著性区域，并突出图像中的显著性区域，有效提高了生成的图像特征向量的准确性和合理性，有利于提升图像处理的效果，例如提高图像检索的效果以及图像识别的准确性等。

需要说明的是，本申请实施例所提供的图像处理方法可以由服务器105执行，相应地，图像处理装置可以设置于服务器105中。但是，在本申请的其它实施例中，终端设备可以与服务器具有相似的功能，从而执行本申请实施例所提供的图像处理方案。

以下对本申请实施例的技术方案的实现细节进行详细阐述：

图2示出了根据本申请的一个实施例的图像处理方法的流程图，该图像处理方法可以由具有计算处理功能的设备来执行，比如可以由图1中所示的服务器105来执行。参照图2所示，该图像处理方法至少包括步骤S210至步骤S240，详细介绍如下：

在步骤S210中，服务器提取待处理图像的特征图。

在本申请的一个实施例中，待处理图像可以是需要提取特征向量的图像，或者也可以是需要进行检索的图像，又或者也可以是需要进行识别的图像等。

在本申请的一个实施例中，可以通过CNN模型中的任一卷积层来提取待处理图像的特征图。

在步骤S220中，服务器将所述特征图划分为多个目标区域。

在本申请的一个实施例中，可以根据预定的区域划分方式对待处理图像的特征图进行划分，以得到该多个目标区域。比如可以预定至少一种区域划分方式(如预定3种区域划分方式)，然后通过这至少一种区域划分方式对特征图进行划分，得到各种区域划分方式所对应的特征图区域，进而将各种区域划分方式所对应的特征图区域作为划分得到的目标区域。

在本申请的一个实施例中，也可以通过设置ROI池化(Pooling)操作的输出特征图的大小，然后对待处理图像的特征图进行ROI池化操作，以将ROI映射到待处理图像的特征图中得到多个目标区域。

继续参照图2所示，在步骤S230中，服务器根据各个所述目标区域的特征向量，确定各个所述目标区域的权重。

在本申请的一个实施例中，如图3所示，步骤S230中确定各个目标区域的权重的过程，可以包括如下步骤S310和步骤S320：

在步骤S310中，服务器对各个目标区域的特征向量进行降维处理，得到各个目标区域对应的特征标量。

在本申请的一个实施例中，特征标量是用于表征特征大小的物理量，比如可以将各个目标区域的特征向量输入至输出维度为1维的全连接层，以根据全连接层的输出确定各个目标区域对应的特征标量。

在步骤S320中，服务器对各个目标区域对应的特征标量进行归一化处理，得到各个目标区域的权重。

在本申请的一个实施例中，可以对各个目标区域对应的特征标量进行L1范数、L2范数或softmax(称为归一化指数函数)函数的归一化处理。

图3所示实施例的技术方案使得能够根据各个目标区域的特征向量来确定各个目标区域的权重，进而能够通过确定出的权重弱化图像中的非显著性区域(如背景区域)，并突出图像中的显著性区域(如前景区域)，有利于提高生成的图像特征向量的准确性和合理性。

继续参照图2所示，在步骤S240中，服务器根据各个所述目标区域的权重和各个所述目标区域的特征向量，生成所述待处理图像的特征向量。

在本申请的一个实施例中，如图4所示，步骤S240中根据各个目标区域的权重和各个目标区域的特征向量，生成待处理图像的特征向量的过程可以包括如下步骤S410和步骤S420：

在步骤S410中，服务器根据各个目标区域的权重和各个所述目标区域的特征向量，计算各个所述目标区域加权后的特征向量。

在本申请的一个实施例中，可以将各个目标区域的权重与各个目标区域的特征向量进行点乘(即计算出数量积)，以得到各个目标区域加权后的特征向量。

在步骤S420中，服务器根据各个所述目标区域加权后的特征向量生成所述待处理图像的特征向量。

在本申请的一个实施例中，可以将各个目标区域加权后的特征向量进行合并处理，以得到待处理图像的特征向量。或者也可以在将各个目标区域加权后的特征向量进行合并处理之后，对合并处理后的特征向量进行归一化处理(如进行L2范数的归一化处理)，得到待处理图像的特征向量。

基于图2所示实施例的技术方案，在本申请的一个实施例中，在得到待处理图像的特征向量之后，可以根据待处理图像的特征向量，检索与待处理图像相匹配的图像，又或者基于特征向量来进一步进行图像识别。

图2至图4所示实施例的技术方案使得在确定图像的特征向量时，能够根据图像中各个目标区域的特征向量对各个目标区域进行加权处理，进而能够弱化图像中的非显著性区域，并突出图像中的显著性区域，有效提高了生成的图像特征向量的准确性和合理性，有利于提升图像检索的效果，也可以有利于提升图像识别的效果。

图5示出了根据本申请的一个实施例的图像处理方法的流程图，该图像处理方法可以由具有计算处理功能的设备来执行，比如可以由图1中所示的服务器105来执行。参照图5所示，该图像处理方法至少包括步骤S510至步骤S520，详细介绍如下：

在步骤S510中，将待处理图像输入至图像处理模型中，所述图像处理模型包括卷积模块、视觉注意力模块和特征合并模块。其中，所述卷积模块用于提取所述待处理图像的特征图；所述视觉注意力模块用于将所述特征图划分为多个目标区域，并根据各个所述目标区域的特征向量确定各个所述目标区域的权重；所述特征合并模块用于根据各个所述目标区域的权重和各个所述目标区域的特征向量，生成所述待处理图像的特征向量；

在本申请的一个实施例中，卷积模块可以是卷积神经网络，并且可以通过卷积模块中的任一卷积层提取待处理图像的特征图。

在本申请的一个实施例中，视觉注意力模块可以根据预定的区域划分方式对待处理图像的特征图进行划分，以得到多个目标区域。比如可以预定至少一种区域划分方式，然后通过这至少一种区域划分方式对特征图进行划分，得到各种区域划分方式所对应的特征图区域，进而将各种区域划分方式所对应的特征图区域作为划分得到的目标区域。

在本申请的一个实施例中，视觉注意力模块也可以通过设置ROI池化操作的输出特征图的大小，然后对待处理图像的特征图进行ROI池化操作，以将ROI映射到待处理图像的特征图中得到多个目标区域。

在本申请的一个实施例中，视觉注意力模块根据各个目标区域的特征向量确定各个目标区域的权重的方案与前述实施例中图3所示的方案类似，在此不再赘述。

在本申请的一个实施例中，特征合并模块根据各个目标区域的权重和各个目标区域的特征向量，生成待处理图像的特征向量的方案与前述实施例中图4所示的方案类似，在此不再赘述。

继续参照图5所示，在步骤S520中，服务器获取所述图像处理模型生成的所述待处理图像的特征向量。

在本申请的一个实施例中，在获取到图像处理模型生成的待处理图像的特征向量之后，可以根据待处理图像的特征向量，检索与待处理图像相匹配的图像。

在本申请的一个实施例中，在获取到图像处理模型生成的待处理图像的特征向量之后，可以根据待处理图像的特征向量，对待处理图像进行识别。

图5所示实施例的技术方案是通过图像处理模型来生成待处理图像的特征向量，在保证生成的图像特征向量的准确性和合理性的前提下，实现了通过端到端的训练方式来训练图像处理模型，进而能够便于通过图像处理模型来方便地生成图像的特征向量。其中，在本申请的一个实施例中，对图像处理模型进行训练的方式可以是获取标记了特征向量的图像样本，通过该图像样本对图像处理模型进行训练，直至图像处理模型的损失函数收敛为止。

以下结合图6至图10，对本申请实施例的技术方案的实现细节进行详细阐述：

如图6所示，根据本申请实施例的图像处理方法，包括如下步骤S610至步骤S660，详细说明如下：

在步骤S610中，服务器在任意一个数据集上训练好一个卷积神经网络模型。

在本申请的一个实施例中，卷积神经网络模型可以是ResNet(Residual Network，残差神经网络)、ResNeXt、VGGNet(Visual Geometry Group Network，超分辨率测试序列网络)、InceptionNet等。

其中，该任意一个数据集上训练可以是指采用数据集作为训练集，来训练卷积神经网络模型。

在步骤S620中，服务器将图像输入至训练好的卷积神经网络模型中，并获取到任意一个卷积层输出的一组特征图。

在本申请的一个实施例中，卷积神经网络模型输出的特征图的大小可以是C×W×H，其中，C表示通道数，H和W分别表示长和宽。

对于一个卷积神经网络来说，若该卷积神经网络模型有两个以上的卷积层，该两个以上的卷积层可以是并行的，也即是，图像会分别被各个卷积层处理，以输出各个卷积层对应的特征图，也即是上述的一组特征图。

在步骤S630中，服务器将得到的特征图划分为若干区域，并确定每一个区域的特征向量。

在本申请的一个实施例中，可以事先针对图像设计若干区域，然后在每个区域内进行池化(Max Pooling)操作，以得到每个区域的特征。如图7所示，图7中(1)图表示将整张图看作一个区域，即为R1；图7中(2)图表示将整张图近似分为4个区域(为避免区域交叠过多导致不清楚，仅示出了其中两个区域)，并且设定相邻两个区域的重叠率为α(0<α<1)，这4个区域分别记为R2、R3、R4、R5；图7中(3)图表示将整张图近似分为9个区域(为避免区域交叠过多导致不清楚，仅示出了其中三个区域)，并且设定相邻两个区域的重叠率为α(0<α<1)，这9个区域分别记为R6、R7、R8、R9、R10、R11、R12、R13、R14。当然，还可以将整张图划分为更多个区域。

在本申请的一个实施例中，可以对图像按照图7中所示的三种方式进行划分，得到R ₁～R ₁₄这14个区域。然后根据每个区域的坐标位置在每个区域内进行max-pooling操作，以确定每个区域的特征向量v。

在本申请的一个实施例中，也可以设定好ROI Pooling层的输出特征图的大小，比如设定输出特征图大小为3×3，那么将大小为W×H的输入特征图输入至ROI Pooling层之后，算法会将其近似平分为3×3份，每一份获取一个最大值作为输出，从而输出一个3×3的特征图。

以下以得到上述的R ₁～R ₁₄这14个区域为例进行说明，其中，这14个区域的特征向量分别即为v ₁～v ₁₄，每个特征向量的维度为C，用于表征相应区域内的特征。

在步骤S640中，服务器将获取到的特征向量v ₁～v ₁₄输入至一个全连接层，输出与各区域相对应的标量，并对各区域对应的标量进行归一化处理，得到每一个区域的权重。

在本申请的一个实施例中，全连接层的参数可以为w∈R ^c×1，用于表示全连接层的输入维度是C维、输出维度是1维。当通过全连接层获取到14个标量之后，可以将这14个标量进行归一化处理，比如可以采用L1范数、L2范数或softmax函数进行归一化处理，得到β ₁～β ₁₄，那么β ₁～β ₁₄分别表示特征向量v ₁～v ₁₄的权重，即每一个区域的权重。如果以L1范数归一化为例，那么特征向量的权重可以通过如下公式(1)进行计算：

在步骤S650中，服务器将获取到的特征向量v ₁～v ₁₄分别点乘对应的权重β ₁～β ₁₄，得到每个区域加权后的特征向量。

在本申请的一个实施例中，这14个区域加权后的特征向量可以分别表示为β ₁v ₁～β ₁₄v ₁，也就是对图像进行视觉注意力机制的处理，该处理可以采用点乘的方式实现。该过程设计简单，不需要添加特定的神经网络层，点乘过程只是将相应的区域特征向量和区域权重相乘。

在步骤S660中，服务器将每个区域加权后的特征向量进行求和，并进行L2范数的归一化处理，得到图像最终的特征向量。在得到图像的特征向量之后，可以基于该特征向量进行处理，例如进行图像检索处理或图像识别处理等。在本申请的一个实施例中，可以通过如下公式(2)计算得到图像最终的特征向量：

在本申请的一个实施例中，可以基于图6所示的技术方案构建一个可以进行端到端训练的图像检索模型，如图8所示，可以包括CNN网络801、视觉注意力模块803、求和模块804和L2归一化层805，其中的视觉注意力模块803可以包括ROI Pooling层、全连接层、归一化层和点乘模块。CNN网络801用于执行图6中所示的步骤S620，得到特征图802；视觉注意力模块803用于执行图6中所示的步骤S630至步骤S650；求和模块804和L2归一化层805用于执行图6中所示的步骤S660，得到图像的特征向量806。该图像检索模型还可以包括相似度确定模块，用以基于不同图像的特征向量确定图像之间的相似度，从而基于相似度来确定相似图像。

在本申请的一个实施例中，可以在分类任务上或采用度量学习的方法等对构建的图像检索模型进行微调，直到图像减缩模型的损失函数收敛。

为了便于说明本申请实施例的技术方案的效果，本申请实施例中将计算得到的各个区域的权重标注在图像中，具体如图9所示。其中，图9中所示的“GT”表示各图像中显著物所在的区域，从图9中可以看出，包含有显著物的区域权重通常较大，而未包含显著物的区域权重相对较小，进而可以强化前景区域的特征，弱化背景区域的特征，实现更合理更准确的图像特征编码，有利于大幅提升图像检索性能。

在本申请的一个实施例中，基于VGG-16或ResNet-101的网络架构，对学术界公认的图像检索数据集Paris6k、Oxford5k、Paris106k、Oxford105k进行了测试，测试结果以Mean Average Precision(平均精度均值，简称MAP)作为量化指标，具体的测试结果如表1所示：

表1

从表1可以看出，采用本申请实施例的技术方案可以有效提高量化指标，尤其当选取ResNet-101框架时，在数据集Paris106k上提升了7.36％，在数据集Oxford105k上提升11.25％。

为了进一步验证本申请实施例的技术方案的效果，在本申请的一个实施例中，在根据本申请实施例的技术方案提取出待检索图像的特征向量之后，可以根据提取出的特征向量进行检索，然后按照相似度从大到小的顺序依次返回检索到的图像，其中返回的第5张图像、第10张图像、第20张图像和第30张图像如图10所示。可见，本发明实施例的技术方案由于提取出来合理且准确的特征，因此即便对于非目标区域比较大的图像，仍然能够较好地检索出来。

此外，本申请实施例的技术方案可以应用在图像检索、视频检索领域中，具体可以用于相似视频推荐、相似视频去重、图像推荐或去重等。

以下介绍本申请的装置实施例，可以用于执行本申请上述实施例中的图像处理方法。对于本申请装置实施例中未披露的细节，请参照本申请上述的图像处理方法的实施例。

图11示出了根据本申请的一个实施例的图像处理装置的框图。

参照图11所示，根据本申请的一个实施例的图像处理装置1100，包括：提取单元1102、划分单元1104、确定单元1106和生成单元1108。

其中，提取单元1102用于提取待处理图像的特征图；划分单元1104用于将所述特征图划分为多个目标区域；确定单元1106用于根据各个所述目标区域的特征向量，确定各个所述目标区域的权重；生成单元1108用于根据各个所述目标区域的权重和各个所述目标区域的特征向量，生成所述待处理图像的特征向量。

在本申请的一些实施例中，基于前述方案，划分单元1104配置为：根据预定的区域划分方式对所述特征图进行划分，得到所述多个目标区域；或对所述特征图进行ROI池化操作，以将ROI映射到所述特征图中得到所述多个目标区域。

在本申请的一些实施例中，基于前述方案，划分单元1104配置为：根据预定的至少一种区域划分方式对所述特征图进行划分，得到各种所述区域划分方式所对应的特征图区域；将各种所述区域划分方式所对应的特征图区域作为所述目标区域。

在本申请的一些实施例中，基于前述方案，确定单元1106配置为：对各个所述目标区域的特征向量进行降维处理，得到各个所述目标区域对应的特征标量；对各个所述目标区域对应的特征标量进行归一化处理，得到各个所述目标区域的权重。

在本申请的一些实施例中，基于前述方案，确定单元1106配置为：将各个所述目标区域的特征向量输入至输出维度为1维的全连接层，根据所述全连接层的输出确定各个所述目标区域对应的特征标量。

在本申请的一些实施例中，基于前述方案，生成单元1108配置为：根据各个所述目标区域的权重和各个所述目标区域的特征向量，计算各个所述目标区域加权后的特征向量；根据各个所述目标区域加权后的特征向量生成所述待处理图像的特征向量。

在本申请的一些实施例中，基于前述方案，生成单元1108配置为：将各个目标区域加权后的特征向量进行合并处理，得到所述待处理图像的特征向量；或将各个所述目标区域加权后的特征向量进行合并处理，对合并处理后的特征向量进行归一化处理，得到所述待处理图像的特征向量。

在本申请的一些实施例中，基于前述方案，图像处理装置1100还包括：检索单元，用于根据所述待处理图像的特征向量，检索与所述待处理图像相匹配的图像。

图12示出了根据本申请的一个实施例的图像处理装置的框图。

参照图12所示，根据本申请的一个实施例的图像处理装置1200，包括：处理单元1202和获取单元1204。

其中，处理单元1202用于将待处理图像输入至图像处理模型中，所述图像处理模型包括卷积模块、视觉注意力模块和特征合并模块，其中，所述卷积模块用于提取所述待处理图像的特征图；所述视觉注意力模块用于将所述特征图划分为多个目标区域，并根据各个所述目标区域的特征向量确定各个所述目标区域的权重；所述特征合并模块用于根据各个所述目标区域的权重和各个所述目标区域的特征向量，生成所述待处理图像的特征向量；获取单元1204用于获取所述图像处理模型生成的所述待处理图像的特征向量。

在本申请的一些实施例中，基于前述方案，图像处理装置1200还包括：训练单元，用于获取标记了特征向量的图像样本，通过所述图像样本对所述图像处理模型进行训练。

在本申请的一些实施例中，基于前述方案，处理单元1202配置为通过所述卷积模块中的任一卷积层提取所述待处理图像的特征图。

需要说明的是，图13示出的电子设备的计算机系统1300仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图13所示，计算机系统1300包括中央处理单元(Central Processing Unit，CPU)1301，其可以根据存储在只读存储器(Read-Only Memory，ROM)1302中的程序或者从存储部分1308加载到随机访问存储器(Random Access Memory，RAM)1303中的程序而执行各种适当的动作和处理，例如执行上述实施例中所述的方法。在RAM 1303中，还存储有系统操作所需的各种程序和数据。CPU 1301、ROM 1302以及RAM 1303通过总线1304彼此相连。输入/输出(Input/Output，I/O)接口1305也连接至总线1304。

以下部件连接至I/O接口1305：包括键盘、鼠标等的输入部分1306；包括诸如阴极射线管(Cathode Ray Tube，CRT)、液晶显示器(Liquid Crystal Display，LCD)等以及扬声器等的输出部分1307；包括硬盘等的存储部分1308；以及包括诸如LAN(Local Area Network，局域网)卡、调制解调器等的网络接口卡的通信部分1309。通信部分1309经由诸如因特网的网络执行通信处理。驱动器1310也根据需要连接至I/O接口1305。可拆卸介质1311，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1310上，以便于从其上读出的计算机程序根据需要被安装入存储部分1308。

特别地，根据本申请的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本申请的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分1309从网络上被下载和安装，和/或从可拆卸介质1311被安装。在该计算机程序被中央处理单元(CPU)1301执行时，执行本申请的系统中限定的各种功能。

需要说明的是，本申请实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory，EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory，CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、有线等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。其中，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现，所描述的单元也可以设置在处理器中。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定。

作为另一方面，本申请还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该电子设备执行时，使得该电子设备实现上述实施例中所述的方法。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本申请的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本申请实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本申请实施方式的方法。

本领域技术人员在考虑说明书及实践这里公开的实施方式后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims

一种图像处理方法，其特征在于，包括：

提取待处理图像的特征图；

将所述特征图划分为多个目标区域；

根据各个所述目标区域的特征向量，确定各个所述目标区域的权重；

根据各个所述目标区域的权重和各个所述目标区域的特征向量，生成所述待处理图像的特征向量。
根据权利要求1所述的图像处理方法，其特征在于，将所述特征图划分为多个目标区域，包括：

根据预定的区域划分方式对所述特征图进行划分，得到所述多个目标区域；或

对所述特征图进行感兴趣区域ROI池化操作，以将ROI映射到所述特征图中得到所述多个目标区域。
根据权利要求2所述的图像处理方法，其特征在于，根据预定的区域划分方式对所述特征图进行划分，包括：

根据预定的至少一种区域划分方式对所述特征图进行划分，得到各种所述区域划分方式所对应的特征图区域；

将各种所述区域划分方式所对应的特征图区域作为所述目标区域。
根据权利要求1所述的图像处理方法，其特征在于，根据各个所述目标区域的特征向量，确定各个所述目标区域的权重，包括：

对各个所述目标区域的特征向量进行降维处理，得到各个所述目标区域对应的特征标量；

对各个所述目标区域对应的特征标量进行归一化处理，得到各个所述目标区域的权重。
根据权利要求4所述的图像处理方法，其特征在于，对各个所述目标区域的特征向量进行降维处理，得到各个所述目标区域对应的特征标量，包括：

将各个所述目标区域的特征向量输入至输出维度为1维的全连接层，根据所述全连接层的输出确定各个所述目标区域对应的特征标量。
根据权利要求1所述的图像处理方法，其特征在于，根据各个所述目标区域的权重和各个所述目标区域的特征向量，生成所述待处理图像的特征向量，包括：

根据各个所述目标区域的权重和各个所述目标区域的特征向量，计算各个所述目标区域加权后的特征向量；

根据各个所述目标区域加权后的特征向量生成所述待处理图像的特征向量。
根据权利要求6所述的图像处理方法，其特征在于，根据各个所述目标区域加权后的特征向量生成所述待处理图像的特征向量，包括：

将各个所述目标区域加权后的特征向量进行合并处理，得到所述待处理图像的特征向量；或

将各个所述目标区域加权后的特征向量进行合并处理，对合并处理后的特征向量进行归一化处理，得到所述待处理图像的特征向量。
根据权利要求1至7中任一项所述的图像处理方法，其特征在于，还包括：

根据所述待处理图像的特征向量，检索与所述待处理图像相匹配的图像。
一种图像处理方法，其特征在于，包括：

将待处理图像输入至图像处理模型中，所述图像处理模型包括卷积模块、视觉注意力模块和特征合并模块，

其中，所述卷积模块用于提取所述待处理图像的特征图；所述视觉注意力模块用于将所述特征图划分为多个目标区域，并根据各个所述目标区域的特征向量确定各个所述目标区域的权重；所述特征合并模块用于根据各个所述目标区域的权重和各个所述目标区域的特征向量，生成所述待处理图像的特征向量；

获取所述图像处理模型的所述待处理图像的特征向量。
根据权利要求9所述的图像处理方法，其特征在于，还包括：

获取标记了特征向量的图像样本；

通过所述图像样本对所述图像处理模型进行训练。
根据权利要求9或10所述的图像处理方法，其特征在于，通过所述卷积模块中的任一卷积层提取所述待处理图像的特征图。
一种图像处理装置，其特征在于，包括：

提取单元，用于提取待处理图像的特征图；

划分单元，用于将所述特征图划分为多个目标区域；

确定单元，用于根据各个所述目标区域的特征向量，确定各个所述目标区域的权重；

生成单元，用于根据各个所述目标区域的权重和各个所述目标区域的特征向量，生成所述待处理图像的特征向量。
一种图像处理装置，其特征在于，包括：

处理单元，用于将待处理图像输入至图像处理模型中，所述图像处理模型包括卷积模块、视觉注意力模块和特征合并模块，

其中，所述卷积模块用于提取所述待处理图像的特征图；所述视觉注意力模块用于将所述特征图划分为多个目标区域，并根据各个所述目标区域的特征向量确定各个所述目标区域的权重；所述特征合并模块用于根据各个所述目标区域的权重和各个所述目标区域的特征向量，生成所述待处理图像的特征向量；

获取单元，用于获取所述图像处理模型生成的所述待处理图像的特征向量。
一种计算机可读介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至8中任一项所述的图像处理方法，或实现如权利要求9至11中任一项所述的图像处理方法。
一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1至8中任一项所述的图像处理方法，或实现如权利要求9至11中任一项所述的图像处理方法。