WO2019020049A1

WO2019020049A1 - 一种图像检索方法、装置及电子设备

Info

Publication number: WO2019020049A1
Application number: PCT/CN2018/097008
Authority: WO
Inventors: 陈畅怀
Original assignee: 杭州海康威视数字技术股份有限公司
Priority date: 2017-07-28
Filing date: 2018-07-25
Publication date: 2019-01-31
Also published as: CN110019896B; EP3660700A4; EP3660700A1; US20200175062A1; US11586664B2; EP3660700B1; CN110019896A; ES2924268T3

Abstract

本申请实施例提供了一种图像检索方法、装置及电子设备，其中，所述方法包括：获取查询图像；基于预先训练的深度神经网络，确定查询图像的目标特征；其中，深度神经网络为根据各个样本图像，以及各个样本图像对应的能够形成目标特征的预定特征训练得到的；获取多个待检索图像的目标特征；计算查询图像的目标特征与各个待检索图像的目标特征的相似度；根据计算得到的相似度，从多个待检索图像中确定查询图像对应的检索图像。通过本申请实施例提供的图像检索方法、装置及电子设备，可以提高图像检索的准确度。

Description

一种图像检索方法、装置及电子设备

本申请要求于2017年7月28日提交中国专利局、申请号为201710632446.X申请名称为“一种图像检索方法、装置及电子设备”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及图像处理和模式识别技术领域，特别是涉及一种图像检索方法、装置及电子设备。

背景技术

随着存储技术、多媒体、压缩技术和网络带宽等技术的不断发展，每天都有成千上万的图片产生，如何从海量的图像库中快速而准确地找到满足用户需求的图像，就成为了图像处理和模式识别领域需迫切解决的重要问题。

对于检索满足用户需求的图像而言，首先需要对用户的需求进行分析，然后从图像库中查找满足用户需求的图像。目前的图像检索方法中，检索系统接收用户提供的查询图像，然后根据用户的指示提取该查询图像的感兴趣区域，其中，该感兴趣区域表示具有辨识能力、能够反映图像特点的区域，辨识能力表示能够分辨不同目标的能力；接着提取该感兴趣区域的特征、和图像库中图像的与该感兴趣区域对应区域的特征；再将查询图像的感兴趣区域的特征与数据库中图像的对应区域的特征进行比对，最后按照相似度进行排序返回检索结果，得到满足要求的图像。

可以看出，目前的图像检索方法中，根据用户指示提取的感兴趣区域，主观性太强，导致感兴趣区域的确定存在较大偏差，最终使得图像检索准确度低。

发明内容

本申请实施例的目的在于提供一种图像检索方法、装置及电子设备，以实现提高图像检索的准确度。具体技术方案如下：

第一方面，本申请实施例提供了一种图像检索方法，包括：

获取查询图像；基于预先训练的深度神经网络，确定所述查询图像的目标特征；其中，所述深度神经网络为根据各个样本图像，以及各个样本图像对应的能够形成目标特征的预定特征训练得到的；获取多个待检索图像的目标特征；计算所述查询图像的目标特征与各个待检索图像的目标特征的相似度；根据计算得到的相似度，从所述多个待检索图像中确定所述查询图像对应的检索图像。

可选的，所述获取多个待检索图像对应的目标特征的步骤，包括：获取保存在预设数据库的、所述多个待检索图像的目标特征；或者，基于所述预先训练的深度神经网络，确定所述多个待检索图像的目标特征。

可选的，所述预定特征为感兴趣区域特征，所述目标特征为感兴趣区域特征汇聚成的特征；所述基于预先训练的深度神经网络，确定所述查询图像的目标特征的步骤，包括：

将所述查询图像输入预先训练的第一深度神经网络中，得到所述查询图像的目标感兴趣区域，其中，所述第一深度神经网络为根据各个样本图像，以及各个样本图像对应的感兴趣区域训练得到的；将所述目标感兴趣区域输入预先训练的第二深度神经网络中，得到所述目标感兴趣区域的目标感兴趣区域特征，其中，所述第二深度神经网络为根据各个感兴趣区域，以及各个感兴趣区域对应的感兴趣区域特征训练得到的；将所述目标感兴趣区域特征汇聚成所述查询图像的目标特征。

可选的，所述预定特征为全局特征，所述目标特征为全局特征；所述基于预先训练的深度神经网络，确定所述查询图像的目标特征的步骤，包括：

将所述查询图像输入预先训练的第三深度神经网络中，得到所述查询图像的全局特征，其中，所述第三深度神经网络是根据各个样本图像，以及各个样本图像对应的全局特征训练得到的。

可选的，所述根据计算得到的相似度，从所述多个待检索图像中确定所述查询图像对应的检索图像，包括：

对计算得到的相似度进行排序，并根据排序所得到的结果，从所述多个待检索图像中确定所述查询图像对应的检索图像；或者，将所述多个待检索图像中的目标待检索图像，确定为所述查询图像对应的检索图像，其中，所述目标待检索图像为所对应相似度大于预定相似度阈值的待检索图像。

可选的，在所述得到所述查询图像的目标感兴趣区域之后，所述方法还包括：

输出所述目标感兴趣区域的位置信息。

第二方面，本申请实施例还提供了一种图像检索装置，包括：

图像获取模块，用于获取查询图像。

第一特征确定模块，用于基于预先训练的深度神经网络，确定所述查询图像的目标特征；其中，所述深度神经网络为根据各个样本图像，以及各个样本图像对应的能够形成目标特征的预定特征训练得到的。

第二特征确定模块，用于获取多个待检索图像的目标特征。

计算模块，用于计算所述查询图像的目标特征与各个待检索图像的目标特征的相似度。

检索图像确定模块，用于根据计算得到的相似度，从所述多个待检索图像中确定所述查询图像对应的检索图像。

可选的，所述第二特征确定模块具体用于获取保存在预设数据库的、所述多个待检索图像的目标特征；或者，基于所述预先训练的深度神经网络，确定所述多个待检索图像的目标特征。

可选的，所述预定特征为感兴趣区域特征，所述目标特征为感兴趣区域特征汇聚成的特征；所述第一特征确定模块，包括：

感兴趣区域获得子模块，用于将所述查询图像输入预先训练的第一深度神经网络中，得到所述查询图像的目标感兴趣区域，其中，所述第一深度神经网络为根据各个样本图像，以及各个样本图像对应的感兴趣区域训练得到的；感兴趣区域特征确定子模块，用于将所述目标感兴趣区域输入预先训练的第二深度神经网络中，得到所述目标感兴趣区域的目标感兴趣区域特征，其中，所述第二深度神经网络为根据各个感兴趣区域，以及各个感兴趣区域对应的感兴趣区域特征训练得到的；第一特征确定子模块，用于将所述目标感兴趣区域特征汇聚成所述查询图像的目标特征。

可选的，所述预定特征为全局特征，所述目标特征为全局特征；所述第一特征确定模块，包括：

第二特征确定子模块，用于将所述查询图像输入预先训练的第三深度神经网络中，得到所述查询图像的全局特征，其中，所述第三深度神经网络是根据各个样本图像，以及各个样本图像对应的全局特征训练得到的。

可选的，所述检索图像确定模块具体用于对计算得到的相似度进行排序，并根据排序所得到的结果，从所述多个待检索图像中确定所述查询图像对应的检索图像；或者，将所述多个待检索图像中的目标待检索图像，确定为所述查询图像对应的检索图像，其中，所述目标待检索图像为所对应相似度大于预定相似度阈值的待检索图像。

可选的，所述装置还包括：输出模块，用于在所述得到所述查询图像的目标感兴趣区域之后，输出所述目标感兴趣区域的位置信息。

第三方面，本申请实施例还提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，所述处理器，所述通信接口，所述存储器通过所述通信总线完成相互间的通信。

所述存储器，用于存放计算机程序。

所述处理器，用于执行存储器上所存放的程序时，实现如下方法步骤：

可选的，所述获取多个待检索图像对应的目标特征的步骤，包括：

获取保存在预设数据库的、所述多个待检索图像的目标特征；或者，基于所述预先训练的深度神经网络，确定所述多个待检索图像的目标特征。

可选的，所述预定特征为感兴趣区域特征，所述目标特征为感兴趣区域特征汇聚成的特征；所述基于预先训练的深度神经网络，确定所述查询图像的目标特征的步骤，包括：将所述查询图像输入预先训练的第一深度神经网络中，得到所述查询图像的目标感兴趣区域，其中，所述第一深度神经网络为根据各个样本图像，以及各个样本图像对应的感兴趣区域训练得到的；将所述目标感兴趣区域输入预先训练的第二深度神经网络中，得到所述目标感兴趣区域的目标感兴趣区域特征，其中，所述第二深度神经网络为根据各个感兴趣区域，以及各个感兴趣区域对应的感兴趣区域特征训练得到的；将所述目标感兴趣区域特征汇聚成所述查询图像的目标特征。

可选的，所述预定特征为全局特征，所述目标特征为全局特征；所述基于预先训练的深度神经网络，确定所述查询图像的目标特征的步骤，包括：将所述查询图像输入预先训练的第三深度神经网络中，得到所述查询图像的全局特征，其中，所述第三深度神经网络是根据各个样本图像，以及各个样本图像对应的全局特征训练得到的。

可选的，所述根据计算得到的相似度，从所述多个待检索图像中确定所述查询图像对应的检索图像，包括：对计算得到的相似度进行排序，并根据排序所得到的结果，从所述多个待检索图像中确定所述查询图像对应的检索图像；或者，将所述多个待检索图像中的目标待检索图像，确定为所述查询图像对应的检索图像，其中，所述目标待检索图像为所对应相似度大于预定相似度阈值的待检索图像。

可选的，所述处理器还用于在所述得到所述查询图像的目标感兴趣区域之后，输出所述目标感兴趣区域的位置信息。

第四方面，本申请实施例还提供了一种存储介质，用于存储可执行代码，所述可执行代码用于在运行时执行上述第一方面所述的图像检索方法的方法步骤。

第五方面，本申请实施例还提供了一种应用程序，用于在运行时执行上述第一方面所述的图像检索方法的方法步骤。

本申请实施例提供的图像检索方法中，可以基于预先训练的深度神经网络，确定查询图像的目标特征；计算该查询图像的目标特征与各个待检索图像的目标特征的相似度；进而根据计算得到的相似度，从多个待检索图像中确定该查询图像对应的检索图像。可以看出，通过本方案，无需根据用户的指示提取图像的特征，也即没有用户的主观参与，能够准确确定反映图像特点的特征，进而提高图像检索的准确度。同时，基于预先训练的深度神经网络，确定查询图像的目标特征，实现了目标特征的自动定位，提高了用户体验。当然，实施本申请的任一产品或方法必不一定需要同时达到以上所述的所有优点。

附图说明

图1为本申请实施例提供的图像检索方法的流程图；

图2为本申请实施例提供的图像检索方法的一种步骤流程图；

图3为本申请实施例提供的通过两个深度神经网络确定图像目标特征的流程图；

图4为本申请实施例提供的图像检索方法的另一种步骤流程图；

图5为本申请实施例提供的通过一个深度神经网络确定图像目标特征的流程图；

图6为本申请实施例提供的图像检索的具体过程流程图；

图7为本申请实施例提供的图像检索装置的结构示意图；

图8为本申请实施例提供的电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

图1为本申请实施例提供的图像检索方法的流程图，参照图1对本申请实施例提供的图像检索方法进行详细说明，该方法包括：

步骤101，获取查询图像。

本申请实施例提供的图像检索方法可以应用于电子设备，其中，该电子设备可以包括台式计算机、便携式计算机、智能移动终端等。

在本申请实施例中，电子设备获取查询图像，即获取需要检索的目标图像。例如，获取包含猫脸的图像等。并且，该查询图像可以是用户手动上传的，也可以为该电子设备自动抓取的，这都是合理的。

步骤102，基于预先训练的深度神经网络，确定查询图像的目标特征；其中，深度神经网络为根据各个样本图像，以及各个样本图像对应的能够形成目标特征的预定特征训练得到的。

在本申请实施例中，通过将查询图像的目标特征与图像库中图像对应的特征进行比对，完成图像的检索。所以，在图像检索的过程中，确定查询图像的目标特征是非常重要的过程。

为了提高图像检索的准确性，电子设备可以预先根据一定数量的样本图像，如100张、500张、1000张等，以及各个样本图像对应的能够形成目标特征的预定特征，训练得到深度神经网络。基于该深度神经网络，可以确定查询图像的目标特征。

因此，在图像检索的过程中，当电子设备获取到查询图像后，其可以将该查询图像输入该预先训练的深度神经网络中，进而基于该预先训练的深度神经网络，确定查询图像的目标特征。

其中，由于基于预定特征能够形成目标特征，因此，在一种具体实现方式中，深度神经网络训练所需的预定特征可以与目标特征相同，例如：预定特征为全局特征，目标特征为全局特征；而在一种具体实现方式中，深度神经网络训练所需的预定特征可以与目标特征不同，但通过预定特征能够生成目标特征，例如：预定特征为感兴趣区域特征，目标特征为感兴趣区域特征汇聚成的特征。其中，所谓的感兴趣区域特征指具有辨识能力、能够反映图像特点的感兴趣区域对应的图像特征。

为了方案清楚及布局清晰，后续结合具体实施例，介绍基于预先训练的深度神经网络，确定查询图像的目标特征的具体实现方式。

步骤103，获取多个待检索图像的目标特征。

为了从图像库中大量的图像中检索到满足需求的图像，需要确定图像库中图像与查询图像的目标特征对应的特征，即需要确定图像库中多个待检索图像的目标特征。具体地，可以直接获取预先保存的多个待检索图像的目标特征；也可以在图像检索的过程中实时确定。

可选地，在本申请实施例中，可以直接获取保存在预设数据库的、多个待检索图像的目标特征。具体地，预先提取多个待检索图像的目标特征，并将该目标特征保存在预设数据库中。如此，在图像检索的过程中，可以直接从预设数据库中获取对应的目标特征。

可以看出，预先提取待检索图像的目标特征，在图像检索的过程中，直接获取保存在预设数据库的、多个待检索图像的目标特征。可以将待检索图像的目标特征提前存储起来，实现对待检索图像的目标特征的离线提取。解决了实时提取多个待检索图像的目标特征的超长延时问题，使得能够满足实时应用的需求。

或者，也可以在线地确定多个待检索图像的目标特征，在本申请实施例一种可选的实施方式中，基于预先训练的深度神经网络，确定多个待检索图像的目标特征。具体地基于预先训练的深度神经网络，确定多个待检索图像的目标特征的过程与上述基于预先训练的深度神经网络，确定查询图像的目标特征的过程类似，这里就不再赘述。

步骤104，计算查询图像的目标特征与各个待检索图像的目标特征的相似度。

查询图像的目标特征以及多个待检索图像的目标特征确定后，可以分别比对查询图像的目标特征以及各个待检索图像的目标特征，进而根据目标特征的比对结果确定查询图像对应的检索图像。

而特征的相似性度量是影响图像检索性能的一个重要方面，因此，在本申请实施例中，查询图像的目标特征以及多个待检索图像的目标特征确定后，则可以分别计算查询图像的目标特征与各个待检索图像的目标特征的相似度。具体地，在一种实现方式中，可以将查询图像的目标特征与各个待检索图像的目标特征利用特征向量表示，然后，计算特征向量之间的相似度得到查询图像的目标特征与各个待检索图像的目标特征之间的相似度，当然并不局限于此。

步骤105，根据计算得到的相似度，从多个待检索图像中确定查询图像对应的检索图像。

计算得到查询图像的目标特征与各个待检索图像的目标特征之间的相似度，根据相似度的不同，从多个待检索图像中确定查询图像对应的检索图像。例如，可以根据相似度的从高到低的顺序，从多个待检索图像中确定出查询图像对应的检索图像。

需要说明的是，根据计算得到的相似度，从多个待检索图像中确定查询图像对应的检索图像的具体实现方式存在多种。

可选地，在本申请实施例一种可选的实施方式中，根据计算得到的相似度，从多个待检索图像中确定查询图像对应的检索图像，可以包括：

对计算得到的相似度进行排序，并根据排序所得到的结果，从多个待检索图像中确定该查询图像对应的检索图像；

具体地，对计算得到的相似度进行从高到低或者从低到高的排列，选取相似度最高的预设个数个待检索图像为查询图像对应的检索图像。例如，如果是从高到低排列，选取排列在前面的预设个数的待检索图像为确定出的查询图像对应的检索图像；如果是从低到高排列，选取排列在后面的预设个数的待检索图像为确定出的查询图像对应的检索图像。其中，预设个数可以是1个、2个、10个等。

可选地，在本申请实施例另外一种可选的实施方式中，根据计算得到的相似度，从多个待检索图像中确定查询图像对应的检索图像，可以包括：

将多个待检索图像中的目标待检索图像，确定为查询图像对应的检索图像，其中，目标待检索图像为所对应相似度大于预定相似度阈值的待检索图像。

具体地，确定相似度阈值，选取相似度大于该相似度阈值时对应的预设个数个待检索图像为查询图像对应的检索图像，具体地相似度阈值可以根据实际情况来确定。

本申请实施例提供的图像检索方法，基于预先训练的深度神经网络，确定查询图像的目标特征；计算该查询图像的目标特征与各个待检索图像的目标特征的相似度；进而根据计算得到的相似度，从多个待检索图像中确定该查询图像对应的检索图像。可以看出，通过本申请实施例提供的图像检索方法，能够准确确定反映图像特点的特征，进而提高图像检索的准确度。

需要说明的是，图像检索过程中，用户可以选择采用感兴趣区域检索或者全局检索，具体地，可以通过图像的感兴趣区域特征或者图像的全局特征进行比对，进而实现图像检索的过程。

在本申请实施例中，可以直接确定查询图像的全局特征，将该全局特征作为查询图像的目标特征；也可以先确定查询图像的感兴趣区域特征，然后将感兴趣区域特征汇聚为查询图像的目标特征。

下面结合具体实施例，对本申请实施例所提供的一种图像检索方法进行介绍。

其中，该具体实施例中，预定特征为感兴趣区域特征，目标特征为感兴趣区域特征汇聚成的特征。

此时，可以通过两个预先训练的深度神经网络提取查询图像的感兴趣区域特征，进而提取感兴趣区域的特征。

如图2所示，一种图像检索方法，可以包括如下步骤：

步骤201，获取查询图像。

步骤202，将查询图像输入预先训练的第一深度神经网络中，得到查询图像的目标感兴趣区域，其中，该第一深度神经网络为根据各个样本图像，以及各个样本图像对应的感兴趣区域训练得到的。

预先根据一定数量的样本图像，如100张、500张、1000张等，以及各个样本图像对应的感兴趣区域，训练得到第一深度神经网络。在图像检索的过程中，将查询图像输入该预先训练的第一深度神经网络，得到查询图像的目标感兴趣区域。

具体地，将查询图像输入该预先训练的第一深度神经网络中，该第一深度神经网络对查询图像进行操作，得到与查询图像同等大小或者保持宽高比的下采样尺度的特征图。其中，该特征图中每个位置的值表示对应输入的查询图像原始位置的辨识能力，对该特征图进行阈值化处理和形态学操作，得到具有较强辨识能力的多个子区域，这些区域即为确定的感兴趣区域。

另外，在得到查询图像的目标感兴趣区域之后，还可以输出目标感兴趣区域的位置信息。例如，可以将得到的查询图像的目标感兴趣区域的位置信息输出给用户。

步骤203，将目标感兴趣区域输入预先训练的第二深度神经网络中，得到目标感兴趣区域的目标感兴趣区域特征，其中，该第二深度神经网络为根据各个感兴趣区域，以及各个感兴趣区域对应的感兴趣区域特征训练得到的。

对应于第一深度神经网络的训练过程，预先根据一定数量的样本图像，如100张、500张、1000张等，以及各个感兴趣区域对应的感兴趣区域特征，训练得到第二深度神经网络。

将通过预先训练的第一深度神经网络得到的查询图像的目标感兴趣区域，输入该预先训练的第二深度神经网络中，即可以得到目标感兴趣区域的目标感兴趣区域特征。

具体地，可以根据感兴趣区域内对应的辨识能力计算出该感兴趣区域的辨识能力评分，然后将辨识能力评分和感兴趣区域与查询图像一起输入该预先训练的第二深度神经网络。该预先训练的第二深度神经网络根据感兴趣区域和其对应的辨识能力对其进行特征提取，得到每个感兴趣区域的特征。

步骤204，将目标感兴趣区域特征汇聚成查询图像的目标特征。

实际的图像检索过程中，通过预先训练的第一深度神经网络得到的目标感兴趣区域有可能不止一个，对应的，通过预先训练的第二深度神经网络的目标感兴趣区域特征有可能不止一个、不止一种类型或者尺寸等不相同。因此，在通过预先训练的第一深度神经网络和第二深度神经网络，提取查询图像的目标感兴趣区域特征之后，可以将多个不同的目标感兴趣区域对应的不同目标感兴趣区域特征汇聚成查询图像的目标特征。需要说明的是，汇聚可以是将多个不同目标感兴趣区域特征集合成目标特征，或者将多个尺寸、类型不相同的目标感兴趣区域特征调整成相同尺寸或者相同类型的目标感兴趣区域特征，进而将这些目标感兴趣区域特征合起来作为查询图像的目标特征。

图3为本申请实施例通过两个网络确定图像目标特征的流程图。

第一步，将图像输入预先训练的第一深度神经网络，即图3中所示感兴趣区域检测子网络，得到图像的感兴趣区域。

第二步，将得到的感兴趣区域输入预先训练的第二深度神经网络，即图3中所示感兴趣区域特征提取子网络，得到图像的感兴趣区域特征。

第三步，将得到的所有感兴趣区域对应的感兴趣区域特征进行汇聚得到图像的目标特征。

步骤205，获取多个待检索图像的目标特征。

步骤206，计算查询图像的目标特征与各个待检索图像的目标特征的相似度。

步骤207，根据计算得到的相似度，从多个待检索图像中确定查询图像对应的检索图像。

本具体实施例中，步骤201与上述实施例中的步骤101相同，步骤205-207与上述实施例中的步骤103-步骤105相同，在此不做赘述。

该实施例中，通过预先训练的深度神经网络得到查询图像的目标感兴趣区域，进而通过另一个预先训练的深度神经网络得到目标感兴趣区域的目标感兴趣区域特征，将得到的目标感兴趣区域特征汇聚成检索过程中需要的目标特征。两个独立的深度神经网络可以分开训练，简化了训练的复杂度，进而降低了图像检索的复杂度。同时，还可以将每个深度神经网络得到的结果输出给用户，与用户进行交互。

下面结合另一具体实施例，对本申请实施例所提供的一种图像检索方法进行介绍。

其中，该具体实施例中，预定特征为全局特征，目标特征为全局特征。此时，可以通过一个预先训练的深度神经网络得到查询图像的目标特征。

如图4所示，一种图像检索方法，可以包括如下步骤：

步骤401，获取查询图像。

步骤402，将查询图像输入预先训练的第三深度神经网络中，得到查询图像的全局特征，其中，该第三深度神经网络是根据各个样本图像，以及各个样本图像对应的全局特征训练得到的。

将查询图像输入预先训练的第三深度神经网络中，得到查询图像的全局特征，其中，第三深度神经网络是根据各个样本图像，以及各个样本图像对应的全局特征训练得到的。

对应于第一深度神经网络和第二深度神经网络的训练过程，预先根据一定数量的样本图像，如100张、500张、1000张等，以及各个样本图像对应的全局特征训练得到该第三深度神经网络。在图像检索过程中，将查询图像输入该预先训练的第三深度神经网络中，得到查询图像的全局特征，将得到的查询图像的全局特征作为查询图像的目标特征。

具体地，将查询图像输入该预先训练的第三深度神经网络中，该第三深度神经网络对查询图像进行操作，得到与查询图像同等大小或者保持宽高比的下采样尺度的特征图。其中，该特征图中每个位置的值既表示查询图像中对应位置的辨识能力，也是对应查询图像的特征响应。进而根据该特征图确定出查询图像的全局特征。

图5为本申请实施例中通过一个深度神经网络确定图像目标特征的流程图。将图像输入预先训练的深度神经网络，例如，图5中所示全局特征提取子网络，通过该全局特征提取子网络直接提取图像的全局特征，将该全局特征作为图像的目标特征。

步骤403，获取多个待检索图像的目标特征。

步骤404，计算查询图像的目标特征与各个待检索图像的目标特征的相似度。

步骤405，根据计算得到的相似度，从多个待检索图像中确定查询图像对应的检索图像。

本具体实施例中，步骤401与上述实施例中的步骤101相同，步骤403-405与上述实施例中的步骤103-步骤105相同，在此不做赘述。

该实施例中，通过预先训练的深度神经网络得到查询图像的全局特征，该全局特征即为检索过程中需要的目标特征。只需要训练一个深度神经网络，进而通过该预先训练的深度神经网络即可得到图像的目标特征，简化了训练的过程，提高了图像检索的效率。

如图2和图4所示的具体实施例所示，本申请实施例提供的图像检索方法中，图像感兴趣区域的提取和图像特征的提取都是通过预先训练的深度神经网络确定的，是端到端的整体方案，与人类视觉系统的响应比较相似，使得提取的图像特征更具有辨识、表达能力，进而能够保证最终的图像检索的结果。

图6为本申请实施例图像检索的具体过程流程图，参照图6对本申请实施例图像检索的具体过程进行详细说明。

步骤601，获取用户提交的查询图像。

步骤602，通过预先训练的深度神经网络，提取查询图像的感兴趣区域，进而对感兴趣区域的特征进行聚合或者直接提取图像的全局特征。另外，还可以将感兴趣区域的位置信息返回给用户，供用户选择。

步骤603，用户选择检索模式。

步骤604，若选择了全局检索模式，即选择通过预先训练的深度神经网络直接确定多个待检索图像的全局特征，然后比对查询图像的全局特征和各个待检索图像的全局特征。

步骤605，若选择了感兴趣区域检索模式，即选择通过预先训练的深度神经网络提取多个待检索图像的感兴趣区域，进而提取感兴趣区域的感兴趣区域特征，然后比对查询图像的感兴趣区域特征和各个待检索图像的感兴趣区域特征。

步骤606，若选择了全局检索模式，全局特征比对之后，得到查询图像的全局特征和各个待检索图像的全局特征之间的相似度，进而根据全局特征比对的相似度最终从多个待检索图像中确定检索图像。

若选择了感兴趣区域检索模式，感兴趣区域特征比对之后，得到查询图像的感兴趣区域特征和各个待检索图像的感兴趣区域特征之间的相似度，进而根据感兴趣区域特征比对的相似度最终从多个待检索图像中确定检索图像。

具体地，根据全局特征比对的相似度最终从多个待检索图像中确定检索图像或者根据感兴趣区域特征比对的相似度最终从多个待检索图像中确定检索图像，可以将相似度进行排序，进而根据排序结果从多个待检索图像中确定出检索图像或者可以选取相似度大于相似度阈值时对应的预设个数个待检索图像为查询图像对应的检索图像。

步骤607，得到待检索图像。

图7为本申请实施例提供的图像检索装置的结构示意图，参照图7对本申请实施例提供的图像检索装置进行详细说明，包括：

图像获取模块701，用于获取查询图像。

第一特征确定模块702，用于基于预先训练的深度神经网络，确定查询图像的目标特征；其中，深度神经网络为根据各个样本图像，以及各个样本图像对应的能够形成目标特征的预定特征训练得到的。

第二特征确定模块703，用于获取多个待检索图像的目标特征。

计算模块704，用于计算查询图像的目标特征与各个待检索图像的目标特征的相似度。

检索图像确定模块705，用于根据计算得到的相似度，从多个待检索图像中确定查询图像对应的检索图像。

本申请实施例提供的图像检索装置，可以基于预先训练的深度神经网络，确定查询图像的目标特征；计算该查询图像的目标特征与各个待检索图像的目标特征的相似度；进而根据计算得到的相似度，从多个待检索图像中确定该查询图像对应的检索图像。可以看出，通过本申请实施例提供的图像检索装置，无需根据用户的指示提取图像的特征，也即没有用户的主观参与，能够准确确定反映图像特点的特征，进而提高图像检索的准确度。同时，基于预先训练的深度神经网络，确定查询图像的目标特征，实现了目标特征的自动定位，提高了用户体验。

可选的，第二特征确定模块703具体用于获取保存在预设数据库的、多个待检索图像的目标特征；或者，基于预先训练的深度神经网络，确定多个待检索图像的目标特征。

可选的，预定特征为感兴趣区域特征，目标特征为感兴趣区域特征汇聚成的特征；第一特征确定模块702，包括：

感兴趣区域获得子模块，用于将查询图像输入预先训练的第一深度神经网络中，得到查询图像的目标感兴趣区域，其中，第一深度神经网络为根据各个样本图像，以及各个样本图像对应的感兴趣区域训练得到的。

感兴趣区域特征确定子模块，用于将目标感兴趣区域输入预先训练的第二深度神经网络中，得到目标感兴趣区域的目标感兴趣区域特征，其中，第二深度神经网络为根据各个感兴趣区域，以及各个感兴趣区域对应的感兴趣区域特征训练得到的。

第一特征确定子模块，用于将目标感兴趣区域特征汇聚成查询图像的目标特征。

可选的，预定特征为全局特征，目标特征为全局特征；第一特征确定模块702，包括：第二特征确定子模块，用于将查询图像输入预先训练的第三深度神经网络中，得到查询图像的全局特征，其中，第三深度神经网络是根据各个样本图像，以及各个样本图像对应的全局特征训练得到的。

可选的，检索图像确定模块705具体用于对计算得到的相似度进行排序，并根据排序所得到的结果，从多个待检索图像中确定查询图像对应的检索图像；或者，将多个待检索图像中的目标待检索图像，确定为查询图像对应的检索图像，其中，目标待检索图像为所对应相似度大于预定相似度阈值的待检索图像。

可选的，本申请实施例提供的图像检索装置还包括：输出模块，用于在得到查询图像的目标感兴趣区域之后，输出目标感兴趣区域的位置信息。

需要说明的是，本申请实施例的图像检索装置是应用上述图像检索方法的装置，则上述图像检索方法的所有实施例均适用于该装置，且均能达到相同或相似的有益效果。

本申请实施例还提供了一种电子设备，如图8所示，包括处理器801、通信接口802、存储器803和通信总线804，其中，处理器801，通信接口802，存储器803通过通信总线804完成相互间的通信。

存储器803，用于存放计算机程序。

处理器801，用于执行存储器803上所存放的程序时，实现如下步骤：

获取查询图像；基于预先训练的深度神经网络，确定查询图像的目标特征；其中，深度神经网络为根据各个样本图像，以及各个样本图像对应的能够形成目标特征的预定特征训练得到的；获取多个待检索图像的目标特征；计算查询图像的目标特征与各个待检索图像的目标特征的相似度；根据计算得到的相似度，从多个待检索图像中确定查询图像对应的检索图像。

可选的，获取保存在预设数据库的、多个待检索图像的目标特征；或者，基于预先训练的深度神经网络，确定多个待检索图像的目标特征。

可选的，预定特征为感兴趣区域特征，目标特征为感兴趣区域特征汇聚成的特征；将查询图像输入预先训练的第一深度神经网络中，得到查询图像的目标感兴趣区域，其中，第一深度神经网络为根据各个样本图像，以及各个样本图像对应的感兴趣区域训练得到的；将目标感兴趣区域输入预先训练的第二深度神经网络中，得到目标感兴趣区域的目标感兴趣区域特征，其中，第二深度神经网络为根据各个感兴趣区域，以及各个感兴趣区域对应的感兴趣区域特征训练得到的；将目标感兴趣区域特征汇聚成查询图像的目标特征。

可选的，预定特征为全局特征，目标特征为全局特征；将查询图像输入预先训练的第三深度神经网络中，得到查询图像的全局特征，其中，第三深度神经网络是根据各个样本图像，以及各个样本图像对应的全局特征训练得到的。

可选的，对计算得到的相似度进行排序，并根据排序所得到的结果，从多个待检索图像中确定查询图像对应的检索图像；或者，将多个待检索图像中的目标待检索图像，确定为查询图像对应的检索图像，其中，目标待检索图像为所对应相似度大于预定相似度阈值的待检索图像。

可选的，该处理器还用于在得到查询图像的目标感兴趣区域之后，输出目标感兴趣区域的位置信息。

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral Component Interconnect，PCI)总线或扩展工业标准结构(Extended Industry Standard Architecture，EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital Signal Processing，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

本申请实施例提供的电子设备，可以基于预先训练的深度神经网络，确定查询图像的目标特征；计算该查询图像的目标特征与各个待检索图像的目标特征的相似度；进而根据计算得到的相似度，从多个待检索图像中确定该查询图像对应的检索图像。可以看出，通过本申请实施例提供的电子设备，无需根据用户的指示提取图像的特征，也即没有用户的主观参与，能够准确确定反映图像特点的特征，进而提高图像检索的准确度。同时，基于预先训练的深度神经网络，确定查询图像的目标特征，实现了目标特征的自动定位，提高了用户体验。

本申请实施例还提供了一种存储介质，用于存储可执行代码，可执行代码用于在运行时执行如下步骤：

可选的，在得到查询图像的目标感兴趣区域之后，输出目标感兴趣区域的位置信息。

本申请实施例提供的存储介质，可以基于预先训练的深度神经网络，确定查询图像的目标特征；计算该查询图像的目标特征与各个待检索图像的目标特征的相似度；进而根据计算得到的相似度，从多个待检索图像中确定该查询图像对应的检索图像。可以看出，通过本申请实施例提供的存储介质，无需根据用户的指示提取图像的特征，也即没有用户的主观参与，能够准确确定反映图像特点的特征，进而提高图像检索的准确度。同时，基于预先训练的深度神经网络，确定查询图像的目标特征，实现了目标特征的自动定位，提高了用户体验。

本申请实施例还提供了一种应用程序，用于在运行时执行如下步骤：

本申请实施例提供的应用程序，可以基于预先训练的深度神经网络，确定查询图像的目标特征；计算该查询图像的目标特征与各个待检索图像的目标特征的相似度；进而根据计算得到的相似度，从多个待检索图像中确定该查询图像对应的检索图像。可以看出，通过本申请实施例提供的应用程序，无需根据用户的指示提取图像的特征，也即没有用户的主观参与，能够准确确定反映图像特点的特征，进而提高图像检索的准确度。同时，基于预先训练的深度神经网络，确定查询图像的目标特征，实现了目标特征的自动定位，提高了用户体验。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置、电子设备、存储介质以及应用程序实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本申请的较佳实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本申请的保护范围内。

Claims

一种图像检索方法，其特征在于，包括：

获取查询图像；

基于预先训练的深度神经网络，确定所述查询图像的目标特征；其中，所述深度神经网络为根据各个样本图像，以及各个样本图像对应的能够形成目标特征的预定特征训练得到的；

获取多个待检索图像的目标特征；

计算所述查询图像的目标特征与各个待检索图像的目标特征的相似度；

根据计算得到的相似度，从所述多个待检索图像中确定所述查询图像对应的检索图像。
根据权利要求1所述的方法，其特征在于，所述获取多个待检索图像对应的目标特征的步骤，包括：

获取保存在预设数据库的、所述多个待检索图像的目标特征；

或者，

基于所述预先训练的深度神经网络，确定所述多个待检索图像的目标特征。
根据权利要求1或2所述的方法，其特征在于，所述预定特征为感兴趣区域特征，所述目标特征为感兴趣区域特征汇聚成的特征；

所述基于预先训练的深度神经网络，确定所述查询图像的目标特征的步骤，包括：

将所述查询图像输入预先训练的第一深度神经网络中，得到所述查询图像的目标感兴趣区域，其中，所述第一深度神经网络为根据各个样本图像，以及各个样本图像对应的感兴趣区域训练得到的；

将所述目标感兴趣区域输入预先训练的第二深度神经网络中，得到所述目标感兴趣区域的目标感兴趣区域特征，其中，所述第二深度神经网络为根据各个感兴趣区域，以及各个感兴趣区域对应的感兴趣区域特征训练得到的；

将所述目标感兴趣区域特征汇聚成所述查询图像的目标特征。
根据权利要求1或2所述的方法，其特征在于，所述预定特征为全局特征，所述目标特征为全局特征；

所述基于预先训练的深度神经网络，确定所述查询图像的目标特征的步骤，包括：

将所述查询图像输入预先训练的第三深度神经网络中，得到所述查询图像的全局特征，其中，所述第三深度神经网络是根据各个样本图像，以及各个样本图像对应的全局特征训练得到的。
根据权利要求1或2所述的方法，其特征在于，所述根据计算得到的相似度，从所述多个待检索图像中确定所述查询图像对应的检索图像，包括：

对计算得到的相似度进行排序，并根据排序所得到的结果，从所述多个待检索图像中确定所述查询图像对应的检索图像；

或者，

将所述多个待检索图像中的目标待检索图像，确定为所述查询图像对应的检索图像，其中，所述目标待检索图像为所对应相似度大于预定相似度阈值的待检索图像。
根据权利要求3所述的方法，其特征在于，在所述得到所述查询图像的目标感兴趣区域之后，所述方法还包括：

输出所述目标感兴趣区域的位置信息。
一种图像检索装置，其特征在于，包括：

图像获取模块，用于获取查询图像；

第一特征确定模块，用于基于预先训练的深度神经网络，确定所述查询图像的目标特征；其中，所述深度神经网络为根据各个样本图像，以及各个样本图像对应的能够形成目标特征的预定特征训练得到的；

第二特征确定模块，用于获取多个待检索图像的目标特征；

计算模块，用于计算所述查询图像的目标特征与各个待检索图像的目标特征的相似度；

检索图像确定模块，用于根据计算得到的相似度，从所述多个待检索图像中确定所述查询图像对应的检索图像。
根据权利要求7所述的装置，其特征在于，所述第二特征确定模块具体用于获取保存在预设数据库的、所述多个待检索图像的目标特征；或者，基于所述预先训练的深度神经网络，确定所述多个待检索图像的目标特征。
根据权利要求7或8所述的装置，其特征在于，所述预定特征为感兴趣区域特征，所述目标特征为感兴趣区域特征汇聚成的特征；

所述第一特征确定模块，包括：

感兴趣区域获得子模块，用于将所述查询图像输入预先训练的第一深度神经网络中，得到所述查询图像的目标感兴趣区域，其中，所述第一深度神经网络为根据各个样本图像，以及各个样本图像对应的感兴趣区域训练得到的；

感兴趣区域特征确定子模块，用于将所述目标感兴趣区域输入预先训练的第二深度神经网络中，得到所述目标感兴趣区域的目标感兴趣区域特征，其中，所述第二深度神经网络为根据各个感兴趣区域，以及各个感兴趣区域对应的感兴趣区域特征训练得到的；

第一特征确定子模块，用于将所述目标感兴趣区域特征汇聚成所述查询图像的目标特征。
根据权利要求7或8所述的装置，其特征在于，所述预定特征为全局特征，所述目标特征为全局特征；

所述第一特征确定模块，包括：

第二特征确定子模块，用于将所述查询图像输入预先训练的第三深度神经网络中，得到所述查询图像的全局特征，其中，所述第三深度神经网络是根据各个样本图像，以及各个样本图像对应的全局特征训练得到的。
根据权利要求7或8所述的装置，其特征在于，所述检索图像确定模块具体用于对计算得到的相似度进行排序，并根据排序所得到的结果，从所述多个待检索图像中确定所述查询图像对应的检索图像；或者，将所述多个待检索图像中的目标待检索图像，确定为所述查询图像对应的检索图像，其中，所述目标待检索图像为所对应相似度大于预定相似度阈值的待检索图像。
根据权利要求9所述的装置，其特征在于，所述装置还包括：输出模块，用于在所述得到所述查询图像的目标感兴趣区域之后，输出所述目标感兴趣区域的位置信息。
一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，所述处理器，所述通信接口，所述存储器通过所述通信总线完成相互间的通信；

所述存储器，用于存放计算机程序；

所述处理器，用于执行存储器上所存放的程序时，实现如下方法步骤：

获取查询图像；

基于预先训练的深度神经网络，确定所述查询图像的目标特征；其中，所述深度神经网络为根据各个样本图像，以及各个样本图像对应的能够形成目标特征的预定特征训练得到的；

获取多个待检索图像的目标特征；

计算所述查询图像的目标特征与各个待检索图像的目标特征的相似度；

根据计算得到的相似度，从所述多个待检索图像中确定所述查询图像对应的检索图像。
根据权利要求13所述的设备，其特征在于，所述获取多个待检索图像对应的目标特征的步骤，包括：

获取保存在预设数据库的、所述多个待检索图像的目标特征；

或者，

基于所述预先训练的深度神经网络，确定所述多个待检索图像的目标特征。
根据权利要求13或14所述的设备，其特征在于，所述预定特征为感兴趣区域特征，所述目标特征为感兴趣区域特征汇聚成的特征；

所述基于预先训练的深度神经网络，确定所述查询图像的目标特征的步骤，包括：

将所述查询图像输入预先训练的第一深度神经网络中，得到所述查询图像的目标感兴趣区域，其中，所述第一深度神经网络为根据各个样本图像，以及各个样本图像对应的感兴趣区域训练得到的；

将所述目标感兴趣区域输入预先训练的第二深度神经网络中，得到所述目标感兴趣区域的目标感兴趣区域特征，其中，所述第二深度神经网络为根据各个感兴趣区域，以及各个感兴趣区域对应的感兴趣区域特征训练得到的；

将所述目标感兴趣区域特征汇聚成所述查询图像的目标特征。
根据权利要求13或14所述的设备，其特征在于，所述预定特征为全局特征，所述目标特征为全局特征；

所述基于预先训练的深度神经网络，确定所述查询图像的目标特征的步骤，包括：

将所述查询图像输入预先训练的第三深度神经网络中，得到所述查询图像的全局特征，其中，所述第三深度神经网络是根据各个样本图像，以及各个样本图像对应的全局特征训练得到的。
根据权利要求13或14所述的设备，其特征在于，所述根据计算得到的相似度，从所述多个待检索图像中确定所述查询图像对应的检索图像，包括：

对计算得到的相似度进行排序，并根据排序所得到的结果，从所述多个待检索图像中确定所述查询图像对应的检索图像；

或者，

将所述多个待检索图像中的目标待检索图像，确定为所述查询图像对应的检索图像，其中，所述目标待检索图像为所对应相似度大于预定相似度阈值的待检索图像。
根据权利要求15所述的设备，其特征在于，所述处理器还用于在所述得到所述查询图像的目标感兴趣区域之后，输出所述目标感兴趣区域的位置信息。
一种存储介质，其特征在于，用于存储可执行代码，所述可执行代码用于在运行时执行：权利要求1-6任一项所述的图像检索方法的方法步骤。
一种应用程序，其特征在于，用于在运行时执行：权利要求1-6任一项所述的图像检索方法的方法步骤。