WO2021068524A1

WO2021068524A1 - 图像匹配方法、装置、计算机设备及存储介质

Info

Publication number: WO2021068524A1
Application number: PCT/CN2020/093343
Authority: WO
Inventors: 张密; 韩丙卫; 唐文
Original assignee: 平安科技（深圳）有限公司
Priority date: 2019-10-11
Filing date: 2020-05-29
Publication date: 2021-04-15
Also published as: CN110956195B; CN110956195A

Abstract

一种图像匹配方法、装置、计算机设备及存储介质；所述方法包括：获取待匹配图像，对待匹配图像进行特征提取，得到待匹配图像的待匹配深度特征和多个待匹配视觉特征（S10）；计算待匹配图像的待匹配深度特征与预设的图像深度特征库中的每一样本图像的样本深度特征之间的特征相似度，提取出特征相似度大于预设的相似度阈值的样本图像，组成相似图像集（S20）；对待匹配图像的每一待匹配视觉特征，计算待匹配视觉特征与预设的倒排索引表中的每一视觉单词之间的距离，将与待匹配视觉特征距离最小的视觉单词，确定为待匹配视觉特征的待匹配视觉单词（S30）；将待匹配视觉特征的每一待匹配视觉单词组成待匹配图像的待匹配视觉单词集（S40）；计算待匹配视觉单词集与相似图像集中的每一相似图像的样本视觉单词集之间的图像共现比例，得到每一相似图像与待匹配图像的图像共现比例值，其中，样本视觉单词集指与相似图像中的样本视觉特征距离最小的视觉单词所组成的视觉单词集（S50）；将图像共现比例值大于预设的共现比例阈值的相似图像，组成匹配图像组（S60）；该方法提高了图像匹配结果的准确性。

Description

图像匹配方法、装置、计算机设备及存储介质

本申请要求于2019年10月11日提交中国专利局、申请号为201910964148.X，发明名称为“图像匹配方法、装置、计算机设备及存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及人工智能领域的图像识别领域，尤其涉及一种图像匹配方法、装置、计算机设备及存储介质。

背景技术

随着互联网技术的飞速发展，声音、图像、视频和动画等数字信息急剧膨胀，图像作为一种内容丰富、表现直观的媒体信息，因此被应用于越来越多的技术领域中。发明人意识到随着图像数量的急剧增长，如何从大量的图像中匹配出用户所需的目标图像，成为了目前图像领域中亟待解决的重要问题。传统的图像匹配技术大部分都是基于图像的文本描述而实现的匹配技术，但基于不同的人对不同图像内容的理解往往存在较大的差异和主观性，从而导致通过文本描述而实现的图像匹配技术的准确性较低，不能满足诸多实际应用的需求。

申请内容

本申请实施例提供一种图像匹配方法、装置、计算机设备及存储介质，以解决图像匹配的准确性不高的问题。

一种图像匹配方法，包括：

获取待匹配图像,对所述待匹配图像进行特征提取，得到所述待匹配图像的待匹配深度特征和多个待匹配视觉特征；

计算所述待匹配图像的所述待匹配深度特征与预设的图像深度特征库中的每一样本图像的样本深度特征之间的特征相似度，提取出所述特征相似度大于预设的相似度阈值的样本图像，组成相似图像集；

对所述待匹配图像的每一所述待匹配视觉特征，计算所述待匹配视觉特征与预设的倒排索引表中的每一视觉单词之间的距离，将与所述待匹配视觉特征距离最小的视觉单词，确定为所述待匹配视觉特征的待匹配视觉单词；

将所述待匹配视觉单词组成待匹配视觉单词集；

计算所述待匹配视觉单词集与所述相似图像集中的每一相似图像的样本视觉单词集之间的图像共现比例，得到每一所述相似图像与所述待匹配图像的图像共现比例值，其中，所述样本视觉单词集指与相似图像中的样本视觉特征距离最小的视觉单词所组成的视觉单词集；

将所述图像共现比例值大于预设的共现比例阈值的相似图像，组成匹配图像组。

一种图像匹配装置，包括：

第一特征提取模块，用于获取待匹配图像,对所述待匹配图像进行特征提取，得到所述待匹配图像的待匹配深度特征和多个待匹配视觉特征；

特征相似度计算模块，用于计算所述待匹配图像的所述待匹配深度特征与预设的图像深度特征库中的每一样本图像的样本深度特征之间的特征相似度，提取出所述特征相似度大于预设的相似度阈值的样本图像，组成相似图像集；

待匹配视觉单词确定模块，用于对所述待匹配图像的每一所述待匹配视觉特征，计算所述待匹配视觉特征与预设的倒排索引表中的每一视觉单词之间的距离，将与所述待匹配视觉特征距离最小的视觉单词，确定为所述待匹配视觉特征的待匹配视觉单词；

第一组成模块，用于将所述待匹配视觉单词组成待匹配视觉单词集；

图像共现比例计算模块，用于计算所述待匹配视觉单词集与所述相似图像集中的每一相似图像的样本视觉单词集之间的图像共现比例，得到每一所述相似图像与所述待匹配图像的图像共现比例值，其中，所述样本视觉单词集指与相似图像中的样本视觉特征距离最小的视觉单词所组成的视觉单词集；

第二组成模块，用于将所述图像共现比例值大于预设的共现比例阈值的相似图像，组成匹配图像组。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令，所述处理器执行所述计算机可读指令时实现如下步骤：

对所述待匹配图像的每一所述待匹配视觉特征，计算所述待匹配视觉特征与预设的倒排索引表中的每一视觉单词之间的距离，将与所述待匹配视觉特征距离最小的视觉单词，确定为所述待匹配视觉特征的待匹配视觉单词，将所述待匹配视觉单词组成待匹配视觉单词集；

一个或多个存储有计算机可读指令的可读存储介质，所述可读存储介质包括非易失性可读存储介质和易失性可读存储介质，所述计算机可读指令被一个或多个处理器执行时，使得所述一个或多个处理器执行时，实现如下步骤：

上述图像匹配方法、装置、计算机设备及存储介质，先通过图像深度特征库从大量的样本图像中匹配出与待匹配图像相似的相似图像集，再采用倒排索引表从相似图像集中匹配出与待匹配图像更相似的相似图像组，从而进一步提高了图像匹配结果的准确性。

本申请的一个或多个实施例的细节在下面的附图和描述中提出，本申请的其他特征和优点将从说明书、附图以及权利要求变得明显。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一实施例中图像匹配方法的一应用环境示意图；

图2是本申请一实施例中图像匹配方法的一示例图；

图3是本申请一实施例中图像匹配方法的另一示例图；

图4是本申请一实施例中图像匹配方法的另一示例图；

图5是本申请一实施例中图像匹配方法的另一示例图；

图6是本申请一实施例中图像匹配方法的另一示例图；

图7是本申请一实施例中图像匹配装置的一原理框图；

图8是本申请一实施例中图像匹配装置的另一原理框图；

图9是本申请一实施例中图像匹配装置的另一原理框图；

图10是本申请一实施例中计算机设备的一示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提供的图像匹配方法，该图像匹配方法可应用如图1所示的应用环境中。具体地，该图像匹配方法应用在图像匹配系统中，该图像匹配系统包括如图1所示的客户端和服务端，客户端与服务端通过网络进行通信，用于解决图像匹配的准确性低问题。其中，客户端又称为用户端，是指与服务端相对应，为客户提供本地服务的程序。客户端可安装在但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备上。服务端可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一实施例中，如图2所示，提供一种图像匹配方法，以该方法应用在图1中的服务端为例进行说明，包括如下步骤：

S10：获取待匹配图像，对待匹配图像进行特征提取，得到待匹配图像的待匹配深度特征和多个待匹配视觉特征。

其中，待匹配图像指待进行匹配的图像。例如：待匹配图像可以为车险报案图像，在获取到待匹配图像后，需要从海量的图像中匹配出与待匹配图像为同一标的或者同一场景下的相似图像。在获取到待匹配图像后，对获取的待匹配图像进行特征提取，得到待匹配图像的待匹配深度特征和多个待匹配视觉特征。其中，待匹配深度特征是指待匹配图像的深层特征，待匹配深度特征适用于相似图像的匹配。待匹配视觉特征指从待匹配图像中所提取出的SIFT特征。SIFT特征是一种在尺度空间中提取的图像局部特征。SIFT特征适用于相同图像元素的匹配。优选地，为了提高后续图像的匹配精度和匹配效率。在本实施例中，对待匹配图像进行特征提取，从待匹配图像中提取出80个待匹配视觉特征，，每一待匹配视觉特征为128维的向量。

具体地，对待匹配图像进行特征提取包括对待匹配图像进行视觉特征提取和深度特征提取。可选地，可选择ResNet50作为特征提取网络，选择最后的全连接层(2048维)的输出作为待匹配图像的深度特征，即用待匹配图像的2048维向量表示该待匹配图像的待匹配深度特征。另外地，可采用SIFT算法或者opencv-contrib对待匹配图像进行视觉特征提取，得到待匹配图像的待匹配视觉特征。

需要说明的是，在本实施例中，对待匹配图像进行深度特征提取和视觉特征提取的过程不分前后顺序，即可以先对待匹配图像进行视觉特征提取再对待匹配图像进行深度特征提取，也可以先对待匹配图像进行深度特征提取再对待匹配图像进行视觉特征提取。

S20：计算待匹配图像的待匹配深度特征与预设的图像深度特征库中的每一样本图像的样本深度特征之间的特征相似度，提取出特征相似度大于预设的相似度阈值的样本图像，组成相似图像集。

其中，图像深度特征库是指存储有大量的样本图像以及对应的样本深度特征的数据库。可以理解地，图像深度特征库中的每一样本图像对应唯一的样本深度特征。具体地，在确定了待匹配图像的待匹配深度特征之后，将待匹配图像的待匹配深度特征与预设的图像深度特征库中的每一样本图像的样本深度特征进行一一比较，计算该待匹配图像的待匹配深度特征与预设的图像深度特征库中的每一样本图像的样本深度特征的特征相似度。可选地，可采用余弦相似度算法、欧氏距离或者曼哈顿距离等方法计算待匹配图像的待匹配深度特征与预设的图像深度特征库中的每一样本图像的样本深度特征之间的相似度，得到待匹配图像的待匹配深度特征与预设的图像深度特征库中的每一样本图像的样本深度特征之间的特征相似度。

进一步地，在确定了待匹配图像的待匹配深度特征与预设的图像深度特征库中的每一样本图像的样本深度特征的余弦相似度之后，提取出特征相似度大于预设的相似度阈值的样本图像，组成相似图像集。其中，相似图像集指从图像深度特征库中筛选出的特征相似度大于相似度阈值的若干样本图像。相似度阈值指用于评估待匹配图像与样本图像是否为相似图像的阈值。相似度阈值可以为0.80、0.85或0.90。在本实施例中，相似度阈值设定为0.80，即将与待匹配图像的待匹配深度特征的特征相似度大于0.80的样本图像，组成相似图像集。

S30：对待匹配图像的每一待匹配视觉特征，计算待匹配视觉特征与预设的倒排索引表中的每一视觉单词之间的距离，将与待匹配视觉特征距离最小的视觉单词，确定为待匹配视觉特征的待匹配视觉单词。

其中，倒排索引表指基于大量的样本图像，所建立的包含若干视觉单词以及每一视觉单词对应的样本图像的索引表。其中，视觉单词是一种可用于表达图像信息的载体。具体地，在本实施例中，通过对获取的大量样本图像进行特征提取，得到每一样本图像的样本视觉特征，然后对每一样本图像的样本视觉特征进行聚类后，即可形成视觉单词。优选地，当视觉单词的数量较多时，为了便于识别或区分倒排索引表中的不同的视觉单词，可预先为每一视觉单词设定对应的单词序号，每一单词序号对应唯一的一视觉单词。优选地，可采用阿拉伯数字表示每一视觉单词对应的单词序号。

具体地，可采用欧氏距离计算待匹配图像的每一待匹配视觉特征与预设的倒排索引表中的每一视觉单词之间的距离，然后将与该待匹配图像的每一待匹配视觉特征距离最小的视觉单词，为待匹配视觉特征的待匹配视觉单词。可以理解地，每一待匹配视觉特征对应一个距离最小的视觉单词，因此，待匹配视觉单词的数量与待匹配视觉特征的数量相同。在本实施例中，待匹配图像包括80待匹配视觉特征，因此得到的待匹配视觉单词的数量也为80。需要说明的是，多个待匹配视觉特征对应的距离最小的待匹配视觉单词可能为相同的视觉单词。

S40：将待匹配视觉单词组成待匹配视觉单词集。

在根据步骤S30得到待匹配视觉特征的待匹配视觉单词之后，将待匹配视觉特征的每一待匹配视觉单词进行组合，即可组成待匹配图像的待匹配视觉单词集。例如：若得到的待匹配视觉特征的待匹配视觉单词为80个，则生成的待匹配视觉单词集为包括80个待匹配视觉单词的集合。

S50：计算待匹配视觉单词集与相似图像集中的每一相似图像的样本视觉单词集之间的图像共现比例，得到每一相似图像与待匹配图像的图像共现比例值，其中，样本视觉单词集指与相似图像中的样本视觉特征距离最小的视觉单词所组成的视觉单词集。

在本实施例中，图像深度特征库和倒排索引表中的样本图像相同，且倒排索引表中的每一样本图像都已确定了对应的样本视觉单词集。由步骤S20可知相似图像集是从图像深度特征库中筛选出的满足设定条件的若干样本图像，即相似图像集中的每一相似图像都包含在倒排索引表的样本图像中。因此，在确定了待匹配图像的待匹配视觉单词集之后，可直接计算待匹配图像的待匹配视觉单词集与倒排索引表中的每一相似图像的样本视觉单词集之间的图像共现比例，得到每一相似图像与待匹配图像的图像共现比例值。优选地，为了提高得到的待匹配图像与每一样本图像的图像共现比例值的准确性，每一相似图像对应的样本视觉单词集所包含的样本视觉单词的数量与待匹配图像的待匹配视觉单词集所包含的待匹配视觉单词的数量相同。

具体地，将待匹配图像的待匹配视觉单词集所包含的待匹配视觉单词与相似图像集中每一相似图像的样本视觉单词集所包含样本视觉单词进行一一匹配，将匹配成功的样本视觉单词确定为对应的相似图像的相似视觉单词，然后计算得到的相似视觉单词在对应的相似图像的样本视觉单词集中的占比值，即可得到待匹配图像与每一样本图像的图像共现比例值。示例性地，若待匹配图像的待匹配视觉单词集包括80个待匹配视觉，一相似图像的样本视觉单词集包含括80个样本视觉单词，在将该待匹配视觉单词集所包含每一待匹配视觉单词该相似图像的样本视觉单词集所包含的样本视觉单词进行一一匹配后，得到64个与待匹配视觉单词匹配成功的相似视觉单词，则该述待匹配图像与该样本图像的图像共现比例值为64/80＝0.8。

S60：将图像共现比例值大于预设的共现比例阈值的相似图像，组成匹配图像组。

其中，共现比例阈值指用于评估是否与待匹配图像相似的阈值。可选地，共现比例阈值可以为0.80、0.85或0.90。在本实施例中，共现比例阈值设定为0.80，即将与待匹配图像的图像共现比例值大于0.80的相似图像，组成相似图像组。其中，相似图像组指采用倒排索引表从相似图像集中筛选出的与待匹配图像相似度更高的一组图像。相似图像组所包含的图像可以为一个或者多个。

具体地，在确定了每一相似图像与待匹配图像的图像共现比例值之后，将每一相似图像与待匹配图像的图像共现比例值与预设的共现比例阈值进行一一比较，将图像共现比例值大于共现比例阈值的相似图像提取出来，即可组成匹配图像组。

在本实施例中，通过获取待匹配图像,对待匹配图像进行特征提取，得到待匹配图像的待匹配深度特征和多个待匹配视觉特征；计算待匹配图像的待匹配深度特征与预设的图像深度特征库中的每一样本图像的样本深度特征之间的特征相似度，提取出特征相似度大于预设的相似度阈值的样本图像，组成相似图像集；对待匹配图像的每一待匹配视觉特征，计算待匹配视觉特征与预设的倒排索引表中的每一视觉单词之间的距离，将与待匹配视觉特征距离最小的视觉单词，确定为待匹配视觉特征的目标视觉单词；将目标视觉单词组成待匹配视觉单词集；计算待匹配视觉单词集与相似图像集中的每一相似图像的样本视觉单词集之间的图像共现比例，得到每一相似图像与待匹配图像的图像共现比例值；将图像共现比例值大于预设的共现比例阈值的相似图像，组成匹配图像组；先通过图像深度特征库从大量的样本图像中匹配出与待匹配图像相似的相似图像集，再采用倒排索引表从相似图像集中匹配出与待匹配图像更相似的相似图像组，从而进一步提高了图像匹配结果的准确性。

在一实施例中，如图3所示，在对待匹配图像的每一所述待匹配视觉特征，计算待匹配视觉特征与预设的倒排索引表中的每一视觉单词之间的距离之前，图像匹配方法还具体包括如下步骤：

S21：获取样本图像集，样本图像集包括多个样本图像。

其中，样本图像集指用于建立倒排索引表的图像数据。样本图像集包括多个样本图像。可选地，样本图像集可以是客户端采用其图像采集工具实时采集的图像，也可以是客户端预先采集并保存的图像，或者是本地直接上传或者发送到客户端的图像。客户端将样本图像集发送到服务端，服务端即获取到样本图像集。

S22：对每一样本图像进行特征提取，得到每一样本图像的样本深度特征和多个样本视觉特征。

对每一样本图像进行特征提取，得到每一样本图像的样本深度特征和多个样本视觉特征。其中，样本深度特征指样本图像的深层特征，样本深度特征适用于相似图像的匹配。样本视觉特征从样本图像中所提取出的SIFT特征。优选地，为了提高后续图像的匹配精度和匹配效率。在本实施例中，对每一样本图像进行特征提取，从每一样本图像中提取出80个样本视觉特征，每一样本视觉特征为128维的向量。

具体地，对每一样本图像进行特征提取，得到每一样本图像的样本深度特征和多个样本视觉特征的具体方法和过程与步骤S10对待检索图像进行特征提取，得到待检索图像的待检索深度特征和多个待检索视觉特征的方法和过程相同，此处不作冗余赘述。

S23：对每一样本图像的每一样本视觉特征进行聚类处理，生成视觉单词词典，视觉单词词典包括多个视觉单词。

其中，视觉单词词典指对每一样本图像的样本视觉特征进行聚类后所形成的包含若干视觉单词的词典库。视觉单词词典包括多个视觉单词。具体地，可采用K-Means聚类算法，对每一样本图像的样本视觉特征进行聚类处理，聚合生成多个类中心，并对生成的类中心从0到n-1进行编号，每个类中心对应一个视觉单词，从而生成包括多个视觉单词的视觉单词词典。优选地，在本实施例中，为了提高后续图像的匹配精度，对每一样本图像的样本视觉特征进行聚类处理，聚合生成50000个类中心(每个为128维的向量)，即生成的视觉单词词典包括50000个视觉单词。

S24：对每一样本图像的每一样本视觉特征，计算每一样本图像的样本视觉特征与视觉单词词典中的每一视觉单词的距离，将与样本图像的样本视觉特征距离最小的视觉单词，确定为对应的样本图像的样本视觉特征的目标视觉单词。

具体地，该步骤中确定样本图像的样本视觉特征的目标视觉单词的具体方法和过程，与步骤S30中确定待匹配视觉特征的待匹配视觉单词的具体方法和过程相似，此处不作做冗余赘述。

S25：将样本视觉特征的每一目标视觉单词组成对应的样本图像的目标视觉单词集。

其中，目标视觉单词集指与样本图像的每一样本视觉特征距离最小的视觉单词所组成的单词集合。具体地，在根据步骤S24得到样本视觉特征的目标视觉单词之后，将样本视觉特征的每一目标视觉单词进行组合，即可组成对应的样本图像的目标视觉单词集。可以理解地，由于每一样本图像都包括80个样本视觉特征，因此，得到的样本图像的目标视觉单词集包括80个目标视觉单词

S26：基于每一样本图像的目标视觉单词集，建立每一视觉单词与对应的样本图像之间的映射关系，生成倒排索引表。

具体地，将视觉单词词典中所包含的每一视觉单词作为主键，再根据每一样本图像的目标视觉单词集所包含的目标视觉单词，确定每一视觉单词对应的样本图像，并将每一视觉单词对应的样本图像作为对应的视觉单词的主键值，从而建立每一视觉单词与对应的样本图像之间的映射关系，生成倒排索引表。

在本实施例中，通过获取样本图像集，样本图像集包括多个样本图像；对每一样本图像进行特征提取，得到每一样本图像的样本深度特征和多个样本视觉特征；对每一样本图像的每一样本视觉特征进行聚类处理，生成视觉单词词典，视觉单词词典包括多个视觉单词；对每一样本图像的每一样本视觉特征，计算每一样本图像的样本视觉特征与视觉单词词典中的每一视觉单词的距离，将与样本图像的样本视觉特征距离最小的视觉单词，确定为对应的样本图像的样本视觉特征的目标视觉单词；将样本视觉特征的每一目标视觉单词组成对应的样本图像的目标视觉单词集；基于每一样本图像的目标视觉单词集，建立每一视觉单词与对应的样本图像之间的映射关系，生成倒排索引表；通过将样本图片的样本视觉特征转化成目标视觉单词集，并建立样本图像与视觉单词之间的映射关系，形成倒排索引表，方便后续可直接根据倒排索引表进行图像匹配。

在一实施例中，如图4所示，待匹配图像包括待匹配图像信息，在将图像共现比例值大于预设的共现比例阈值的相似图像，组成匹配图像组之后，图像匹配方法还具体包括如下步骤：

S70：获取匹配图像组中每一匹配图像的匹配图像信息。

其中，匹配图像的匹配图像信息指匹配图像所携带的与图像有关的信息。例如，匹配图像信息可以包括图像ID、图像的获取时间、图像的来源或图像的编号等。在一具体实施例中，不同类型的匹配图像所对应的匹配图像信息可能不同。例如：若匹配图像为与车险理赔有关的图像，则匹配图像的匹配图像信息可以为案号、图像的获取时间、报案手机号和被保险人等。若匹配图像为与用户信息验证有关的图像，则匹配图像的匹配图像信息可以为用户ID、图像的获取时间、用户年龄和用户住址等

S80：计算待匹配图像的待匹配图像信息与每一匹配图像的匹配图像信息之间的相似度，得到信息相似值。

其中，待匹配图像信息指待匹配图像所携带的与图像有关的信息。同样地，待匹配图像信息可以包括图像ID、图像的获取时间、图像的来源或图像的编号等。在一具体实施例中，不同类型的待匹配图像所对应的图像信息不同。具体地，可采用字符串匹配法，计算待匹配图像的待匹配图像信息与每一匹配图像的匹配图像信息之间的信息相似度，得到每一匹配图像与待匹配图像的信息相似值。

S90：对每一信息相似值进行统计分析，将信息相似值最大的匹配图像，作为目标图像。

其中，目标图像指与待匹配图像相似度最高的图像。具体地，在确定了每一匹配图像与待匹配图像的信息相似值后，对每一匹配图像与待匹配图像的信息相似值进行统计分析，将信息相似值最大的匹配图像，作为目标图像。

在本实施例中，通过获取匹配图像组中每一匹配图像的匹配图像信息；计算待匹配图像的待匹配图像信息与每一匹配图像的匹配图像信息之间的相似度，得到信息相似值；对每一信息相似值进行统计分析，将信息相似值最大的匹配图像，作为目标图像；从而保证了生成的目标图像与待匹配图像的相似度，以进一步提高了图像匹配的准确性。

在一实施例中，如图5所示，计算待匹配视觉单词集与倒排索引表中的相似图像集中的每一相似图像的样本视觉单词集之间的图像共现比例，得到每一相似图像与待匹配图像的图像共现比例值，具体包括如下步骤：

S501：获取待匹配视觉单词集。

S502：将每一相似图像的样本视觉单词集中的每一样本视觉单词与待匹配视觉单词集中的每一待匹配视觉单词进行一一匹配，得到每一相似图像的匹配视觉单词。

可以理解地，由于待匹配视觉单词集中包括若干待匹配视觉单词，每一相似图像的样本视觉单词集中也包括若干样本视觉单词。因此，需将每一相似图像的样本视觉单词集中的每一样本视觉单词与待匹配视觉单词集中的每一待匹配视觉单词进行一一匹配，并将与待匹配视觉单词相匹配的视觉单词确定为匹配视觉单词。具体地，可采用正则匹配法或者字符串匹配法将每一相似图像的样本视觉单词集中的每一样本视觉单词与待匹配视觉单词集中的每一待匹配视觉单词进行一一匹配，得到每一相似图像的匹配视觉单词。

S503：计算每一相似图像的匹配视觉单词在对应的样本视觉单词集中的占比值，得到每一样本图像与待匹配图像的图像共现比例值。

具体地，在得到相似图像的匹配视觉单词之后，确定相似图像的匹配视觉单词的个数，然后将相似图像的匹配视觉单词的个数与对应的样本视觉单词集中样本视觉单词的个数进行求比例值，计算每一相似图像的匹配视觉单词在对应的样本视觉单词集中的占比值，即可得到每一样本图像与待匹配图像的图像共现比例值。

示例性地，若待匹配图像A的待匹配视觉单词集中包括{a ₁,a ₂,a ₃,a ₄...a ₈₀}共80个待匹配视觉单词，相似图像B的样本视觉单词集中包括{b ₁,b ₂,b ₃,b ₄...b ₈₀}共80个样本视觉单词,将该相似图像B的样本视觉单词集中的每一样本视觉单词与匹配图像A的待匹配视觉单词集中的每一待匹配视觉单词进行一一匹配之后，得到相似图像B的匹配视觉单词为60个，则计算该相似图像B的匹配视觉单词在对应的样本视觉单词集中的占比值，得到该相似图像B与待匹配图像的图像共现比例值为60/80＝0.75

在本实施例中，通过获取待匹配视觉单词集；将每一相似图像的样本视觉单词集中的每一样本视觉单词与待匹配视觉单词集中的每一待匹配视觉单词进行一一匹配，得到每一相似图像的匹配视觉单词；计算每一相似图像的匹配视觉单词在对应的样本视觉单词集中的占比值，得到每一样本图像与待匹配图像的图像共现比例值；从而进一步提高了得到的每一样本图像与待检索图像的图像共现比例值的准确率。

在一实施例中，如图6所示，基于每一样本图像的目标视觉单词集，建立每一视觉单词与对应的样本图像之间的映射关系，生成倒排索引表，具体包括如下步骤：

S261：将每一视觉单词作为预设索引表中的主键。

其中，预设索引表是指预先设置的用于存储视觉单词和样本图像的表格。可选地，预设索引表可以为Excel表等。在一具体实施例中，预设索引表中的每一行都预先设置有主键格和每一主键对应的主键值格。具体地，在确定了每一视觉单词后，先将每一视觉单词记录到该预设索引表中每一行的主键格中，即将每一视觉单词作为预设索引表中的主键。

S262：基于每一样本图像的目标视觉单词集，确定每一视觉单词对应的样本图像。

具体地，基于每一样本图像的目标视觉单词集，确定每一视觉单词对应的样本图像。示例性地：若样本图像C的目标视觉单词集中包括{a,b,c,d}共4个目标视觉单词，样本图像D的目标视觉单词集中包括{a,c,f,h}共4个目标视觉单词，样本图像F的目标视觉单词集中包括{a,b,d,f}共4个目标视觉单词；则视觉单词a对应的样本图像为样本图像C、样本图像D和样本图像F；视觉单词b对应的样本图像为样本图像C和样本图像F；视觉单词c对应的样本图像为样本图像C和样本图像D；视觉单词d对应的样本图像为样本图像C和样本图像F；视觉单词f对应的样本图像为样本图像D和样本图像F；视觉单词h对应的样本图像为样本图像D。

S263：将每一视觉单词对应的样本图像作为对应的视觉单词的主键值，生成倒排索引表。

具体地，在确定了每一视觉单词对应的样本图像之后，将每一样本图像记录到对应的视觉单词的主键值格中，即将每一视觉单词对应的样本图像作为对应的视觉单词的主键值，从而生成倒排索引表。可以理解地，在生成倒排索引表之后，可直接根据样本图像查找到对应的视觉单词。

在本实施例中，通过将每一视觉单词作为预设索引表中的主键；基于每一样本图像的目标视觉单词集，确定每一视觉单词对应的样本图像；将每一视觉单词对应的样本图像作为对应的视觉单词的主键值，生成倒排索引表；从而保证了样本图像与视觉单词对应关系的准确性，提高了后续进行图像匹配的准确性。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

在一实施例中，提供一种图像匹配装置，该图像匹配装置与上述实施例中图像匹配方法一一对应。如图7所示，该图像匹配装置包括第一特征提取模块10、特征相似度计算模块20、待匹配视觉单词确定模块30、第一组成模块40、图像共现比例计算模块50和组成模块60。各功能模块详细说明如下：

第一特征提取模块10，用于获取待匹配图像,对待匹配图像进行特征提取，得到待匹配图像的待匹配深度特征和多个待匹配视觉特征，；

特征相似度计算模块20，用于计算待匹配图像的待匹配深度特征与预设的图像深度特征库中的每一样本图像的样本深度特征之间的特征相似度，提取出特征相似度大于预设的相似度阈值的样本图像，组成相似图像集；

待匹配视觉单词确定模块30，用于对待匹配图像的每一待匹配视觉特征，计算待匹配视觉特征与预设的倒排索引表中的每一视觉单词之间的距离，将与待匹配视觉特征距离最小的视觉单词，确定为待匹配视觉特征的待匹配视觉单词；

第一组成模块40，用于将待匹配视觉单词组成待匹配视觉单词集；

图像共现比例计算模块50，用于计算待匹配视觉单词集与相似图像集中的每一相似图像的样本视觉单词集之间的图像共现比例，得到每一相似图像与待匹配图像的图像共现比例值，其中，样本视觉单词集指与相似图像中的样本视觉特征距离最小的视觉单词所组成的视觉单词集；

第二组成模块60，用于将图像共现比例值大于预设的共现比例阈值的相似图像，组成匹配图像组。

优选地，如图8所示，所述图像匹配装置还包括：

样本图像集获取模块21，用于获取样本图像集，样本图像集包括多个样本图像；

第二特征提取模块22，用于对每一样本图像进行特征提取，得到每一样本图像的样本深度特征和多个样本视觉特征；

聚类处理模块23，用于对每一样本图像的每一样本视觉特征进行聚类处理，生成视觉单词词典，视觉单词词典包括多个视觉单词；

目标视觉单词确定模块24，用于对每一样本图像的每一样本视觉特征，计算每一样本图像的样本视觉特征与视觉单词词典中的每一视觉单词的距离，将与样本图像的样本视觉特征距离最小的视觉单词，确定为对应的样本图像的样本视觉特征的目标视觉单词；

第三组成模块25，用于将样本视觉特征的每一目标视觉单词组成对应的样本图像的目标视觉单词集；

倒排索引表生成模块26，用于基于每一样本图像的目标视觉单词集，建立每一视觉单词与对应的样本图像之间的映射关系，生成倒排索引表。

优选地，如图9所示，所述图像匹配装置还包括：

匹配图像信息获取模块70，用于获取匹配图像组中每一匹配图像的匹配图像信息；

相似度计算模块80，用于计算待匹配图像的待匹配图像信息与每一匹配图像的匹配图像信息之间的相似度，得到信息相似值；

统计分析模块90，用于对每一信息相似值进行统计分析，将信息相似值最大的匹配图像，作为目标图像。

优选地，所述图像共现比例计算模块50，包括：

待匹配视觉单词集获取单元，用于获取待匹配视觉单词集；

匹配单元，用于将每一相似图像的样本视觉单词集中的每一样本视觉单词与待匹配视觉单词集中的每一待匹配视觉单词进行一一匹配，得到每一相似图像的匹配视觉单词；

占比值计算单元，用于计算每一相似图像的匹配视觉单词在对应的样本视觉单词集中的占比值，得到每一样本图像与待匹配图像的图像共现比例值。

优选地，所述倒排索引表生成模块26，包括：

主键确定单元，用于将每一视觉单词作为预设索引表中的主键；

样本图像单元，用于基于每一样本图像的目标视觉单词集，确定每一视觉单词对应的样本图像；

主键值单元，用于将每一视觉单词对应的样本图像作为对应的视觉单词的主键值，生成倒排索引表。

关于图像匹配装置的具体限定可以参见上文中对于图像匹配方法的限定，在此不再赘述。上述图像匹配装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图10所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括可读存储介质、内存储器。该可读存储介质存储有操作系统、计算机可读指令和数据库。该内存储器为可读存储介质中的操作系统和计算机可读指令的运行提供环境。该计算机设备的数据库用于存储上述实施例中图像匹配方法所使用到的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机可读指令被处理器执行时以实现一种图像匹配方法。本实施例所提供的可读存储介质可以是非易失性可读存储介质，也可以是易失性可读存储介质。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机可读指令，处理器执行计算机可读指令时实现以下步骤：

在一个实施例中，一个或多个存储有计算机可读指令的可读存储介质，所述可读存储介质包括非易失性可读存储介质和易失性可读存储介质，所述计算机可读指令被一个或多个处理器执行时，使得所述一个或多个处理器执行如下步骤：

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机可读指令来指令相关的硬件来完成，所述的计算机可读指令可存储于一非易失性计算机可读取存储介质或易失性可读存储介质中，所述的计算机可读指令可存储于一非易失性计算机可读取存储介质中，该计算机可读指令在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

一种图像匹配方法，其中，包括：

获取待匹配图像,对所述待匹配图像进行特征提取，得到所述待匹配图像的待匹配深度特征和多个待匹配视觉特征；

计算所述待匹配图像的所述待匹配深度特征与预设的图像深度特征库中的每一样本图像的样本深度特征之间的特征相似度，提取出所述特征相似度大于预设的相似度阈值的样本图像，组成相似图像集；

对所述待匹配图像的每一所述待匹配视觉特征，计算所述待匹配视觉特征与预设的倒排索引表中的每一视觉单词之间的距离，将与所述待匹配视觉特征距离最小的视觉单词，确定为所述待匹配视觉特征的待匹配视觉单词，将所述待匹配视觉单词组成待匹配视觉单词集；

计算所述待匹配视觉单词集与所述相似图像集中的每一相似图像的样本视觉单词集之间的图像共现比例，得到每一所述相似图像与所述待匹配图像的图像共现比例值，其中，所述样本视觉单词集指与相似图像中的样本视觉特征距离最小的视觉单词所组成的视觉单词集；

将所述图像共现比例值大于预设的共现比例阈值的相似图像，组成匹配图像组。
如权利要求1所述的图像匹配方法，其中，在所述对所述待匹配图像的每一所述待匹配视觉特征，计算所述待匹配视觉特征与预设的倒排索引表中的每一视觉单词之间的距离之前，所述图像匹配方法还包括：

获取样本图像集，所述样本图像集包括多个样本图像；

对每一所述样本图像进行特征提取，得到每一所述样本图像的样本深度特征和多个样本视觉特征；

对每一所述样本图像的每一所述样本视觉特征进行聚类处理，生成视觉单词词典，所述视觉单词词典包括多个视觉单词；

对每一所述样本图像的每一所述样本视觉特征，计算每一所述样本图像的所述样本视觉特征与所述视觉单词词典中的每一所述视觉单词的距离，将与所述样本图像的所述样本视觉特征距离最小的视觉单词，确定为对应的所述样本图像的所述样本视觉特征的目标视觉单词；

将所述样本视觉特征的每一所述目标视觉单词组成对应的所述样本图像的目标视觉单词集；

基于每一所述样本图像的所述目标视觉单词集，建立每一所述视觉单词与对应的所述样本图像之间的映射关系，生成倒排索引表。
如权利要求1所述的图像匹配方法，所述待匹配图像包括待匹配图像信息，其中，所述在将所述图像共现比例值大于预设的共现比例阈值的相似图像，组成匹配图像组之后，所述图像匹配方法，还包括：

获取所述匹配图像组中每一匹配图像的匹配图像信息；

计算所述待匹配图像的所述待匹配图像信息与每一所述匹配图像的所述匹配图像信息之间的相似度，得到信息相似值；

对每一所述信息相似值进行统计分析，将所述信息相似值最大的所述匹配图像，作为目标图像。
如权利要求1所述的图像匹配方法，其中，所述计算所述待匹配视觉单词集与所述倒排索引表中的所述相似图像集中的每一相似图像的样本视觉单词集之间的图像共现比例，得到每一所述相似图像与所述待匹配图像的图像共现比例值，包括：

获取待匹配视觉单词集；

将每一所述相似图像的样本视觉单词集中的每一样本视觉单词与所述待匹配视觉单词集中的每一待匹配视觉单词进行一一匹配，得到每一所述相似图像的匹配视觉单词；

计算每一所述相似图像的所述匹配视觉单词在对应的所述样本视觉单词集中的占比值，得到每一所述样本图像与所述待匹配图像的图像共现比例值。
如权利要求2所述的图像匹配方法，其中，所述基于每一所述样本图像的所述目标视觉单词集，建立每一所述视觉单词与对应的所述样本图像之间的映射关系，生成倒排索引表，包括：

将每一所述视觉单词作为预设索引表中的主键；

基于每一所述样本图像的目标视觉单词集，确定每一所述视觉单词对应的样本图像；

将每一所述视觉单词对应的所述样本图像作为对应的所述视觉单词的主键值，生成倒排索引表。
一种图像匹配装置，其中，包括：

第一特征提取模块，用于获取待匹配图像,对所述待匹配图像进行特征提取，得到所述待匹配图像的待匹配深度特征和多个待匹配视觉特征；

特征相似度计算模块，用于计算所述待匹配图像的所述待匹配深度特征与预设的图像深度特征库中的每一样本图像的样本深度特征之间的特征相似度，提取出所述特征相似度大于预设的相似度阈值的样本图像，组成相似图像集；

待匹配视觉单词确定模块，用于对所述待匹配图像的每一所述待匹配视觉特征，计算所述待匹配视觉特征与预设的倒排索引表中的每一视觉单词之间的距离，将与所述待匹配视觉特征距离最小的视觉单词，确定为所述待匹配视觉特征的待匹配视觉单词；

第一组成模块，用于将所述待匹配视觉单词组成待匹配视觉单词集；

图像共现比例计算模块，用于计算所述待匹配视觉单词集与所述相似图像集中的每一相似图像的样本视觉单词集之间的图像共现比例，得到每一所述相似图像与所述待匹配图像的图像共现比例值，其中，所述样本视觉单词集指与相似图像中的样本视觉特征距离最小的视觉单词所组成的视觉单词集；

第二组成模块，用于将所述图像共现比例值大于预设的共现比例阈值的相似图像，组成匹配图像组。
如权利要求6所述的图像匹配装置，其中，所述图像匹配装置还包括：

样本图像集获取模块，用于获取样本图像集，所述样本图像集包括多个样本图像；

第二特征提取模块，用于对每一所述样本图像进行特征提取，得到每一所述样本图像的样本深度特征和多个样本视觉特征；

聚类处理模块，用于对每一所述样本图像的每一所述样本视觉特征进行聚类处理，生成视觉单词词典，所述视觉单词词典包括多个视觉单词；

目标视觉单词确定模块，用于对每一所述样本图像的每一所述样本视觉特征，计算每一所述样本图像的所述样本视觉特征与所述视觉单词词典中的每一所述视觉单词的距离，将与所述样本图像的所述样本视觉特征距离最小的视觉单词，确定为对应的所述样本图像的所述样本视觉特征的目标视觉单词；

第三组成模块，用于将所述样本视觉特征的每一所述目标视觉单词组成对应的所述样本图像的目标视觉单词集；

倒排索引表生成模块，用于基于每一所述样本图像的所述目标视觉单词集，建立每一所述视觉单词与对应的所述样本图像之间的映射关系，生成倒排索引表。
如权利要求6所述的图像匹配装置，其中，所述图像匹配装置还包括：

匹配图像信息获取模块，用于获取所述匹配图像组中每一匹配图像的匹配图像信息；

相似度计算模块，用于计算所述待匹配图像的所述待匹配图像信息与每一所述匹配图像的所述匹配图像信息之间的相似度，得到信息相似值；

统计分析模块，用于对每一所述信息相似值进行统计分析，将所述信息相似值最大的所述匹配图像，作为目标图像。
如权利要求6所述的图像匹配装置，其中，所述图像共现比例计算模块包括：

待匹配视觉单词集获取单元，用于获取待匹配视觉单词集；

匹配单元，用于将每一所述相似图像的样本视觉单词集中的每一样本视觉单词与所述待匹配视觉单词集中的每一待匹配视觉单词进行一一匹配，得到每一所述相似图像的匹配视觉单词；

占比值计算单元，用于计算每一所述相似图像的所述匹配视觉单词在对应的所述样本视觉单词集中的占比值，得到每一所述样本图像与所述待匹配图像的图像共现比例值。
如权利要求7所述的图像匹配装置，其中，所述倒排索引表生成模块包括：

作为单元，用于将每一所述视觉单词作为预设索引表中的主键；

确定单元，用于基于每一所述样本图像的目标视觉单词集，确定每一所述视觉单词对应的样本图像；

倒排索引表生成单元，用于将每一所述视觉单词对应的所述样本图像作为对应的所述视觉单词的主键值，生成倒排索引表。
一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令，其中，所述处理器执行所述计算机可读指令时实现如下步骤：

获取待匹配图像,对所述待匹配图像进行特征提取，得到所述待匹配图像的待匹配深度特征和多个待匹配视觉特征；

计算所述待匹配图像的所述待匹配深度特征与预设的图像深度特征库中的每一样本图像的样本深度特征之间的特征相似度，提取出所述特征相似度大于预设的相似度阈值的样本图像，组成相似图像集；

对所述待匹配图像的每一所述待匹配视觉特征，计算所述待匹配视觉特征与预设的倒排索引表中的每一视觉单词之间的距离，将与所述待匹配视觉特征距离最小的视觉单词，确定为所述待匹配视觉特征的待匹配视觉单词，将所述待匹配视觉单词组成待匹配视觉单词集；

计算所述待匹配视觉单词集与所述相似图像集中的每一相似图像的样本视觉单词集之间的图像共现比例，得到每一所述相似图像与所述待匹配图像的图像共现比例值，其中，所述样本视觉单词集指与相似图像中的样本视觉特征距离最小的视觉单词所组成的视觉单词集；

将所述图像共现比例值大于预设的共现比例阈值的相似图像，组成匹配图像组。
如权利要求11所述的计算机设备，其中，在所述对所述待匹配图像的每一所述待匹配视觉特征，计算所述待匹配视觉特征与预设的倒排索引表中的每一视觉单词之间的距离之前，所述处理器执行所述计算机可读指令时还实现如下步骤：

获取样本图像集，所述样本图像集包括多个样本图像；

对每一所述样本图像进行特征提取，得到每一所述样本图像的样本深度特征和多个样本视觉特征；

对每一所述样本图像的每一所述样本视觉特征进行聚类处理，生成视觉单词词典，所述视觉单词词典包括多个视觉单词；

对每一所述样本图像的每一所述样本视觉特征，计算每一所述样本图像的所述样本视觉特征与所述视觉单词词典中的每一所述视觉单词的距离，将与所述样本图像的所述样本视觉特征距离最小的视觉单词，确定为对应的所述样本图像的所述样本视觉特征的目标视觉单词；

将所述样本视觉特征的每一所述目标视觉单词组成对应的所述样本图像的目标视觉单词集；

基于每一所述样本图像的所述目标视觉单词集，建立每一所述视觉单词与对应的所述样本图像之间的映射关系，生成倒排索引表。
如权利要求11所述的计算机设备，其中，所述在将所述图像共现比例值大于预设的共现比例阈值的相似图像，组成匹配图像组之后，所述处理器执行所述计算机可读指令时还实现如下步骤：

获取所述匹配图像组中每一匹配图像的匹配图像信息；

计算所述待匹配图像的所述待匹配图像信息与每一所述匹配图像的所述匹配图像信息之间的相似度，得到信息相似值；

对每一所述信息相似值进行统计分析，将所述信息相似值最大的所述匹配图像，作为目标图像。
如权利要求11所述的计算机设备，其中，所述计算所述待匹配视觉单词集与所述倒排索引表中的所述相似图像集中的每一相似图像的样本视觉单词集之间的图像共现比例，得到每一所述相似图像与所述待匹配图像的图像共现比例值，包括：

获取待匹配视觉单词集；

将每一所述相似图像的样本视觉单词集中的每一样本视觉单词与所述待匹配视觉单词集中的每一待匹配视觉单词进行一一匹配，得到每一所述相似图像的匹配视觉单词；

计算每一所述相似图像的所述匹配视觉单词在对应的所述样本视觉单词集中的占比值，得到每一所述样本图像与所述待匹配图像的图像共现比例值。
如权利要求12所述的计算机设备，其中，所述基于每一所述样本图像的所述目标视觉单词集，建立每一所述视觉单词与对应的所述样本图像之间的映射关系，生成倒排索引表，包括：

将每一所述视觉单词作为预设索引表中的主键；

基于每一所述样本图像的目标视觉单词集，确定每一所述视觉单词对应的样本图像；

将每一所述视觉单词对应的所述样本图像作为对应的所述视觉单词的主键值，生成倒排索引表。
一个或多个存储有计算机可读指令的可读存储介质，其中，所述计算机可读指令被一个或多个处理器执行时，使得所述一个或多个处理器执行如下步骤:

获取待匹配图像,对所述待匹配图像进行特征提取，得到所述待匹配图像的待匹配深度特征和多个待匹配视觉特征；

计算所述待匹配图像的所述待匹配深度特征与预设的图像深度特征库中的每一样本图像的样本深度特征之间的特征相似度，提取出所述特征相似度大于预设的相似度阈值的样本图像，组成相似图像集；

对所述待匹配图像的每一所述待匹配视觉特征，计算所述待匹配视觉特征与预设的倒排索引表中的每一视觉单词之间的距离，将与所述待匹配视觉特征距离最小的视觉单词，确定为所述待匹配视觉特征的待匹配视觉单词，将所述待匹配视觉单词组成待匹配视觉单词集；

计算所述待匹配视觉单词集与所述相似图像集中的每一相似图像的样本视觉单词集之间的图像共现比例，得到每一所述相似图像与所述待匹配图像的图像共现比例值，其中，所述样本视觉单词集指与相似图像中的样本视觉特征距离最小的视觉单词所组成的视觉单词集；

将所述图像共现比例值大于预设的共现比例阈值的相似图像，组成匹配图像组。
如权利要求16所述的可读存储介质，其中，在所述对所述待匹配图像的每一所述待匹配视觉特征，计算所述待匹配视觉特征与预设的倒排索引表中的每一视觉单词之间的距离之前，所述计算机可读指令被一个或多个处理器执行时，使得所述一个或多个处理器还执行如下步骤:

获取样本图像集，所述样本图像集包括多个样本图像；

对每一所述样本图像进行特征提取，得到每一所述样本图像的样本深度特征和多个样本视觉特征；

对每一所述样本图像的每一所述样本视觉特征进行聚类处理，生成视觉单词词典，所述视觉单词词典包括多个视觉单词；

对每一所述样本图像的每一所述样本视觉特征，计算每一所述样本图像的所述样本视觉特征与所述视觉单词词典中的每一所述视觉单词的距离，将与所述样本图像的所述样本视觉特征距离最小的视觉单词，确定为对应的所述样本图像的所述样本视觉特征的目标视觉单词；

将所述样本视觉特征的每一所述目标视觉单词组成对应的所述样本图像的目标视觉单词集；

基于每一所述样本图像的所述目标视觉单词集，建立每一所述视觉单词与对应的所述样本图像之间的映射关系，生成倒排索引表。
如权利要求16所述的可读存储介质，其中，所述待匹配图像包括待匹配图像信息，其中，所述在将所述图像共现比例值大于预设的共现比例阈值的相似图像，组成匹配图像组之后，所述计算机可读指令被一个或多个处理器执行时，使得所述一个或多个处理器还执行如下步骤:

获取所述匹配图像组中每一匹配图像的匹配图像信息；

计算所述待匹配图像的所述待匹配图像信息与每一所述匹配图像的所述匹配图像信息之间的相似度，得到信息相似值；

对每一所述信息相似值进行统计分析，将所述信息相似值最大的所述匹配图像，作为目标图像。
如权利要求16所述的可读存储介质，其中，所述计算所述待匹配视觉单词集与所述倒排索引表中的所述相似图像集中的每一相似图像的样本视觉单词集之间的图像共现比例，得到每一所述相似图像与所述待匹配图像的图像共现比例值，包括：

获取待匹配视觉单词集；

将每一所述相似图像的样本视觉单词集中的每一样本视觉单词与所述待匹配视觉单词集中的每一待匹配视觉单词进行一一匹配，得到每一所述相似图像的匹配视觉单词；

计算每一所述相似图像的所述匹配视觉单词在对应的所述样本视觉单词集中的占比值，得到每一所述样本图像与所述待匹配图像的图像共现比例值。
如权利要求17所述的可读存储介质，其中，所述基于每一所述样本图像的所述目标视觉单词集，建立每一所述视觉单词与对应的所述样本图像之间的映射关系，生成倒排索引表，包括：

将每一所述视觉单词作为预设索引表中的主键；

基于每一所述样本图像的目标视觉单词集，确定每一所述视觉单词对应的样本图像；

将每一所述视觉单词对应的所述样本图像作为对应的所述视觉单词的主键值，生成倒排索引表。