WO2020098110A1

WO2020098110A1 - 图像特征值的搜索方法、装置、电子设备及存储介质

Info

Publication number: WO2020098110A1
Application number: PCT/CN2018/124832
Authority: WO
Inventors: 戴世稳
Original assignee: 深圳云天励飞技术有限公司
Priority date: 2018-11-12
Filing date: 2018-12-28
Publication date: 2020-05-22
Also published as: CN111177438A; CN111177438B

Abstract

一种图像特征值的搜索方法、装置、电子设备及存储介质，该方法包括：在获取到用于搜索与样本图像特征值匹配的目标图像特征值的查询向量时，对所述查询向量进行切分得到多个查询子向量，所述多个查询子向量与预先得到的多个子空间一一对应（S11）；计算所述多个查询子向量中的每一查询子向量到与该查询子向量对应的子空间中所有聚类中心的距离，所述聚类中心通过对所述子空间内存在的多个待搜索图像特征值的子段进行聚类得到（S12）；根据所述多个查询子向量中的每一查询子向量到与该查询子向量对应的子空间中所有聚类中心的距离，获取所述样本图像特征值与每一待搜索图像特征值之间的非对称距离（S13）；根据获取到的所有非对称距离，从多个用于存储所述多个待搜索图像特征值的索引对象中进行并行搜索，获得所述目标图像特征值（S14）。该方法能够在数据量继续增大的情况下，提高图像特征值的搜索速度。

Description

图像特征值的搜索方法、装置、电子设备及存储介质

本申请要求于2018年11月12日提交中国专利局，申请号为201811341714.3、发明名称为“图像特征值的搜索方法、装置、电子设备及存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本发明涉及图像搜索技术领域，尤其涉及一种图像特征值的搜索方法、装置、电子设备及存储介质。

背景技术

随着互联网络的普及，多媒体资源以爆炸式的增长姿态在网上呈现，这无疑为旺盛的数据搜索需求提供了便利，但是在过亿级的数据量中快速地搜索到相关数据，仍是图像搜索领域迫切想解决的问题。目前，Facebook(脸书)人工智能研究团队提出的一种新设计，实现了比之前最佳的GPU(Graphics Processing Unit，图形处理器)方法更快的最近邻搜索，它就是相似性搜索工具Faiss，是比以乘积量化为基础的暴力计算、近似和压缩域搜索更加优化的设计，并且将被应用到不同的相似性搜索场景中。虽然，相似性搜索工具Faiss是当今最优秀的相似性搜索算法库，但当数据量继续增大时，例如：图像特征值数据达到百亿级，甚至千亿级，相似性搜索工具Faiss的搜索速度仍将面临巨大的挑战。可见，目前的图像特征值搜索技术中，由于数据量的急速膨胀，导致搜索速度仍然不快。

发明内容

本发明的主要目的在于提供一种图像特征值的搜索方法、装置、电子设备及存储介质，以解决目前的图像特征值搜索技术中，由于数据量的急速膨胀，导致搜索速度仍然不快的问题。

为实现上述目的，本发明实施例第一方面提供了一种图像特征值的搜索方法，包括：

在获取到用于搜索与样本图像特征值匹配的目标图像特征值的查询向量时，对所述查询向量进行切分得到多个查询子向量，所述多个查询子向量与预先得到的多个子空间一一对应；

计算所述多个查询子向量中的每一查询子向量到与该查询子向量对应的子空间中所有聚类中心的距离，所述聚类中心通过对所述子空间内存在的多个待搜索图像特征值的子段进行聚类得到；

根据所述多个查询子向量中的每一查询子向量到与该查询子向量对应的子空间中所有聚类中心的距离，获取所述样本图像特征值与每一待搜索图像特征值之间的非对称距离；

根据获取到的所有非对称距离，从多个用于存储所述多个待搜索图像特征值的索引对象中进行并行搜索，获得所述目标图像特征值。

可选的，所述根据所述多个查询子向量中的每一查询子向量到与该查询子向量对应的子空间中所有聚类中心的距离，获取所述样本图像特征值与每一待搜索图像特征值之间的非对称距离的步骤包括：

分别针对所述多个待搜索图像特征值中的每一待搜索图像特征值，执行以下操作：

确定该待搜索图像特征值的多个子段中的每一子段在该子段所在的子空间内所属的聚类中心；

确定所述多个查询子向量中的每一查询子向量，到所述每一子段在该子段所在的子空间内所属的聚类中心的距离；

对确定出的所有距离进行求和运算，得到所述样本图像特征值与该待搜索图像特征值之间的非对称距离。

可选的，在所述计算所述多个查询子向量中的每一查询子向量到与该查询子向量对应的子空间中所有聚类中心的距离的步骤之前，所述方法还包括：

分别针对所述多个待搜索图像特征值中的每一待搜索图像特征值，对该待搜索图像特征值进行切分得到该待搜索图像特征值的多个子段；其中，所述多个子段与所述多个子空间一一对应；

针对所述多个子空间中的每一子空间，执行以下操作：

采用聚类算法对存在于该子空间内的所有子段进行聚类，得到多个聚类中心；

将所述聚类中心的编码作为聚类在该聚类中心下的子段的量化编码，并将所有子段的量化编码保存在所述多个索引对象中。

可选的，所述根据获取到的所有非对称距离，从多个用于存储所述多个待搜索图像特征值的索引对象中进行并行搜索，获得所述目标图像特征值的步骤，还包括：

按照非对称距离从小至大的顺序，从获取到的所有非对称距离中选取预设数量的目标非对称距离；

从多个用于存储所述多个待搜索图像特征值的索引对象中进行并行搜索，获得与所述目标非对称距离对应的待搜索图像特征值的多个子段的量化编码；

根据与所述目标非对称距离对应的待搜索图像特征值的多个子段的量化编码，确定出与所述目标非对称距离对应的待搜索图像特征值，将与所述目标非对称距离对应的待搜索图像特征值作为所述目标图像特征值。

本发明实施例第二方面提供了一种图像特征值的搜索装置，包括：

第一切分模块，用于在获取到用于搜索与样本图像特征值匹配的目标图像特征值的查询向量时，对所述查询向量进行切分得到多个查询子向量，所述多个查询子向量与预先得到的多个子空间一一对应；

计算模块，用于计算所述多个查询子向量中的每一查询子向量到与该查询子向量对应的子空间中所有聚类中心的距离，所述聚类中心通过对所述子空间内存在的多个待搜索图像特征值的子段进行聚类得到；

获取模块，用于根据所述多个查询子向量中的每一查询子向量到与该查询子向量对应的子空间中所有聚类中心的距离，获取所述样本图像特征值与每一待搜索图像特征值之间的非对称距离；

搜索模块，用于根据获取到的所有非对称距离，从多个用于存储所述多个待搜索图像特征值的索引对象中进行并行搜索，获得所述目标图像特征值。

本发明实施例第三方面提供了一种电子设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，该处理器执行计算机程序时实现上述的图像特征值的搜索方法中的步骤。

本发明实施例第四方面提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，该计算机程序被处理器执行时实现上述的图像特征值的搜索方法中的步骤。

本发明的上述方案至少包括以下有益效果：

通过在获取到用于搜索与样本图像特征值匹配的目标图像特征值的查询向量时，对所述查询向量进行切分得到多个查询子向量，所述多个查询子向量与预先得到的多个子空间一一对应；计算所述多个查询子向量中的每一查询子向量到与该查询子向量对应的子空间中所有聚类中心的距离，所述聚类中心通过对所述子空间内存在的多个待搜索图像特征值的所有子段进行聚类得到；根据所述多个查询子向量中的每一查询子向量到与该查询子向量对应的子空间中所有聚类中心的距离，获取所述样本图像特征值与每一待搜索图像特征值之间的非对称距离；根据获取到的所有非对称距离，从多个用于存储所述多个待搜索图像特征值的索引对象中进行并行搜索，获得所述目标图像特征值。这样将查询向量切分为查询子向量，实际上是将维度较高的查询向量细分化，与数据存储阶段将待搜索图像特征值切分为多个子段相同，越细分化的查询子向量和子段，越有利于提高搜索的相似精度；而非对称距离由于是直接计算样本图像特征值与经过量化后的待搜索图像特征值之间的距离，能够确保计算出的距离更接近样本图像特征值与待搜索图像特征值之间的真实距离，同样能够提高搜索的准确性；从多个存储较少数据的索引对象中展开并行搜索，比从一个存有大量数据的索引对象中单独搜索效率高很多，从而在数据量继续增大的情况下，也能够提高图像特征值的搜索速度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种图像特征值的搜索方法的流程示意图；

图2为本发明实施例提供的一种场景举例示意图；

图3为本发明实施例提供的另一种图像特征值的搜索方法的流程示意图；

图4为本发明实施例提供的另一种场景举例示意图；

图5为本发明实施例提供的一种图像特征值的搜索装置的结构示意图；

图6为本发明实施例提供的另一种图像特征值的搜索装置的结构示意图；

图7为本发明实施例提供的另一种图像特征值的搜索装置的结构示意图；

图8为本发明实施例提供的另一种图像特征值的搜索装置的结构示意图；

图9为本发明实施例提供的另一种图像特征值的搜索装置的结构示意图；

图10为本发明实施例提供的另一种图像特征值的搜索装置的结构示意图；

图11为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

本发明说明书、权利要求书和附图中出现的术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。此外，术语“第一”、“第二”和“第三”等是用于区别不同的对象，而并非用于描述特定的顺序。

下面将结合相关附图和举例来对本方案的具体实施例进行说明，但举例并不对本发明的实施例造成限定。

请参见图1，图1为本发明实施例提供的一种图像特征值搜索方法的流程示意图，如图1所示，包括以下步骤：

S11，在获取到用于搜索与样本图像特征值匹配的目标图像特征值的查询向量时，对所述查询向量进行切分得到多个查询子向量，所述多个查询子向量与预先得到的多个子空间一一对应。

其中，在本发明的具体实施例中，所有的图像特征值均是指维度较高的图像特征值，例如：128维。另外，在进行目标图像特征值搜索之前，可采用大量特征值数据进行模式训练，形成一个空间切分、聚类、量化编码的模式，最终得到基于乘积量化的索引对象index。

另外，在特征值搜索阶段，样本图像特征值可以是给定的特征值，也可以是从给定的图像中提取出的特征值。目标图像特征值是从预先存储的待搜图像特征值中获取的，与样本图像特征值相匹配的搜索结果，用于搜索目标图像特征值的查询向量可以是预先构建好的，也可以是在搜索时才构建的。若获取到该查询向量，则按照模式训练的过程，首先将该查询向量进行切分，得到该查询向量的多个查询子向量，该多个查询子向量一一对应到上述的多个子空间。例如，查询向量切分有2个查询子向量，那么1号查询子向量对应1号子空间、2号查询子向量对应2号子空间。

S12，计算所述多个查询子向量中的每一查询子向量到与该查询子向量对应的子空间中所有聚类中心的距离，所述聚类中心通过对所述子空间内存在的多个待搜索图像特征值的所有子段进行聚类得到。

其中，在本发明的具体实施例中，多个待搜索图像特征值中的每一待搜索图像特征值均包括与查询子向量数量相同的多个子段，每一待搜索图像特征值的多个子段同样一一对应到上述多个子空间中。例如，其中一个待搜索图像特征值有2个子段，分别是1号子段、2号子段，相应的1号子段对应存在于1号子空间内、2号子段对应存在于2号子空间内。需要说明的是，由于待搜索图像特征值数量庞大，所以每一子空间内同样存在大量的子段。

聚类中心，是存在于子空间内的大量待搜索图像特征值的子段通过聚类算法聚类而成，且每一子空间内聚类中心的数量相同。在对查询向量按照样本训练模式切分之后，需要计算每一查询子向量到其对应的子空间内所有聚类中心的距离。例如，1号查询子向量对应1号子空间，1号子空间内的所有子段被聚类得到256个聚类中心，那么，需要分别计算1号查询子向量到这256个聚类中心的距离；相应的，2号查询子向量同样需要计算其到2号子空间内所有聚类中心的距离。

S13，根据所述多个查询子向量中的每一查询子向量到与该查询子向量对应的子空间中所有聚类中心的距离，获取所述样本图像特征值与每一待搜索图像特征值之间的非对称距离。

其中，在本发明的具体实施例中，上述每一查询子向量到与该查询子向量对应的子空间中所有聚类中心的距离，可用于通过运算获取到样本图像特征值与每一待搜索图像特征值之间的非对称距离，当然也可以是对称距离，而具体采用哪种运算方式，此处并不作任何限定。如图2所示，本发明中实际上需要计算的是查询向量x到所有待搜索图像特征值y的距离，但由于待搜索图像特征值y的数量可能是过亿级的，而待搜索图像特征值y的索引值所对应的码字q(y)数量却要少得多，使用查询向量x到q(y)的距离代替查询向量x到待搜索图像特征值y的距离，这就是非对称距离的计算。非对称距离在计算样本图像特征值到预先存储的待搜索图像特征值之间的距离时，不需要对样本图像特征值自身进行量化，而是直接计算样本图像特征值到量化了的待搜索图像特征值之间的距离，它比对称距离计算方式更直接，可以确保计算出的距离更接近于真实距离，从而提高搜索的精度。

需要说明的是，样本图像特征值与每一待搜索图像特征值之间的非对称距离或对称距离，用于表示二者之间的相似度，距离越小，表示相似度越高。

S14，根据获取到的所有非对称距离，从多个用于存储所述多个待搜索图像特征值的索引对象中进行并行搜索，获得所述目标图像特征值。

其中，在本发明的具体实施例中，上述索引对象可以是预先构建的，用于存储每一待搜索图像特征值的多个子段的量化编码，由于待搜索图像特征值的数量极其庞大，可知，所有待搜索图像特征值的子段的量化编码也是极多的。因此，可为每一索引对象设置一数据阈值，例如：该数据阈值可以是1亿，当最初创建的索引对象中保存的量化编码达到该数据阈值时，则新建一个索引对象对未保存的量化编码进行保存，最终会得到多个上述的索引对象。

另外，由于所有量化编码被保存在多个索引对象中，那么，就可以根据获取到的所有非对称距离，从多个索引对象中展开并行搜索，获得上述的目标图像特征值作为搜索结果。例如，根据获得的非对称距离，从第一个索引对象中搜索到10个待搜索图像特征值，从第二个索引对象中搜索到15个待搜索图像特征值，则可把搜索到的25个待搜索图像特征值作为目标图像特征值。

上述方法中，由于是根据计算得到的样本图像特征值与每一待搜索图像特征值之间的非对称距离，从多个索引对象中展开并行搜索，这样的搜索方式，显然比从一个存有海量数据的索引对象中单独搜索效率高很多。

需要说明的是，本发明实施例提供的图像特征值的搜索方法可以基于一些搜索工具或搜索相似度媒体文件算法库实现，例如，Facebook人工智能研究团队提出的相似性搜索工具Faiss。

本发明实施例中，通过在获取到用于搜索与样本图像特征值匹配的目标图像特征值的查询向量时，对所述查询向量进行切分得到多个查询子向量，所述多个查询子向量与预先得到的多个子空间一一对应；计算所述多个查询子向量中的每一查询子向量到与该查询子向量对应的子空间中所有聚类中心的距离，所述聚类中心通过对所述子空间内存在的多个待搜索图像特征值的子段进行聚类得到；根据所述多个查询子向量中的每一查询子向量到与该查询子向量对应的子空间中所有聚类中心的距离，获取所述样本图像特征值与每一待搜索图像特征值之间的非对称距离；根据获取到的所有非对称距离，从多个用于存储所述多个待搜索图像特征值的索引对象中进行并行搜索，获得所述目标图像特征值。这样将查询向量切分为查询子向量，实际上是将维度较高的查询向量细分化，与数据存储阶段将待搜索图像特征值切分为多个子段相同，越细分化的查询子向量和子段，越有利于提高搜索的相似精度；而非对称距离由于是直接计算样本图像特征值与经过量化后的待搜索图像特征值之间的距离，能够确保计算出的距离更接近样本图像特征值与待搜索图像特征值之间的真实距离，同样能够提高搜索的准确性；从多个存储较少数据的索引对象中展开并行搜索，比从一个存有大量数据的索引对象中单独搜索效率高很多，从而在数据量继续增大的情况下，也能够提高图像特征值的搜索速度。

请参见图3，图3为本发明实施例提供的另一种图像特征值的搜索方法的流程示意图，如图3所示，包括以下步骤：

S21，在获取到用于搜索与样本图像特征值匹配的目标图像特征值的查询向量时，对所述查询向量进行切分得到多个查询子向量，所述多个查询子向量与预先得到的多个子空间一一对应。

其中，在本发明的具体实施例中，该步骤是预先构建好用于搜索目标图像特征值的查询向量，以便于特征值搜索时可直接获取该查询向量，然后对其进行切分。

S22，计算所述多个查询子向量中的每一查询子向量到与该查询子向量对应的子空间中所有聚类中心的距离，所述聚类中心通过对所述子空间内存在的多个待搜索图像特征值的所有子段进行聚类得到。

其中，步骤S22的具体实施方式在上述实施例中已有相关说明，同样也适用于本实施例，此处便不再作过多的描述。

S23，根据所述多个查询子向量中的每一查询子向量到与该查询子向量对应的子空间中所有聚类中心的距离，获取所述样本图像特征值与每一待搜索图像特征值之间的非对称距离。

其中，步骤S23的具体实施方式在上述实施例中已有相关说明，同样也适用于本实施例，此处便不再作过多的描述。步骤S23进一步包括：

S231，分别针对所述多个待搜索图像特征值中的每一待搜索图像特征值，执行以下操作：确定该待搜索图像特征值的多个子段中的每一子段在该子段所在的子空间内所属的聚类中心；

其中，在本发明的具体实施例中，由于数据存储阶段对每一子空间内的子段进行了聚类，所以一个的待搜索图像特征值的每个子段在其对应所在的子空间内都有一个所属的聚类中心。例如，一个完整的待搜索图像特征值有4个子段，1号子段在其所在的1号子空间内所属的聚类中心是24号，2号子段在其所在的2号子空间内所属的聚类中心是8号，3号子段在其所在的3号子空间内所属的聚类中心是222号，4号子段在其所在的4号子空间内所属的聚类中心是155号，那么，就需要确认出上述完整的待搜索图像特征值的4个子段所属的聚类中心：24号、8号、222号以及155号。

S232，确定所述多个查询子向量中的每一查询子向量，到所述每一子段在该子段所在的子空间内所属的聚类中心的距离；

S233，对确定出的所有距离进行求和运算，得到所述样本图像特征值与该待搜索图像特征值之间的非对称距离。

其中，在本发明的具体实施例中，确认出上述每一待搜索图像特征值的多个子段中的每一子段，在该子段所在的子空间内所属的聚类中心后，根据步骤S22中计算出的每一查询子向量到与该查询子向量对应的子空间中所有聚类中心的距离，分别确定出每一查询子向量到对应的每一子段所属的聚类中心的距离，通过求和运算的方式得到样本图像特征值与该待搜索图像特征值之间的非对称距离。还是以步骤S231中的例子进行说明，一条查询向量的1、2、3、4个查询子向量，分别对应1号子空间、2号子空间、3号子空间、4号子空间，那么分别确定出1号查询子向量到1号子空间中24号聚类中心的距离、2号查询子向量到2号子空间中8号聚类中心的距离、3号查询子向量到3号子空间中222号聚类中心的距离及4号查询子向量到4号子空间中155号聚类中心的距离，然后对确认出的四个距离进行求和运算，便得到样本图像特征值与一个待搜索图像特征值之间的非对称距离。

S24，根据获取到的所有非对称距离，从多个用于存储所述多个待搜索图像特征值的索引对象中进行并行搜索，获得所述目标图像特征值。

同样的，步骤S24的具体实施方式在上述实施例中已有相关说明，同样也适用于本实施例，此处便不再作过多的描述。

作为一种可选的实施方式，在所述计算所述多个查询子向量中的每一查询子向量到与该查询子向量对应的子空间中所有聚类中心的距离的步骤之前，所述方法还包括：

针对所述多个子空间中的每一子空间，执行以下操作：

其中，在本发明的具体实施例中，在对海量待搜索图像特征值存储时，需要将高维的待搜索图像特征值进行切分，得到与上述查询子向量一一对应的子空间及子段，每一子空间内都有大量待搜索图像特征值的子段。在每一子空间内采用聚类算法对所有子段进行聚类，得到多个聚类中心，之后，对每一子空间内的子段进行量化编码，并将其保存在索引对象中。

如图4所示，将N个128维的待搜索图像特征值切分为4个32维的子段，同时得到4个子空间。针对4个子空间中的每一子空间，在每个子空间内进行聚类，将子空间内的所有子段聚类得到256个聚类中心，然后用聚类中心的编码近似表示聚类到该聚类中心的子段的十进制量化编码，得到所有待搜索图像特征值的4个子段的量化编码矩阵。如图4所示右侧的矩阵，可以理解为N个待搜索图像特征值中，第一个待搜索图像特征值的4个子段的量化编码分别是124、56、132、222。按照这种形式将所有待搜索图像特征值的子段的量化编码保存在索引对象中，由于所有子段的量化编码的集合构成一个码本，所以可以理解为每个索引对象中都保存有一个码本。

该实施方式中，每个子空间内的聚类是独立进行的，各个子空间同时开始聚类，大大提高了聚类速度，将所有量化编码保存在多个索引对象中，而不是一个索引对象中，相对减少了每个索引对象中的数据量。

作为一种可选的实施方式，所述根据获取到的所有非对称距离，从多个用于存储所述多个待搜索图像特征值的索引对象中进行并行搜索，获得所述目标图像特征值的步骤，包括：

根据获取到的所有非对称距离，采用多搜索线程从多个用于存储所述多个待搜索图像特征值的索引对象中进行并行搜索，获得所述目标图像特征值。

该实施方式中，多搜索线程与多个索引对象可以是一对一搜索，具体的对应关系此处不作任何限定。采用多搜索线程从数据量相对较小的多个索引对象中并行搜索，搜索速度显然快于从一个数据量较大的索引对象中搜索。

作为一种可选的实施方式，所述根据获取到的所有非对称距离，从多个用于存储所述多个待搜索图像特征值的索引对象中进行并行搜索，获得所述目标图像特征值的步骤，还包括：

其中，在本发明的具体实施例中，每个待搜索图像特征值都对应有一个预设身份标识号码(ID)，例如，如图4所示，一个完整的待搜索图像特征值的4个子段的量化编码分别是124、56、132、222，那么这个待搜索图像特征值的预设身份标识号码可能就是1，N个待搜索图像特征值就有N个预设身份标识号码。根据上述获取到的所有非对称距离的大小，按照从小到大的顺序选取距离值小的预设数量个目标非对称距离，例如：100个或200个；从多个索引对象中，获取与上述预设数量个目标非对称距离对应的待搜索图像特征值的多个子段的量化编码，由得到的待搜索图像特征值的多个子段的量化编码，便能确定出该待搜索图像特征值以及它的预设身份标识号码，将确定出的所有待搜索图像特征值作为目标图像特征值，并将它们的预设身份标识号码作为搜索结果返回给搜索用户。

该实施方式中，从多个索引对象中获取与预设数量个目标非对称距离对应的待搜索图像特征值的多个子段的量化编码，根据子段的量化编码确定出目标图像特征值及其预设身份标识号码，不仅提高了搜索速度，还能够将相似度更高的搜索结果返回给用户。

作为一种可选的实施方式，所述采用聚类算法对存在于该子空间内的所有子段进行聚类，得到多个聚类中心的步骤包括：

采用K-means聚类算法对存在于该子空间内的所有子段进行聚类，得到多个聚类中心。

该实施方式中，采用K-Means聚类算法进行子段的聚类，聚类速度更快、而且更加适合大规模数据集。

本实施例中，在图1所示的实施例的基础上增加了多种可选的实施方式，针对图像特征值数据量继续增大的情况，仍能提高搜索速度。

请参见图5，图5为本发明实施例提供的一种的图像特征值的搜索装置的结构示意图，如图5所示，该装置5包括：

第一切分模块51，用于在获取到用于搜索与样本图像特征值匹配的目标图像特征值的查询向量时，对所述查询向量进行切分得到多个查询子向量，所述多个查询子向量与预先得到的多个子空间一一对应；

计算模块52，用于计算所述多个查询子向量中的每一查询子向量到与该查询子向量对应的子空间中所有聚类中心的距离，所述聚类中心通过对所述子空间内存在的多个待搜索图像特征值的所有子段进行聚类得到；

获取模块53，用于根据所述多个查询子向量中的每一查询子向量到与该查询子向量对应的子空间中所有聚类中心的距离，获取所述样本图像特征值与每一待搜索图像特征值之间的非对称距离；

搜索模块54，用于根据获取到的所有非对称距离，从多个用于存储所述多个待搜索图像特征值的索引对象中进行并行搜索，获得所述目标图像特征值。

可选的，如图6所示，所述获取模块53包括：

第一确定单元531，用于分别针对所述多个待搜索图像特征值中的每一待搜索图像特征值，执行以下操作：确定该待搜索图像特征值的多个子段中的每一子段在该子段所在的子空间内所属的聚类中心；

第二确定单元532，用于确定所述多个查询子向量中的每一查询子向量，到所述每一子段在该子段所在的子空间内所属的聚类中心的距离；

运算单元533，用于对确定出的所有距离进行求和运算，得到所述样本图像特征值与该待搜索图像特征值之间的非对称距离。

可选的，如图7所示，所述装置5还包括：

第二切分模块55，用于分别针对所述多个待搜索图像特征值中的每一待搜索图像特征值，对该待搜索图像特征值进行切分得到该待搜索图像特征值的多个子段；其中，所述多个子段与所述多个子空间一一对应；

聚类模块56，用于针对所述多个子空间中的每一子空间，执行以下操作：采用聚类算法对存在于该子空间内的所有子段进行聚类，得到多个聚类中心；

存储模块57，用于将所述聚类中心的编码作为聚类在该聚类中心下的子段的量化编码，并将所有子段的量化编码保存在所述多个索引对象中。

可选的，如图8所示，所述搜索模块54包括：

搜索单元541，用于根据获取到的所有非对称距离，采用多搜索线程从多个用于存储所述多个待搜索图像特征值的索引对象中进行并行搜索，获得所述目标图像特征值。

可选的，如图9所示，所述搜索模块54还包括：

选取单元542，用于按照非对称距离从小至大的顺序，从获取到的所有非对称距离中选取预设数量的目标非对称距离；

获取单元543，用于从多个用于存储所述多个待搜索图像特征值的索引对象中进行并行搜索，获得与所述目标非对称距离对应的待搜索图像特征值的多个子段的量化编码；

第三确定单元544，用于根据与所述目标非对称距离对应的待搜索图像特征值的多个子段的量化编码，确定出与所述目标非对称距离对应的待搜索图像特征值，将与所述目标非对称距离对应的待搜索图像特征值作为所述目标图像特征值。

可选的，如图10所示，所述聚类模块56包括：

聚类单元561，用于采用K-means聚类算法对存在于该子空间内的所有子段进行聚类，得到多个聚类中心。

请参见图11，图11为本发明实施例提供的一种电子设备的结构示意图，如图11所示，包括：存储器1102、处理器1101及存储在所述存储器上并可在所述处理器上运行的计算机程序1103。

其中，处理器1101用于调用存储器1102存储的计算机程序1103，执行如下步骤：

计算所述多个查询子向量中的每一查询子向量到与该查询子向量对应的子空间中所有聚类中心的距离，所述聚类中心通过对所述子空间内存在的多个待搜索图像特征值的所有子段进行聚类得到；

可选的，处理器1101执行所述根据所述多个查询子向量中的每一查询子向量到与该查询子向量对应的子空间中所有聚类中心的距离，获取所述样本图像特征值与每一待搜索图像特征值之间的非对称距离的步骤包括：

可选的，处理器1101还用于：

针对所述多个子空间中的每一子空间，执行以下操作：

可选的，处理器1101执行的所述根据获取到的所有非对称距离，从多个用于存储所述多个待搜索图像特征值的索引对象中进行并行搜索，获得所述目标图像特征值的步骤，包括：

可选的，处理器1101执行根据获取到的所有非对称距离，从多个用于存储所述多个待搜索图像特征值的索引对象中进行并行搜索，获得所述目标图像特征值的步骤，还包括：

可选的，处理器1101执行所述采用聚类算法对存在于该子空间内的所有子段进行聚类，得到多个聚类中心的步骤包括：

即，在本发明的具体实施例中，电子设备11的处理器1101执行计算机程序1103时实现上述的图像特征值的搜索方法中的步骤，从而在数据量继续增大的情况下，也能够提高图像特征值的搜索速度。

示例性的，上述电子设备11可以是手机、计算机、笔记本电脑、平板电脑、掌上电脑及可穿戴设备等。电子设备11可包括但不仅限于处理器1101、存储器1102。本领域技术人员可以理解，所述示意图仅仅是电子设备11的示例，并不构成对电子设备11的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件。

需要说明的是，由于电子设备11的处理器1101执行计算机程序1103时实现上述的图像特征值的搜索方法中的步骤，因此上述图像特征值的搜索方法的所有实施例均适用于该电子设备11，且均能达到相同或相似的有益效果。

本发明实施例还提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，该计算机程序被处理器执行时实现上述的图像特征值的搜索方法中的步骤。

即，在本发明的具体实施例中，计算机可读存储介质的计算机程序被处理器执行时实现上述的图像特征值的搜索方法中的步骤，从而在数据量继续增大的情况下，也能够提高图像特征值的搜索速度。

示例性的，计算机可读存储介质的计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。

需要说明的是，由于计算机可读存储介质的计算机程序被处理器执行时实现上述的图像特征值的搜索方法中的步骤，因此图像特征值的搜索方法中的所有实施例均适用于该计算机可读存储介质，且均能达到相同或相似的有益效果。

以上对本发明实施例进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

一种图像特征值的搜索方法，其特征在于，所述方法包括：

在获取到用于搜索与样本图像特征值匹配的目标图像特征值的查询向量时，对所述查询向量进行切分得到多个查询子向量，所述多个查询子向量与预先得到的多个子空间一一对应；

计算所述多个查询子向量中的每一查询子向量到与该查询子向量对应的子空间中所有聚类中心的距离，所述聚类中心通过对所述子空间内存在的多个待搜索图像特征值的子段进行聚类得到；

根据所述多个查询子向量中的每一查询子向量到与该查询子向量对应的子空间中所有聚类中心的距离，获取所述样本图像特征值与每一待搜索图像特征值之间的非对称距离；

根据获取到的所有非对称距离，从多个用于存储所述多个待搜索图像特征值的索引对象中进行并行搜索，获得所述目标图像特征值。
根据权利要求1所述的方法，其特征在于，所述根据所述多个查询子向量中的每一查询子向量到与该查询子向量对应的子空间中所有聚类中心的距离，获取所述样本图像特征值与每一待搜索图像特征值之间的非对称距离的步骤包括：

分别针对所述多个待搜索图像特征值中的每一待搜索图像特征值，执行以下操作：

确定该待搜索图像特征值的多个子段中的每一子段在该子段所在的子空间内所属的聚类中心；

确定所述多个查询子向量中的每一查询子向量，到所述每一子段在该子段所在的子空间内所属的聚类中心的距离；

对确定出的所有距离进行求和运算，得到所述样本图像特征值与该待搜索图像特征值之间的非对称距离。
根据权利要求1所述的方法，其特征在于，在所述计算所述多个查询子向量中的每一查询子向量到与该查询子向量对应的子空间中所有聚类中心的距离的步骤之前，所述方法还包括：

分别针对所述多个待搜索图像特征值中的每一待搜索图像特征值，对该待搜索图像特征值进行切分得到该待搜索图像特征值的多个子段；其中，所述多个子段与所述多个子空间一一对应；

针对所述多个子空间中的每一子空间，执行以下操作：

采用聚类算法对存在于该子空间内的所有子段进行聚类，得到多个聚类中心；

将所述聚类中心的编码作为聚类在该聚类中心下的子段的量化编码，并将所有子段的量化编码保存在所述多个索引对象中。
根据权利要求1所述的方法，其特征在于，所述根据获取到的所有非对称距离，从多个用于存储所述多个待搜索图像特征值的索引对象中进行并行搜索，获得所述目标图像特征值的步骤，包括：

根据获取到的所有非对称距离，采用多搜索线程从多个用于存储所述多个待搜索图像特征值的索引对象中进行并行搜索，获得所述目标图像特征值。
根据权利要求3所述的方法，其特征在于，所述根据获取到的所有非对称距离，从多个用于存储所述多个待搜索图像特征值的索引对象中进行并行搜索，获得所述目标图像特征值的步骤，还包括：

按照非对称距离从小至大的顺序，从获取到的所有非对称距离中选取预设数量的目标非对称距离；

从多个用于存储所述多个待搜索图像特征值的索引对象中进行并行搜索，获得与所述目标非对称距离对应的待搜索图像特征值的多个子段的量化编码；

根据与所述目标非对称距离对应的待搜索图像特征值的多个子段的量化编码，确定出与所述目标非对称距离对应的待搜索图像特征值，将与所述目标非对称距离对应的待搜索图像特征值作为所述目标图像特征值。
根据权利要求3所述的方法，其特征在于，所述采用聚类算法对存在于该子空间内的所有子段进行聚类，得到多个聚类中心的步骤包括：

采用K-means聚类算法对存在于该子空间内的所有子段进行聚类，得到多个聚类中心。
一种图像特征值的搜索装置，其特征在于，包括：

第一切分模块，用于在获取到用于搜索与样本图像特征值匹配的目标图像特征值的查询向量时，对所述查询向量进行切分得到多个查询子向量，所述多个查询子向量与预先得到的多个子空间一一对应；

计算模块，用于计算所述多个查询子向量中的每一查询子向量到与该查询子向量对应的子空间中所有聚类中心的距离，所述聚类中心通过对所述子空间内存在的多个待搜索图像特征值的子段进行聚类得到；

获取模块，用于根据所述多个查询子向量中的每一查询子向量到与该查询子向量对应的子空间中所有聚类中心的距离，获取所述样本图像特征值与每一待搜索图像特征值之间的非对称距离；

搜索模块，用于根据获取到的所有非对称距离，从多个用于存储所述多个待搜索图像特征值的索引对象中进行并行搜索，获得所述目标图像特征值。
根据权利要求7所述的装置，其特征在于，所述获取模块包括：

第一确定单元，用于分别针对所述多个待搜索图像特征值中的每一待搜索图像特征值，执行以下操作：确定该待搜索图像特征值的多个子段中的每一子段在该子段所在的子空间内所属的聚类中心；

第二确定单元，用于确定所述多个查询子向量中的每一查询子向量，到所述每一子段在该子段所在的子空间内所属的聚类中心的距离；

运算单元，用于对确定出的所有距离进行求和运算，得到所述样本图像特征值与该待搜索图像特征值之间的非对称距离。
一种电子设备，其特征在于，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至6中任一项所述的图像特征值的搜索方法中的步骤。
一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述的图像特征值的搜索方法中的步骤。