WO2020237511A1

WO2020237511A1 - 相似性搜索方法、装置、服务器及存储介质

Info

Publication number: WO2020237511A1
Application number: PCT/CN2019/088879
Authority: WO
Inventors: 熊思路; 何欢; 高剑
Original assignee: 华为技术有限公司
Priority date: 2019-05-28
Filing date: 2019-05-28
Publication date: 2020-12-03
Also published as: CN113811865A

Abstract

本申请公开了一种相似性搜索方法、装置、服务器及存储介质，涉及搜索技术领域。本申请通过从数据库搜索到一些对象后，将这些对象中与目标对象的相似度满足第一阈值的对象往前排，将这些对象中与目标对象的相似度不满足第一阈值的对象往后排，再按照从前往后的顺序选择对象并发往终端，由于相似度满足第一阈值的对象的置信度高于相似度不满足第一阈值的对象，相似度满足第一阈值的对象是正确结果的概率很大，那么通过将这些对象排在前面，在从前往后选择对象时，会优先选择这些对象，从而可以提升选择出正确结果的概率，让选出的正确结果的比重更大，从而有效地提升了召回率。

Description

相似性搜索方法、装置、服务器及存储介质

技术领域

本申请涉及搜索技术领域，特别涉及一种相似性搜索方法、装置、服务器及存储介质。

背景技术

相似性搜索技术在各种应用场景中已得到了广泛的使用，例如在图像搜索的场景中，可以根据用户输入的图片，来搜索相同或相似的图片，又如在网页搜索的场景中，可以根据用户输入的关键字搜索网页，又如在音频搜索的场景中，可以根据用户输入的音频搜索相同或相似的音频，又如在文档搜索的场景中，可以根据用户输入的关键字搜索相关的文档。

目前，相似性搜索方法通常包括：终端向服务器发送搜索请求，搜索请求包括待搜索的对象，例如图片、音频、关键字等。服务器接收终端的搜索请求后，会从搜索请求中，获取待搜索的对象。之后，服务器会根据待搜索的对象进行搜索。具体来说，服务器会遍历数据库中的每个对象，获取数据库中每个对象与待搜索的对象之间的距离，从数据库中选取距离最近的K个对象，返回给终端，其中K为正整数。

采用上述方法进行相似性搜索时，仅考虑了待搜索的对象与数据库的对象之间的距离，如果待搜索的对象本身包含噪声，搜索结果就会很容易受到噪声的影响，包含很多的错误结果，导致召回率低下。

发明内容

本申请实施例提供了一种相似性搜索方法、装置、服务器及存储介质，能够解决相关技术中召回率低下的问题。

第一方面，本申请实施例提供一种相似性搜索方法，所述方法包括：

接收终端的搜索指令，所述搜索指令用于指示搜索与目标对象相似的对象；对数据库进行搜索，得到第一集合，所述第一集合包括多个对象；将所述第一集合划分为第二集合以及第三集合，所述第二集合中每个对象与所述目标对象之间的相似度满足第一阈值，所述第三集合中每个对象与所述目标对象的相似度不满足所述第一阈值；按照所述第二集合中的对象在前、所述第三集合中的对象在后的顺序，对所述第一集合中的对象进行排序；按照从前往后的顺序，从所述第一集合中选择对象发往所述终端。

本实施例提供的方法，设计了一套单一输入下的重排框架，通过从数据库搜索到一些对象后，将这些对象中与目标对象的相似度满足第一阈值的对象往前排，将这些对象中与目标对象的相似度不满足第一阈值的对象往后排，再按照从前往后的顺序选择对象并发往终端，由于相似度满足第一阈值的对象的置信度高于相似度不满足第一阈值的对象，相似度满足第一阈值的对象是正确结果的概率很大，通过将这些对象排在前面，在从前往后选择对象时，会优先选择这些对象，从而可以提升选择出正确结果的概率，让选出的正确结果的比重更大，从而有效地提升了召回率。

并且，相关技术在重排时，需要基于搜索出的对象以及目标对象，构造幽灵点，再根据幽灵点在数据库中再次搜索一遍，导致运算量大、运算速度慢，并且如果幽灵点不准确，会导致召回率急剧下降。而本实施例中，基于从数据库中搜索出的第一集合即可进行重排，相对于先根据第一集合中的对象以及目标对象构造幽灵点，再根据幽灵点在数据库中再次搜索一遍的方式来说，省去了构造幽灵点的步骤以及在数据库中进行二次搜索的步骤，从而解决了重排框架运算量巨大的问题，提升了运算速度，并且避免幽灵点不准而导致召回率下降的问题，提升了鲁棒性。

在一种可能的实现中，所述将所述第一集合划分为第二集合以及第三集合，具体包括：采用多种相似度算法结合，获取所述第一集合中的对象与所述目标对象之间的综合相似度，把综合相似度满足所述第一阈值的对象加入所述第二集合，把综合相似度不满足所述第一阈值的对象加入所述第三集合。

通过这种方式，在达到第一方面所述的效果的基础上，可以结合多种相似度算法来获取综合相似度，从而综合考虑了各种相似度算法，利用不同相似度算法的优势，因此综合相似度能够更全面、更科学地反映两个对象之间的相似度，因此可以解决单一度量方式不准确的问题，提高相似度的准确性。另外，采用的多种相似度算法可以包括rank order算法或者其他考虑了群体关系的相似度算法，那么通过在度量两个对象之间的相似度时，不仅考虑了两个对象本身，也考虑与两个对象属于同一群体的其他对象，比如说在度量对象A与对象B之间的相似度时，会不仅考虑对象A以及对象B，还考虑对象A所属的群体以及对象B所属的群体，从而可以提高相似度的准确性，进而提高根据相似度选择对象时的准确性。

在一种可能的实现中，所述对数据库进行搜索，得到第一集合具体包括：采用第一相似度算法，把与所述目标对象之间的相似度满足第三阈值的对象加入所述第一集合；进一步的，所述将所述第一集合划分为第二集合以及第三集合，具体包括：采用多种相似度算法结合，获取所述第一集合中的对象与所述目标对象之间的综合相似度，把综合相似度满足所述第一阈值的对象加入所述第二集合，把综合相似度不满足所述第一阈值的对象加入所述第三集合，所述多种相似度算法包括所述第一相似度算法。

通过这种方式，通过先依据第一相似度算法得出的相似度，来得出第一集合，再在第一相似度算法的基础上，依据该第一相似度算法结合其他相似度算法得出的综合相似度，来划分第二集合和第三集合，由于第一相似度算法与其他相似度算法结合后，能够弥补第一相似度算法的度量方式的不足，达到改进第一相似度算法的目的，因此综合相似度相对于第一相似度算法得出的相似度来说，能够确保提升准确性，因此，与目标对象之间综合相似度高的对象是正确结果的概率会显著高于与目标对象之间综合相似度低的对象，也即是，第二集合整体的置信度会高于第三集合整体的置信度，因此通过将第二集合中的对象排在第三集合中的对象前面，可以确保提升第一集合中对象顺序的准确性。

在一种可能的实现中，所述第一相似度算法为欧式距离算法，所述多种相似度算法包括所述欧式距离算法以及所述欧式距离算法之外的其他相似度算法。

在一种可能的实现中，所述第三集合包括第四集合以及第五集合，所述第四集合中每个对象与所述第二集合的相似度满足第二阈值，所述第五集合中每个对象与所述第二集合的相似度不满足所述第二阈值；在所述第三集合中对象的顺序具体为：所述第四集合中的对象在前、所述第五集合中的对象在后。

通过这种方式，在达到第一方面所述的效果的基础上，将第二集合作为重排时参照的基准，由于第二集合中的对象的置信度高，如果第三集合中的对象与第二集合相似，则该对象是正确结果的概率更高，那么通过令与第二集合的相似度满足第二阈值的对象在前，与第二集合的相似度不满足阈值的对象在后，可以让第三集合中对象的排列顺序更加准确，因此在按照从前往后的顺序选取对象时，会优先选取到与第二集合的相似度满足第二阈值的对象，因此可以提高选中正确结果的概率，从而进一步提升了召回率。

在一种可能的实现中，所述将所述第一集合划分为第二集合以及第三集合之后，所述方法还包括：采用多种相似度算法结合，获取所述第三集合中的对象与所述第二集合的综合相似度，把综合相似度满足第二阈值的对象加入第四集合，把综合相似度不满足所述第二阈值的对象加入第五集合，所述第三集合包括所述第四集合以及所述第五集合，在所述第三集合中对象的顺序具体为：所述第四集合中的对象在前、所述第五集合中的对象在后。

通过这种方式，在达到第一方面所述的效果的基础上，可以结合多种相似度算法来获取综合相似度，从而综合考虑了各种相似度算法，利用不同相似度算法的优势，因此综合相似度能够更全面、更科学地反映第三集合中的对象与所述第二集合之间的相似度，因此可以解决单一度量方式不准确的问题，提高相似度的准确性。另外，采用的多种相似度算法可以包括rank order算法或者其他考虑了群体关系的相似度算法，那么在度量第三集合中的对象与所述第二集合之间的相似度时，不仅考虑了第三集合中的对象以及第二集合本身，也考虑了第三集合中的对象所属的群体以及第二集合中的对象所属的群体，从而可以提高相似度的准确性，进而提高根据相似度选择对象时的准确性。

在一种可能的实现中，所述对数据库进行搜索，得到第一集合具体包括：采用第一相似度算法，把与所述目标对象之间的相似度满足第三阈值的对象加入所述第一集合；进一步的，所述将所述第一集合划分为第二集合以及第三集合之后，所述方法还包括：采用多种相似度算法结合，获取所述第三集合中的对象与所述第二集合的综合相似度，把综合相似度满足第二阈值的对象加入第四集合，把综合相似度不满足所述第二阈值的对象加入第五集合，所述多种相似度算法包括所述第一相似度算法，所述第三集合包括所述第四集合以及所述第五集合，在所述第三集合中对象的顺序具体为：所述第四集合中的对象在前、所述第五集合中的对象在后。

通过这种方式，通过先依据第一相似度算法得出的相似度，来得出第一集合，再在第一相似度算法的基础上，依据该第一相似度算法结合其他相似度算法得出的综合相似度，来划分第四集合和第五集合，由于第一相似度算法与其他相似度算法结合后，能够弥补第一相似度算法的度量方式的不足，达到改进第一相似度算法的目的，因此综合相似度相对于第一相似度算法得出的相似度来说，能够确保提升准确性，因此，与目标对象之间综合相似度高的对象是正确结果的概率会显著高于与目标对象之间综合相似度低的对象，也即是，第四集合整体的置信度会高于第五集合整体的置信度，因此通过将第四集合中的对象排在第五集合中的对象前面，可以确保提升第一集合中对象顺序的准确性。

在一种可能的实现中，所述将所述第一集合划分为第二集合以及第三集合之后，所述方法还包括：从所述第三集合中获取簇，所述簇中的任一对象与所述簇中的其他对象之间的相关度符合预设条件；获取所述簇与所述第二集合之间的相似度，作为所述簇中的每个对象与所述第二集合之间的相似度；把相似度满足第二阈值的对象加入第四集合，把相似度不满足所述第二阈值的对象加入第五集合，所述第三集合包括所述第四集合以及所述第五集合，在所述第三集合中对象的顺序具体为：所述第四集合中的对象在前、所述第五集合中的对象在后。

通过将第三集合中相关的对象聚为簇，在达到第一方面所述的效果的基础上，将簇与第二集合的相似度来作为簇中每个对象的相似度，噪声数据会由于被划分到对应的簇中，噪声数据本身与第二集合之间的相似度会被替换为簇与第二集合之间的相似度。那么即使噪声数据本身与第二集合之间的相似度很高，也会将其拉低至簇与第二集合之间的相似度，从而有效地防止噪声数据的影响，滤除了噪声数据，解决了噪声数据而造成误判的问题，减少了搜索结果中错误结果的数量，进而极大地提升了召回率。

在一种可能的实现中，所述获取所述簇与所述第二集合之间的相似度，包括：从所述簇中选取代表点，获取所述代表点与所述第二集合之间的相似度，作为所述簇与所述第二集合之间的相似度，所述代表点用于代表所述簇中的每个对象。

通过这种实现方式，可以使用代表点，来代替整个簇中的所有对象，去和第二集合进行度量，相对于使用簇中的所有对象逐一和第二集合进行度量的方式来说，可以减少计算量，从而提高计算速度。并且，代表点可以是簇的中心点，通过中心点能够更准确地计算簇与所述第二集合之间的相似度，避免簇边缘的噪声点影响相似度的准确性。

在一种可能的实现中，所述获取所述簇与所述第二集合之间的相似度，包括：获取所述簇中的每个对象与所述第二集合之间的相似度，根据所述每个对象与所述第二集合之间的相似度，获取所述簇与所述第二集合之间的相似度。

通过这种实现方式，提供一种可以适用于包含对象较少的簇的度量方式，提高了灵活性。

在一种可能的实现中，所述按照所述第二集合中的对象在前、所述第三集合中的对象在后的顺序，对所述第一集合中的对象进行排序，具体包括：将所述第二集合存入第一队列；将所述第四集合存入第二队列；将所述第五集合存入第三队列；按照所述第一队列最前、所述第二队列其次、所述第三队列最后的顺序，对所述第一集合中的对象进行排序。

通过这种方式，在达到第一方面所述的效果的基础上，设计了一套基于队列的重排框架，通过将第二集合加入第一队列，将第四集合加入第二队列，将第五集合加入第三队列，可以将从数据库中搜索出的对象划分出多种队列，在选取对象时，通过第一队列中的对象排在前、第二队列中的对象排在中间，第三队列中的对象排在最后，在按照从前到后的顺序选取对象时，会高优先选取第一队列中的对象，其次优先选取第二队列中的对象，低优先选取第三队列中的对象，那么由于三种队列中，第一队列中对象的置信度最高，第二队列中对象的置信度其次，第三队列中对象的置信度最低，在选取的对象的总数目一定的情况下，能够提高选取置信度高的对象的概率，降低选取置信度低的对象的概率，从而提高搜索结果中置信度高的对象的占比，因此可以提高搜索结果的召回率，并且，能够让置信度高的对象置于搜索结果的前列，提高搜索结果顺序的准确性。

在一种可能的实现中，所述按照所述第二集合中的对象在前、所述第三集合中的对象在后的顺序，对所述第一集合中的对象进行排序，具体包括：将所述第二集合存入第一队列；将所述第三集合存入第二队列；按照所述第一队列在前、所述第二队列在后的顺序，对所述第一集合中的对象进行排序。

通过这种方式，在达到第一方面所述的效果的基础上，设计了一套基于队列的重排框架，通过将第二集合加入第一队列，将第三集合加入第二队列，可以将从数据库中搜索出的对象划分出多种队列，在选取对象时，通过将第一队列中的对象排在前、第二队列中的对象排在后，在按照从前到后的顺序选取对象时，会高优先选取第一队列中的对象，低优先选取第二队列中的对象，那么由于第一队列中对象的置信度高于第二队列中对象，在选取的对象的总数目一定的情况下，能够提高选取置信度高的对象的概率，降低选取置信度低的对象的概率，从而提高搜索结果中置信度高的对象的占比，因此可以提高搜索结果的召回率，并且，能够让置信度高的对象置于搜索结果的前列，提高搜索结果顺序的准确性。

在一种可能的实现中，对于所述第二集合中的每个对象，所述对象与所述目标对象的相似度越大，所述对象在所述第二集合中的排列位置越靠前。

通过将第二集合内部的排列顺序与目标对象的相似度关联起来，让与目标对象相似度大的对象排在前面，与目标对象相似度小的对象排在后面，可以进一步提升候选对象排列顺序的准确性，由于与目标对象相似度大的对象是正确结果的概率更高，并且这种对象被放在前面，在按照前往后的顺序依次选择对象时，可以提升选择的对象中正确结果的比例，并且可以尽量让正确结果排在搜索结果的前面，从而让终端呈现搜索结果时，正确结果的显示位置会更靠前。比如说，对于第二集合中与目标对象的相似度最大的对象来说，该对象会在第二集合中排在第一位，那么也就会在第一集合中排在第一位，服务器将选择的对象发往终端后，终端呈现的搜索结果中，该对象会排在搜索结果的第一位。并且，与目标对象之间的相似度小的对象会被排在搜索结果的后面，或者可以避免被放入让搜索结果中正确结果的比例更高，从而有效地提高了搜索的召回率。

在一种可能的实现中，对于所述第三集合中的每个对象，所述对象与所述第二集合的相似度越大，所述对象在所述第三集合中的排列位置越靠前。

通过将第三集合内部的排列顺序与第二集合的相似度结合起来，让与第二集合相似度大的对象排在前面，与第二集合相似度小的对象排在后面，可以进一步提升候选对象排列顺序的准确性，由于与第二集合相似度大的对象排在与第二集合相似度小的对象之前，而与第二集合相似度大的对象是正确结果的概率高于与第二集合相似度小的对象，在按照前往后的顺序依次选择对象时，可以提升选择的对象中正确结果的比例，能够尽量多地选择与第二集合相似的对象，从而让搜索结果中正确结果的比重更大，从而有效地提升了召回率。并且，与第二集合之间的相似度小的对象会被排在搜索结果的后面，或者可以避免被放入搜索结果中，从而减少了搜索结果的错误结果的数量，从而有效地提高了搜索的召回率。

在一种可能的实现中，所述将所述第一集合划分为第二集合以及第三集合，具体包括：从所述第一集合中获取簇，所述簇中的任一对象与所述簇中的其他对象之间的相关度符合预设条件；获取所述簇与所述目标对象之间的相似度，作为所述簇中的每个对象与所述目标对象之间的相似度；把相似度满足所述第一阈值的对象加入所述第二集合，把相似度不满足所述第一阈值的对象加入所述第三集合。

通过将第一集合中相关的对象聚为簇，将簇与目标对象的相似度来作为簇中每个对象的相似度，由于噪声数据被划分到对应的簇中，噪声数据与目标对象之间的相似度会被替换为簇与目标对象之间的相似度，因此，即使噪声数据本身与目标对象之间的相似度很高，由于没有使用噪声数据与目标对象之间的相似度，而是使用了该噪声数据所属的簇与目标对象之间的相似度，可以将噪声数据对应的相似度拉低到簇对应的相似度，可以有效地防止噪声数据的影响，将噪声数据提前排除掉，从而解决了由于噪声数据而造成误判的问题，减少了搜索结果中错误结果的数量，进而极大地提升了召回率。

第二方面，本申请实施例提供一种相似性搜索装置，所述装置用于执行上述相似性搜索方法。具体地，该相似性搜索装置包括用于执行上述第一方面或第一方面任意可能的实现方式的功能模块。

第三方面，本申请实施例提供一种服务器，所述服务器包括一个或多个处理器和一个或多个存储器，所述一个或多个存储器中存储有至少一条指令，所述指令由所述一个或多个处理器加载并执行以实现上述第一方面或第一方面任意可能的实现方式提供的方法。

第四方面，本申请实施例提供一种服务器集群，所述服务器集群包括至少一个服务器，每个服务器包括一个或多个处理器和一个或多个存储器，所述至少一个服务器的存储器中存储有至少一条指令，所述指令由所述至少一个服务器的处理器加载并执行以实现上述第一方面或第一方面任意可能的实现方式提供的方法。

第五方面，本申请实施例提供一种计算机可读存储介质，所述存储介质中存储有至少一条指令，所述指令由处理器加载并执行以实现上述第一方面或第一方面任意可能的实现方式提供的方法。该存储介质中存储了程序。该存储介质的类型包括但不限于易失性存储器，例如随机访问存储器，非易失性存储器，例如快闪存储器、硬盘(hard disk drive，HDD)、固态硬盘(solid state drive，SSD)。

第六方面，本申请实施例提供一种芯片，该芯片包括处理器，用于从存储器中调用并运行存储器中存储的指令，使得安装有所述芯片的设备执行上述相似性搜索方法。

第七方面，本申请实施例提供另一种芯片，包括输入接口、输出接口、处理器和存储器，所述输入接口、输出接口、所述处理器以及所述存储器之间通过内部连接通路相连，所述处理器用于执行所述存储器中的指令，当所述指令被执行时，所述处理器用于执行上述相似性搜索方法。

第八方面，本申请实施例提供一种计算机程序，所述计算机程序包括用于执行上述第一方面或第一方面任意可能的实现方式的指令。该计算机程序可以为一个软件安装包，在需要使用上述相似性搜索方法的情况下，可以下载该计算机程序并在服务器上执行该计算机程序。

第九方面，本申请实施例提供一种相似性搜索系统，所述相似性搜索系统包括终端以及服务器，所述终端用于向服务器发送搜索指令，所述服务器用于执行上述第一方面或第一方面任意可能的实现方式，所述终端还用于接收服务器发送的对象。

附图说明

图1是本申请实施例提供的一种应用场景的示意图。

图2是本申请实施例提供的一种相似性搜索系统的结构框图。

图3是本申请实施例提供的一种相似性搜索方法的流程图。

图4是本申请实施例提供的一种划分第二集合和第三集合的示意图。

图5是本申请实施例提供的一种划分第二集合和第三集合的示意图。

图6是本申请实施例提供的一种相似性搜索方法的流程图。

图7是本申请实施例提供的一种划分第一队列和第二队列的示意图。

图8是本申请实施例提供的一种相似性搜索方法的流程图。

图9是本申请实施例提供的一种划分第四集合和第五集合的示意图。

图10是本申请实施例提供的一种划分第四集合和第五集合的示意图。

图11是本申请实施例提供的一种相似性搜索方法的流程图。

图12是本申请实施例提供的一种划分第一队列、第二队列和第三队列的示意图。

图13是本申请实施例提供的一种相似性搜索装置的结构框图。

图14是本申请实施例提供的一种服务器的结构框图。

图15是本申请实施例提供的一种服务器集群的结构示意图。

图16是本申请实施例提供的另一种服务器集群的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

本申请中术语“第一”“第二”等字样用于对作用和功能基本相同的相同项或相似项进行区分，应理解，“第一”、“第二”、“第n”之间不具有逻辑或时序上的依赖关系，也不对数量和执行顺序进行限定。

以下，介绍本申请使用的概念。

对象：可以而不限于是图像、网页、文档、音频、资讯、视频中的任一项或多项的组合。其中，图像可以而不限于人脸图像、人体图像、足迹图像、步态图像、表情包图像、地点图像、车辆图像、商品图像、风景图像、建筑图像、影视图像、食品图像、游戏图像、植物图像、动物图像中的任一项及其组合。

目标对象：是指待搜索的对象，例如query(查询)命令中所请求搜索的内容，也可以称为搜索项或查询。

相似度算法：也称度量算法，用于度量数据空间中两个数据点之间的距离。本实施例中，可以用相似度算法来度量两个对象之间的相似程度。在计算机技术中，相似度算法可以通过函数(一种计算机程序)来实现。相似度算法可以而不限于是欧式距离(英文：euclidean distance)算法、等级排序(英文：rank order)算法、机器学习模型、欧式距离的标准化(英文：standardized euclidean distance)算法、马氏距离(英文：mahalanobis distance)算法、曼哈顿距离(英文：manhattan distance)算法、切比雪夫距离(英文：Chebyshev distance)算法、明可夫斯基距离(英文：Minkowski distance)算法、海明距离(英文：Hamming distance)算法、余弦相似度(英文：Cosine similarity)算法、皮尔森相关系数(英文：Pearson correlation coefficient)算法、Jaccard相似系数算法、对数似然相似度算法、互信息增益算法、信息增益算法、相对熵算法、KL散度(Kullback-Leibler divergence)、点互信息(英文全称：pointwise mutual information，英文简称：PMI)算法中的任一项及其组合。

以图搜图：是指输入一张图像后，从数据库的海量图像中，搜索并返回与这张图像相似的一个或多个图像的功能。

召回率(recall)：在搜索技术中，如果共计返回K个结果，这K个结果中包含n个正确结果，则n与K的比值是召回率，其中K为正整数，n为正整数或0。例如，应用在以图搜图的场景中，如果输入了用户A的照片，要求返回用户A的10张照片，而实际返回的10张照片中6张照片是用户A的照片，而4张照片是用户B的照片，则召回率为6/10＝0.6，其中/表示相除。

候选解(candidate)：如果要求返回的对象的数目是K，而先从数据库中搜索出数量大于K个的对象，比如搜索出(2*K)个对象，则这些对象可以称为候选解，后续会从这些对象中选择K个对象作为搜索结果。

重排(rerank)：是指得到候选解后，对候选解按照设定的排序方式进行重新排序，从而改变候选解原始的内部顺序，而形成新的内部顺序的过程。在进行重排后，可以按照候选解的新的顺序，按照从前到后的顺序从候选解中，选择排在第一位至排在第K位的对象，这K个对象通俗来讲叫做TOP K结果(前K个结果)，可以将这K个对象作为搜索结果，返回这K个对象。

聚类(clustering)：是指针对给定的多个数据以及聚类算法，将多个数据中满足条件的数据归为一类的过程。

聚类算法：可以而不限于是k均值聚类算法(英文：k-means clustering algorithm)、密度聚类算法、图聚类算法、层次聚类(hierarchical clustering)算法、基于网络的聚类算法、基于模糊的聚类算法、基于约束的聚类算法、基于约束的聚类算法、基于粒度的聚类算法、核聚类算法、量子聚类算法中的任一种或多种的结合。

队列(queue)：一种存放数据的数据结构。

综合相似度：是指结合多种相似度算法得出的相似度。具体地，每种相似度算法可以得出一个相似度，对多种相似度算法得出的多个相似度进行结合，可以得到综合相似度。例如，可以为每种相似度算法分配对应的权重，根据每种相似度算法对应的权重，对多种相似度算法得出的多个相似度进行结合。其中，每个相似度算法对应的权重可以根据指令、实验、经验或需求设置。例如，相似度算法对应的权重可以与相似度算法的精确性正相关。比如说，如果欧式距离算法的精确性小于rank order算法，则欧式距离算法的权重可以小于rank order算法的权重的权重。

在一些可能的实施例中，结合多种相似度算法的方式包括而不限于平均、加权平均、求和、加权求和中的任意一项或者多项的组合。例如，如果多种相似度算法为相似度算法1以及相似度算法2，相似度算法1得出相似度1，相似度算法2得出相似度2，可以根据相似度算法1的权重以及相似度算法2的权重，对相似度1和相似度2进行加权平均，将加权平均值作为综合相似度；或者，根据相似度算法1的权重以及相似度算法2的权重，对相似度1和相似度2进行加权求和，将加权和值作为综合相似度；或者，对相似度1和相似度2进行求和，将和值作为综合相似度；或者，对相似度1和相似度2进行求平均，将平均值作为综合相似度。

以下，示例性介绍本申请的应用场景。

本申请实施例可以用于进行基于相似性的搜索。相似性搜索属于语义搜索，可以搜索与已知对象相似的对象。相关技术中一种相似性搜索是Facebook(中文称脸书)公司的Faiss。相似性搜索是一种非匹配性的搜索，例如给出一张图片，搜出类似的图片；或者给出一个词语，搜索类似的词语，给出一段话，搜出类似的一段话。反之，在目前的文本编辑软件中(例如Microsoft office word2013，微软推出的一种文本编辑软件)使用的是匹配性搜索，只有完全与目标词语/语句完全一致的内容才能被检索到。

示意性地，可以应用在以图搜图的场景，用户可以在终端上输入某张图像，服务器可以根据终端提供的图像，从数据库中搜索与其相似的其他图像，将这些图像返回给终端。例如，用户想要知道图像中的某个人是谁，可以在终端上输入这个人的图像，服务器从数据库中搜索与这张图像相似的其他图像，返回与这张图像相似的其他图像，并且数据库中可以存有图像对应的身份信息，服务器可以在返回图像时，将图像对应的身份信息一起返回，从而帮助识别这个人的身份。又如，用户看上了某件商品，想要知道这件商品的购买地址、价格等，可以使用终端拍摄商品图像，在终端上输入商品图像，服务器从数据库中搜索与这幅商品图像相似的其他商品图像，返回与这幅商品图像相似的其他商品图像，并且数据库可以存有商品图像对应的购买地址、价格等，服务器可以在返回其他商品图像时，可以将其他商品图像对应的购买地址、价格一起返回，从而帮助用户快速购买商品；又如，用户想要知道某种狗的品种，可以在终端输入这只狗的图像，服务器从数据库中搜索与这张图像相似的狗的图像，从而帮助识别狗的品种。

示意性地，参见图1，在监控安防领域，可以预先通过在各处布设的摄像头，抓拍大量的人脸照片，从每张人脸照片分别提取人脸特征，将大量的人脸特征存入人脸特征库。当用户想要搜索与某张照片相似的其他3张照片时，可以将这张照片发送至服务器，服务器可以这张照片作为待搜索的人脸图像，从这张照片中提取人脸特征，对人脸特征库进行搜索，得到10个人脸特征，再通过下述实施例中的重排过程，对10个人脸特征进行排序，选择排在前3位的人脸特征，将这3个人脸特征对应的3张照片返回终端。

当然，使用图来进行相似性搜索的场景仅是示意，本申请也可以应用在使用文档来进行相似性搜索的场景，即根据给定的文档，从文档数据库中搜索与其相似的其他文档。比如说，用户可以给定一篇论文，通过实施本申请提供的方法，可以从论文数据库中找到与这篇论文相似度最高的一些论文，另外还可以返回每篇论文与这篇论文的相似度，从而可以判定是否已经存在与该论文大面积重复的其他论文，从而实现论文查重的功能；又如，可以应用在使用音频来进行相似性搜索的场景，即根据给定的音频，从音频数据库中搜索与其相似的其他音频，比如用户哼唱了歌曲片段，可以录制该歌曲片段，从歌曲库中搜索与用户哼唱的歌曲片段相似的歌曲。

以下，示例性介绍本申请的系统架构。

图2是本申请实施例提供的一种相似性搜索系统的结构框图。该相似性搜索系统包括：终端210和搜索平台220。

终端210通过无线网络或有线网络与搜索平台220相连。终端210可以是智能手机、游戏主机、台式计算机、平板电脑、电子书阅读器、MP3播放器、MP4播放器和膝上型便携计算机中的至少一种。终端210可以安装和运行有支持搜索的应用程序，搜索平台220用于为该应用程序提供后台服务。示意性地，终端210可以是用户使用的终端，终端210中运行的应用程序内登录有用户在搜索平台220上注册的账号。其中，该应用程序可以是搜索引擎的客户端，或者可以是搜索引擎的网页版。或者，该应用程序可以是购物类应用程序、音频程序、视频程序、社交应用程序、即时通讯应用程序、翻译类应用程序、浏览器程序中的任意一种，该应用程序中内置有搜索的功能，比如说配置有以图搜图的组件，例如该应用程序可以是具有识图购物功能的购物类应用程序。

搜索平台220可以而不限于运行在云环境、边缘环境或者终端环境中的任意一种，例如可以运行在公有云、私有云或混合云上。搜索平台220可以作为云搜索服务向用户提供。搜索平台220包括服务器2201以及数据库2202。

服务器2201用于执行下述图3实施例的方法。服务器2201通过无线网络或有线网络与数据库2202相连。服务器2201可以包括一台服务器、多台服务器、云计算平台或者虚拟化中心中的至少一种。服务器2201可以是一台或多台。当服务器2201是多台时，存在至少两台服务器2201用于提供不同的服务，和/或，存在至少两台服务器2201用于提供相同的服务，比如以负载均衡方式提供同一种服务，本申请实施例对此不加以限定。在一些可能的实施例中，服务器2201可以是弹性云服务器(英文全称：elastic cloud server，英文简称：ECS)、虚拟机、容器、在云环境中运行的应用、服务或微服务。

数据库2202用于存储多个对象。数据库2202可以位于一台存储设备上，也可以分布在多个存储设备上。数据库2202可以通过云存储服务实现，例如，数据库2202可以为对象存储服务(英文全称：object storage service，英文简称：OBS)、云硬盘、云数据库等。

本领域技术人员可以知晓，图1仅是以服务器2201与数据库2202分置在不同的设备为例进行说明，在其它可能的实施方式中，服务器2201与数据库2202也可以集成在一起，服务器2201与数据库2202可以位于同一设备上。

本领域技术人员可以知晓，上述终端的数量可以更多或更少。比如上述终端可以仅为一个，或者上述终端为几十个或几百个，或者更多数量，此时上述相似性搜索系统还包括其他终端。本申请实施例对终端的数量和设备类型不加以限定。

以下，示例性介绍本申请的方法流程。

图3是本申请实施例提供的一种相似性搜索方法的流程图，如图3所示，该方法包括下述步骤301至306：

步骤301、终端向服务器发送搜索指令。

搜索指令用于指示搜索与目标对象相似的对象。可选地，搜索指令可以包括目标对象。目标数目为需要搜索出的对象的数目。搜索指令可以根据用户对终端的操作触发。例如，用户可以在终端上输入目标对象，终端可以根据目标对象，生成该搜索指令。在一个示例性场景中，用户需要搜索与某张照片相似的照片，则用户可以在终端上输入这张照片，再点击确认选项，则终端会生成搜索指令，则这张照片即为目标对象。

当然，目标对象也可以不由终端提供，例如终端提供该目标对象的网址给服务器，服务器可以通过网络获得该目标对象。

步骤302、服务器接收终端的搜索指令。

服务器收到搜索指令后，可以获取目标对象以及目标数目，以便根据目标对象以及目标数目执行后续步骤。其中，目标数目为需要搜索出的对象的数目，目标数目可以是正整数。

关于获取目标对象的方式，可选地，服务器可以解析搜索指令，得到搜索指令携带的目标对象。服务器也可以解析搜索指令，得到搜索指令得到的目标对象的网址，根据该网址，通过网络来获得目标对象。关于获取目标数目的方式，可选地，服务器可以解析搜索指令，得到搜索指令携带的目标数目，也可以由服务器确定目标数目。例如，服务器可以预先设定默认数目，将默认数目作为目标数目，比如说，服务器可以默认返回10个对象给终端，则10为目标数目。

步骤303、服务器对数据库进行搜索，得到第一集合。

数据库中预先存有大量的对象，比如说可以包括百万量级的对象。对于数据库中的每个对象，服务器可以获取数据库中的该对象与目标对象之间的相似度，判断相似度是否满足第三阈值，当相似度满足第三阈值时，服务器将数据库中的该对象加入第一集合。在一些可能的实施例中，服务器可以采用第一相似度算法，获取数据库中的对象与目标对象之间的相似度，根据该相似度，把与该目标对象之间的相似度满足第三阈值的对象加入该第一集合。其中，第一相似度算法可以是欧式距离算法，当然也可以根据需求设置为其他相似度算法，本实施例对第一相似度算法具体是哪种相似度算法不做限定。

第一集合可以称为候选解集合，第一集合包括多个对象，每个对象可以称为一个候选解。第一集合中对象的数目大于该目标数目，例如，第一集合中对象的数目与目标数目之间的比值可以为预设比值，例如，如果目标数目为K，第一集合可以包括(2*K)个对象，后续会从这(2*K)个对象中选择K个对象，将这K个对象发往终端，其中K为正整数。

第一集合中的每个对象与目标对象之间的相似度可以满足第三阈值。在一些可能的实施例中，相似度满足第三阈值可以指相似度大于第三阈值，相似度不满足第三阈值可以指相似度小于或等于第三阈值。在另一些可能的实施例中，相似度满足第三阈值可以指相似度大于或等于第三阈值，相似度不满足第三阈值可以指相似度小于第三阈值。其中，第三阈值可以根据实验、经验或需求设置，第三阈值可以预先存储在服务器中。

服务器搜索得到第一集合后，可以将第一集合从数据库存储在服务器自身的存储器中，例如将第一集合缓存在服务器的内存中，或者可以将第一集合存储在服务器包含的非易失性可读存储介质中，比如将第一集合存储在快闪存储器、硬盘(英文全称：hard disk drive，英文简称：HDD)、固态硬盘(英文全称：solid state drive，英文简称：SSD)中。当然，服务器也可以将第一集合存储在该服务器之外的其他设备中，比如可以将第一集合发送至网络存储器，通过网络存储器来存储第一集合，其中网络存储器可以是云盘、云数据库或对象存储服务。本实施例对第一集合的存储位置不做限定。

在一些可能的实施例中，第一集合中的各个对象可以按照与目标对象的相似度的大小顺序依次排序。对于第一集合中的每个对象，如果该对象与目标对象的相似度越大，则该对象在第一集合中的排列位置越靠前。例如，第一集合中的第一个对象，可以是第一集合中与目标对象的相似度最大的对象，比如说是与目标对象之间的欧式距离最小的对象。

在一些可能的实施例中，服务器可以先将数据库中的对象加入到第一集合中，再按照相似度从大到小的顺序，对第一集合中的每个对象进行排序。在另一些可能的实施例中，服务器也可以在搜索的过程中，就按照相似度从大到小的顺序来将对象依次加入到第一集合中，比如说，可以每当搜索到一个对象i，可以对对象i与目标对象之间的相似度,与第一集合中已有的对象与目标对象之间的相似度进行比较，如果对象k与目标对象之间的相似度高于对象i与目标对象之间的相似度，对象m与目标对象之间的相似度低于对象i与目标对象之间的相似度，则将对象i加入到对象k与对象m之间，其中i、k或m表示对象的标识。

步骤304、服务器将第一集合划分为第二集合以及第三集合。

第二集合中的每个对象与目标对象之间的相似度满足第一阈值，第三集合中的每个对象与目标对象的相似度不满足第一阈值。其中，第一阈值可以根据实验、经验或需求设置，第一阈值可以预先存储在服务器中，第一阈值可以是本实施例涉及的各个阈值中最高的阈值。第一阈值可以高于后文中的第二阈值以及第三阈值。

在一些可能的实施例中，相似度满足第一阈值可以指相似度大于第一阈值，相似度不满足第一阈值可以指相似度小于或等于第一阈值。在另一些可能的实施例中，相似度满足第一阈值可以指相似度大于或等于第一阈值，相似度不满足第一阈值可以指相似度小于第一阈值。相对于第三集合中的对象来说，由于第二集合中的对象与目标对象之间的相似度高于第一阈值，第二集合中的对象是正确结果的概率更高，因此第二集合中的对象的置信度更高，可以将第二集合中的对象视为可信的对象。第二集合可以记为可信解集合，第二集合中的对象在重排时，顺序优先级是最高的。

关于划分出第二集合以及第三集合的方式，在一些可能的实施例中，服务器可以获取第一集合中每个对象与目标对象之间的相似度，根据第一集合中每个对象与目标对象之间的相似度，把第一集合中的每个对象按照相似度是否满足第一阈值，划分为第二集合以及第三集合。例如，服务器可以创建第二集合以及第三集合；对于第一集合中的每个对象，服务器可以获取该对象与目标对象之间的相似度，再判断该对象与目标对象之间的相似度是否满足第一阈值；如果该对象与目标对象之间的相似度满足第一阈值，则把该对象加入第二集合；如果该对象与目标对象之间的相似度不满足第一阈值，则把该对象加入第三集合。

需要说明的一点是，步骤304中划分第二集合以及第三集合所依据的相似度，与步骤303中将对象加入到第一集合所依据的相似度，可以是不同的相似度，也可以是相同的相似度。具体来说，可以直接复用步骤303所依据的相似度，来划分第二集合以及第三集合，则在执行步骤304时，可以无需重新获取第一集合中的对象与目标对象之间的相似度。当然，在步骤304中，也可以重新获取第一集合中的对象与目标对象之间的相似度，获取相似度的方式可以和步骤303中获取相似度的方式不同。比如说，如果步骤303中采用了相似度算法A来获取数据库中对象与目标对象之间的相似度，步骤304中可以重新采用相似度算法B来获取第一集合中的对象与目标对象之间的相似度，或者重新采用相似度算法A+相似度算法B来获取第一集合中的对象与目标对象之间的相似度，本实施例对步骤304中是否执行获取相似度的步骤不做限定，也不对步骤304中获取相似度的方式进行限定。

对于第一集合中的每个对象来说，获取该对象与目标对象之间的相似度的过程，可以理解为对该对象进行打分操作，而该对象与目标对象之间的相似度，可以理解为该对象的分数，能够反映该对象的置信度。

在一些可能的实施例中，服务器可以采用多种相似度算法结合，获取第一集合中对象与目标对象之间的综合相似度，把综合相似度满足第一阈值的对象加入到第二集合，把综合相似度不满足第一阈值的对象加入第三集合，

在一些可能的实施例中，步骤303具体可以包括：对于第一集合中的任一对象来说，服务器可以采用多种相似度算法中的每种相似度算法，分别获取该对象与目标对象之间的相似度，得到多种相似度算法对应的多个相似度，对多个相似度进行结合，得到该对象与目标对象之间的综合相似度。以结合方式为加权平均为例，可以为每个相似度算法分配对应的权重，在每个相似度算法得出对象与目标对象之间的相似度之后，可以根据每个相似度算法对应的权重，对多个相似度进行加权平均，将加权平均值作为该对象与目标对象之间的综合相似度。

示意性地，参见图4，对于第一集合中的每个对象，可以采用欧式距离算法获取该对象与目标对象之间的相似度，采用rank order算法获取该对象与目标对象之间的相似度，采用机器学习模型获取该对象与目标对象之间的相似度，得到3个相似度，再将这3个相似度结合为1个相似度，这个相似度即为综合相似度，可以判断综合相似度是否满足第一阈值，如果综合相似度满足第一阈值，将这个对象加入第二集合，如果相似度不满足第一阈值，将这个对象加入第三集合。

下面描述结合多种相似度算法来获取综合相似度的效果：

一方面，相关技术中，通常仅通过一种相似度算法来获取两个对象之间的相似度，而单一的相似度算法通常具有局限性，导致相似度的准确性差。而本实施例中，通过结合多种相似度算法来获取综合相似度，可以利用不同相似度算法的优势，综合考虑了各种相似度算法，综合相似度能够更全面、更科学地反映两个对象之间的相似度，因此可以解决单一度量方式不准确的问题，提高相似度的准确性。

另一方面，相关技术中，通常仅通过欧式距离算法来获取相似度，那么由于欧式距离算法在度量两个对象之间的相似度时，仅会考虑了两个对象本身，而忽视了与两个对象邻近的其他对象，导致相似度的准确性差。而本实施例中，采用的多种相似度算法可以包括rank order算法或者其他考虑了群体关系的相似度算法，那么通过在度量两个对象之间的相似度时，不仅考虑了两个对象本身，也考虑与两个对象属于同一群体的其他对象，比如说在度量对象A与对象B之间的相似度时，会不仅考虑对象A以及对象B，还考虑对象A所属的群体以及对象B所属的群体，从而可以提高相似度的准确性，进而提高根据相似度选择对象时决策的准确性。

在一些可能的实施例中，划分第二集合以及第三集合时采用的多种相似度算法可以包括第一相似度算法，即在数据库时进行搜索时所采用的相似度算法。另外，该多种相似度算法还可以包括第一相似度之外的其他相似度算法。例如，第一相似度算法可以是欧式距离算法，该多种相似度算法可以包括欧式距离算法以及rank order算法。

通过先依据第一相似度算法得出的相似度，来得出第一集合，再在第一相似度算法的基础上，依据该第一相似度算法结合其他相似度算法得出的综合相似度，来划分第二集合和第三集合，由于第一相似度算法与其他相似度算法结合后，能够弥补第一相似度算法的度量方式的不足，达到改进第一相似度算法的目的，因此综合相似度相对于第一相似度算法得出的相似度来说，能够确保提升准确性，因此，与目标对象之间综合相似度高的对象是正确结果的概率会显著高于与目标对象之间综合相似度低的对象，也即是，第二集合整体的置信度会高于第三集合整体的置信度，因此通过将第二集合中的对象排在第三集合中的对象前面，可以确保提升第一集合中对象顺序的准确性。

需要说明的一点是，采用多种相似度算法结合，来获取第一集合中对象与目标对象之间的综合相似度仅是一种示意性实施方式，在另一些可能的实施例中，服务器也可以仅采用一种相似度算法，来获取第一集合中对象与目标对象之间的相似度，例如仅是采用欧式距离算法，获取第一集合中对象与目标对象之间的相似度，或者仅是采用rank order算法，获取第一集合中对象与目标对象之间的相似度。之后，根据一种相似度算法获取的相似度，把相似度满足第一阈值的对象加入第二集合，把相似度不满足第一阈值的对象加入第三集合。

在一些可能的实施例中，可以在第一集合内部划分出簇，根据对象所属的簇来获取相似度。具体来说，这种方式可以包括下述步骤一至步骤二。

步骤一、服务器从第一集合中获取簇。

簇也可以称为类，簇包括多个对象，簇中的任一对象与簇中的其他对象之间的相似度符合预设条件，从第一集合获取到的簇的数量可以为一个或多个。具体来说，簇内部的不同对象之间互相相似，簇中的所有对象具有一定的共性。比如说，如果第一集合中的每个对象是图像，则簇可以是同一个人的图像，例如簇1中的各个图像可以均是用户A的图像，簇2中的各个图像可以均是用户B的图像。

在一些情况下，对于相似度的值差别比较大的不同对象来说，如果这些对象在相似度之外的其他属性上有相似之处，则这些对象也应该被识别成相似的对象，因此，可以引入簇和相关度的概念来描述这些对象的相似性。例如：同一个人的多张图片原本应该被识别同一个人的图片，但是由于拍摄角度不同或者穿着不同，可能导致在计算这些图片的相似度时，不同图片的相似度的值的差别比较大。本实施例中，会根据这些图片的相关度，把这些图片标记为同一个簇，簇内的图片会共用相同的相似度，而不以各个图片各自计算出来的相似度为准。例如，如果簇内有N个图片，这N个图片会共用同一个相似度，而不是图片1以图片1自己的相似度为准，图片2以图片2自己的相似度为准，N为正整数。

在一些可能的实施例中，簇的获取方式可以包括下述方式一至方式二中的至少一项。

方式一、服务器可以采用聚类算法，对第一集合进行聚类，得到簇。

方式二、对于第一集合中的每个对象，服务器获取该对象与第一集合中该对象之外的其他对象之间的相关度，根据每个对象与其他对象之间的相关度，获取相关度满足预设条件的多个对象，将相关度满足预设条件的多个对象划分为簇。

服务器可以对第一集合中的多个对象进行两两比对，得到第一集合中任两个对象之间的相关度，服务器可以判断第一集合中每个对象与第一集合中其他对象之间的相关度是否满足预设条件，如果第一集合中对象与第一集合中其他对象之间的相关度满足预设条件，则将第一集合中的该对象划分至簇，如果第一集合中对象与第一集合中其他对象之间的相关度不满足预设条件，则将第一集合中的该对象作为散点。其中，相关度满足预设条件可以而不限于是相关度满足第四阈值，例如如果第一集合中两个对象之间的相关度满足第四阈值，则将这两个对象划分到同一个簇中。

在一些可能的实施例中，服务器可以根据第一集合每个对象与第一集合中其他对象之间的相关度，生成相关度矩阵，服务器可以遍历相关度矩阵，根据相关度矩阵，寻找相关度满足相关度条件的对象，将这些对象划分为簇，将相关度矩阵中簇之外的剩余对象作为散点。其中，相关度矩阵可以如表1所示，相关度矩阵的每一行代表一个对象，相关度矩阵的每一列代表一个对象，相关度矩阵中每一个元素等于行对应的对象与列对应的对象之间的相关度。其中，相关度矩阵的行数可以等于第一集合中对象的数目，相关度矩阵可以的列数等于第一集合中对象的数目。

表1

步骤二、服务器获取簇与目标对象之间的相似度，作为簇中的每个对象与目标对象之间的相似度。

通过将簇与目标对象之间的相似度作为簇中每个对象与目标对象之间的相似度，如果簇与目标对象之间的相似度满足第一阈值，则会将簇中每个对象均加入到第二集合，如果簇与目标对象之间的相似度不满足第一阈值，则会将簇中每个对象均加入到第三集合。也即是，通过这种方式，同一个簇中的各个对象所属的集合可以相同。

另外，在将簇中的对象划分为簇后，可以有一个或多个对象没有对应的簇，这些没有簇的对象可以称为散点，对于散点来说，可以直接获取散点与目标对象的相似度，判断相似度是否满足第一阈值，如果相似度满足第一阈值，则将散点划分至第二集合，如果相似度不满足第一阈值，则将散点划分至第三集合。

在一些可能的实施例中，获取簇与目标对象之间的相似度的方式包括而不限于下述方式(1)至方式(2)中的任意一项及其组合：

方式(1)服务器从簇中选取代表点，服务器获取代表点与目标对象之间的相似度，作为簇与目标对象之间的相似度。

代表点用于代表簇中的每个对象，可以使用代表点，来代表整个簇中的所有对象，去和目标对象进行度量。其中，可以从簇中任取对象作为代表点；也可以选择簇中心，作为代表点；也可以选择簇中心邻近的对象，作为代表点，本实施例对选择代表点的方式不做限定。其中，代表点可以是一个对象，也可以是多个对象组成的集合。如果代表点包括多个对象，可以获取每个代表点与目标对象之间的相似度；可以对每个代表点与目标对象之间的相似度求平均，将平均值作为簇与目标对象之间的相似度。或者，可以获取每个代表点与目标对象之间的相似度的和值，将和值作为簇与目标对象之间的相似度。

通过将代表点与目标对象之间的相似度作为簇与目标对象之间的相似度，如果代表点与目标对象之间的相似度满足第一阈值，则会将簇中的每个对象加入第二集合，如果代表点与目标对象之间的相似度不满足第一阈值，则会将簇中的每个对象加入第三集合。

方式(2)服务器获取簇中的每个对象与目标对象之间的相似度，服务器根据每个对象与目标对象之间的相似度，获取簇与目标对象之间的相似度。在一些可能的实施例中，服务器可以对每个对象与目标对象之间的相似度求平均，将平均值作为簇与目标对象之间的相似度。或者，可以获取每个对象与目标对象之间的相似度的和值，将和值作为簇与目标对象之间的相似度。

在一些可能的实施例中，服务器可以判断簇中对象的数目是否满足数目阈值，如果簇中对象的数目满足数目阈值，表明簇比较大，则采用方式(1)，如果簇中对象的数目不满足数目阈值，表明簇比较小，则采用方式(2)。

示意性地，参见图5，可以采用聚类算法，来将第一集合中的每个对象划分为簇或散点，例如采用k均值聚类算法、密度聚类算法、图聚类算法或其他聚类算法来进行聚类；或者，可以对第一集合中的每个对象两两进行比对，得到相关度矩阵，采用数据合并算法将相关度矩阵中对象划分为簇或散点，再判断簇和散点的相似度是否满足第一阈值，如果簇或散点的相似度满足第一阈值，则将簇或散点加入第二集合，如果簇或散点的相似度不满足第一阈值，则将簇或散点的相似度加入第三集合。

通过这种方式，达到的效果至少可以包括：在搜索的过程中，受到目标对象较为模糊或者其他因素的影响，从数据库中搜索出的对象可能存在噪声数据，该噪声数据是指并不是正确结果但却与目标对象之间的相似度较高的对象。相关技术中，噪声数据会被错误地包含在搜索结果中，导致召回率较低。而通过将第一集合中彼此相似的对象聚为簇，噪声数据能够被划分到对应的簇中，那么通过将簇与目标对象的相似度来作为簇中每个对象的相似度，噪声数据本身与目标对象之间的相似度会被替换为簇与目标对象之间的相似度，比如会被替换为代表点与目标对象之间的相似度。那么即使噪声数据本身与目标对象之间的相似度较高，由于没有使用噪声数据本身与目标对象之间的相似度，而是使用了该噪声数据所属的簇与目标对象之间的相似度，可以有效地防止噪声数据的影响，将噪声数据提前排除掉，从而解决了由于噪声数据而造成误判的问题，减少了搜索结果中错误结果的数量，进而极大地提升了召回率。例如，如果簇中包括对象1、对象2至对象10，其中对象1是噪声数据，对象3是代表点，则对象3与目标对象之间的相似度，会作为对象1至对象10中每个对象与目标对象之间的相似度，因此对象1与目标对象之间的相似度会被拉低至对象3与目标对象之间的相似度，从而滤除了对象1的干扰。

示意性地，如果目标对象为用户A的照片，第三集合中具有10张用户B的照片，其中有9张用户B的照片和用户A的照片相似度很低，而有1张用户B的照片恰好和用户A的照片相似度很高(以下将这张照片记为照片X)，则照片X即为噪声数据。相关技术中，虽然照片X并不是用户A的照片，而是用户B的照片，但由于照片X和用户A的照片相似度高，导致照片X会被误判为用户A的照片，因此会错误地将照片X也发往终端。而通过上述方式，10张用户B的照片会被划分至同一个簇中，那么会使用簇的相似度，统一地作为10张用户B的照片中每张照片与用户A的照片的相似度，那么照片X会受到其他9张用户B的照片的影响，照片X与用户A的照片的相似度，会被替换为用户B的其他照片与用户A的照片的相似度，因此可以去除照片X的干扰，从而避免将照片X误判为用户A的照片，

需要说明的一点是，多种相似度算法结合、簇类划分这两个技术手段可以结合，以形成步骤304。具体来说，可以先将第一集合划分为簇或散点；采用多种相似度算法结合，获取簇与第二集合之间的综合相似度，作为簇中的每个对象与第二集合之间的相似度，采用多种相似度算法结合，获取散点与第二集合之间的综合相似度；把综合相似度满足第一阈值的簇和散点加入第二集合，把综合相似度不满足第一阈值的簇和散点加入第三集合。

步骤305、服务器按照第二集合中的对象在前、第三集合中的对象在后的顺序，对第一集合中的对象进行排序。

服务器可以将第二集合中的对象排在第三集合中的对象之前。示例性地，对于第一集合中的对象i和对象j来说，如果对象i是第二集合中的对象，对象j是第三集合中的对象，则会将对象i排在对象j之前。那么，如果第一集合包括(2*K)个对象，第二集合包括Q1个对象，第三集合包括Q2个对象，那么进行排序后，第1个对象至第Q1个对象均是第二集合中的对象，第(Q1+1)至最后1个对象均是第三集合中的对象，Q1和Q2均为正整数。

步骤306、服务器按照从前往后的顺序，从第一集合中选择目标数目个对象发往终端。

服务器可以从第一集合的第一个对象开始，按照从前往后的顺序，从第一集合中依次选取对象，直到选择的对象的数目达到目标数目为止，将选取的对象发往终端，终端从服务器接收到目标数目个对象后，可以将该目标数目个对象作为搜索结果，呈现给用户，例如，终端可以显示搜索结果页面，搜索结果页面中的每个内容项为一个对象。

其中，由于第二集合中的对象在前，第三集合中的对象在后，在选择对象时，第二集合中的对象的优先级会高于第三集合中对象的优先级。具体来说，如果第二集合中对象的数目大于或等于目标数目，则服务器会选择第二集合中的对象，而不选择第三集合中的对象；如果第二集合中对象的数目小于目标数目，服务器才会在选择第二集合中的对象的基础上，继续从第三集合中选择对象。

示例性地，如果目标数目为K，第一集合包括(2*K)个对象，第二集合包括Q1个对象，第三集合包括Q2个对象，如果K小于Q1，则服务器会从第二集合中选择K个对象发往终端，而第二集合中会剩余(Q1-K)个对象未被选择，另外第三集合中的每个对象也不会被选择；如果K等于Q1，则服务器会恰好将第二集合中的每个对象发往终端，另外第三集合中的每个对象也不会被选择；如果K大于Q1，服务器会将第二集合中的每个对象，以及第三集合中(K-Q1)个对象发往终端，而第三集合中K个对象不会被选择。

由于第二集合中的对象与目标对象之间的相似度满足第一阈值，而第三集合中的对象与目标对象之间的相似度不满足第一阈值，因此第二集合与第三集合相比较来说，第二集合中的对象与目标对象更加相似，第二集合中的对象是正确结果的概率更高，即第二集合中的对象的置信度更高。那么，通过高优先选择第二集合中的对象，低优先选择第三集合中的对象，可以保证选择的对象中正确结果的比例更大，从而提升了搜索的召回率。

在一些可能的实施例中，对于第二集合中的每个对象，该对象与目标对象的相似度越大，该对象在第二集合中的排列位置可以越靠前。例如，对于第二集合中的对象i以及第二集合中的对象j来说，如果对象i与目标对象的相似度大于对象j与目标对象的相似度，则对象i排在对象j的前面。

同理地，在一些可能的实施例中，对于该第三集合中的每个对象，该对象与目标对象的相似度越大，该对象在第三集合中的排列位置可以越靠前。

通过将第三集合内部的排列顺序与目标对象的相似度关联起来，让与目标对象相似度大的对象排在前面，与目标对象相似度小的对象排在后面，在从按照前往后的顺序依次选择对象时，可以提升选择的对象中正确结果的比例。比如说，如果目标数目为K，第一集合包括(2*K)个对象，第二集合包括Q1个对象，第三集合包括Q2个对象，且K大于Q1，服务器会将第二集合中的每个对象，以及第三集合中相似度最大的对象至第三集合中相似度排在第(K-Q1)位的对象发往终端，而第三集合中相似度排在后K位的对象不会被选择，也不会被发往终端。那么，由于第三集合中相似度排在后K位的对象是错误结果的概率高于第一集合中的其他对象，那么通过将这K个对象从搜索结果排除掉，可以提升搜索结果的召回率。

关于如何实现第二集合内部的排列顺序，在一些可能的实施例中，如果在执行步骤303之后，第一集合中的各个对象已经按照与目标对象的相似度的大小顺序依次排序，则服务器在将第一集合划分为第二集合以及第三集合时，可以保持每个对象中的排列顺序，即让每个对象的排列顺序还是在第一集合中的排列顺序。例如，对于待划分至第二集合的对象i和对象j来说，如果在第一集合中，对象i排在对象j之前，则在将对象i以及对象j划分至第二集合时，可以保持对象i排在对象j之前的顺序。同理地，对于待划分至第三集合的对象n和对象m来说，如果在第一集合中，对象n排在对象m之前，则在将对象n以及对象m划分至第三集合时，可以保持对象n排在对象m之前的顺序。如此，通过保持每个对象中的排列顺序为在第一集合中的排列顺序，即可实现上述“对象与该目标对象的相似度越大，该对象在该第二集合中的排列位置越靠前”的效果，以及“对象与该第三集合的相似度越大，该对象在该第三集合中的排列位置越靠前”的效果。

在另一些可能的实施例中，服务器也可以在第一集合划分为第二集合以及第三集合之后，对第二集合中的每个对象按照相似度从大到小的顺序，重新进行排序，从而实现上述“对象与该目标对象的相似度越大，该对象在该第二集合中的排列位置越靠前”的效果。其中，排序时依据的相似度，可以是划分第二集合以及第三集合时使用的相似度，例如，可以是多种相似度算法得出的对象的综合相似度。同理地，可以对第三集合中的每个对象按照相似度从大到小的顺序进行排序，通过进行排序，来实现上述“对象与目标对象的相似度越大，对象在第三集合中的排列位置越靠前”的效果。

需要说明的一点是，上述仅是以一台服务器执行图3实施例中的各个步骤为例进行说明，在一些可能的实施例中，图3实施例也可以由服务器集群来执行，服务器集群中的不同服务器可以用于执行不同步骤。作为示例，可以由一个服务器执行步骤302，由另一个服务器执行步骤303，由再一个服务器执行步骤304至步骤305。通过将图3实施例中的不同步骤分散在不同的服务器执行，能够让不同的服务器分担整体的计算量，从而避免单个服务器负载过重，提高相似性搜索方法的整体的计算效率。

本实施例提供的方法，设计了一套单一输入下的重排框架，通过从数据库搜索到一些对象后，将这些对象中与目标对象的相似度满足第一阈值的对象往前排，将这些对象中与目标对象的相似度不满足阈值的对象往后排，再按照从前往后的顺序选择对象并发往终端，由于相似度满足第一阈值的对象的置信度很高，是正确结果的概率很大，通过将这些对象排在前面，在从前往后选择对象时，可以提升选择出正确结果的概率，让选出的正确结果的比重更大，从而有效地提升了召回率。

在一些可能的实施例中，上述图3实施例中涉及的排序功能可以基于队列机制实现，以下通过图6实施例进行阐述。

图6是本申请实施例提供的一种相似性搜索方法的流程图，如图6所示，该方法包括下述步骤601至607：

步骤601、终端向服务器发送搜索指令。

步骤602、服务器接收终端的搜索指令。

步骤603、服务器对数据库进行搜索，得到第一集合。

步骤604、服务器将第一集合划分为第二集合以及第三集合。

步骤605、服务器将第二集合存入第一队列，将第三集合存入第二队列。

第一队列和第二队列分别代表着不同的优先级，第一队列的优先级高于第二队列的优先级。在一些可能的实施例中，服务器可以先创建第一队列以及第二队列；服务器可以将该第二集合中的每个对象存入第一队列，将该第三集合中的每个对象存入第二队列。其中，由于第一队列中存储的对象的置信度高于第二队列中存储的对象的置信度，因此第一队列可以记为信任队列。

示意性地，参见图7，如果代表点1与目标对象之间的综合相似度满足第一阈值，则簇1属于第二集合，会将簇1存入第一队列；如果代表点1与目标对象之间的综合相似度不满足第一阈值，则簇1属于第三集合，会将簇1存入第二队列；如果代表点2与目标对象之间的综合相似度满足第一阈值，则簇2属于第二集合，会将簇2存入第一队列；如果代表点2与目标对象之间的综合相似度不满足第一阈值，则簇2属于第三集合，会将簇2存入第二队列；如果散点与目标对象之间的综合相似度满足第一阈值，则散点属于第二集合，会将散点存入第一队列；如果散点与目标对象之间的综合相似度不满足第一阈值，则散点属于第三集合，会将散点存入第二队列。

步骤606、服务器按照第一队列在前、第二队列在后的顺序，对第一集合中的对象进行排序。

服务器可以将第一队列中的对象排在第二队列中的对象之前。示例性地，对于第一集合中的对象i和对象j来说，如果对象i是第一队列中的对象，对象j是第二队列中的对象，则会将对象i排在对象j之前。那么，如果第一集合包括(2*K)个对象，第一队列包括Q1个对象，第二队列包括Q2个对象，那么进行排序后，第1个对象至第Q1个对象均是第一队列中的对象，第(Q1+1)至最后1个对象均是第二队列中的对象。

步骤607、服务器按照从前往后的顺序，从第一集合中选择目标数目个对象发往终端。

通过将第一集合中的各个对象存储在队列这种顺序存储结构中，按照从前往后的顺序选择对象，即为按照从队首到队尾的顺序选择对象。具体来说，服务器可以从第一队列的队首开始，按照从队首到队尾的顺序，从第一队列中依次选取对象。在选择对象的过程中，服务器可以判断已经选择的对象的数目是否达到目标数目；如果选择的对象的数目达到目标数目，则停止从第一队列继续选择对象，也不会选择第二队列中的对象；如果已经选择到第一队列的队尾，而选择的对象的数目尚未达到目标数目，则继续从第二队列的队首开始，按照从队首到队尾的顺序依次选择对象，直至选择的对象的数目达到目标数目为止。通过这种选择方式，使得第一队列的优先级高于第二队列的优先级。

比如说，如果目标数目为K，第一集合包括(2*K)个对象，第一队列包括Q1个对象，第二队列包括Q2个对象，如果K小于Q1，则服务器会选择第一队列的队首至第一队列中排在第K位的对象；如果K等于Q1，则服务器会选择第一队列中的每个对象；如果K大于Q1，服务器会选择第一队列中的每个对象，以及第二队列的队首至第二队列中排在第(K-Q1)位的对象。

在一些可能的实施例中，与步骤306中第二集合的内部排列顺序对应，第一队列的内部排列顺序可以依据与目标对象之间的相似度确定。具体来说，对于第一队列中的每个对象，该对象与目标对象的相似度越大，该对象在第一队列中的排列位置可以越靠前。例如，第一队列的队首可以是第一队列中与目标对象的相似度最大的对象，第一队列的队尾可以是第一队列中与目标对象的相似度最小的对象。关于如何实现第一队列的内部排列顺序，在一些可能的实施例中，如果在执行步骤303之后，第一集合中的各个对象已经按照与目标对象的相似度的大小顺序依次排序，则服务器在将第二集合存入第一队列时，服务器可以保持第一队列中每个对象中的排列顺序还是在第一集合中的排列顺序。在另一些可能的实施例中，服务器也可以将该第二集合存入第一队列之后，可以按照与目标对象的相似度从大到小的顺序，对第一队列中的各个对象进行重新排序，例如采用多种相似度算法结合得出的、第一集合中的对象与目标对象的综合相似度，对第一队列中的对象进行重新排序。

同理地，在一些可能的实施例中，第三集合的内部排列顺序可以通过第二队列的内部排列顺序表示。具体来说，对于第二队列中的每个对象，该对象与目标对象的相似度越大，该对象在第二队列中的排列位置可以越靠前。关于如何实现第一队列的内部排列顺序，在一些可能的实施例中，如果在执行步骤303之后，第一集合中的各个对象已经按照与目标对象的相似度的大小顺序依次排序，则服务器在将第三集合存入第二队列时，服务器可以保持第二队列中每个对象中的排列顺序还是在第一集合中的排列顺序。在另一些可能的实施例中，服务器将该第三集合存入第二队列之后，可以按照与目标对象的相似度从大到小的顺序，对第二队列中的各个对象重新进行排序。

通过将第一队列或者第二队列内部的排列顺序与目标对象的相似度关联起来，让与目标对象相似度大的对象排在前面，与目标对象相似度小的对象排在后面，可以进一步提升候选解排列顺序的准确性，那么在从按照前往后的顺序依次选择对象时，可以提升选择的对象中正确结果的比例，并且可以尽量让正确结果排在搜索结果的前面，从而让终端呈现搜索结果时，正确结果的显示位置会更靠前。比如说，对于第一队列中与目标对象的相似度最大的对象来说，该对象会在第一队列中排在第一位，那么也就会在第一集合中排在第一位，服务器将选择的对象发往终端后，终端呈现的搜索结果中，该对象会排在搜索结果的第一位。并且，与目标对象之间的相似度小的对象由于排在队列内部的后面，因此会被排在搜索结果的后面，或者可以避免被放入搜索结果中，从而减少了搜索结果的错误结果的数量，让搜索结果中正确结果的比例更高，从而有效地提高了搜索的召回率。比如说，如果目标数目为K，第一集合包括(2*K)个对象，第一队列包括Q1个对象，第二队列包括Q2个对象，服务器会将第一队列中的每个对象，以及第二队列中相似度最大的对象至第二队列中相似度排在第(K-Q1)位的对象发往终端，而第二队列中相似度排在后K位的对象不会被选择，也不会被发往终端。那么，由于第二队列中相似度排在后K位的对象是错误结果的概率高于第一集合中的其他对象，那么通过将这K个对象从搜索结果排除掉，可以提升搜索结果的召回率。

本实施例提供的方法，在实现图3实施例达到的效果的基础上，设计了一套基于队列的重排框架，通过将第二集合加入第一队列，将第三集合加入第二队列，可以将从数据库中搜索出的对象划分出多种队列，在选取对象时，通过将第一队列中的对象排在前、第二队列中的对象排在后，在按照从前到后的顺序选取对象时，会高优先选取第一队列中的对象，低优先选取第二队列中的对象，那么由于第一队列中对象的置信度高于第二队列中对象，在选取的对象的总数目一定的情况下，能够提高选取置信度高的对象的概率，降低选取置信度低的对象的概率，从而提高搜索结果中置信度高的对象的占比，因此可以提高搜索结果的召回率，并且，能够让置信度高的对象置于搜索结果的前列，提高搜索结果顺序的准确性。

在一些可能的实施例中，在上述图3实施例的基础上，还可以将第三集合进一步划分不同的集合，以下通过图8实施例进行阐述。

图8是本申请实施例提供的一种相似性搜索方法的流程图，如图8所示，该方法包括由服务器执行的步骤801至806：

步骤801、终端向服务器发送搜索指令。

步骤802、服务器接收终端的搜索指令。

步骤803、服务器对数据库进行搜索，得到第一集合。

步骤804、服务器将第一集合划分为第二集合以及第三集合。

步骤805、服务器将第三集合划分为第四集合以及第五集合。

本实施例中，会将第二集合作为重排的基础，根据与第二集合的相似度是否满足第二阈值，来对第三集合进行划分，以便根据划分的结果进行重新排序。

相关技术中，通常仅会将单个候选对象为重排的颗粒度，将单个候选对象作为重排的基础，那么如果该单个候选对象选择的不准确，例如是错误结果，会导致重排后候选对象的排列顺序的准确性更差，因此会导致召回率急剧下降。而本实施例中，一方面，由于第二集合通常包括多个对象，相对于基于单个候选对象进行重排的方式来说，将重排的颗粒度从单个候选对象扩展为整个集合，相当于将重排的颗粒度粗颗粒化，可以解决单个候选对象选择不准确而导致召回率下降的问题，因此能够提高重排的方式的鲁棒性，另一方面，由于第二集合中的对象与目标对象的相似度满足第一阈值，因此第二集合中的对象的置信度高，通过基于第二集合来对第三集合进行重排，能够提高重排的方式的准确性。

第四集合中每个对象与第二集合的相似度满足第二阈值，第五集合中每个对象与第二集合的相似度不满足第二阈值。其中，该第二阈值可以低于第一阈值，该第二阈值可以高于第三阈值，第二阈值可以根据实验、经验或需求设置，第二阈值可以预先存储在服务器中。在一些可能的实施例中，相似度满足第二阈值可以指相似度大于第二阈值，相似度不满足第二阈值可以指相似度小于或等于第二阈值。在另一些可能的实施例中，相似度满足第二阈值可以指相似度大于或等于第二阈值，相似度不满足第二阈值可以指相似度小于第二阈值。

相对于第五集合中的对象来说，由于第四集合中的对象与第二集合之间的相似度高于第一阈值，第四集合中的对象是正确结果的概率更高，因此第四集合中的对象的置信度更高，因此第四集合中的对象在重排时，顺序优先级会高于第五集合中的对象。

关于划分出第四集合以及第五集合的方式，在一些可能的实施例中，服务器可以创建第四集合以及第五集合；对于第三集合中的每个对象，服务器可以获取该对象与第二集合之间的相似度；服务器可以判断该对象与第二集合之间的相似度是否满足第二阈值；如果该对象与第二集合之间的相似度满足第二阈值，则将该对象加入第四集合；如果该对象与第二集合之间的相似度不满足第二阈值，则将该对象加入第五集合。其中，如果第二集合包括n个对象，则对于第三集合中的对象i，可以获取对象i与这n个对象中每个对象之间的相似度，得到n个相似度，可以对n个相似度进行结合，将得到的结果作为对象i与第二集合之间的相似度。其中，n为正整数，结合的方式包括而不限于加权求和、求和、加权平均、取平均中的任意一项及其组合。

对于第三集合中的每个对象来说，获取该对象与第二集合之间的相似度的过程，可以理解为对该对象进行打分操作；该对象与第二集合之间的相似度，可以理解为该对象的分数，能够反映该对象的置信度。

在一些可能的实施例中，服务器可以采用多种相似度算法结合，获取第三集合中的对象与第二集合的综合相似度，如果综合相似度满足第二阈值，则将对象加入到第四集合，如果综合相似度不满足第二阈值，则将对象加入第五集合。

在一些可能的实施例中，对于多种相似度算法中的每种相似度算法，服务器可以采用该相似度算法，获取第三集合中对象与第二集合之间的相似度，再对多个相似度进行结合，得到对象与第二集合之间的综合相似度。其中，对多个相似度进行结合的方式包括而不限于加权求和、求和、加权平均、取平均中的任意一项及其组合。以结合方式为加权平均为例，可以根据每个相似度算法对应的权重，对每个相似度算法得出的第三集合中对象与第二集合之间的相似度进行加权平均，将加权平均值作为第三集合中对象与第二集合之间的综合相似度。

示意性地，参见图9，对于第三集合中的每个对象，可以采用欧式距离算法获取该对象与第二集合之间的相似度，采用rank order算法获取该对象与第二集合之间的相似度，采用机器学习模型获取该对象与第二集合之间的相似度，得到3个相似度，再将这3个相似度结合为1个相似度，判断这个相似度是否满足第二阈值，如果满足第二阈值，将这个对象加入第四集合，如果不满足第二阈值，将这个对象加入第五集合。

通过采用多种相似度算法结合来获取相似度，可以结合多种度量方式，从而解决了单一的度量方式不准确的技术问题。另外，采用的多种相似度算法可以包括rank order算法或者其他考虑了群体关系的相似度算法，从而可以提高对象与第二集合的相似度的准确性。

在一些可能的实施例中，划分第四集合以及第五集合时依据的多种相似度算法可以包括第一相似度算法，即在数据库时进行搜索时所采用的相似度算法。另外，该多种相似度算法还可以包括第一相似度之外的其他相似度算法。例如，第一相似度算法可以是欧式距离算法，该多种相似度算法可以包括欧式距离算法以及rank order算法。

通过先依据第一相似度算法得出的相似度，来得出第一集合，再在第一相似度算法的基础上，依据该第一相似度算法结合其他相似度算法得出的综合相似度，来划分第四集合和第五集合，由于第一相似度算法与其他相似度算法结合后，能够弥补第一相似度算法的度量方式的不足，达到改进第一相似度算法的目的，因此综合相似度相对于第一相似度算法得出的相似度来说，能够确保提升准确性，因此，与目标对象之间综合相似度高的对象是正确结果的概率会显著高于与目标对象之间综合相似度低的对象，也即是，第四集合整体的置信度会高于第五集合整体的置信度，因此通过将第四集合中的对象排在第五集合中的对象前面，可以确保提升第一集合中对象顺序的准确性。

需要说明的一点是，划分第四集合和第五集合时采用的相似度算法，与划分第二集合和第三集合时采用的相似度算法可以相同也可以不同。其中，划分第四集合和第五集合时采用的相似度算法，可以比划分第二集合和第三集合时采用的相似度算法更多，比如说，如果划分第二集合和第三集合时采用了第一相似度算法以及第二相似度算法，划分第四集合和第五集合时采用的多个相似度算法可以包括第一相似度算法以及第二相似度算法，另外还可以包括其他相似度算法。例如，在数据库进行搜索时，采用欧式距离算法，在划分第二集合和第三集合时，可以采用欧式距离算法以及rank order算法，在划分第四集合和第五集合时，可以仍采用欧式距离算法以及rank order算法。或者，在划分第四集合和第五集合时，可以采用欧式距离算法以及rank order算法以及机器学习模型，从而让划分第四集合和第五集合时，相似度的精确度更高。

需要说明的一点是，采用多种相似度算法结合，来获取第三集合中对象与第二集合之间的综合相似度仅是一种示意性实施方式，在另一些可能的实施例中，服务器也可以采用一种相似度算法，来获取第三集合中对象与第二集合之间的相似度。

在一些可能的实施例中，可以在第三集合内部划分出簇，根据对象所属的簇来获取相似度。具体来说，这种方式可以包括下述步骤一至步骤二。

步骤一、服务器从第三集合中获取簇。

从第三集合获取到的簇的数量可以为一个或多个。在一些可能的实施例中，簇的获取方式可以包括下述方式一至方式二中的任意一项及其结合。

方式一、服务器采用聚类算法，对第三集合进行聚类，得到簇。

方式二、对于第三集合中的每个对象，服务器获取该对象与第三集合中该对象之外的其他对象之间的相关度，根据每个对象与其他对象之间的相关度，获取相关度满足预设条件的多个对象，将该相关度满足预设条件的多个对象划分为簇。

服务器可以对第三集合中的多个对象进行两两比对，得到第三集合中任两个对象之间的相关度，服务器可以判断第三集合中每个对象与第三集合中其他对象之间的相关度是否满足预设条件，如果第三集合中对象与第三集合中其他对象之间的相关度满足预设条件，则将该第三集合中对象划分至簇，如果第三集合中对象与第三集合中其他对象之间的相关度不满足预设条件，则将该第三集合中对象作为散点。

在一些可能的实施例中，服务器可以根据第三集合每个对象与第三集合中其他对象之间的相关度，生成相关度矩阵，服务器可以遍历相关度矩阵，寻找相关度满足相关度条件的对象，将这些对象划分为簇，将相关度矩阵中簇之外的剩余对象作为散点。其中，相关度矩阵可以如上述图3实施例中步骤306中的表1所示。

步骤二、服务器获取簇与第二集合之间的相似度，作为簇中的每个对象与第二集合之间的相似度。

通过将簇与第二集合之间的相似度作为簇中每个对象与第二集合之间的相似度，如果簇与第二集合之间的相似度满足第二阈值，则会将簇中每个对象均加入到第四集合，如果簇与第二集合之间的相似度不满足第二阈值，则会将簇中每个对象均加入到第五集合。也即是，通过这种方式，属于同一个簇中的各个对象被加入的集合可以相同。

另外，在将簇中的对象划分为簇后，可以有一个或多个对象没有对应的簇，这些没有簇的对象可以称为散点，对于散点来说，可以直接获取散点与第二集合的相似度，判断相似度是否满足第二阈值，如果相似度满足第二阈值，则将散点划分至第四集合，如果相似度不满足第二阈值，则将散点划分至第五集合。

在一些可能的实施例中，获取簇与第二集合之间的相似度的方式包括而不限于下述方式(1)至方式(2)中的任意一项及其组合：

方式(1)服务器从簇中选取代表点，服务器获取代表点与第二集合之间的相似度，作为簇与第二集合之间的相似度。

可以使用代表点，来代替整个簇中的所有对象，去和第二集合进行度量。其中，如果代表点包括多个对象，可以获取每个代表点与第二集合之间的相似度；可以对每个代表点与第二集合之间的相似度求平均，将平均值作为簇与第二集合之间的相似度。或者，可以获取每个代表点与第二集合之间的相似度的和值，将和值作为簇与第二集合之间的相似度。通过将代表点与第二集合之间的相似度作为簇与第二集合之间的相似度，如果代表点与第二集合之间的相似度满足第二阈值，则会将簇中的每个对象加入第四集合，如果代表点与第二集合之间的相似度不满足第二阈值，则会将簇中的每个对象加入第五集合。

方式(2)服务器获取簇中的每个对象与第二集合之间的相似度，服务器根据每个对象与第二集合之间的相似度，获取簇与第二集合之间的相似度。例如，服务器可以对每个对象与第二集合之间的相似度求平均，将平均值作为簇与第二集合之间的相似度。或者，可以获取每个对象与第二集合之间的相似度的和值，将和值作为簇与第二集合之间的相似度。

在一些可能的实施例中，服务器可以判断簇中对象的数目是否满足数目阈值，如果簇中对象的数目满足数目阈值，则采用方式(1)，如果簇中对象的数目不满足数目阈值，则采用方式(2)。

示意性地，参见图10，可以采用聚类算法，来将第三集合中的每个对象划分为簇或散点；或者，可以对第三集合中的每个对象两两进行比对，得到相关度矩阵，采用数据合并算法将相关度矩阵中对象划分为簇或散点，再判断簇和散点的相似度是否满足第二阈值，如果簇或散点的相似度是否满足第二阈值，则将簇或散点加入第四集合，如果簇或散点的相似度不满足第二阈值，则将簇或散点的相似度加入第五集合。

通过这种方式，达到的效果至少可以包括：在搜索的过程中，受到目标对象较为模糊或者其他因素的影响，从数据库中搜索出的对象可能存在噪声数据。相关技术中，噪声数据会导致搜索结果中包括较多的错误结果，导致召回率较低。而通过将第三集合中互相相似的对象聚为簇，噪声数据能够被划分到对应的簇中，那么通过将簇与第二集合的相似度来作为簇中每个对象的相似度，噪声数据本身与第二集合之间的相似度会被替换为簇与第二集合之间的相似度，那么即使噪声数据本身与第二集合之间的相似度较高，由于没有使用噪声数据本身与第二集合之间的相似度，而是使用了该噪声数据所属的簇与第二集合之间的相似度，可以有效地防止噪声数据的影响，从而解决了由于噪声数据而造成误判的问题，减少了搜索结果中错误结果的数量，进而极大地提升了召回率。

需要说明的一点是，多种相似度算法结合、簇类划分这两个技术手段可以结合，以形成步骤805。具体来说，可以先将第三集合划分为簇或散点；采用多种相似度算法结合，获取簇与该第二集合之间的相似度，作为该簇中的每个对象与该第二集合之间的相似度，采用多种相似度算法结合，获取散点与该第二集合之间的相似度；把相似度满足第二阈值的簇和散点加入第四集合，把相似度不满足第二阈值的簇和散点加入第五集合。

步骤806、服务器按照第二集合中的对象在前、第三集合中的对象在后的顺序，对第一集合中的对象进行排序。

步骤807、服务器按照第四集合中的对象在前、第五集合中的对象在后的顺序，对第三集合中的对象进行排序。

服务器可以将第四集合中的对象排在第五集合中的对象之前。通过对第三集合中的对象进行了排序，则在第三集合中对象的顺序具体为：第四集合中的对象在前、第五集合中的对象在后。示例性地，对于第三集合中的对象i和对象j来说，如果对象i是第二集合中的对象，对象j是第五集合中的对象，则会将对象i排在对象j之前。示例性地，如果目标数目为K，第一集合包括(2*K)个对象，第二集合包括Q1个对象，第三集合包括Q2个对象，这Q2个对象中第四集合包括Q3个对象，第五集合包括Q4个对象，Q2＝Q3+Q4，Q3和Q4均为正整数。通过将第四集合排在第五集合之前，第三集合中的各个对象中，第1个对象至第Q3个对象均是第四集合中的对象，第(Q3+1)至最后1个对象均是第五集合中的对象。因此，第一集合中各个对象的顺序是：第二集合中的Q1个对象排在最前，第四集合中的Q3个对象排在中间，第五集合中的Q4个对象排在最后。

需要说明的一点是，本实施例对步骤806以及步骤807的执行顺序不做限定。例如，步骤806与步骤807可以顺序执行。作为示例，可以先执行步骤806，再执行步骤807；也可以先执行步骤807，再执行步骤806。当然，步骤806与步骤807也可以并行执行，即，可以同时执行步骤806以及步骤807。

步骤808、服务器按照从前往后的顺序，从第一集合中选择目标数目个对象发往终端。

其中，由于第二集合中的对象排在最前，第四集合中的对象排在第二集合中的对象之后，第五集合中的对象排在第四集合中的对象之后，在选择对象时，第二集合中的对象的优先级高于第四集合中对象的优先级，第四集合中对象的优先级高于第五集合中对象的优先级。具体来说，如果第二集合中对象的数目大于或等于目标数目，则服务器会选择第二集合中的对象，而不选择第三集合中的对象；如果第二集合中对象的数目小于目标数目，服务器才会在选择第二集合中的对象的基础上，继续从第四集合中选择对象；其中，如果第二集合中对象的数目与第四集合中对象的数目的和值大于目标数目，服务器会从第二集合以及第五集合中选择对象，而不会从第五集合中选择对象。如果第二集合中对象的数目与第四集合中对象的数目的和值小于目标数目，服务器才会在选择第二集合中的对象以及第四集合中的对象的基础上，继续从第五集合中选择对象。

示例性地，如果目标数目为K，第一集合包括(2*K)个对象，第二集合包括Q1个对象，第三集合包括Q2个对象，其中第四集合包括Q3个对象，第五集合包括Q4个对象，其中，K为正整数，Q1为正整数或0，Q2＝2*K-Q1，Q2＝Q3+Q4。服务器可以按照第二集合中的Q1个对象在前、第四集合中的Q3个对象其次、第五集合中的Q4个对象最后的顺序，对第一集合中的(2*K)个对象进行排序，从排序后的第一集合中选择K个对象发往终端。其中，如果K小于Q1，则服务器会从第二集合中选择K个对象发往终端，而第二集合中会剩余(Q1-K)个对象未被选择，另外第四集合中所有的Q3个对象以及第五集合中所有的Q4个对象也不会被选择；如果K等于Q1，则服务器会恰好将第二集合中所有的Q1个对象发往终端，另外第四集合中所有的Q3个对象以及第五集合中所有的Q4个对象也不会被选择；如果K大于Q1且小于(Q1+Q3)，服务器会将第二集合中的Q1个对象，以及第四集合中(K-Q1)个对象发往终端，而第四集合中剩余的(Q3-K+Q1)个对象以及第五集合中的所有Q4个对象不会被选择。如果K等于(Q1+Q3)，服务器会将第二集合中所有的Q1个对象，以及第四集合中所有的Q3个对象发往终端。如果K大于(Q1+Q3)，服务器会将第二集合中的Q1个对象、第四集合中Q3个对象以及第五集合中(K-Q1-Q3)发往终端。

由于第四集合中的对象与第二集合之间的相似度满足第二阈值，而第五集合中的对象与第二集合之间的相似度不满足第二阈值，因此第四集合与第五集合相比较来说，第四集合中的对象与第二集合更加相似，第四集合中的对象是正确结果的概率更高，即第四集合中的对象的置信度更高。那么，通过让第四集合中的对象的优先级高于第五集合中的对象的优先级，可以保证选取的对象中正确结果的比例更大，从而提升了搜索的召回率。

在一些可能的实施例中，对于第三集合中的每个对象，该对象与第二集合的相似度越大，该对象在该第三集合中的排列位置可以越靠前。例如，对于第三集合中的对象i以及第三集合中的对象j来说，如果对象i与第二集合的相似度大于对象j与第二集合的相似度，则对象i排在对象j的前面。其中，对象在第三集合内部的排列位置所依据的相似度，可以是通过一种相似度算法获取到的相似度，也可以是结合多种相似度算法获取到的综合相似度，本实施例对此不做限定。

通过将第三集合内部的排列位置与第二集合的相似度结合起来，让与第二集合相似度大的对象排在前面，与第二集合相似度小的对象排在后面，可以进一步提升候选对象排列顺序的准确性，由于与第二集合相似度大的对象排在与第二集合相似度小的对象之前，而与第二集合相似度大的对象是正确结果的概率高于与第二集合相似度小的对象，在按照前往后的顺序依次选择对象时，可以提升选择的对象中正确结果的比例，能够尽量多地选择与第二集合相似的对象，从而让搜索结果中正确结果的比重更大，从而有效地提升了召回率。并且，与第二集合之间的相似度小的对象会被排在搜索结果的后面，或者可以避免被放入搜索结果中，从而减少了搜索结果的错误结果的数量，从而有效地提高了搜索的召回率。

对于第三集合中的每个对象，服务器可以按照该对象与第二集合的相似度，对第三集合中的每个对象按照相似度从大到小的顺序，重新进行排序，通过进行排序，来实现上述“对象与该第二集合的相似度越大，该对象在该第三集合中的排列位置越靠前”的效果。

需要说明的一点是，第三集合中，可以所有对象的排列位置均与第二集合的相似度相关，也可以仅是部分对象的排列位置与第二集合的相似度相关。

例如，对于第四集合中的每个对象，该对象与第二集合的相似度越大，该对象在该第三集合中的排列位置可以越靠前。而对于第五集合中的每个对象，该对象与目标对象的相似度越大，该对象在该第五集合中的排列位置可以越靠前。如此，可以让第五集合中的对象的排列顺序，保持为从数据库搜索出该第五集合时对象的排列顺序。示意性地，在划分出第四集合以及第五集合之后，对于第四集合中的每个对象，服务器可以按照该对象与第二集合的相似度，对第四集合中的每个对象按照相似度从大到小的顺序进行重新排序，如此，第四集合中的对象的排列顺序可以从与目标对象之间的相似度的大小顺序，更新为与第二集合之间的相似度的大小顺序。因此，第四集合可以记为重排结果集合。而对于第五集合中的每个对象，服务器可以保持每个对象中的排列顺序为从数据库中搜索出该第五集合中每个对象时，不同对象的排列顺序。也即是，第五集合中的每个对象从前到后的排列顺序，可以是为该每个对象与目标对象之间的相似度从大到小的排列顺序，第五集合中与目标对象之间的相似度最大的对象在第五集合中排在第一位。那么，在执行步骤808时，如果从第五集合中选择了K个对象，则这K个对象由于维持为在步骤803中的排列顺序，使得搜索结果这K个对象的排列顺序与初始顺序重叠。

通过保持第五集合中的对象的排列顺序为候选对象的排列顺序，如果第一集合中每个对象与目标对象之间的相似度均不满足第一阈值，则第二集合为空，第四集合可以也为空，第一集合中的每个对象均会被加入第五集合中。由于第五集合中对象的排列顺序为与目标对象的相似度大小的顺序，因此在按照从前往后的顺序依次选择对象时，会选择相似度排在前目标数目位的对象，因此即使第一集合中没有高置信度的对象，也可以保证搜索结果不会比相关技术中差，从而实现兜底的功能。

本实施例提供的方法，在实现图3实施例达到的效果的基础上，通过将第二集合作为重排时参照的基准，将第三集合中与第二集合的相似度满足阈值的对象加入到第四集合，将第三集合中与第二集合的相似度不满足阈值的对象加入到第五集合，再将第四集合排在第五集合之前，从而对第三集合中的对象进行重排，由于第二集合中的对象的置信度高，而第四集合中的对象与其相似，因此第四集合中的对象是正确结果的概率高于第五集合中的对象，那么通过将第四集合中的对象往前排，将第五集合中的对象往后排，可以提升第三集合中对象的排列顺序的准确性，在按照从前往后的顺序选取对象时，能够提高选中的对象中正确结果的比例，从而进一步提升了召回率。

在一些可能的实施例中，上述图8实施例中涉及的排序功能可以基于队列机制实现，以下通过图11实施例进行阐述。

图11是本申请实施例提供的一种相似性搜索方法的流程图，如图11所示，该方法包括下述步骤1101至1109：

步骤1101、终端向服务器发送搜索指令。

步骤1102、服务器接收终端的搜索指令。

步骤1103、服务器对数据库进行搜索，得到第一集合。

步骤1104、服务器将该第一集合划分为第二集合以及第三集合。

步骤1105、服务器将第二集合存入第一队列。

步骤1106、服务器将第三集合划分为第四集合以及第五集合。

由于第一队列存有了第二集合，可以将上述图8实施例中，度量对象与第二集合之间的相似度的过程替换为度量对象与第一队列之间的相似度。也即是，则服务器可以获取第三集合中每个对象与第一队列之间的相似度，如果第三集合中对象与第一队列之间的相似度满足第二阈值，则将该对象加入第四集合；如果该对象与第一队列之间的相似度不满足第二阈值，则将该对象加入第五集合。

步骤1107、服务器将第四集合存入第二队列，将第五集合存入第三队列。

第一队列、第二队列以及第三队列分别代表着不同的优先级，第一队列的优先级高于第二队列的优先级，第二队列的优先级高于第三队列的优先级。在一些可能的实施例中，服务器可以先创建第一队列、第二队列以及第三队列；服务器可以将该第二集合中的每个对象存入第一队列，将该第四集合中的每个对象存入第二队列，将第五集合中的每个对象存入第三队列。

示意性地，参见图12，对于第三集合中的每个对象，可以将第三集合划分为簇1、簇2和多个散点；从簇1中选择代表点1，从簇2中选择代表点2；采用多种相似度算法结合，获取代表点1与第二集合之间的综合相似度，采用多种相似度算法结合，获取代表点2与第二集合之间的综合相似度，采用多种相似度算法结合，获取每个散点与第二集合之间的综合相似度；判断代表点1与第二集合之间的综合相似度是否满足第二阈值，如果代表点1与第二集合之间的综合相似度满足第二阈值，将簇1存入第二队列；如果代表点1与第二集合之间的综合相似度不满足第二阈值，将簇1存入第三队列；判断代表点2与第二集合之间的综合相似度是否满足第二阈值，如果代表点2与第二集合之间的综合相似度满足第二阈值，将簇2存入第二队列；如果代表点2与第二集合之间的综合相似度不满足第二阈值，将簇2存入第三队列；判断散点与第二集合之间的综合相似度是否满足第二阈值，如果散点与第二集合之间的综合相似度满足第二阈值，将散点存入第二队列；如果散点与第二集合之间的综合相似度不满足第二阈值，将散点存入第三队列。

步骤1108、服务器按照第一队列最前、第二队列其次、第三队列最后的顺序，对第一集合中的对象进行排序。

服务器可以将第一队列中的对象排在第二队列中的对象之前，将第二队列中的对象排在第三对象中的对象之前。通过进行了排序，则在第一集合中对象的顺序具体为：第二集合中的对象在最前，该第四集合中的对象在中间、该第五集合中的对象在最后。示例性地，对于第一集合中的对象i、对象j和对象k来说，如果对象i是第一队列中的对象，对象j是第二队列中的对象，对象k是第三队列中的对象，则会将对象i排在对象j之前，将对象j排在对象k之前。那么，如果第一集合包括(2*K)个对象，第一队列包括Q1个对象，第二队列包括Q2个对象，第三队列包括Q3个对象，那么进行排序后，第1个对象至第Q1个对象均是第一队列中的对象，第(Q1+1)至第(Q1+Q2)个对象均是第二队列中的对象，第(Q1+Q2+1)至最后1个对象均是第三队列中的对象。

步骤1109、服务器按照从前往后的顺序，从第一集合中选择目标数目个对象发往终端。

服务器可以从第一队列的第一个对象开始，按照从队首至队尾的顺序，从第一队列中依次选取对象，如果选择的对象的数目达到目标数目，则停止从第一队列继续选择对象，也不会选择第二队列中的对象；如果已经选择到第一队列的队尾，而选择的对象尚未达到目标数目，服务器才会在选择第一队列中的对象的基础上，继续从第二队列的队首开始，按照从队首到队尾的顺序，从第二队列中依次选择对象。其中，如果选择的对象的数目达到目标数目，则停止从第二队列继续选择对象，也不会选择第三队列中的对象；如果已经选择到第二队列的队尾，而选择的对象尚未达到目标数目，服务器才会在选择第一队列中的对象以及第二队列中的对象的基础上，继续从第三队列的队首开始，按照从队首到队尾的顺序，从第三队列中依次选择对象。通过这种选择方式，使得第一队列的优先级高于第二队列的优先级，第二队列的优先级高于第三队列的优先级。

比如说，如果目标数目为K，第一集合包括(2*K)个对象，第一队列包括Q1个对象，第二队列包括Q2个对象，第三队列包括Q3个对象，如果K小于Q1，则服务器会选择第一队列的队首至第一队列中排在第K位的对象；如果K等于Q1，则服务器会选择第一队列中的每个对象；如果K大于Q1，服务器会选择第一队列中的每个对象，以及第二队列的队首至第二队列中排在第(K-Q1)位的对象。如果K＝(Q1+Q2)，服务器会选择第一队列中的每个对象以及第二队列中的每个对象。如果K＞(Q1+Q2)，服务器会选择第一队列中的每个对象、第二队列中的每个对象，以及第三队列中的队首至第三队列中排在第(K-Q1-Q2)位的对象。

在一些可能的实施例中，与步骤808中第四集合的内部排列顺序对应，对于第二队列中的每个对象，该对象与第二集合的相似度越大，该对象在第二队列中的排列位置可以越靠前。例如，第二队列的队首可以是第二队列中与第二集合的相似度最大的对象，第二队列的队尾可以是第二队列中与第二集合的相似度最小的对象。关于如何实现第二队列的内部排列顺序，在一些可能的实施例中，服务器可以将第四集合存入第二队列之后，按照与第二集合的相似度从大到小的顺序，对第二队列中的各个对象进行重新排序，例如可以根据多种相似度算法得出的、第一集合中的对象与第二集合的相似度，对第二队列中的各个对象进行重新排序。

当然，第二队列内部的不同对象的排列顺序也可以保持为步骤1103中该每个对象在第一集合中的排列顺序，具体来说，对于第二队列中的每个对象，该对象与目标对象的相似度越大，该对象在第二队列中的排列位置可以越靠前。

在一些可能的实施例中，与步骤808中第五集合的内部排列顺序对应，对于第三队列中的每个对象，该对象与目标对象的相似度越大，该对象在第三队列中的排列位置可以越靠前。例如，第三队列的队首可以是第三队列中与目标对象的相似度最大的对象，第三队列的队尾可以是第三队列中与目标对象的相似度最小的对象。其中，如果在执行步骤1103时，第一集合中各个对象从前往后的排列顺序，为该各个对象与目标对象的相似度从大到小的顺序，则服务器在将第五集合存入第三队列时，服务器可以保持第三队列中的每个对象的排列顺序为该每个对象在第一集合中的排列顺序。

示意性地，如果目标数目为5，如果服务器在执行步骤1103时，数据库中的所有对象中与目标对象的相似度最大的对象是对象1，其次是对象2，再次是对象3，依次类推，搜索出了10个对象，则第一集合是(对象1、对象2、对象3……对象10)。第四集合是(对象4、对象5、对象6)，第五集合是(对象7、对象8、对象9、对象10)，其中第四集合的三个对象中，对象6与第二集合的相似度最大、对象5与第二集合的相似度其次，对象4与第二集合的相似度最小，则第二队列的内部排列顺序为：对象6为队首，对象5位于队列中间，对象4是队尾。而第三队列的内部排列顺序可以为(对象7、对象8、对象9、对象10)，即维持了顺序的不变。因此，第三队列可以记为保序队列。

本实施例提供的方法，在实现图8实施例达到的效果的基础上，设计了一套基于队列的重排框架，通过将第二集合加入第一队列，将第四集合加入第二队列，将第五集合加入第三队列，可以将从数据库中搜索出的对象划分出多种队列，在选取对象时，通过第一队列中的对象排在前、第二队列中的对象排在中间，第三队列中的对象排在最后，在按照从前到后的顺序选取对象时，会高优先选取第一队列中的对象，其次优先选取第二队列中的对象，低优先选取第三队列中的对象，那么由于三种队列中，第一队列中对象的置信度最高，第二队列中对象的置信度其次，第三队列中对象的置信度最低，在选取的对象的总数目一定的情况下，能够提高选取置信度高的对象的概率，降低选取置信度低的对象的概率，从而提高搜索结果中置信度高的对象的占比，因此可以提高搜索结果的召回率，并且，能够让置信度高的对象置于搜索结果的前列，提高搜索结果顺序的准确性。

需要说明的一点是，图8实施例以及图11实施例所示的队列机制仅是一种示例性实施方式，而本申请的保护范围并不局限于此，例如，可以将队列机制等同替换为其他顺序存储结构，比如说将图8实施例以及图11实施例中的队列替换为数组，而这些修改或替换都应涵盖在本申请的保护范围之内。

以上介绍了本申请实施例的相似性搜索方法，以下介绍本申请实施例的相似性搜索装置，应理解，该应用于相似性搜索装置其具有上述方法中服务器的任意功能。

本申请还提供了一种相似性搜索装置。如图13所示，相似性搜索装置1300包括接收模块1301，搜索模块1302，划分模块1303、排序模块1304和发送模块1305。以上各个模块可以为软件模块。

接收模块1301，用于执行步骤302；搜索模块1302，用于执行步骤303；划分模块1303，用于执行步骤304；排序模块1304，用于执行步骤305；发送模块1305，用于执行步骤306。

在一种可能的实现中，该划分模块，还用于执行步骤805或者步骤1106。

在一种可能的实现中，该排序模块，具体用于执行步骤1105至步骤1108。

在一种可能的实现中，该排序模块，具体用于执行步骤605以及步骤606：

相似性搜索装置1300可以作为云搜索服务向用户提供。例如，相似性搜索装置1300(或其部分)运行在云环境上，例如运行在云环境上的一个或多个服务器上，用户选择目标对象发送至接收模块1301后，启动相似性搜索装置1300对目标对象进行搜索，输出的目标数目个对象被提供给用户。当然，该装置运行在云环境仅是示意，该装置也可以运行在边缘环境中，例如运行在边缘环境中的一个或多个服务器上。该装置还可以运行在终端环境中，具体为终端环境中的一个或多个终端设备上。终端设备可以为手机、笔记本、服务器、台式电脑等。

应理解，上述实施例提供的相似性搜索装置在进行相似性搜索时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将服务器的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的相似性搜索装置与相似性搜索方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

以上介绍了本申请实施例的相似性搜索装置，以下介绍该相似性搜索装置可能的产品形态。应理解，但凡具备上述图13中的相似性搜索装置的特征的任何形态的产品都落入本申请的保护范围。还应理解，以下介绍仅为举例，不限制本申请实施例的相似性搜索装置的产品形态仅限于此。

作为一种可能的产品形态，本申请实施例中的相似性搜索装置，可以由一般性的总线体系结构来实现。例如，该相似性搜索装置可以实施为服务器，参见图14，图14是本申请实施例提供的一种服务器的结构示意图，该服务器1400可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器1401和一个或一个以上的存储器1402，另外还可以包括总线1403、收发器1404，处理器1401、存储器1402以及收发器1404之间可以通过总线1403通信。

存储器1402中存储有至少一条指令，至少一条指令由处理器1401加载并执行以实现上述各个方法实施例提供的相似性搜索方法，处理器1401可以控制收发器1404执行步骤302以及步骤306，或者步骤602以及步骤607，或者步骤802以及步骤808，或者步骤1102以及步骤1109。

其中，处理器1401可以是中央处理器(英文：central processing unit，缩写：CPU)。存储器1402可以包括易失性存储器1402(英文：volatile memory)，例如随机存取存储器1402(英文：random access memory，缩写：RAM)。存储器1402还可以包括非易失性存储器1402(英文：non-volatile memory)，例如只读存储器1402(英文：read-only memory，缩写：ROM)，快闪存储器1402，HDD或SSD。存储器1402中还可以包括操作系统等其他运行进程所需的软件模块。操作系统可以为LINUX ^TM，UNIX ^TM，WINDOWS ^TM等。当然，该服务器还可以具有有线或无线网络接口以及输入输出接口等部件，以便进行输入输出，该服务器还可以包括其他用于实现设备功能的部件，在此不做赘述。另外，服务器1400可以为云环境中的服务器，或边缘环境中的服务器，或终端环境中的服务器。

如图15所示，相似性搜索装置1300的不同模块可以在分散在不同服务器上运行。因此，本申请还提出了一种服务器集群。如图15所示，该服务器集群包括多个服务器1400。每个服务器1400的结构还请参见上述图14实施例。不同服务器1400间通过通信网络建立通信通路。上述方法实施例中，相似性搜索方法的不同步骤可以分散在不同的服务器执行，例如服务器1用于执行步骤302，服务器2用于执行步骤303至步骤305，服务器3用于执行步骤306。相应地，相似性搜索装置1300的不同模块可以分布在不同服务器1400，例如接收模块1301位于服务器1，搜索模块1302以及划分模块1303位于服务器2，发送模块1305位于服务器3。

任一服务器1400可以为云环境中的服务器，或边缘环境中的服务器，或终端环境中的服务器。

考虑到数据库或者第一集合占用的存储空间很大，服务器1400本身可能无法存储全部的数据库或者第一集合，如图16所示，本申请还提出了一种服务器集群，该服务器集群包括多个服务器1400以及云存储服务。数据库或者第一集合存储在云存储服务中(例如对象存储服务)，用户在云存储服务中申请一定容量的存储空间，并将数据库或者第一集合存入存储空间中。服务器1400运行时，通过通信网络从远端的云存储服务中获取所需的对象。

作为一种可能的产品形态，本申请实施例中的相似性搜索装置，可以由芯片来实现。

在一些可能的实施例中，该芯片包括处理器，用于从存储器中调用并运行存储器中存储的指令，使得安装有该芯片的设备执行上述各个方法实施例提供的相似性搜索方法。

在一些可能的实施例中，该芯片包括输入接口、输出接口、处理器和存储器，该输入接口、输出接口、该处理器以及该存储器之间通过内部连接通路相连，该处理器用于执行该存储器中的指令，当该指令被执行时，该处理器用于执行步骤303至步骤305、步骤603至步骤607、步骤803至步骤807、步骤1103至步骤1108，该处理器用于控制该输入接口用于执行上述步骤302、步骤602、步骤802、步骤1102，该处理器用于控制该输出接口执行上述方法实施例中的步骤306、步骤607、步骤808、步骤1109。

作为一种可能的产品形态，本申请实施例中的相似性搜索装置，还可以使用下述来实现：一个或多个现场可编程门阵列(Field-Programmable Gate Array，FPGA)、可编程逻辑器件(英文：Programmable Logic Device，简称：PLD)、复杂可编程逻辑器件(英文：Complex Programmable Logic Device，简称：CPLD)、控制器、专用集成电路(Application Specific Integrated Circuit，ASIC)、状态机、门逻辑、分立硬件部件、晶体管逻辑器件、网络处理器(Network Processor，NP)、任何其它适合的电路、或者能够执行本申请通篇所描述的各种功能的电路的任意组合。

作为一种可能的产品形态，本申请实施例中的相似性搜索装置，可以由计算机程序实现，该计算机程序包括用于执行上述方法实施例的指令。该计算机程序可以为一个软件安装包，在需要使用上述相似性搜索方法的情况下，可以下载该计算机程序并在服务器上执行该计算机程序。

应理解，上述各种产品形态的相似性搜索装置，分别具有上述方法实施例中服务器的任意功能，此处不再赘述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例中描述的各方法步骤和模块，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各实施例的步骤及组成。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域普通技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的系统、装置和模块的具体工作过程，可以参见前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，该模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或模块的间接耦合或通信连接，也可以是电的，机械的或其它的形式连接。

该作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本申请实施例方案的目的。

另外，在本申请各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以是两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

该集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例该方法的全部或部分步骤。而前述的存储介质包括易失性存储器以及非易失性存储器，例如存储介质可以是：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟、快闪存储器、硬盘(hard disk drive，HDD)、固态硬盘(solid state drive，SSD)或者光盘等各种可以存储程序代码的介质。

上述各个实施例的流程的描述各有侧重，某个流程中没有详述的部分，可以参见其他流程的相关描述。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。该计算机程序产品包括一个或多个计算机程序指令。在计算机上加载和执行该计算机程序指令时，全部或部分地产生按照本申请实施例的流程或功能。该计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。该计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，该计算机程序指令可以从一个网站站点、计算机、服务器或数据中心通过有线或无线方式向另一个网站站点、计算机、服务器或数据中心进行传输。该计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。该可用介质可以是磁性介质(例如软盘、硬盘、磁带)、光介质(例如，数字视频光盘(digital video disc，DVD)、或者半导体介质(例如固态硬盘)等。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，该程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上该仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

一种相似性搜索方法，其特征在于，所述方法包括：

接收终端的搜索指令，所述搜索指令用于指示搜索与目标对象相似的对象；

对数据库进行搜索，得到第一集合，所述第一集合包括多个对象；

将所述第一集合划分为第二集合以及第三集合，所述第二集合中每个对象与所述目标对象之间的相似度满足第一阈值，所述第三集合中每个对象与所述目标对象的相似度不满足所述第一阈值；

按照所述第二集合中的对象在前、所述第三集合中的对象在后的顺序，对所述第一集合中的对象进行排序；

按照从前往后的顺序，从所述第一集合中选择对象发往所述终端。
根据权利要求1所述的方法，其特征在于，所述对数据库进行搜索，得到第一集合具体包括：采用第一相似度算法，把与所述目标对象之间的相似度满足第三阈值的对象加入所述第一集合；

进一步的，所述将所述第一集合划分为第二集合以及第三集合，具体包括：

采用多种相似度算法结合，获取所述第一集合中的对象与所述目标对象之间的综合相似度，把综合相似度满足所述第一阈值的对象加入所述第二集合，把综合相似度不满足所述第一阈值的对象加入所述第三集合，所述多种相似度算法包括所述第一相似度算法。
根据权利要求1所述的方法，其特征在于，

所述第三集合包括第四集合以及第五集合，所述第四集合中每个对象与所述第二集合的相似度满足第二阈值，所述第五集合中每个对象与所述第二集合的相似度不满足所述第二阈值；

在所述第三集合中对象的顺序具体为：所述第四集合中的对象在前、所述第五集合中的对象在后。
根据权利要求1所述的方法，其特征在于，所述对数据库进行搜索，得到第一集合具体包括：采用第一相似度算法，把与所述目标对象之间的相似度满足第三阈值的对象加入所述第一集合；

进一步的，所述将所述第一集合划分为第二集合以及第三集合之后，所述方法还包括：

采用多种相似度算法结合，获取所述第三集合中的对象与所述第二集合的综合相似度，把综合相似度满足第二阈值的对象加入第四集合，把综合相似度不满足所述第二阈值的对象加入第五集合，所述多种相似度算法包括所述第一相似度算法，所述第三集合包括所述第四集合以及所述第五集合，在所述第三集合中对象的顺序具体为：所述第四集合中的对象在前、所述第五集合中的对象在后。
根据权利要求1所述的方法，其特征在于，所述将所述第一集合划分为第二集合以及第三集合之后，所述方法还包括：

从所述第三集合中获取簇，所述簇中的任一对象与所述簇中的其他对象之间的相关度符合预设条件；

获取所述簇与所述第二集合之间的相似度，作为所述簇中的每个对象与所述第二集合之间的相似度；

把相似度满足第二阈值的对象加入第四集合，把相似度不满足所述第二阈值的对象加入第五集合，所述第三集合包括所述第四集合以及所述第五集合，在所述第三集合中对象的顺序具体为：所述第四集合中的对象在前、所述第五集合中的对象在后。
根据权利要求5所述的方法，其特征在于，所述获取所述簇与所述第二集合之间的相似度，具体包括下述任意一项：

从所述簇中选取代表点，获取所述代表点与所述第二集合之间的相似度，作为所述簇与所述第二集合之间的相似度，所述代表点用于代表所述簇中的每个对象；

获取所述簇中的每个对象与所述第二集合之间的相似度，根据所述每个对象与所述第二集合之间的相似度，获取所述簇与所述第二集合之间的相似度。
根据权利要求3至6中任一项所述的方法，其特征在于，所述按照所述第二集合中的对象在前、所述第三集合中的对象在后的顺序，对所述第一集合中的对象进行排序，具体包括：

将所述第二集合存入第一队列；

将所述第四集合存入第二队列；

将所述第五集合存入第三队列；

按照所述第一队列最前、所述第二队列其次、所述第三队列最后的顺序，对所述第一集合中的对象进行排序。
根据权利要求1至6中任一项所述的方法，其特征在于，所述按照所述第二集合中的对象在前、所述第三集合中的对象在后的顺序，对所述第一集合中的对象进行排序，具体包括：

将所述第二集合存入第一队列；

将所述第三集合存入第二队列；

按照所述第一队列在前、所述第二队列在后的顺序，对所述第一集合中的对象进行排序。
根据权利要求1至8中任一项所述的方法，其特征在于，

对于所述第二集合中的每个对象，所述对象与所述目标对象的相似度越大，所述对象在所述第二集合中的排列位置越靠前；和/或，

对于所述第三集合中的每个对象，所述对象与所述第二集合的相似度越大，所述对象在所述第三集合中的排列位置越靠前。
根据权利要求1所述的方法，其特征在于，所述将所述第一集合划分为第二集合以及第三集合，具体包括：

从所述第一集合中获取簇，所述簇中的任一对象与所述簇中的其他对象之间的相关度符合预设条件；

获取所述簇与所述目标对象之间的相似度，作为所述簇中的每个对象与所述目标对象之间的相似度；

把相似度满足所述第一阈值的对象加入所述第二集合，把相似度不满足所述第一阈值的对象加入所述第三集合。
一种相似性搜索装置，其特征在于，所述装置包括：

接收模块，用于接收终端的搜索指令，所述搜索指令用于指示搜索与目标对象相似的对象；

搜索模块，用于对数据库进行搜索，得到第一集合，所述第一集合包括多个对象；

划分模块，用于将所述第一集合划分为第二集合以及第三集合，所述第二集合中每个对象与所述目标对象之间的相似度满足第一阈值，所述第三集合中每个对象与所述目标对象的相似度不满足所述第一阈值；

排序模块，用于按照所述第二集合中的对象在前、所述第三集合中的对象在后的顺序，对所述第一集合中的对象进行排序；

发送模块，用于按照从前往后的顺序，从所述第一集合中选择对象发往所述终端。
根据权利要求11所述的装置，其特征在于，所述搜索模块，具体用于：采用第一相似度算法，把与所述目标对象之间的相似度满足第三阈值的对象加入所述第一集合；

进一步的，所述划分模块，具体用于：采用多种相似度算法结合，获取所述第一集合中的对象与所述目标对象之间的综合相似度，把综合相似度满足所述第一阈值的对象加入所述第二集合，把综合相似度不满足所述第一阈值的对象加入所述第三集合，所述多种相似度算法包括所述第一相似度算法。
根据权利要求11所述的装置，其特征在于，所述第三集合包括第四集合以及第五集合，所述第四集合中每个对象与所述第二集合的相似度满足第二阈值，所述第五集合中每个对象与所述第二集合的相似度不满足所述第二阈值；

在所述第三集合中对象的顺序具体为：所述第四集合中的对象在前、所述第五集合中的对象在后。
根据权利要求11所述的装置，其特征在于，所述搜索模块，具体用于：采用第一相似度算法，把与所述目标对象之间的相似度满足第三阈值的对象加入所述第一集合；

进一步的，所述划分模块，还用于：采用多种相似度算法结合，获取所述第三集合中的对象与所述第二集合的综合相似度，把综合相似度满足第二阈值的对象加入第四集合，把综合相似度不满足所述第二阈值的对象加入第五集合，所述多种相似度算法包括所述第一相似度算法，所述第三集合包括所述第四集合以及所述第五集合，在所述第三集合中对象的顺序具体为：所述第四集合中的对象在前、所述第五集合中的对象在后。
根据权利要求11所述的装置，其特征在于，所述装置还包括：

获取模块，用于从所述第三集合中获取簇，所述簇中的任一对象与所述簇中的其他对象之间的相关度符合预设条件；

所述获取模块，还用于获取所述簇与所述第二集合之间的相似度，作为所述簇中的每个对象与所述第二集合之间的相似度；

所述划分模块，还用于把相似度满足第二阈值的对象加入第四集合，把相似度不满足所述第二阈值的对象加入第五集合，所述第三集合包括所述第四集合以及所述第五集合，在所述第三集合中对象的顺序具体为：所述第四集合中的对象在前、所述第五集合中的对象在后。
根据权利要求15所述的装置，其特征在于，所述获取模块，具体用于执行下述任意一项：

从所述簇中选取代表点，获取所述代表点与所述第二集合之间的相似度，作为所述簇与所述第二集合之间的相似度，所述代表点用于代表所述簇中的每个对象；

获取所述簇中的每个对象与所述第二集合之间的相似度，根据所述每个对象与所述第二集合之间的相似度，获取所述簇与所述第二集合之间的相似度。
根据权利要求13至16中任一项所述的装置，其特征在于，所述排序模块，具体用于：

将所述第二集合存入第一队列；

将所述第四集合存入第二队列；

将所述第五集合存入第三队列；

按照所述第一队列最前、所述第二队列其次、所述第三队列最后的顺序，对所述第一集合中的对象进行排序。
根据权利要求11至16中任一项所述的装置，其特征在于，所述排序模块，具体用于：

将所述第二集合存入第一队列；

将所述第三集合存入第二队列；

按照所述第一队列在前、所述第二队列在后的顺序，对所述第一集合中的对象进行排序。
根据权利要求11至18中任一项所述的装置，其特征在于，

对于所述第二集合中的每个对象，所述对象与所述目标对象的相似度越大，所述对象在所述第二集合中的排列位置越靠前；和/或，

对于所述第三集合中的每个对象，所述对象与所述第二集合的相似度越大，所述对象在所述第三集合中的排列位置越靠前。
根据权利要求11所述的装置，其特征在于，所述划分模块，具体包括：

获取单元，用于从所述第一集合中获取簇，所述簇中的任一对象与所述簇中的其他对象之间的相关度符合预设条件；

所述获取单元，还用于获取所述簇与所述目标对象之间的相似度，作为所述簇中的每个对象与所述目标对象之间的相似度；

加入单元，用于把相似度满足所述第一阈值的对象加入所述第二集合，把相似度不满足所述第一阈值的对象加入所述第三集合。
一种服务器，其特征在于，所述服务器包括一个或多个处理器和一个或多个存储器，所述一个或多个存储器中存储有至少一条指令，所述指令由所述一个或多个处理器加载并执行以实现如权利要求1至权利要求10任一项所述的相似性搜索方法。
一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令，所述指令由处理器加载并执行以实现如权利要求1至权利要求10任一项所述的相似性搜索方法。