WO2018176913A1

WO2018176913A1 - 搜索方法、装置及非临时性计算机可读存储介质

Info

Publication number: WO2018176913A1
Application number: PCT/CN2017/115680
Authority: WO
Inventors: 刘铭; 陈达遥; 庞盟盟; 冯涛; 曾之肇; 魏永超; 潘文彬
Original assignee: 北京三快在线科技有限公司
Priority date: 2017-03-31
Filing date: 2017-12-12
Publication date: 2018-10-04
Also published as: US20200110778A1; CN108664515B; KR20190128246A; SG11201909119YA; CA3059929C; EP3608799A1; JP2020512651A; US11144594B2; CA3059929A1; EP3608799A4; CN108664515A

Abstract

一种搜索方法、装置及非临时性计算机可读存储介质。所述方法包括：确定与待搜索的查询文本匹配的至少一个第一搜索策略（100），其中，每个所述第一搜索策略对应至少一个第一文本索引域及所述第一文本索引域匹配的搜索权重；基于每个所述第一搜索策略对应的每个所述第一文本索引域，执行所述查询文本的搜索操作（110）；将上述所有搜索操作的搜索结果进行归并输出（120）。

Description

搜索方法、装置及非临时性计算机可读存储介质

相关申请的交叉引用

本专利申请要求于2017年03月31日提交的、申请号为201710209677.X、发明名称为“一种搜索方法及装置，电子设备”的中国专利申请的优先权，该申请的全文以引用的方式并入本文中。

技术领域

本申请涉及计算机技术，具体涉及一种搜索方法、装置及非临时性计算机可读存储介质。

背景技术

随着互联网技术的发展，互联网上的信息呈爆炸式的增长，越来越多的用户通过互联网的信息搜索获取自己关注的内容。例如，搜索引擎可基于用户输入的文本进行信息搜索，并基于文本相关性执行搜索服务。搜索引擎发展伊始，网页也是互联网的主要信息载体，因而针对网页进行搜索就基本能够获得用户关注的内容。然而，随着移动互联网的发展，O2O(Online-to-Offline)平台提供的本地生活化服务方便了人们的生活，在O2O平台上的搜索需求也逐渐增多。与网页不同，O2O平台的信息描述载体可具有多个文本索引域，用于从不同的角度对平台服务进行描述。比如：当描述一个提供餐饮服务的商家POI(Point of Interest)时，可能会从商家名称、商家注册公司名称、品牌名称、商家所处商圈、商家地址、商家主营菜品、商家营业时间等等角度来进行描述。在这种情况下，O2O平台上的描述性文本索引域有时可多达五十个以上。并且，这些文本索引域描述的信息可能并不相关，利用网页搜索方法对所有文本索引域进行信息检索可能很难获得全面的、准确的用户关注的内容。

发明内容

本申请提供一种搜索方法，对于具有多文本索引域的信息，可获得相对准确的搜索结果。

第一方面，本申请实施例提供了一种搜索方法，包括：

确定与待搜索的查询文本匹配的至少一个第一搜索策略，其中，每个所述第一搜索策略对应至少一个第一文本索引域及所述第一文本索引域匹配的搜索权重；

基于每个所述第一搜索策略对应的每个所述第一文本索引域，分别执行所述查询文本的搜索操作；

将上述所有搜索操作的搜索结果进行归并输出。

第二方面，本申请实施例提供了一种搜索装置，包括：处理器和非临时性计算机可读存储介质。所述非临时性计算机可读存储介质存储有能够被所述处理器执行的机器可执行指令，所述处理器被所述机器可执行指令促使执行如本申请第一方面所公开的搜索方法。

第三方面，本申请实施例提供了一种非临时性计算机可读存储介质，存储有机器可执行指令，在被处理器调用和执行时，所述机器可执行指令促使所述处理器执行如本申请第一方面所公开的搜索方法。

本申请实施例公开的搜索方法，通过确定与查询文本匹配的至少一个第一搜索策略，其中，每个所述第一搜索策略对应至少一个文本索引域以及所述文本索引域的匹配的搜索权重；然后，基于每个所述第一搜索策略对应的每个所述文本索引域，分别执行所述查询文本的搜索操作；最后，将上述所有搜索操作的搜索结果进行归并输出。对于具有多个文本索引域的信息，可获得相对准确的搜索结果。通过在仅与查询文本关联的文本索引域执行搜索操作，而不需要搜索所有的文本索引域，从而可避免因在不相关的文本索引域上字面命中而带来误召回，有效提升了搜索结果的相关性。并且，通过对不同文本域索引匹配设置搜索权重，可有效提高搜索结果的准确率。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例的技术描述中所需要使用的附图作简单地介绍。下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一实施例的搜索方法的流程图。

图2是本申请另一实施例的搜索方法的流程图。

图3是本申请又一实施例的搜索方法的流程图。

图4是本申请一实施例的搜索装置的硬件结构示意图。

图5是本申请一实施例提供的搜索逻辑的功能模块图。

图6是本申请另一实施例提供的搜索逻辑的功能模块图。

图7是本申请又一实施例提供的搜索逻辑的功能模块图。

图8是本申请再一实施例提供的搜索逻辑的功能模块图。

具体实施方式

下面将结合附图，对本申请实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动下所获得的所有其他实施例，都属于本申请保护的范围。

本申请公开一种搜索方法，如图1所示，该方法包括步骤100至步骤120。

本申请的搜索方法可包括两类搜索策略，即第一搜索策略、第二搜索策略。其中，第一搜索策略可仅针对搜索物料的部分文本索引域执行搜索操作，第二搜索策略可针对搜索物料的全部文本索引域执行搜索操作。

步骤100，确定与查询文本匹配的至少一个第一搜索策略。

其中，每个所述第一搜索策略可对应至少一个文本索引域，以及所述文本索引域匹配的搜索权重。

第一搜索策略可用于限定所要查询的搜索物料的文本索引域以及与所述文本索引域匹配的搜索权重。每个所述第一搜索策略可对应至少一个文本索引域，每个所述文本索引域可具有相同或不同的搜索权重。每个所述第一搜索策略对应的文本索引域各自可对应相同或不同的查询文本。文本索引域可用来建立索引，例如倒排索引。文本索引域的内容通常是有意义的文本，可用来描述搜索物料的某一方面。以提供餐饮服务的商家为例，搜索物料的兴趣点POI(Point of Interest)可能会包括商家名称、注册公司名称、品牌名称、所处商圈、地址、主营菜品和营业时间等等字段中至少之一，这些文本字段即是文本索引域。如搜索物料“金百万位于望京花园的分店”的poi_name可为金百万烤鸭店(望京花园店)。其中，poi_name是指系统中记录的文本索引域的名称，例如为商家名称“金百万烤鸭店”，而poi_name后面的文本是该文本索引域的具体内容，可被用来建立倒排索引。文本索引域可用于表示搜索物料的字段。这样，获取待搜索的查询文本之后，可首先确定所述查询文本匹配的第一搜索策略。例如，可以预先设置多个第一搜索策略的文本索引域，并设置与每个第一搜索策略对应的查询文本。例如，第一搜索策略可包括：商家策略、地标策略、菜名策略等。然后，可分别设置每个第一搜索策略对应的查询文本，如商家策略对应的查询文本可包括：金百万、肯德基、全聚德等。

待搜索的查询文本可以是用户在客户端的搜索栏中输入的，也可以是客户端根据用户的历史行为日志自动生成的。例如，当客户端检测到某一女性用户进入化妆品销售页面时，可根据用户的年龄信息给用户推送相关的搜索结果。此时，客户端可首先根据用户的信息生成查询文本(如：中年女性)，然后调用搜索引擎对自动生成的查询文本执行搜索操作。

当基于查询文本与第一搜索策略的对应关系来确定所述查询文本匹配的至少一个第一搜索策略时，可首先通过人工预先建立查询文本与第一搜索策略的对应关系。如：可设置查询文本“肯德基”、“金百万”对应的搜索策略为商家策略。在设置查询文本与第一搜索策略的对应关系时，可同时设置每个第一搜索策略包含的文本索引域以及每个文本索引域的搜索权重。如可设置商家策略中包含的文本索引域有：商家名称、品牌名称、注册公司名称等。并且，商家策略对应的每个文本索引域的搜索权重可以设置为：商家名称的搜索权重为50％；品牌名称的搜索权重为30％；注册公司名称的搜索权重为20％。第一搜索策略对应的文本索引域以及所对应的每个文本索引域的搜索权重可以根据先验知识设置。

确定与待搜索的查询文本匹配的至少一个第一搜索策略可包括：根据预先设置的第一搜索策略和查询文本的对应关系，可确定与查询文本匹配的至少一个第一搜索策略；或者，通过预先训练的分类器对查询文本进行识别，可确定与所述查询文本匹配的至少一个第一搜索策略。其中，所述第一搜索策略可以是人工预先建立的，也可以是通过根据用户历史行为训练得到的识别模型识别确定的。

当通过预先训练的分类器来确定与查询文本匹配的至少一个第一搜索策略时，可首先根据搜索日志训练分类器。例如，获取一段时间内的搜索日志后，可根据搜索日志中的查询文本、文本索引域、匹配文本等信息，对所获取的搜索日志进行聚类，以训练用于识别第一搜索策略的分类器。基于搜索日志训练得到的分类器可以用于确定与所述查询文本匹配的至少一个第一搜索策略。

步骤110，基于每个所述第一搜索策略对应的文本索引域，分别执行所述查询文本的搜索操作。

一个查询文本可能对应多个第一搜索策略，每个第一搜索策略中有可能包括多个文本索引域。在确定了与查询文本匹配的第一搜索策略之后，可分别基于每个第一搜索策略中的文本索引域对所述查询文本执行搜索操作。例如，根据查询文本“金百万”可确定的第一搜索策略包括商家策略、地标策略。在商家策略中，与查询文本“金百万”匹配的文本索引域包括：商家名称、品牌名称。在地标策略中，与查询文本“金百万”匹配的文本索引域包括：建筑物。可分别基于商家名称、品牌名称和建筑物三个文本索引域，在搜索物料中对查询文本“金百万”执行搜索操作，并分别得到三个搜索结果列表。基于不同的文本索引域，在搜索物料中对查询文本执行搜索操作时，可结合每个文本索引域的搜索权重来计算查询文本与搜索物料的相关性。

为了避免遗漏搜索结果，还可基于第二搜索策略执行搜索操作。其中，所述第二搜索策略对应所有文本索引域。这样，通过基于第二搜索策略在所有文本索引域内执行所述查询文本的搜索操作，所得到的第二搜索结果可作为基于第一搜索策略在对应的文本索引域执行所述查询文本的搜索操作所得到的第一搜索结果的补充。

步骤120，将上述所有搜索操作的搜索结果进行归并输出。

将所有所述搜索操作的搜索结果进行归并输出时，首先可对搜索结果进行排序，然后过滤掉重复的搜索结果，将剩余的搜索结果输出。进行搜索结果排序时，可以将搜索结果按照搜索策略的优先级进行分块排位；或者，可将搜索结果按照每个搜索策略的判别得分进行分块排位；再或者，可按照搜索结果的评价得分对所有搜索结果进行混合排序。如果执行的搜索操作，包括基于第二搜索策略执行所述查询文本的搜索操作，则可将基于第二搜索策略执行搜索操作得到的第二搜索结果排在最后。

根据本申请实施例公开的搜索方法，可先确定与待搜索的查询文本匹配的至少一个第一搜索策略。其中，每个所述第一搜索策略对应至少一个文本索引域，并且每个所述文本索引域具有预设的搜索权重。然后，基于每个所述第一搜索策略对应的文本索引域，分别执行所述查询文本的搜索操作。最后，将上述所有搜索操作的搜索结果进行归并输出。这样，即使搜索物料具有多个文本索引域的信息，也可得到相对准确的搜索结果。通过仅在与查询文本关联的文本索引域执行搜索操作，而不需要搜索所有的文本索引域，从而可避免了因在不相关的文本索引域上字面命中而带来误召回，有效提升了搜索结果的相关性。并且，通过对不同文本索引域设置搜索权重，可有效提高了搜索结果的准确率。

本实施例公开的一种搜索方法，如图2所示，该方法包括步骤200至步骤250。

步骤200，基于搜索日志训练用于识别第一搜索策略的分类器。

当要通过分类器来确定与查询文本匹配的至少一个第一搜索策略时，可首先根据搜索日志训练分类器。基于搜索日志训练用于识别第一搜索策略的分类器，可包括：对搜索日志进行聚类，生成搜索策略空间定义，所述搜索策略空间定义可用于表示各个第一搜索策略和搜索日志中的查询文本的映射关系；基于所述搜索策略空间定义，分别获取每个所述第一搜索策略对应的搜索日志；基于每个所述第一搜索策略对应的搜索日志，分别训练用于识别相应的第一搜索策略的分类器。

其中，对搜索日志进行聚类，生成搜索策略空间定义，可包括：将根据每条搜索日志提取的查询文本在文本索引域的命中得分作为特征，对搜索日志进行聚类，获得查询文本类别。每一个查询文本类别可对应一个或多个搜索策略。

在训练得到分类器之前，可首先获取基于第二搜索策略执行搜索操作的搜索日志。为了使训练得到的分类器更准确，并且尽量减少训练的运算量，可选择下单行为的搜索日志进行分类器训练。搜索服务器记录的搜索日志在不同的系统中会有些差异。例如，搜索日志可包括搜索时间、查询文本、匹配文本、文本索引域、展现结果列表、点击或下单等行为标识等。如果下单行为的搜索日志相对于所有搜索日志占比太低，则可选择点击日志和下单日志共同训练分类器。当选择点击日志和下单日志共同训练分类器时，点击日志的行为类型权重可小于下单日志的行为类型权重。

可基于所获取的搜索日志分别计算每一个文本索引域的命中得分。例如，可以采用以下公式1计算每个文本索引域在该搜索日志中的命中得分score_i:

其中，match_i表示对查询文本执行搜索操作时所述查询文本在第i个文本索引域匹配的文本，len(match_i)表示所述查询文本在第i个文本索引域匹配的文本的长度。field_i表示第i个文本索引域的内容，len(field_i)表示第i个文本索引域的文本的长度。一般来说，len(match_i)<＝len(field_i)。N为平滑因子，公式1中分母表示取文本索引域的文本长度和长度上限N中的较小者。长度上限N作为该分母的上限，用于使得整个score不至于太小。type_j表示当前第j个搜索日志对应的用户行为类型的权重，例如点击日志的行为类型权重type＝0.8；下单日志的行为类型权重type＝1。可见，基于发生了点击或者下单行为的每一条日志中的每一个文本索引域，都可以得到至少一个非零的值作为该文本索引域在该条日志中的命中得分。N可以根据搜索服务的功能设置为一个自然数，如30。

初始化文本索引域向量，该向量的维数等于搜索日志中文本索引域的数量。以搜索日志中包括M个文本索引域为例，则文本索引域向量可为一个M维的向量。对于每一个文本索引域，可分别通过公式1计算该文本索引域在每条搜索日志的命中得分score_i。这样，针对每一搜索日志都可以得到一个M维向量。针对多条搜索日志，则可以得到类似于[0,0,1.0,0.8,0...0]、[0,0,0.9,0.9,0...0]等的多个M维向量。其中，M是搜索日志中文本索引域的个数，而每个M维向量的第i维数值对应着第i个文本索引域在各个搜索日志中的命中得分。

根据多个下单行为日志或/和点击行为日志得到多个M维非零向量之后，通过对所得到的多个M维向量进行聚类，即将在文本索引域上匹配情况相似的一类搜索聚到同一个类别中，可以建立每个第一搜索策略和搜索日志中的查询文本的映射关系。在一实施例中，可以采用多维空间的数值聚类方法对所获得的M维向量进行聚类，如Dbscan聚类算法、k-means聚类算法，本申请对采用的聚类算法不作限定。

经过聚类计算，聚类的中心点可认为是第一搜索策略的空间定义。所述第一搜索策略的空间定义可用于表示第一搜索策略和搜索日志中的查询文本的映射关系，以使得某一类别的查询文本可对应特定的第一搜索策略。例如：当用户输入“金百万”，“海底捞”，“九头鹰酒家”等查询文本时，通常是要搜索对应的商家。按照前述的聚类方法，查询文本“金百万”、“海底捞”、“九头鹰酒家”将聚成一类。由此可见，根据搜索日志进行聚类的过程实际是通过对看似杂乱的搜索结果做监督学习，学习到某一类查询文本在某些文本索引域上搜索要比在所有文本索引域上搜索更高效的过程。通常聚类结果不宜太细，控制在百以内为佳。采用自动聚类的方法，无需关注第一搜索策略想要表达的具体意义，也无需预先定义第一搜索策略，就可以确定与查询文本对应的第一搜索策略，并进一步确定该第一搜索策略对应的文本索引域。该方法可有效的减少了人工制定策略出错的可能性，并能识别出潜在的、难以发现的数据规律。

然后，可分别基于每一类别的查询文本来训练用于识别第一搜索策略的分类器。

在一实施例中，可以使用每个类别的查询文本作为正样本，并采集一定数量的负样本，将正样本和负样本作为训练样本数据做监督学习，以训练出用于识别第一搜索策略的分类器。每一个查询文本类别可对应一种第一搜索策略。在一实施例中，多分类器的实现方式可以有两种：一种是一个多分类器；另一种是多个二分类器拟合。例如，本实施例中可使用多个二分类器拟合。分类模型可以有多重选择，本实施例中以使用SVM(Support Vector Machine)分类器对训练样本数据进行监督学习为例，说明分类器的训练过程。首先，从训练样本数据中提取样本特征。所述提取的样本特征至少可包括：查询文本的文本特征，如查询文本、对查询文本进行分词后得到的分词组合。从训练样本数据中提取的样本特征还可以包括：query length，prefix，suffix，POS+bigram，POS+unigram，POS及其他组合特征。其中，query length为查询文本长度，prefix和suffix分别为查询文本的前缀和后缀，unigram和bigram分别为查询文本的文本特征，POS+unigram为查询文本的文本特征的位置。

可将上述提取的样本特征利用SVM分类器进行训练，得到用于识别第一搜索策略的分类器。可利用本领域技术人员熟知的任意技术来基于样本特征训练分类器，此处不再赘述。

经过样本训练，对于每一个查询文本类别，可以得到相应的用于识别第一搜索策略的分类器，用于后续对获取的查询文本进行识别。

步骤210，确定每个所述第一搜索策略对应的文本索引域，及每个文本索引域匹配的搜索权重。

确定每个所述第一搜索策略对应的文本索引域，及每个文本索引域匹配的搜索权重的方式有两种。第一种，如果第一搜索策略由人工预先设定，第一搜索策略中的文本索引域和查询文本的对应关系也通过人工预先设定，则每个第一搜索策略对应的文本索引域匹配的搜索权重也可以通过人工预先设定。每个第一搜索策略对应的文本索引域以及各文本索引域匹配的搜索权重，可以根据经验预先人工设置在程序代码中，也可以通过提供用户界面，由用户根据需要设置，此处不再赘述。

第二种，根据搜索日志设置每个第一搜索策略的文本索引域，以及每个文本索引域匹配的搜索权重。例如，对于每个第一搜索策略，可获取基于该第一搜索策略对应的所有搜索日志；然后，根据该第一搜索策略对应的所述搜索日志中的查询文本在各文本索引域的命中得分，迭代计算该第一搜索策略对应各文本索引域的平均权重；根据该第一搜索策略对应各文本索引域的平均权重确定该第一搜索策略对应的文本索引域以及各文本索引域匹配的搜索权重。其中，所述搜索日志可以为采用第二搜索策略对所有文本索引域执行搜索操作时得到的搜索日志。例如，可通过对聚类获得第一搜索策略的空间定义时采用的搜索日志进行标引，确定每个所述第一搜索策略对应的搜索日志。

所述搜索日志也可以为分别根据每个第一搜索策略，采用文本索引域的初始化搜索权重在所有文本索引域上执行搜索操作时得到的搜索日志。以搜索物料包括M个文本索引域为例，假设每个第一搜索策略都对应所述M个文本索引域，并且每个所述文本索引域匹配的搜索权重均为1/M。然后运行所述假设的第一搜索策略，对于查询文本按照假设的第一搜索策略执行搜索操作，并获取一段时间内的所述搜索操作的搜索日志。

通过搜索服务器，可以获得每一个第一搜索策略对应的搜索日志，包括获取每条搜索日志的查询文本、命中文本、文本索引域以及行为类型等。其中，命中文本是查询文本在文本索引域上的匹配文本。在本申请的一个实施例中，针对每一个第一搜索策略，根据该第一搜索策略对应的各搜索日志中查询文本在各文本索引域的命中得分，迭代计算该第一搜索策略对应各文本索引域的搜索权重可包括以下四个步骤。

第一步，获取所有文本索引域各自在每一条搜索日志的单一日志权重。以搜索物料包括M个文本索引域为例，每条搜索日志匹配的文本索引域至少为1个。计算命中得分前，可将M个文本索引域的搜索权重分别初始化为1/M。然后，可通过如下公式2计算所有文本索引域各自在每一天搜索日志中的单一日志权重：

其中，type_j为第j条搜索日志的行为类型权重。如：若第j条搜索日志为点击日志，则type_j＝0.8，若第j条搜索日志为下单日志，则type_j＝1。type_j还可以取其他值，只要满足点击日志的行为类型权重小于下单日志的类型权重即可。field_i表示第i个文本索引域的内容，len(field_i)表示第i个文本索引域的内容的长度。match_i表示第j条搜索日志的查询文本在第i个文本索引域的匹配内容，搜索过程中可以得到。还可以采用其他公式计算各文本索引域在每一条搜索日志中的单一日志权重，本实例施中，采用指数的比例是为了控制单一日志权重的上限，以便获取平滑的上限。

通过上述公式2可以得到所有文本索引域在每一条搜索日志中的单一日志权重。例如，假设共有Y条下单日志，每条下单日志有M个文本索引域，则在通过公式2分别获得所有M个文本索引域各自在Y条下单日志的单一日志权重之后，每个文本索引域将对应Y个单一日志权重。

由于每个第一搜索策略可对应至少一个文本索引域，每个文本索引域可能对应于多个第一搜索策略。例如：商家策略可对应商家名称、地址、商家品牌这三个文本索引域；而地标策略也可以对应商家名称、地址这两个文本索引域。通过采用上述公式2分别对每一个第一搜索策略对应的所有搜索日志进行计算，可以得到所有文本索引域在每个第一搜索策略对应的每一条搜索日志中的单一日志权重。

第二步，基于所有文本索引域在每个第一搜索策略对应的每一条搜索日志中的单一日志权重，分别计算每个第一搜索策略对应每个文本索引域的平均权重。例如，可对每个文本索引域在每个第一搜索策略对应的每一条搜索日志中的单一日志权重计算平均值，得到该第一搜索策略对应各文本索引域的平均权重，公式3如下：

其中，weight_i为第i个文本索引域在一个第一搜索策略对应的某一搜索日志中的单一日志权重，count_i是第i个文本索引域在该第一搜索策略对应的所有搜索日志中的非零单一日志权重的数量，weight_avg_i表示该第一搜索策略对应第i个文本索引域的平均权重。

以聚类得到P个第一搜索策略(例如，P个第一搜索策略可分别记为G1、G2、…、Gp)为例，假设第一搜索策略G1对应3个文本索引域，可分别记为T1、T2和T3。计算第一搜索策略G1对应文本索引域T1的平均权重weight_avg₁、第一搜索策略G1对应文本索引域T2的平均权重weight_avg₂和第一搜索策略G1对应文本索引域T3的的平均权重weight_avg₃。

第三步，获取每个第一搜索策略对应各文本索引域的平均权重的归一化权重值。

通过前面两个步骤的计算，可获得每一个第一搜索策略对应M个文本索引域的平均权重，其中部分非零，其余为零。可使用如下公式对非零的平均权重做归一化，得到平均权重的归一化权重值。公式4如下：

其中，weight_avg_j为某个第一搜索策略对应第j个文本索引域的非0平均权重，weight′_i为该第一搜索策略对应第i个文本索引域的归一化权重值，N为非0平均权重的个数。例如，对第一搜索策略G1对应文本索引域T1的平均权重weight_avg₁、第一搜索策略G1对应文本索引域T2的平均权重weight_avg₂和第一搜索策略G1对应文本索引域T3的平均权重weight_avg₃进行归一化处理，得到该第一搜索策略G1对应所有文本索引域T1、T2、T3的归一化权重值weight′₁、weight′₂和weight′₃。经过归一化，每一个第一搜索策略对应的所有文本索引域的权重之和为1。

第四步，确定具有非零归一化权重值的文本索引域为每个第一搜索策略对应的文本索引域。所述非零归一化权重值是该文本索引域在该第一搜索策略下的搜索权重。

经过以上的迭代计算，针对每一个第一搜索策略会确定具有非零归一化权重值的多个文本索引域，从而可选择出搜索物料中用户感兴趣的文本索引域，而文本索引域的归一化权重值可作为计算搜索物料的相关性时可使用的搜索权重。

得到的每一个第一搜索策略对应文本索引域的非零归一化权重值可能存在过小的情况，为了避免噪声，可以设置阈值将过小的非零归一化权重值去掉。在根据第一搜索策略对应的搜索日志中的查询文本在各文本索引域的命中得分，迭代计算第一搜索策略对应各文本索引域的搜索权重时，还可包括：确定归一化权重值大于预设阈值的文本索引域为每个第一搜索策略对应的文本索引域。其中，所述预设阈值可以为1/非零归一化权重值的个数。

在进行第一搜索策略识别时，可将整个查询文本分别输入训练好的分类器，将得出所述查询文本是否适用于当前第一搜索策略的结果。

步骤220，获取待搜索的查询文本。

待搜索的查询文本可以是用户在客户端的搜索栏中输入的查询文本，也可以是客户端根据用户的历史行为日志自动生成的查询文本。例如，客户端检测到某一女性用户进入化妆品销售页面后，可根据用户的年龄信息给用户推送相关的搜索结果。此时，客户端首先根据用户的信息生成查询文本(如：中年女性)，然后，调用搜索引擎对自动生成的查询文本执行搜索操作。

步骤230，确定与所述查询文本匹配的至少一个第一搜索策略。

其中，每个所述第一搜索策略对应至少一个文本索引域以及所述文本索引域匹配的搜索权重。

确定与所述查询文本匹配的至少一个第一搜索策略可包括：根据预先设置的第一搜索策略和查询文本的对应关系，确定与查询文本匹配的至少一个第一搜索策略；或者，通过预先训练的分类器对查询文本分别进行识别，确定与所述查询文本匹配的至少一个第一搜索策略。当通过预先训练的分类器对查询文本进行识别，确定与所述查询文本匹配的至少一个第一搜索策略时，可将所述查询文本分别输入预先训练好的多个分类器，获取每个所述分类器的识别结果，当某个或某些分类器识别为适应于所述查询文本时，则将所述某个或某些分类器对应的第一搜索策略作为所述查询文本匹配的第一搜索策略。

步骤240，基于每个第一搜索策略对应的每个所述文本索引域，分别执行所述查询文本的搜索操作。

一个查询文本可以被识别为匹配一个或者多个第一搜索策略，每个第一搜索策略又对应着各自的文本索引域及搜索权重，搜索服务器可根据多个第一搜索策略分别执行搜索操作，以便得到每个第一搜索策略对应的召回结果集合。

基于每个所述第一搜索策略对应的每个所述文本索引域分别执行所述查询文本的搜索操作，包括：根据搜索物料中的文本索引域与所述查询文本的相关性执行物料召回。其中，所述相关性可基于文本索引域的搜索权重确定。可以使用多线程技术由搜索服务器基于多个第一搜索策略并行执行搜索操作，以便得到每个第一搜索策略对应的召回结果集合。由于每个第一搜索策略都对应着各自的文本索引域及其搜索权重，可通过计算搜索物料与所述查询文本的相关性得分，来使得更重要的文本索引域得到更高的相关性得分，从而可有效提升了整个搜索服务器的召回结果排序效果。

举例如下，假设搜索服务器使用线性相关性加权得分作为相关性得分，公式5如下：

相关性得分＝∑(文本索引域匹配长度/文本索引域长度)×搜索权重 (公式5)。

以商家“肯德基”对应两个文本索引域为例：第一个文本索引域为“商家名”，对应的查询文本为“肯德基”；第二个文本索引域为“地点”，对应的查询文本为“五道口地铁站西侧”。商家“必胜客”可对应两个同样的文本索引域：第一个文本索引域为“商家名”，对应的查询文本为“必胜客”；第二个文本索引域为“地点”，对应的查询文本为“肯德基五道口店东侧”。查询文本为“肯德基”时，如果“商家名”对应的文本索引域的搜索权重更大，商家“肯德基”的相关性得分将高于商家“必胜客”。

步骤250，将上述所有搜索操作的搜索结果进行归并输出。

将上述所有搜索操作的搜索结果进行归并输出可包括：按照预设策略对基于上述至少一个第一搜索策略的搜索结果进行排序；滤除排在后面的重复的搜索结果；输出剩余的搜索结果。在将所有所述搜索操作的搜索结果进行归并输出时，可首先对搜索结果按照预设策略进行排序。进行搜索结果排序时，可以将基于多个第一搜索策略执行搜索操作得到的搜索结果，按照人工设定的优先级分块排位；或者，可按照基于每个第一搜索策略执行搜索操作时得到的搜索结果的相关性得分进行分块排位；再或者，可按照搜索结果的相关性得分对所有第一搜索策略得到的搜索结果进行混合排序。然后，过滤掉排在后面的重复的搜索结果，将剩余的搜索结果输出。

本申请实施例公开的搜索方法，可通过基于搜索日志训练用于识别第一搜索策略的分类器，确定每个所述第一搜索策略对应的文本索引域及每个文本索引域匹配的搜索权重。这样，在搜索过程中，可根据所获取的待搜索的查询文本，确定与所述查询文本匹配的至少一个第一搜索策略，并基于每个所述第一搜索策略对应的文本索引域分别执行所述查询文本的搜索操作后，将上述所有搜索操作的搜索结果进行归并输出。通过在与查询文本关联的文本索引域执行搜索操作，使得同一查询文本仅在对应的文本索引域进行搜索，而不需要搜索所有的文本索引域，从而避免了在不相关的文本索引域字面命中带来误召回，有效提升了对于具有多个文本索引域的信息的搜索结果的相关性。并且，通过基于不同文本域索引匹配的搜索权重来优化搜索结果的排位，可有效提高了搜索结果的准确率。

基于搜索日志进行训练用于识别第一搜索策略的分类器，并且基于搜索日志进行迭代计算以确定第一搜索策略对应的文本索引域及各文本索引域匹配的搜索权重，可充分体现了用户的搜索期望，进一步有效提高搜索结果的准确度。

本实施例公开的一种搜索方法，如图3所示，该方法可包括步骤300至步骤370。

步骤300，基于搜索日志训练用于识别第一搜索策略的分类器。

基于搜索日志训练用于识别第一搜索策略的分类器的具体实施方式参见上述实施例，此处不再赘述。

步骤310，确定每个所述第一搜索策略对应的文本索引域，及每个文本索引域匹配的搜索权重。

确定每个所述第一搜索策略对应的文本索引域，及每个文本索引域匹配的搜索权重的具体实施方式，也可参见上述实施例，此处不再赘述。

步骤320，获取待搜索的查询文本。

获取待搜索的查询文本的具体实施方式也可参见上述，此处不再赘述。

步骤330，确定与所述查询文本匹配的至少一个第一搜索策略。

其中，每个所述第一搜索策略可对应至少一个文本索引域及所述文本索引域匹配的搜索权重。

确定与所述查询文本匹配的至少一个第一搜索策略的具体实施方式也可参见上述实施例，此处不再赘述。

步骤340，在所述至少一个第一搜索策略对应的每个所述文本索引域，分别执行所述查询文本的搜索操作。

基于所述至少一个第一搜索策略对应的每个所述文本索引域，分别执行所述查询文本的搜索操作的具体实施方式也可参见上述实施例，此处不再赘述。

步骤350，基于第二搜索策略执行所述查询文本的搜索操作。

其中，所述第二搜索策略对应搜索物料的全部文本索引域，且每个所述文本索引域的搜索权重相同。

为了增加系统的鲁棒性，还可以基于第二搜索策略对全部文本索引域进行查询文本的搜索操作。在排序时将第二搜索策略的搜索结果放在第一搜索策略的搜索结果的后面，以免无结果被召回。

步骤360，将上述所有搜索操作的搜索结果进行归并输出。

将上述所有搜索操作的搜索结果进行归并输出可包括：按照预设策略对所有基于第一搜索策略执行的搜索操作的搜索结果进行排序；将基于第二搜索策略执行的搜索操作得到的搜索结果排在基于第一搜索策略执行的搜索操作得到的搜索结果的后面；滤除排在后面的重复的搜索结果；输出剩余的搜索结果。对基于第一搜索策略执行的搜索操作得到的搜索结果进行排序的具体方法可参见上述实施例，此处不再赘述。然后，过滤掉排在后面的重复的搜索结果，将剩余的搜索结果输出。

步骤370，当满足预设条件时，基于所述第二搜索策略对应的搜索日志训练并更新所述用于识别第一搜索策略的分类器。

随着用户使用习惯的改变或者搜索物料的不断增加，第一搜索策略可能会出现无法适应用户搜索需求的问题。在这种情况下，用户可能会频繁选择基于第二搜索策略执行搜索操作返回的搜索结果。这时，则需要基于用户对所展现的搜索结果的选择行为日志，更新第一搜索策略。所述预设条件可包括以下至少一项：达到预设的更新周期，第一点击率与第二点击率的比值小于预设阈值。其中，所述第一点击率为对基于所述第一搜索策略执行搜索操作得到的搜索结果的点击率，所述第二点击率为对基于第二搜索策略执行搜索操作得到的搜索结果的点击率。

所述预设的更新周期可根据搜索物料的更新速度确定，或者人为设定，例如，可以为1个月。用户对基于所述第一搜索策略执行搜索操作得到的搜索结果的第一点击率以及用户对基于所述第二搜索策略执行搜索操作得到的搜索结果的第二点击率，可以通过对搜索服务器的搜索日志进行统计分析获得。

当达到预设的更新周期，或第一点击率与第二点击率的比值小于预设阈值时，可基于第二搜索策略执行搜索操作得到的搜索日志执行步骤300和步骤310，基于搜索日志重复执行训练用于识别第一搜索策略的分类器以及确定第一搜索策略对应的文本索引域和文本索引域匹配的搜索权重的操作，并将训练得到的分类器及第一搜索策略补充至原有第一搜索策略中。

通过结合第二搜索策略执行搜索操作，可以避免漏检导致的无结果被召回的问题。同时，通过结合第二搜索策略的搜索结果，重复执行训练用于识别第一搜索策略的分类器，可以发现由于用户的使用习惯的改变导致第一搜索策略不适用的问题，并可以及时发现新的第一搜索策略。

对应上述的搜索方法，本申请实施例还提供了一种搜索装置。图4为一种搜索装置的硬件结构示意图。该搜索装置可包括处理器401、存储有机器可执行指令的非临时性计算机可读存储介质402。处理器401与非临时性计算机可读存储介质402可经由系统总线403通信。并且，通过读取并执行非临时性计算机可读存储介质402中与搜索逻辑对应的机器可执行指令，处理器401可执行上文所述的搜索方法。所述搜索装置可以为PC机、移动终端、个人数字助理、平板电脑等。

本文中提到的非临时性计算机可读存储介质402可以是任何电子、磁性、光学或其它物理存储装置，可以包含或存储信息，如可执行指令、数据，等等。例如，非临时性计算机可读存储介质可以是：RAM(Radom Access Memory，随机存取存储器)、易失存储器、非易失性存储器、闪存、存储驱动器(如硬盘驱动器)、固态硬盘、任何类型的存储盘(如光盘、dvd等)，或者类似的存储介质，或者它们的组合。

图5为本申请一实施例提供的搜索逻辑的功能模块图。如图5所示，从功能上划分，上述搜索逻辑可以包括第一搜索策略确定模块510、搜索模块520和搜索结果输出模块530。

第一搜索策略确定模块510，用于确定与待搜索的查询文本匹配的至少一个第一搜索策略，其中，每个所述第一搜索策略对应至少一个第一文本索引域及所述第一文本索引域匹配的搜索权重。

搜索模块520，用于基于所述第一搜索策略确定模块510确定的每个所述第一搜索策略对应的每个所述第一文本索引域，执行所述查询文本的搜索操作；

搜索结果输出模块530，用于将上述所有搜索操作的搜索结果进行归并输出。

本申请实施例公开的搜索装置，通过确定与查询文本匹配的至少一个第一搜索策略，其中，每个所述第一搜索策略对应至少一个第一文本索引域以及所述第一文本索引域匹配的搜索权重；然后，基于每个所述第一搜索策略对应的每个所述文本索引域，执行所述查询文本的搜索操作；最后，将上述所有搜索操作的搜索结果进行归并输出。这样，对于具有多个文本索引域的信息，可获得相对准确的搜索结果。通过在仅与查询文本关联的文本索引域执行搜索操作，而不需要搜索所有的文本索引域，从而可避免因在不相关的文本索引域上字面命中而带来误召回，有效提升了搜索结果的相关性。并且，通过对不同文本域索引匹配设置搜索权重，可有效提高搜索结果的准确率。

在一实施例中，如图6所示，所述第一搜索策略确定模块510包括：

第一确定单元511，用于根据预先设置的第一搜索策略和查询文本的对应关系，确定与查询文本匹配的至少一个第一搜索策略。

在另一实施例中，如图7所示，所述第一搜索策略确定模块510包括：

第二确定单元512，用于通过预先训练的用于识别每个第一搜索策略的分类器对查询文本分别进行识别，确定与所述查询文本匹配的至少一个第一搜索策略。

在一实施例中，若通过第二确定单元512确定与查询文本匹配的至少一个第一搜索策略，则如图7所示，所述搜索逻辑还包括：

搜索策略分类器训练模块540，用于基于搜索日志训练分类器。

文本域及权重确定模块550，用于确定每个第一搜索策略对应的第一文本索引域，及每个第一文本索引域匹配的搜索权重。

在一实施例中，如图7所示，所述搜索策略分类器训练模块540包括：

搜索策略空间定义确定单元541，用于对搜索日志进行聚类，生成搜索策略空间定义，所述搜索策略空间定义用于表示每个第一搜索策略和搜索日志中的查询文本的映射关系；

训练单元542，用于基于所述搜索策略空间定义，获取每个所述第一搜索策略对应的搜索日志；并基于每个所述第一搜索策略对应的搜索日志，分别训练用于识别相应的第一搜索策略的分类器。

在一实施例中，如图7所示，所述文本域及权重确定模块550包括：

日志获取单元551，用于获取第一搜索策略对应的搜索日志；

权重计算单元552，用于根据所述第一搜索策略对应的搜索日志中的查询文本在搜索物料中的各第二文本索引域的命中得分，迭代计算所述第一搜索策略对应各所述第二文本索引域的平均权重。在一实施例中，权重计算单元552还可用于获取各所述第二文本索引域在所述第一搜索策略对应的每一条搜索日志中的单一日志权重；基于各所述第二文本索引域在在所述第一搜索策略对应的每一条搜索日志中的单一日志权重，计算所述第一搜索策略对应每个所述第二文本索引域的平均权重。

文本域及权重确定单元553，用于根据所述第一搜索策略对应各所述第二文本索引域的平均权重，确定该第一搜索策略对应的第一文本索引域以及各所述第一文本索引域匹配的搜索权重。在一实施例中，文本域及权重确定单元553还可用于基于所述第一搜索策略对应每个所述第二文本索引域的平均权重，计算所述第一搜索策略对应每个所述第二文本索引域的归一化权重值；将大于预设阈值的所述归一化权重值对应的所述第二文本索引域确定为所述第一搜索策略对应的所述第一文本索引域；并将所述第一文本索引域对应的所述归一化权重值确定为所述第一文本索引域匹配的搜索权重。

基于搜索日志进行训练第一搜索策略及其分类器，并且基于搜索日志进行迭代计算获得第一搜索策略对应的文本索引域及各文本索引域匹配的搜索权重，充分体验了用户的搜索期望，有效提高搜索结果的准确度。

在一实施例中，所述搜索模块510具体用于：

根据搜索物料中的各所述第一文本索引域的内容与所述查询文本的相关性执行物料召回；其中，所述相关性基于所述第一文本索引域的搜索权重确定。

在一实施例中，如图8所示，所述搜索逻辑还包括：

补充搜索模块560，用于基于第二搜索策略分别执行所述查询文本的搜索操作；其中，所述第二搜索策略对应搜索物料的全部第二文本索引域，且每个所述第二文本索引域的搜索权重相同。

在一实施例中，如图8所示，所述搜索逻辑还包括：

搜索策略更新模块570，用于当满足预设条件时，基于所述第二搜索策略对应的搜索日志训练并更新用于识别所述第一搜索策略的分类器。

在一实施例中，所述预设条件包括以下至少一项：达到预设更新周期；第一点击率与第二点击率的比值小于预设阈值；其中，所述第一点击率为对基于所述第一搜索策略执行搜索操作得到的搜索结果的点击率，所述第二点击率为对基于第二搜索策略执行搜索操作得到的搜索结果的点击率。

本申请还公开了一种非临时性计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述实施例所述的搜索方法的步骤。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上对本申请提供的一种搜索方法、装置进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件实现。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

Claims

一种搜索方法，包括：

确定与待搜索的查询文本匹配的至少一个第一搜索策略，其中，每个所述第一搜索策略对应至少一个第一文本索引域及所述第一文本索引域匹配的搜索权重；

基于每个所述第一搜索策略对应的每个所述第一文本索引域，执行所述查询文本的搜索操作；

将上述所有搜索操作的搜索结果进行归并输出。
根据权利要求1所述的方法，其中，确定与所述待搜索的查询文本匹配的所述至少一个第一搜索策略，包括：

根据预先设置的第一搜索策略和查询文本的对应关系，确定与所述查询文本匹配的所述至少一个第一搜索策略。
根据权利要求1所述的方法，其中，确定与所述待搜索的查询文本匹配的所述至少一个第一搜索策略，包括：

通过预先训练的用于识别每个所述第一搜索策略的分类器对所述查询文本分别进行识别，确定与所述查询文本匹配的所述至少一个第一搜索策略。
根据权利要求3所述的方法，还包括：

基于搜索日志训练所述分类器。
根据权利要求4所述的方法，其中，基于所述搜索日志训练所述分类器，包括：

对所述搜索日志进行聚类，生成搜索策略空间定义，其中所述搜索策略空间定义用于表示每个所述第一搜索策略和所述搜索日志中的查询文本的映射关系；

基于所述搜索策略空间定义，获取每个所述第一搜索策略对应的搜索日志；

基于每个所述第一搜索策略对应的搜索日志，分别训练用于识别相应的所述第一搜索策略的分类器。
根据权利要求1所述的方法，其中，还包括：

确定每个所述第一搜索策略对应的所述第一文本索引域及每个所述第一文本索引域匹配的搜索权重。
根据权利要求6所述的方法，其中，确定所述第一搜索策略对应的所述第一文本索引域及每个所述第一文本索引域匹配的搜索权重，包括：

获取所述第一搜索策略对应的搜索日志；

根据所述第一搜索策略对应的搜索日志中的查询文本在搜索物料中的各第二文本索引域的命中得分，迭代计算所述第一搜索策略对应各所述第二文本索引域的平均权重；

根据所述第一搜索策略对应各所述第二文本索引域的平均权重，确定该第一搜索策略对应的第一文本索引域以及各所述第一文本索引域匹配的搜索权重。
根据权利要求7所述的方法，其中，根据所述第一搜索策略对应的搜索日志中的查询文本在搜索物料中的各所述第二文本索引域的命中得分，迭代计算所述第一搜索策略对应各所述第二文本索引域的平均权重，包括：

获取各所述第二文本索引域在所述第一搜索策略对应的每一条搜索日志中的单一日志权重；

基于各所述第二文本索引域在在所述第一搜索策略对应的每一条搜索日志中的单一日志权重，计算所述第一搜索策略对应每个所述第二文本索引域的平均权重。
根据权利要求7所述的方法，其中，根据所述第一搜索策略对应各所述第二文本索引域的平均权重，确定该第一搜索策略对应的第一文本索引域以及各所述第一文本索引域匹配的搜索权重，包括：

基于所述第一搜索策略对应每个所述第二文本索引域的平均权重，计算所述第一搜索策略对应每个所述第二文本索引域的归一化权重值；

将大于预设阈值的所述归一化权重值对应的所述第二文本索引域确定为所述第一搜索策略对应的所述第一文本索引域，并

将所述第一文本索引域对应的所述归一化权重值确定为所述第一文本索引域匹配的搜索权重。
根据权利要求1所述的方法，其中，基于每个所述第一搜索策略对应的每个所述第一文本索引域，分别执行所述查询文本的搜索操作，包括：

根据搜索物料中的各所述第一文本索引域的内容与所述查询文本的相关性执行物料召回；其中，所述相关性基于所述第一文本索引域的搜索权重确定。
根据权利要求1所述的方法，还包括：

基于第二搜索策略执行所述查询文本的搜索操作；其中，所述第二搜索策略对应搜索物料的全部第二文本索引域，且每个所述第二文本索引域的搜索权重相同。
根据权利要求11所述的方法，还包括：

当满足预设条件时，基于所述第二搜索策略对应的搜索日志训练并更新用于识别所述第一搜索策略的分类器。
根据权利要求12所述的方法，其中，所述预设条件包括以下至少一项：

达到预设更新周期；以及

第一点击率与第二点击率的比值小于预设阈值，其中，所述第一点击率为对基于所述第一搜索策略执行搜索操作得到的搜索结果的点击率，所述第二点击率为对基于所述第二搜索策略执行搜索操作得到的搜索结果的点击率。
一种搜索装置，包括：

处理器；和

非临时性计算机可读存储介质；

所述非临时性计算机可读存储介质存储有能够被所述处理器执行的机器可执行指令，所述处理器被所述机器可执行指令促使执行如权利要求1-13之任一项所述的搜索方法。
一种非临时性计算机可读存储介质，存储有机器可执行指令，在被处理器调用和执行时，所述机器可执行指令促使所述处理器执行如权利要求1-13之任一项所述的搜索方法。