WO2019047437A1

WO2019047437A1 - 多文档交集的获取方法及文档服务器

Info

Publication number: WO2019047437A1
Application number: PCT/CN2017/120062
Authority: WO
Inventors: 毕成龙; 潘文彬
Original assignee: 北京三快在线科技有限公司
Priority date: 2017-09-06
Filing date: 2017-12-29
Publication date: 2019-03-14
Also published as: CN107766414A; JP2020523697A; CN107766414B; US11288329B2; US20200210493A1; CA3069382A1; CA3069382C; TW201913414A; JP6986577B2

Abstract

一种多文档交集获取方法及、装置及可读存储介质。针对搜索过程中需要求交集的至少两个文档集，获取各文档集的文档集长度(210)，并对所述至少两个文档集的长度进行比较。根据所述至少两个文档集的长度差异确定获得文档交集的求交算法(220)。在所述至少两个文档集的文档集长度符合预设条件时，可以以长度最短文档集中的元素作为查询元素依次遍历剩余的文档集。

Description

多文档交集的获取方法及文档服务器

相关申请的交叉引用

本专利申请要求于2017年9月6日提交的、申请号为201710797899.8、发明名称为“多文档交集获取方法、装置、设备及可读存储介质”的中国专利申请的优先权，该申请的全文以引用的方式并入本文中。

技术领域

本发明实施例涉及搜索引擎技术领域，尤其涉及多文档交集的获取。

背景技术

搜索引擎可能收集了万维网上几千万到几十亿个网页，并对网页中的每一个词进行索引以建立索引数据库。当用户查找某个关键词的时候，页面内容中包含了该关键词的所有网页都将作为搜索结果被搜出来。

广泛应用的开源搜索引擎、例如Lucene采用了一种线性的获取多文档集的交集的方法，即：将每个文档集排序后，从第一个文档集的第一个元素开始遍历其他文档集。这时可能在当前文档集中找到该元素，则继续遍历下一个文档集。如果没找到，那么以当前文档集中的下一个元素作为查询元素重新遍历其他文档集。如此往复，直到找到一个同时在所有文档集中存在的元素、即文档为止。以这种方式，不断重复，直到其中一个文档集遍历结束，则多文档集的求交过程结束。

其中，在遍历每个文档集时，如果当前比较的元素不符合要求、即不是查询元素，则需要继续比较本文档集的下一个元素。但在不同文档集的长度差距大于某一阈值时，这种查找往往是没有必要的，因为对于多文档集求交而言，只要一个文档中不存在某元素，则该元素就一定不会是交集内的元素。因此，上述文档交集的获取效率可能较低下。

发明内容

本发明提供一种多文档交集获取方法、装置及可读存储介质，以即使在不同文档集的长度差距大于某一阈值时仍能够以较高效率获取文档交集。

根据本发明的第一方面，提供了一种多文档交集获取方法，包括：针对搜索中需要求交集的至少两个文档集，获取各所述文档集的文档集长度；根据所述至少两个文档集的长度差异确定获得文档交集的求交算法；以及利用所确定的所述求交算法，获得所述至少两个文档集的文档交集。

根据本发明的第二方面，提供了一种文档服务器，包括：处理器；以及非临时性计算机可读存储介质，在所述非临时性计算机可读存储介质上存储有能够被所述处理器执行的机器可执行指令。其中，所述处理器被所述机器可执行指令促使：针对搜索中需要求交集的至少两个文档集，获取各所述文档集的文档集长度；根据所述至少两个文档集的长度差异确定获得文档交集的求交算法；以及，利用所确定的所述求交算法，获得所述至少两个文档集的文档交集。

根据本发明的第三方面，提供了一种非临时性机器可读存储介质，其上存储有能够被处理器执行的机器可执行指令。当所述非临时性机器可读存储介质中的所述机器可执行指令由文档服务器中的处理器执行时，所述文档服务器能够执行上述多文档交集获取方法。

本发明实施例提供了一种多文档交集获取方法、装置及可读存储介质，针对搜索过程中需要求交集的至少两个文档集，通过在所述至少两个文档集的文档集长度符合预设条件时，以长度最短文档集中的元素作为查询元素依次遍历剩余的文档集，可以有效提高文档求交集效率，加快了搜索引擎针对用户的响应时间。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例提供的一种搜索引擎的结构示意图。

图2是本发明一实施例提供的一种多文档交集获取方法的流程图。

图3是本发明另一实施例提供的一种多文档交集获取方法的流程图。

图3A是本发明一实施例提供的一种初级语法树的结构图。

图3B是本发明一实施例提供的一种终级语法树的结构图。

图4是本发明一实施例提供的一种多文档交集获取装置的结构示意图。

图5是本发明另一实施例提供的一种多文档交集获取装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供的一种多文档交集获取方法可应用于搜索引擎技术，其目的是根据用户在搜索引擎界面输入的查询内容，对查询内容进行分词，通过对各个分词进行对应文档的匹配来生成各个分词对应的文档集，通过对所有文档集进行求交集来获得文档交集，并将文档交集返回给用户。

搜索引擎技术是一种互联网通信技术。在互联网中，服务器侧提供内容，并针对该内容构建索引。当用户使用客户端发送搜索请求至服务器时，服务器可根据搜索请求中的关键词去索引中查找内容，然后将查找到的内容返回给该客户端进行展示。

参照图1，搜索引擎通常可包括WEB(World Wide Web，万维网)服务器110、索引服务器120和文档服务器130。其中，文档服务器130可储存有文档的信息。

当用户通过搜索引擎浏览器140输入搜索词后，WEB服务器110会接收到该搜索词并将该搜索词发送至索引服务器120。接着，索引服务器120会将搜索词进行语法分词处理，针对每个分词在索引数据库匹配对应的文档，并将匹配结果发送至文档服务器130。然后，文档服务器130可根据匹配结果建立每个分词对应的文档集，通过对所有分词各自对应的文档集求交集后得到文档交集，并通过WEB服务器110将该文档交集返回给搜索引擎浏览器140。这样，搜索引擎浏览器140可将文档交集中的文档展示给用户。

本发明提供的一种多文档交集获取方法中常见的术语有：

文档(Document)：一般搜索引擎的处理对象是互联网网页，而文档这个概念要更宽泛些，代表以文本形式存在的存储对象。相比网页来说，文档涵盖更多种形式，比如Word、PDF、html、XML等不同格式的文件都可以称之为文档，再比如一封邮件、一条短信、一条微博也可以称之为文档。在本发明中，每个文档对应设置有文档标识，用于识别各个文档。

文档集(Document Collection)：由若干文档构成的集合称之为文档集。比如海量的互联网网页或者大量的电子邮件都是文档集的具体例子。

语法树(Parse Tree)：语法树是语句结构的图形表示，它代表了语句的推导结果，可有利于理解语句的语法结构的层次。简单说，语法树就是按照某一规则进行推导时所形成的树。

叶子节点(leaf node)：叶子节点为语法树最底层的节点，叶子节点不再包括更底层的节点。在本发明中，叶子节点为搜索词的分词。

参照图2，其示出了一种多文档交集获取方法的步骤流程图。

步骤210，针对需要求交集的至少两个文档集，获取各文档集的文档集长度。

在索引数据库中，搜索词的不同分词匹配的文档数量也可能不相同，更由于不同分词之间存在使用热度的差异，针对搜索过程中需要求交集的至少两个文档集的长度之间的差值极有可能超过长度阈值。需要说明的是，文档集的长度是指文档集中包括的文档元素的数量。

在本发明实施例中，针对各个分词对应生成的需要求交集的文档集，获取每个文档集的长度，具体可获取每个文档集中文档的数量。

例如，若用户在搜索引擎浏览器140输入搜索词“海底捞火锅”，则可得到分词1“海底捞”和分词2“火锅”，针对分词1和分词2对应查询得到的文档如下表1所示：

海底捞	火锅
文档1	文档1
文档2	文档3
文档20	文档5
文档85	文档6
	…
	文档20
	…
	文档80

表1

因此，将查询得到的各个分词对应的文档按照文档标识的大小顺排，可得到表1。其中，分词1“海底捞”对应的第一文档集中文档元素的个数为4，分词2“火锅”对应的第二文档集中文档元素的个数为40(文档6至文档20之间和文档20至文档80之间有省略)。这样，可获得分词1“海底捞”对应的第一文档集长度为4，分词2“火锅”对应的第二文档集的长度为40。

步骤220，对所述至少两个文档集的长度进行比较，以根据所述至少两个文档集的长度差异确定获得文档交集的求交算法。

步骤230，利用所确定的求交算法，获得所述至少两个文档集的文档交集。

在本发明实施例中，若至少两个文档集的文档集长度符合预设条件，则可以以最小文档集中的查询元素为遍历起点，查找剩余的文档集中是否有该查询元素。其中，所述最小文档集为所述至少两个文档集中具有最小文档集长度的文档集。预设条件可以为，多个文档集中最长文档集与最短文档集的长度之差大于第一预设阈值。该第一预设阈值可以根据实际情况进行设定，例如可以是通过对搜索引擎进行日常搜索试验得到的一个优选值。需要说明的是，预设条件也可以为多个文档集中，最大文档集长度相对于最小文档集长度的比值超过第二预设阈值。

针对表1的数据，若预设条件为多个文档集中最长文档集与最短文档集的长度之差大于10，则第一文档集和第二文档集的长度之差为30，符合预设条件。此时，以第一文档集中的文档1作为查询元素，进行第二文档集的遍历。发现第二文档集中存在文档1，并将文档1插入文档交集。之后，以第一文档集中的文档2作为查询元素进行第二文档集的遍历，并发现第二文档集中不存在文档2。继续选取第一文档集中的文档20作为查询元素，并发现第二文档集中存在文档20，将文档20插入文档交集后，以第一文档集中的文档85作为查询元素进行第二文档集的遍历。最后，发现第二文档集中不存在文档85，并且第一文档集被遍历结束。这样，可终止本次求交过程，并将最终的文档交集[文档1，文档20]返回给用户。

若按照通用的求交算法，则针对表1，大致的求交过程如下：以第一文档集中的文档1作为查询元素进行第二文档集的遍历，并发现第二文档集中存在文档1，将文档1插入文档交集。之后，以第一文档集中的文档2作为查询元素进行第二文档集的遍历，并发现第二文档集中不存在文档2，从而以第二文档集中的文档3为查询元素进行第一文档集的遍历。由于第一文档集不存在文档3，则以第一文档集中的文档20为查询元素。发现第二文档集中存在文档20，则将文档20插入文档交集，并将查询元素更换为第一文档集中的文档85。最后，发现第二文档集中不存在文档85，并且第一文档集被遍历结束。这样，可终止本次求交过程，并将最终的文档交集[文档1，文档20]返回给用户。明显可见，该通用的求交算法造成了以文档3进行遍历的浪费。实际上，文档3没有在第一文档集中出现，也就是说该文档根本不会被召回，因此，在至少两个文档集的长度之间的差值超过长度阈值的情况下，采用通用求交算法进行求交的效率较低。

例如，若用户通过电脑浏览器的搜索引擎查询“海底捞火锅”，则文档1和文档20对应的网页为用户此次查询得到的结果，并可通过浏览器界面展现给用户文档1和文档20对应网页的链接。

另外，若用户通过手机应用中的搜索引擎查询“海底捞火锅”，则文档1和文档20对应的应用页面为用户此次查询得到的结果，并可通过手机界面展现给用户的是文档1和文档20对应应用页面的链接。

综上所述，本发明实施例提供了一种多文档交集获取方法，针对搜索过程中需要求交集的至少两个文档集，通过在两个文档集的文档集长度符合预设条件时，以长度最短文档集中的元素作为查询元素依次遍历剩余的文档集，可以有效提高文档求交集效率，加快了搜索引擎针对用户的响应时间。

参照图3，其示出了一种多文档交集获取方法的具体步骤流程图。

步骤310，接收搜索词。

在本发明实施例中，搜索引擎可以接收用户输入的搜索词，并对搜索词进行语法树构建。

步骤320，根据接收到的搜索词构建搜索语法树。其中，所述语法树的叶子节点为搜索词的分词。

在本发明实施例中，可通过语法解析用户输入的搜索词并构建语法树。例如，若设定规则：在通过语法解析发现有空格时，判定空格的前后两个词为“与(and)”的关系。假设用户输入了“北京市全时便利店”，则会将空格的前后两个词“北京市”和“全时便利店”保存，并将解析结果构造成如图3A所示的初级语法树。

之后，在构造最终语法树节点时，会根据图3A所示的初级语法树的结构进行同步构造。这个过程中，系统会判别初级语法树的节点是否为文本。如果是文本，系统会对其进行再次分词，例如“北京市”会分为“北京”和“市”，“全时便利店”会分为“全时”和“便利”和“店”。可根据分词后的结果对初级语法树重建，并将分词后的“与”节点添加到初级语法树中，形成如图3B所示的终级语法树，以供搜索引擎对终极语法树做各个分词的求交算法。

步骤330，针对需要求交集的至少两个文档集，获取各文档集的文档集长度。

该步骤的基本实现可以参照上述步骤210，此处不再赘述。

此外，针对步骤320中构建的搜索语法树，可从所述搜索语法树中还未进行求交计算的最低层级的求交节点开始，根据所述求交节点的各子节点确定需要求交集的所述至少两个文档集，并确定所述至少两个文档集各自的文档集长度。

在本发明实施例中，可从根据搜索词构建的语法树中的最底层求交节点开始进行求交计算。当最底层的求交节点完成求交计算后，根据得到的底层的文档交集，再对次底层的求交节点进行求交计算，直到得到最顶层的文档交集，并将其返回给用户。

例如，图3B示出的针对“北京市全时便利店”的终级语法树中，求交节点10、20为底层节点，求交节点30为顶层节点。此时，根据底层节点10和底层节点20，可确定顶层节点30需要求交集的文档集为“北京”和“市”对应的文档集与“全时”、“便利”和“店”对应的文档集。

接着，可分别得到“北京”和“市”各自对应的文档集中文档元素的数量，以及“全时”、“便利”和“店”各自对应的文档集中文档元素的数量。

步骤340，对所述至少两个文档集的长度进行比较，以根据所述至少两个文档集的长度差异确定获得文档交集的求交算法。

步骤350，在所述至少两个文档集的长度差异符合预设条件的情况下，以最小文档集中的查询元素为遍历起点，查找剩余的文档集中是否有所述查询元素。如果在每个所述剩余的文档集中均找到了匹配所述当前排序序号的查询元素的元素，则将所述查询元素作为所述文档交集的元素。其中，所述最小文档集为所述至少两个文档集中具有最小文档集长度的文档集。

其中，所述预设条件可包括：所述至少两个文档集的文档集长度中，最大文档集长度与最小文档集长度之间的差值超过第一预设阈值；或者，所述至少两个文档集中，最大文档集长度相对于最小文档集长度的比值超过第二预设阈值。该第一预设阈值与第二预设阈值均可以根据实际情况进行设定。例如，可通过对搜索引擎进行日常搜索试验得到的一个优选值。

可对所述最小文档集中的当前排序序号的查询元素进行与每个剩余文档集中的元素的匹配。如果在至少一个所述剩余文档集中未找到匹配所述当前排序序号的查询元素的元素，则对所述最小文档集中的下一排序序号的查询元素进行与每个剩余文档集中的元素的匹配。如果在所有所述剩余文档集中均找到了匹配所述当前排序序号的查询元素的元素，则将所述查询元素作为所述文档交集的元素，并对所述最小文档集中的下一排序序号的查询元素进行与剩余的文档集中的元素的匹配。以此循环，直至所述最小文档集中的所有元素被遍历。

例如，针对图3B示出的“北京市全时便利店”的终级语法树中的求交节点10，假设分词“北京”的第一文档集中文档元素的数量为4，分词“市”对应的第二文档集中文档元素的数量为40，第一预设阈值为10，并且分词“北京”和“市”分别对应的文档元素如下表2所示。

由于第一文档集和第二文档集的长度之差30大于第一预设阈值10，则此时以第一文档集中的文档1作为查询元素，进行第二文档集的遍历。

北京	市
文档1	文档1
文档2	文档3
文档20	文档5
文档85	文档6
	…
	文档20
	…
	文档80

表2

可选的，文档集中的元素已按标识大小顺排或者倒排。

北京	市
文档85	文档80
文档20	…
文档2	文档20
文档1	…
	文档6
	文档5

	文档3
	文档1

表3

在本发明实施例中，文档集中元素的标识即为表2中文档后面对应的数字，该标识用于识别文档元素，表2是由文档集中的元素以按标识大小顺排得到的。若将文档集中的元素以按标识大小倒排，则可得到表3，此时可以将第一文档集中的第一个元素文档85作为查询元素进行遍历，本发明实施例对此不作限定。

当以第一文档集中的文档1作为查询元素进行第二文档集的遍历，并发现第二文档集中存在文档1，则将文档1插入文档交集。之后，以第一文档集中的文档2作为查询元素进行第二文档集的遍历，并发现第二文档集中不存在文档2。这时，将选取第一文档集中的文档20作为查询元素，并发现第二文档集中存在文档20，则将文档20插入文档交集。最后，再以第一文档集中的最后一个文档85作为查询元素进行第二文档集的遍历，并发现第二文档集中不存在文档85，则停止遍历。接着，可将求交节点10得到的文档交集[文档1，文档20]返回给图3B示出的顶层求交节点30。

步骤360，在所述至少两个文档集的长度差异不符合预设条件的情况下，则利用通用的求交算法来获取所述文档交集。例如，可以以所述至少两个文档集中的关注文档集内的查询元素为遍历起点，查找每个剩余文档集中是否有所述查询元素。当每个所述剩余文档集中均有所述查询元素，则将所述查询元素作为所述文档交集的元素。其中，前一查询元素出自所述关注文档集且所述前一查询元素被确定为所述文档交集的元素，或者，所述关注文档集被第一个确定不具有所述前一查询元素；所述查询元素的排序序号为所述前一查询元素的下一排序序号。

在本发明实施例中，可以以所述至少两个文档集中的第一个文档集中的最小排序序号的查询元素作为最初的遍历起点，查找每个剩余文档集中是否有所述查询元素。如果在当前被查找的剩余文档集中没有找到匹配所述当前排序序号的查询元素的元素，则以该剩余文档集中的下一排序序号的元素作为新的查询元素。如果在所有剩余文档集中均找到了匹配所述当前排序序号的查询元素的元素，则将所述查询元素作为所述文档交集的元素，并以选出所述查询元素的文档集中的下一排序序号的元素作为新的查询元素。以此循环，直至所述至少两个文档集中有一个文档集的所有元素被遍历。

在本发明实施例中，针对图3B示出的针对“北京市全时便利店”的终级语法树中的求交节点20，假设分词“全时”对应的第三文档集中文档元素的数量为2，分词“便利”对应的第四文档集中文档元素的数量为3，分词“店”对应的第五文档集中文档元素的数量为4，第一预设阈值为10，分词“全时”、“便利”、“店”各自对应的文档元素可如下表4所示。

全时	便利	店
文档1	文档2	文档20
文档20	文档20	文档40
	文档21	文档50
		文档60

表4

此时，由于最长的第五文档集与最短的第三文档集之间的文档集长度差值2小于第一预设阈值10，可通过通用求交算法进行第三文档集、第四文档集和第五文档集之间的求交计算，具体如下：以第三文档集中的文档1作为查询元素遍历第四文档集，并发现第四文档集中不存在文档1，于是将查询元素换为第四文档集中的文档2。发现第五文档集中不存在文档2，于是将查询元素换成第五文档集中的文档20，并发现第三文档集和第四文档集中均存在文档20，则将文档20插入求交节点20对应的文档交集。当发现第三文档集和第四文档集中存在文档20之后，再以第五文档集中的文档40作为查询元素，并发现在第三文档集不存在文档40且第三文档集被遍历结束。此时，查询停止，并将求交节点20对应的文档交集[文档20]上传至上层的求交节点30。在各个分词对应的文档集之间的长度差值较小的情况下，采用通用求交算法会可具有更快的查询效率。

基于以上处理，在图3B示出的针对“北京市全时便利店”的终级语法树中，求交节点30对应的文档集分别为求交节点10对应的文档交集[文档1，文档20]和求交节点20对应的文档交集[文档20]。此时，可对求交节点30进行求交，得到最终的文档交集[文档20]并返回给用户。

针对本发明提供的上述多文档交集获取方法，通过测试系统的测试，在关于响应延时的TP90，TP99，TP999指标方面均有提升，并且提升幅度在10％以上。其中，TP90时间为满足90％请求的最低耗时；TP99时间为满足99％请求的最低耗时；TP999时间为满足99.9％请求的最低耗时。

综上所述，本发明实施例提供了的上述多文档交集获取方法，通过在搜索过程中需要求交集的至少两个文档集的文档集长度符合预设条件时，以长度最短文档集中的元素作为查询元素依次遍历剩余的文档集，可以有效提高文档求交集效率，加快了搜索引擎针对用户的响应时间。

参照图4，其示出了一种多文档交集获取装置的结构图。

如图4所示，该多文档交集获取装置可包括：获取模块401，用于针对搜索过程中需要求交集的至少两个文档集，获取各文档集的文档集长度；长度比较模块402，用于对所述至少两个文档集的长度进行比较，以确定获得文档交集的求交算法；以及求交模块403，用于根据所确定的求交算法获得所述至少两个文档的交集。

综上所述，本发明实施例提供了一种多文档交集获取装置，通过在需要求交集的至少两个文档集的文档集长度符合预设条件时，以长度最短文档集中的元素作为查询元素依次遍历剩余的文档集，可以有效提高文档求交集效率，加快了搜索引擎针对用户的响应时间。

参照图5，其示出了一种多文档交集获取装置的具体结构图。

如图5所示，该多文档交集获取装置可包括：

接收模块501，用于接收搜索词。

语法树构建模块502，用于根据所述搜索词构建搜索语法树，所述语法树的叶子节点为所述搜索词的分词。

获取模块503，用于针对搜索过程中需要求交集的至少两个文档集，获取各文档集的文档集长度；

长度比较模块504，用于对所述至少两个文档集的长度进行比较，以确定获得文档交集的求交算法。

第一求交模块505，用于在所述至少两个文档集的长度差异符合预设条件的情况下，以最小文档集中的查询元素为遍历起点，查找每个剩余文档集中是否有所述查询元素；以及，当每个剩余文档集中均有所述查询元素，则将所述查询元素作为所述文档交集的元素。其中，所述最小文档集为所述至少两个文档集中具有最小文档集长度的文档集。

第二求交模块506，用于在所述至少两个文档集的长度差异不符合预设条件的情况下，则利用通用的求交算法来获得所述文档交集。例如，可以以所述至少两个文档集中的关注文档集内的查询元素为遍历起点，查找每个剩余文档集中是否有所述查询元素；以及，当每个剩余文档集中均有所述查询元素，则将所述查询元素作为所述文档交集的元素。其中，前一查询元素出自所述关注文档集且所述前一查询元素被确定为所述文档交集的元素，或者，所述关注文档集被第一个确定不具有所述前一查询元素；所述查询元素的排序序号为所述前一查询元素的下一排序序号。

其中，获取模块503可具体用于：从所述搜索语法还未进行求交计算的求交节点中的最低层级的第一求交节点开始，根据所述第一求交节点的子节点确定需要求交集的所述至少两个文档集；以及，获取每个文档集的文档集长度。

第一求交模块505可具体用于：对所述最小文档集中的当前排序序号的查询元素进行与剩余文档集中的元素的匹配；如果在至少一个所述剩余文档集中未找到匹配所述当前排序序号的查询元素的元素，则对所述最小文档集中的下一排序序号的查询元素进行与剩余的文档集中的元素的匹配；如果在所有所述剩余文档集中均找到了匹配所述当前排序序号的查询元素的元素，则将所述查询元素作为所述文档交集的元素，并对所述最小文档集中的下一排序序号的查询元素进行与剩余文档集中的元素的匹配。以此循环，直至所述最小文档集中的所有元素被遍历。

第二求交模块506可具体用于：以所述至少两个文档集中的第一个文档集中的最小排序序号的查询元素作为最初的遍历起点，查找每个剩余文档集中是否有所述查询元素。如果在当前被查找的剩余文档集中没有找到匹配当前排序序号的查询元素的元素，则以该剩余文档集中的下一排序序号的元素作为新的查询元素。如果在所有剩余文档集中均找到了匹配所述当前排序序号的查询元素的元素，则将所述查询元素作为所述文档交集的元素，并以选出所述查询元素的文档集中的下一排序序号的元素作为新的查询元素。以此循环，直至所述至少两个文档集中有一个文档集的所有元素被遍历。

综上所述，本发明实施例提供了一种多文档交集获取装置，通过在需要求交集的至少两个文档集的文档集长度符合预设条件时，以长度最短文档集中的元素作为查询元素依次遍历剩余的文档集，可以有效提高了文档集长度差值较大情况下的文档求交集效率，加快了搜索引擎针对用户的响应时间。

本发明实施例还提供了一种文档服务器，包括：处理器；以及非临时性计算机可读存储介质，在所述非临时性计算机可读存储介质上存储有能够被所述处理器执行的机器可执行指令。其中，所述处理器被所述机器可执行指令促使执行前述实施例的多文档交集获取方法中的步骤，例如：针对搜索中需要求交集的至少两个文档集，获取各所述文档集的文档集长度；根据所述至少两个文档集的长度差异确定获得文档交集的求交算法；以及，利用所确定的所述求交算法，获得所述至少两个文档集的文档交集。

本发明实施例还提供了一种非临时性机器可读存储介质，当所述存储介质中的指令由文档服务器的处理器执行时，使得文档服务器能够执行前述实施例的多文档交集获取方法。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的支付信息处理设备中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims

一种多文档交集获取方法，包括：

针对搜索中需要求交集的至少两个文档集，获取各所述文档集的文档集长度；

根据所述至少两个文档集的长度差异确定获得文档交集的求交算法；以及

利用所确定的所述求交算法，获得所述至少两个文档集的文档交集。
如权利要求1所述的方法，其特征在于，利用所确定的所述求交算法，获得所述至少两个文档集的文档交集，包括：

在所述至少两个文档集的长度差异符合预设条件的情况下，以最小文档集中的查询元素为遍历起点，查找每个剩余文档集中是否有所述查询元素，其中，所述最小文档集为所述至少两个文档集中具有最小文档集长度的文档集；

当每个所述剩余文档集中均有所述查询元素，将所述查询元素作为所述文档交集的元素。
根据权利要求2所述的方法，其特征在于，所述预设条件包括以下任意一个或多个：

所述至少两个文档集中，最大文档集长度与最小文档集长度之间的差值超过第一预设阈值；以及

所述至少两个文档集中，最大文档集长度相对于最小文档集长度的比值超过第二预设阈值。
根据权利要求2所述的方法，其特征在于，以所述最小文档集中的查询元素为遍历起点，查找每个剩余文档集中是否有所述查询元素，包括：

对所述最小文档集中的当前排序序号的查询元素进行与剩余文档集中的元素的匹配；

如果在至少一个剩余文档集中未找到匹配所述查询元素的元素，则对所述最小文档集中的下一排序序号的查询元素进行与剩余文档集中的元素的匹配；

如果在所有剩余文档集中均找到了匹配所述查询元素的元素，则将所述查询元素作为所述文档交集的元素，并对所述最小文档集中的下一排序序号的查询元素进行与剩余文档集中的元素的匹配。
根据权利要1所述的方法，其特征在于，所述文档集中的元素按标识大小顺排或者倒排而具有所述排序序号。
根据权利要求1所述的方法，其特征在于，还包括：

接收用于触发所述搜索的搜索词；

根据所述搜索词构建搜索语法树，其中，所述语法树的叶子节点为所述搜索词的分词。
根据权利要求6所述的方法，其特征在于，针对所述搜索中需要求交集的所述至少两个文档集，获取各所述文档集的文档集长度，包括：

从所述搜索语法树中还未进行求交计算的最低层级的求交节点开始，根据所述求交节点的各子节点确定需要求交集的所述至少两个文档集；

获取每个所述文档集的文档集长度。
根据权利要求1-7中任一所述的方法，其特征在于，利用所确定的所述求交算法，获得所述至少两个文档集的文档交集，包括：

在所述至少两个文档集的长度差异不符合预设条件的情况下，则以所述至少两个文档集中的关注文档集内的查询元素为遍历起点，查找每个剩余文档集中是否有所述查询元素；

当每个所述剩余文档集中均有所述查询元素，则将所述查询元素作为所述文档交集的元素，

其中，前一查询元素出自所述关注文档集且所述前一查询元素被确定为所述文档交集的元素，或者，所述关注文档集被第一个确定不具有所述前一查询元素；所述查询元素的排序序号为所述前一查询元素的下一排序序号。
一种文档服务器，包括：

处理器；以及

非临时性计算机可读存储介质，在所述非临时性计算机可读存储介质上存储有能够被所述处理器执行的机器可执行指令，

其中，所述处理器被所述机器可执行指令促使：

针对搜索中需要求交集的至少两个文档集，获取各所述文档集的文档集长度；

根据所述至少两个文档集的长度差异确定获得文档交集的求交算法；以及

利用所确定的所述求交算法，获得所述至少两个文档集的文档交集。
如权利要求9所述的装置，其特征在于，在利用所确定的所述求交算法，获得所述至少两个文档集的文档交集时，所述处理器被所述机器可执行指令促使：

在所述至少两个文档集的长度差异符合预设条件的情况下，以最小文档集中的查询元素为遍历起点，查找每个剩余文档集中是否有所述查询元素，其中，所述最小文档集为所述至少两个文档集中具有最小文档集长度的文档集；

当每个所述剩余文档集中均有所述查询元素，将所述查询元素作为所述文档交集的元素。
根据权利要求10所述的装置，其特征在于，所述预设条件包括以下任意一个或多个：

所述至少两个文档集中，最大文档集长度与最小文档集长度之间的差值超过第一预设阈值；以及

所述至少两个文档集中，最大文档集长度相对于最小文档集长度的比值超过第二预设阈值。
根据权利要求10所述的装置，其特征在于，在以所述最小文档集中的查询元素为遍历起点，查找每个剩余文档集中是否有所述查询元素时，所述处理器被所述机器可执行指令促使：

对所述最小文档集中的当前排序序号的查询元素进行与剩余文档集中的元素的匹配；

如果在至少一个剩余文档集中未找到匹配所述查询元素的元素，则对所述最小文档集中的下一排序序号的查询元素进行与剩余文档集中的元素的匹配；

如果在所有剩余文档集中均找到了匹配所述查询元素的元素，则将所述查询元素作为所述文档交集的元素，并对所述最小文档集中的下一排序序号的查询元素进行与剩余文档集中的元素的匹配。
根据权利要求9所述的装置，其特征在于，所述文档集中的元素按标识大小顺排或者倒排而具有所述排序序号。
根据权利要求9所述的装置，其特征在于，所述处理器还被所述机器可执行指令促使：

接收用于触发所述搜索的搜索词；

根据所述搜索词构建搜索语法树，其中，所述语法树的叶子节点为所述搜索词的分词。
根据权利要求14所述的装置，其特征在于，在针对所述搜索中需要求交集的所述至少两个文档集，获取各所述文档集的文档集长度时，所述处理器被所述机器可执行指令促使：

从所述搜索语法树中还未进行求交计算的最低层级的求交节点开始，根据所述求交节点的各子节点确定需要求交集的所述至少两个文档集；

获取每个所述文档集的文档集长度。
根据权利要求9-15中任一所述的装置，其特征在于，在利用所确定的所述求交算法，获得所述至少两个文档集的文档交集时，所述处理器被所述机器可执行指令促使：

在所述至少两个文档集的长度差异不符合预设条件的情况下，则以所述至少两个文档集中的关注文档集中的查询元素为遍历起点，查找每个剩余文档集中是否有所述查询元素；

当每个所述剩余文档集中均有所述查询元素，将所述查询元素作为所述文档交集的元素，

其中，前一查询元素出自所述关注文档集且所述前一查询元素被确定为所述文档交集的元素，或者，所述关注文档集被第一个确定不具有所述前一查询元素；所述查询元素的排序序号为所述前一查询元素的下一排序序号。
一种非临时性机器可读存储介质，其上存储有能够被处理器执行的机器可执行指令，当所述非临时性机器可读存储介质中的所述机器可执行指令由文档服务器中的处理器执行时，所述文档服务器能够执行如权利要求1-8任一所述的多文档交集获取方法。