WO2020215436A1

WO2020215436A1 - 应用于电子地图的空间关键字查询的搜索方法

Info

Publication number: WO2020215436A1
Application number: PCT/CN2019/088770
Authority: WO
Inventors: 姚斌; 过敏意; 陈�全; 张建锋; 林昊
Original assignee: 上海交通大学
Priority date: 2019-04-24
Filing date: 2019-05-28
Publication date: 2020-10-29
Also published as: CN110069592A

Abstract

一种应用于电子地图的空间关键字查询的搜索方法，其包括如下步骤：S1：读取待查询关键字的数目，若所述待查询关键字为多关键字则跳转至S2，否则跳转至步骤S7；S2：将待查询关键字的频率与频率阈值进行比对，若待查询关键字的频率为低频则跳转至步骤S7、否则跳转至步骤S3；S3：构建叶子节点u：将各关键字t映射到包含t的对象列表来构建u的倒排列表，并收集u的词汇表构建父节点的布隆过滤器；S4：构建非叶子节点p：将p的各个子项指向的子节点构成节点p的词汇表，并插入初始化布隆过滤器；S5：基于布隆过滤器的IR-tree的构建；S6：构建IR-tree的查询索引；S7：对待查询关键字构建R-tree查询结构。上述方法提升其对关键字的索引效率，节约系统资源。

Description

应用于电子地图的空间关键字查询的搜索方法

技术领域

本发明属于定位技术领域，具体来说涉及一种应用于Spark平台上的应用于电子地图的空间关键字查询的搜索方法。

背景技术

近年来随着通信技术的发展和移动终端的广泛使用，基于位置的社会服务层出不穷。空间关键字查询是以用户的地理位置信息和多个查询关键字作为参数，返回和这些参数有着空间和文本相关度的空间对象。在一个查询中，构建有效的索引结构，可以极大地提高查询效率。对于一个空间中的索引，是指将对象的位置信息，大小形状等按照一定结构排列的一种数据结构。准确空间关键字查询的最先进的解决方案都是基于空间优先的索引结构，这种方案存在的问题是，一般的空间文本对象都会有至少数十个关键字。而基于空间优先的结构在对平均具有数十个关键字的空间文本对象进行索引优化时非常低效。此外,空间优化结构利用字符串匹配来剪枝无关节点，这在处理出现频率较高的关键字时可能是无意义的，而在这种情况下，我们仍然需要访问许多子节点。因此，如何开发出一种新型的空间关键字查询的搜索方法，能够在空间关键字查询过程中提升其对关键字的索引效率，节约系统资源，是本领域技术人员需要研究的方向。以下为本申请中所涉及的字母缩写的注释：R-tree：B-tree向多维空间发展的另一种形式，它将空间对象按范围划分，每个结点都对应一个区域和一个磁盘页，非叶结点的磁盘页中存储其所有子结点的区域范围，非叶结点的所有子结点的区域都落在它的区域范围之内。IR-tree:以倒排索引和R-tree索引为基础，通过倒排索引解决文本相似度的计算模型。BFIR-tree：基于海量数据处理实现的IR-tree；CBFIR-tree：动态的BFIR-tree；S2I-V结构：对不同频率的关键字应被区别处理的模型结构；eBRQ：基于关键字包含的范围查询；aBRQ：基于近似关键字包含的k最近邻查询；falsepositive：误检率；。KNN算法：即临近算法，是数据挖掘分类技术中最简单的方法之一。I-Node：一个叶子R树节点，它存储了将每个关键字映射到空间关键字对象的倒排列表。

发明内容

本发明要解决的技术问题是提供了一种应用于电子地图的空间关键字查询的搜索方法，能够提升其对关键字的索引效率，节约系统资源。

其采用的技术方案如下：

一种应用于电子地图的空间关键字查询的搜索方法，其包括如下步骤：S1：读取数据集的各条数据进行索引构建、针对单条数据的各个关键字分别跳转至步骤S2；S2:将关键字的频率与频率阈值进行比对，若关键字的频率低于所述频率阈值则跳转至步骤S7、否则跳转至步骤S3；S3，构建叶子节点u：设u中包含的点的集合为up，将各关键字t映射到包含t的对象列表来构建u的倒排列表，并收集u的词汇表构建父节点的布隆过滤器；S4，构建非叶子节点p：设p的子项为{c1,…,cf}，所述f为一个节点最大能容纳的子项数目，将p的各个子项指向的子节点构成节点p的词汇表，并对各关键字插入初始化的布隆过滤器；S5，构建根节点、完成基于布隆过滤器的IR-tree的构建；S6，构建基于布隆过滤器的IR-Tree结构的查询索引；S7：对待查询关键字构建R-tree数据查询结构。

通过采用这种技术方案：将不同频率的关键字进行区别处理；具体来说，将出现频繁较高的关键字基于布隆过滤器实现在搜索过程中的剪枝。同时，将出现频率较低的关键字直接映射到一颗R-tree数据结构。

优选的是，上述应用于电子地图的空间关键字查询的搜索方法中：步骤S6包括如下步骤：S61：给定eBKQ查询公式为：eBKQ＝{Qs＝(τ,ε),Qt}，所述Qs为空间条件，Qt为一组关键字，检查当前节点中Qs是否位于查询区域，若Qs位于查询区域内，则跳转至S23，若Qs不在查询区域中，则递归检查该节点的子节点；S62：检测Qt中的各关键字是否存在于该节点的布隆过滤器中，若否则剪枝该节点，若是则跳转至S43；S63：将各个关键字映射到其对应的记录列表，并对这些列表进行取交集操作以获得最后的解集。

更优选的是，上述空间关键字查询的搜索方法中，步骤S61中采用KNN算法实现eBKQ查询。

进一步优选的是，上述应用于电子地图的空间关键字查询的搜索方法中，步骤S1中所述频率阈值为可调整值。

在上述方案中：R-tree是一种成熟的用于处理多维数据的数据查询结构，通过将对象空间按范围划分，每个结点对应一个区域和一个磁盘页，非叶结点的磁盘页中存储其所有子结点的区域范围，非叶结点的所有子结点的区域都落在它的区域范围之内；叶结点的磁盘页中存储其区域范围之内的所有空间对象的外接矩形。

同时，本发明在进行空间关键字搜索过程中基于布隆过滤器过滤R-tree中的大部分子节点，并对经过过滤后的各子节点进行准确匹配进行验证。从而避免在每次访问R-tree时遍历所有节点，由此实现提升其对关键字的索引效率，节约系统资源的技术效果。

附图说明

下面结合附图与具体实施方式对本发明作进一步详细的说明：

图1为实施例1的工作流程示意图；

图2为本发明中查询百分比逐渐增加时对本方案查询区域的影响示意图；

图3为本发明中关键字数目逐渐增加时对本方案查询区域的影响示意图。

具体实施方式

为了更清楚地说明本发明的技术方案，下面将结合各个实施例作进一步描述。

实施例1：

如图1所示，本发明一种应用于电子地图的空间关键字查询的搜索方法，其包括如下步骤：

S1：读取数据集的各条数据进行索引构建、针对单条数据的各个关键字分别跳转至步骤S2；

S2:将关键字的频率与频率阈值进行比对，若关键字的频率低于所述频率阈值则跳转至步骤S7、否则跳转至步骤S3；

S3，构建叶子节点u：设u中包含的点的集合为up，将各关键字t映射到包含t的对象列表来构建u的倒排列表，并收集u的词汇表构建父节点的布隆过滤器；

S4，构建非叶子节点p：设p的子项为{c1,…,cf}，所述f为一个节点最大能容纳的子项数目，将p的各个子项指向的子节点构成节点p的词汇表，并对各关键字插入初始化的布隆过滤器；

S5，构建根节点、完成基于布隆过滤器的IR-tree的构建；

S61：给定eBKQ查询公式为：eBKQ＝{Qs＝(τ,ε),Qt}，所述Qs为空间条件，Qt为一组关键字，检查当前节点中Qs是否位于查询区域，若Qs位于查询区域内，则跳转至S23，若Qs不在查询区域中，则递归检查该节点的子节点；

S62：检测Qt中的各关键字是否存在于该节点的布隆过滤器中，若否则剪枝该节点，若是则跳转至S43；

S63：将各个关键字映射到其对应的记录列表，并对这些列表进行取交集操作以获得最后的解集。

S7：对待查询关键字构建R-tree数据查询结构。

其中，步骤S61中采用KNN算法实现eBKQ查询：通过维护一个优先级队列，其按照每个记录到给定查询地点的距离排序。将通过文本匹配的记录添加到队列中；然后将出队的记录加入到最后的结果中，直至得到k个结果或者队列为空则停止搜索。

在上述过程中：

一个布隆过滤器将由m个元素组成的集合S映射到一个n位二进制数组(用{B[1],…,B[n]}代表，各位都初始化为0)。布隆过滤器基于由k个独立哈希函数组成的哈希函数族H，每个哈希函数都将给定元素空间U内的每个元素映射到一个随机数v∈[1,n]。将集合S中的各个元素通过k个哈希函数映射到对应值并将二进制数组的相应位置为1。如果需要查询某个元素t是否在集合S内，检查在布隆过滤器的数组中，元素t所对应的二进制位B[hi(y)](i∈[1,k])是否都为1。若其全为1，则元素t有很大的概率存在于S中，否则元素t绝对不存在于S中。

通过选择合适的哈希函数数目k和二进制数组B的大小，可以保证布隆过滤器的较低误算率，实现B-Node的高效剪枝能力。同时，设置多个查询关键字可以进一步减小B-Node的falsepositive概率。假设某个布隆过滤器基于k个哈希函数和m位的二进制数组对n个元素进行索引，并假设当前查询的关键字数目为s，则falsepositive概率为：

当n/m＝10且k＝7时，false positive rate的概率仅为(0.008)s。而且I-Node作为最后一步检测可以保证BFIR-tree的正确性，这意味着其具有100％的recall。

比对实验：

实验在具有两种配置的由17个节点组成的集群上执行：(1)8台具有6核Intel Xeon E5-2603 v3 1.60GHz处理器和20GB RAM的机器；(2)2台配备6核Intel Xeon E5-2620 2.00GHz处理器和56GB RAM的机器；(3)7台配备6核Intel Xeon E5-2609 1.90GHz处理器和16GB RAM的机器。我们选择一台类型(2)的机器作为主节点，其他机器作为从节点。每个从节点使用15GB内存和所有可用的6个内核进行后续计算。所有节点在Ubuntu 14.04.2 LTS系统上运行，并安装有Hadoop 2.4.1和Spark 1.3.0。在两个真实的海量数据集上进行相关实验。

如图2所示：

通过将查询百分比从1％逐渐增加为20％来显示查询区域的影响。这四种结构都表现出相当缓慢的性能下降(即系统吞吐量和平均延迟)。更大的查询区域通常来说会引入更高的搜索成本，但是由于文本匹配的额外剪枝能力，成本只是稍微增加。

如图3所示：

BFIR树性能与IR-tree一样好。同时，BFIR-tree在空间开销方面优于IR-tree。而CBFIR-tree基本上类似于BFIR树，它们之间的性能差距很小。当关键字数量增加时，S2I-V的性能相应提升。当用户仅使用单个关键字发布空间关键字查询时，S2I-V与其他三个结构相类似。当查询关键字的数量增加时，S2I-V通过利用非频繁关键字的剪枝能力达到显著的性能提升。

因此，本发明的技术方案适用于大众点评等基于地理位置的服务应用。

以上所述，仅为本发明的具体实施例，但本发明的保护范围并不局限于此，任何熟悉本领域技术的技术人员在本发明公开的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。本发明的保护范围以权利要求书的保护范围为准。

Claims

一种应用于电子地图的空间关键字查询的搜索方法，其特征在于，包括如下步骤：

S1：读取数据集的各条数据进行索引构建、针对单条数据的各个关键字分别跳转至步骤S2；

S2:将关键字的频率与频率阈值进行比对，若关键字的频率低于所述频率阈值则跳转至步骤S7、否则跳转至步骤S3；

S3，构建叶子节点u：设u中包含的点的集合为up，将各关键字t映射到包含t的对象列表来构建u的倒排列表，并收集u的词汇表构建父节点的布隆过滤器；

S4，构建非叶子节点p：设p的子项为{c1,…,cf}，所述f为一个节点最大能容纳的子项数目，将p的各个子项指向的子节点构成节点p的词汇表，并对各关键字插入初始化的布隆过滤器；

S5，构建根节点、完成基于布隆过滤器的IR-tree的构建；

S6，构建基于布隆过滤器的IR-Tree结构的查询索引；

S7：对待查询关键字构建R-tree数据查询结构。
如权利要求1所述应用于电子地图的空间关键字查询的搜索方法，其特征在于：步骤S6包括如下步骤：

S61：给定eBKQ查询公式为：eBKQ＝{Qs＝(τ,ε),Qt}，所述Qs为空间条件，Qt为一组关键字，检查当前节点中Qs是否位于查询区域，若Qs位于查询区域内，则跳转至S23，若Qs不在查询区域中，则递归检查该节点的子节点；

S62：检测Qt中的各关键字是否存在于该节点的布隆过滤器中，若否则剪枝该节点，若是则跳转至S43；

S63：将各个关键字映射到其对应的记录列表，并对这些列表进行取交集操作，以获得最后的解集。
如权利要求2所述空间关键字查询的搜索方法，其特征在于，步骤S61中采用KNN算法实现eBKQ查询。
如权利要求1所述空间关键字查询的搜索方法，其特征在于，步骤S1中所述频率阈值为可调整值。