WO2019024344A1

WO2019024344A1 - 基于带序兴趣区域的轨迹查询的启发式扩张搜索扩展算法

Info

Publication number: WO2019024344A1
Application number: PCT/CN2017/113471
Authority: WO
Inventors: 毛睿; 李荣华; 陆敏华; 王毅; 罗秋明; 商烁; 刘刚
Original assignee: 深圳大学
Priority date: 2017-08-04
Filing date: 2017-11-29
Publication date: 2019-02-07
Also published as: CN107480231A

Abstract

本发明公开了一种基于带序兴趣区域的轨迹查询的启发式扩张搜索扩展算法，包括如下步骤：1：初始设置全局空间密度相关性下限LB＝0，全局空间密度相关性上限UB＝+∞；2：从查询区域中心中选择一组查询源；3：所有查询源优先级初始设置为0；从每个查询源按照基于优先级排名进行启发式搜索；4：计算空间密度的上限和下限，更新LB和UB；5：判断LB>UB或所有搜索半径超过ε+p.dist/2是否成立，如成立则进入下一步；如不成立则回到上一步；6：根据空间密度上限的值对轨迹进行排序；7：按照轨迹排序细化，返回具有最大空间密度相关性的轨迹。本发明解决了传统轨迹搜索对TSR查询无效的问题，减小搜索空间，避免重叠区域的遍历，提高查询性能，有效处理带序列的TSR查询。

Description

基于带序兴趣区域的轨迹查询的启发式扩张搜索扩展算法

技术领域

本发明属于计算机空间数据领域基于位置的服务，尤其涉及一种基于带序兴趣区域的轨迹查询的启发式扩张搜索扩展算法。

背景技术

一般将现有的轨迹搜索查询分为三类。在点对点轨迹查询类别中，查询参数是单个空间点，并且查询寻找空间上靠近查询点的轨迹。郑等人[K.Zheng,B.Zheng,J.Xu,G.Liu,A.Liu,and Z.Li.Popularityaware spatial keyword search on activity trajectories.World Wide Web,19(6):1–25,online first,2016.]将此查询扩展到覆盖空间和文本域，并提出TkSK查询来检索在空间上靠近查询点的轨迹，以满足查询定义的语义要求。在点到轨迹查询类别中，查询需要一组地点(如观光场所)作为参数，返回一条连接或根据某种标准接近查询位置的轨迹。基于位置的轨迹搜索的概念(TSL)首先由Chen等提出[Z.Chen,H.T.Shen,X.Zhou,Y.Zheng,and X.Xie.Searching trajectories by locations:an efficiency study.In SIGMOD,pages 255–266,2010.]。这个研究仅考虑空间域(欧几里德空间)。尚等[S.Shang,R.Ding,B.Yuan,K.Xie,K.Zheng,and P.Kalnis.User oriented trajectory search for trip recommendation.In EDBT,pages156–167,2012.]观察到由于用户的特定偏好，空间相似性没有充分捕捉查询位置与轨迹之间的关系。然后他们提出以用户为导向的轨迹搜索并扩展查询覆盖空间和文本域。直观地，如果轨迹接近指定的查询位置(空间域)，其文本属性值与用户的文字偏好(文字域)类似，将会被推荐给用户。在轨迹到轨迹类别中，查询检索与查询轨迹最相似的轨迹。例如，PTM查询[S.Shang,R.Ding,K.Zheng,C.S.Jensen,P.Kalnis,and X.Zhou.Personalized trajectory matching in spatial networks.VLDB J.,23(3):449–468,2014.]考虑时空相似性，ATSQ查询[K.Zheng,S.Shang,N.J.Yuan,and Y.Yang.Towards efficient search for activity trajectories.In ICDE,pages 230–241,2013.]考虑空间-文本相似性。

在大多数现有的研究轨迹搜索中，查询参数是一组或一系列的位置。然而，在某些情况下，一个地方可能不是一个点的位置，但可能是包含几个空间对象的感兴趣区域。此外，特别是当规划一个在陌生城市的旅行时，用户可能无法准确指定预期地点，而使用预期区域代替。这两个常见的案例正是现有轨迹搜索方法存在的问题或缺陷。

与现有研究不同，本发明研究按地区进行轨迹搜索的兴趣(TSR)查询，它旨在找到一个与查询区域的空间密度相关性最高的轨迹。现有的TSL解决方案对TSR查询无效，有两个原因。首先，TSL只考虑空间，而TSR考虑到空间距离和空间物体密度。二是TSL只在欧氏空间中进行，空间索引(例如，R-tree[A.Guttman.R-trees:a dynamic index structure for spatial searching.In SIGMOD,pages 47–57,1984.])用于提高查询效率。但在我们的工作中，运动被限制到空间网络。当网络中的边的权重是对旅行的许多方面(例如，燃料消耗和旅行时间)建模，网络的下限距离可能不是相应的欧几里德距离；因此，诸如R-tree等空间指标是无效的。这是我们使用网络扩展的主要原因(即，Dijkstra的扩展)。

最相关的工作可以说是集群附近的路径(PNC)查询[S.Shang,K.Zheng,C.S.Jensen,B.Yang,P.Kalnis,G.Li,and J.Wen.Discovery of path nearby clusters in spatial networks.IEEE Trans.Knowl.Data Eng.,27(6):1505–1518,2015.]，因此我们在此详细介绍。TSR查询及其解决方案与PNC查询不同，其解决方案有以下六个方面：(i)查询类型：PNC查询是在空间和密度域上进行的空间密度查询，而TSR查询是空间查询(密度也被考虑，但查询处理仅发生在空间域)。(ii)查询参数和结果：PNC查询以路由为参数，并返回关于查询路由具有最高距离-密度的top-k簇，而TSR查询将一组感兴趣的地区作为参数并返回具有最高空间密度相关的轨迹。(iii)相似度函数：相似度函数用于PNC查询，会计算距离和密度在空间和密度领域的相关性，以及它们的线性组合。在空间域中，它测量集群中心与路由之间的网络距离；并且在密度域中，计算簇的密度。TSR查询的相似度函数评估轨迹与一组查询区域之间的空间密度相关性。轨迹和查询区域内所有空间对象之间的距离均被考虑在内。(iv)数据模型和算法结构：对于PNC查询，集群的密度映射到一维空间(密度域)，PNC查询处理搜索此域以查找高空间物体密度的集群。TSR查询没有单独的密度域。空间物体的密度是轨迹与查询区域中空间物体之间的距离的总和。由于这些差异，PNC和TSR要求不同的算法。(v)优化技术：由于以上与PNC的差异，TSR需要具体优化技术。因TSR查询具有多个查询区域参数，需要一个策略来安排多个查询区域。TSR重用并扩展查询源选择PNC方法(方程式12-14)来从查询区域中选择查询源。(vi)实验空间数据集：使用不同的空间数据集。对于PNC查询，空间对象是地理标记的微博帖子，轨迹数据没有使用，而对于TSR查询，空间对象是使用兴趣点和真实或合成的轨迹数据。由于这六个差异，TSR查询及其解决方案是新的。PNC解决方案不适用于TSR问题。

发明内容

本发明要解决的技术问题在于提供一种基于带序兴趣区域的轨迹查询的启发式扩张搜索扩展算法，其给定一个轨迹参数集合，一个TSR查询需要一组感兴趣的区域作为一个参数，并返回在轨迹集中与查询区域的空间密度相关性最高的轨迹。这种类型的查询可用于许多流行的应用，如行程规划和建议，和基于位置的服务，扩展了应用范围。本发明解决了现有的TSL解决方案对TSR查询(基于兴趣区域的轨迹查询)无效，现有的PNC解决方案不适用于TSR问题。该算法进一步减小了搜索空间，避免重叠区域的遍历，且进一步提高查询性能。此外，该扩展算法能有效处理带序列的TSR查询。

本发明开发一种基于带序兴趣区域的轨迹查询的启发式扩张搜索扩展算法(BES)。首先，我们利用现有的查询源选择策略(参见S.Shang,K.Zheng,C.S.Jensen,B.Yang,P.Kalnis,G.Li,and J.Wen.Discovery of path nearby clusters in spatial networks.IEEE Trans.Knowl.Data Eng.,27(6):1505–1518,2015.)从查询区域的中心选择一组查询源。其次，我们定义新的空间密度上界和下界来剪枝搜索空间。第三、基于优先级排名的启发式搜索战略调度使用多个查询源。我们保持和使用处理查询时的动态优先级排序堆。在每一个时间点，我们扩展排名最高的查询源，直到一个新的查询源成为顶级。该算法有以下优势：(一)进一步减小了搜索空间，避免重叠区域的遍历；(二)有效启发式搜索策略侧重于那些更容易是解决方案的轨迹，进一步提高查询性能；(三)能有效处理带序列的TSR查询。

为解决上述技术问题，一种基于带序兴趣区域的轨迹查询的启发式扩张搜索扩展算法，包括如下步骤：

步骤1：初始设置全局空间密度相关性下限LB＝0，全局空间密度相关性上限UB＝+∞；定义空间密度相关性计算公式：

其中，v是轨迹τ上的点，C’_sd(c,v)是查询区域c与v之间的空间密度相关性；C’_sd(C,v)表示查询区域集合C与轨迹τ的空间密度相关性；p_i。g是附属于p_i的空间对象的数量；sd(p,v) 代表点p与点v之间的距离；*.head表示列表中第一个元素，*.tail表示列表中除head之外的所有元素构成的列表；

步骤2：从查询区域中心中选择一组查询源；

步骤3：所有查询源优先级初始设置为0；从每个查询源按照基于优先级排名进行启发式搜索；

步骤4：计算空间密度的上限和下限，更新LB和UB；

步骤5：判断LB>UB或所有搜索半径超过ε+p.dist/2是否成立，其中，ε是事先设置的阈值，p.dist＝max{sd(p,p’),sd(p,p”)}，p’和p”是p的邻近查询源，sd(p,p’)代表点p和点p’之间的网络距离，sd(p,p”)代表点p和点p”之间的网络距离；如成立则网络的相邻查询源扩展终止，进入下一步骤6；如不成立，则回到步骤4；

步骤6：根据空间密度上限的值对轨迹进行排序；

步骤7：按照轨迹排序进一步细化，返回具有最大空间密度相关性的轨迹。

作为本发明优选的技术方案，步骤2中，利用查询源选择策略从查询区域中心中选择一组查询源，所述查询源选择策略为：给定一组空间对象O和查询轨迹q，如果查询源c具有高的空间对象密度并且在空间上接近于q，则返回查询源c。

作为本发明优选的技术方案，步骤3中，所述从每个查询源按照基于优先级排名进行启发式搜索具体为：采用基于优先级排名的启发式调度策略进行Dijkstra扩展算法，每个查询源pn都有一个标签p.l描述它的优先级，在包含这些查询源的p.l上维护一个动态的优先级堆，定义每个查询源p.l的优先级如下:

其中，p.c是一个包含了查询源p和所有以p为最近查询源的非查询源的查询区域中心的集合，|p.c|是它的大小。T_p是部分覆盖轨迹的集合，T_s(p)是被从p开始的搜索范围覆盖的轨迹集合；C’_sd(C,τ)是轨迹τ与查询区域集合C的空间密度相关性，C’_sd(C,τ).ub代表这个相关性的上限。

作为本发明优选的技术方案，步骤4中，所述计算空间密度的上限和下限具体为：对于每一个新扫描的轨迹，如果没有被从p开始的扩展扫描，它被标记为已被p扫描，计算其空间密度上限C’_sd(C,τ).ub和下限C’_sd(C,τ).lb；

对于查询源，空间密度下限估算公式为：

对于查询源，空间密度上限估算公式为：

其中，C是查询区域集合，τ是一条轨迹，C’_sd(C,τ)是轨迹τ与查询区域集合C的空间密度相关性，C’_sd(C,τ).lb代表这个相关性的下限，C’_sd(C,τ).ub代表这个相关性的上限；C.head 表示集合C中第一个查询区域，τ.head表示τ中第一个元素，C’_sd(C.head,τ.head).lb表示查询区域C.head与τ.head相关性的下限，C’_sd(C.head,τ.head).ub表示查询区域C.head与τ.head相关性的上限，C.tail表示列表中除C.head之外的所有查询区域构成的列表，C’_sd(C.tail,τ)代表查询区域集合C.tail与轨迹τ的相关性，C’_sd(C,τ.tail)代表查询区域集合C与轨迹τ.tail的相关性；

对于非查询源的查询区域中心，新的查询区域与轨迹空间密度上下界估算公式为，以c2，τ1为例：

其中，p1是一个查询源，p2是查询区域c₂的中心，是一个非查询源，p1是离p2最近的查询源，τ1是一条轨迹。p_i.g是附属于p_i的空间对象的数量，d_M(p1,τ1)代表点p1与轨迹τ1之间的网络距离，sd(p_i,p₂)代表点p_i和点p₂之间的网络距离。

其中，C₁表示τ被从c₁的中心开始的搜索范围覆盖，C₂表示τ没有被从c₁的中心开始的搜索范围覆盖。re_i表示从c_i的中心开始的搜索范围的半径。

作为本发明优选的技术方案，步骤4中所述更新LB和UB具体为：如果C’_sd(C,τ).lb>LB，LB更新为C’_sd(C,τ).lb；如果C’_sd(C,τ).ub<UB，UB更新为C’_sd(C,τ).ub。

作为本发明优选的技术方案，步骤5中所述网络的相邻查询源扩展终止，空间密度上限小于LB的轨迹从T_f中删除，T_f是所有被完全覆盖的轨迹的集合；如果p不是排名最高的查询源，网络中从p的扩展终止，开始搜索新排名第一的查询源。

作为本发明优选的技术方案，步骤6中T_f中的轨迹根据空间密度上限的值排序。

作为本发明优选的技术方案，步骤7中所述按照轨迹排序进一步细化，具体为：对于轨迹τ∈Tf，假设{p1,p2,...,pi}是最靠近区域中心{c1.m,c2.m,...,ci.m}的顶点，从{p1,p2,...,pi}执行Dijkstra扩展算法来计算pi和区域ci内顶点之间的网络距离，一旦

所述细化终止，返回具有最大空间密度相关性的轨迹；其中Tr是已经被细化的轨迹集合，Tu是未被细化的轨迹集合，Tr∪Tu＝Tf，τ’是Tu中的一条轨迹。

与现有技术相比，本发明具有以下有益效果：

1、与传统轨迹搜索(TSL)查询不同，本发明是基于兴趣区域的；本发明解决了现有的TSL解决方案对TSR查询无效，现有的PNC解决方案不适用于TSR问题。

2、本发明进一步减小了搜索空间，避免重叠区域的遍历；本发明有效启发式搜索策略侧重于那些更容易是解决方案的轨迹，进一步提高查询性能。

3、在某些情况下，旅行者也有可能指定访问预期区域的序列(例如，C1，C2和C3是预定区域，访问顺序为C1→C2→C3)，用户可以指定首选访问查询区域的序列。在这种情况下，需要考虑到各区域的顺序。本发明算法就考虑到各区域的顺序，解决了上述技术问题，能有效处理带序列的TSR查询。

4、经实验验证，一个更大的轨迹数导致更多的轨迹被处理并产生更大的轨迹搜索空间，采用本发明算法，CPU时间和访问轨迹数都将更高。

附图说明

下面结合附图和实施例对本发明进一步说明。

图1是本发明基于带序兴趣区域的轨迹查询的启发式扩张搜索扩展算法的流程图。

图2是本发明TSR查询实例示意图。

图3是本发明空间密度相关性的实施例示意图。

图4为本发明基于带序兴趣区域的轨迹查询的启发式扩张搜索扩展算法(BES算法)的一个实例示意图。

图5为本发明的不同轨迹数对实验结果的影响示意图；其中，图5(a)代表北京路网(BRN)中不同轨迹数量对于运行时间的影响；图5(b)代表北京路网(BRN)中不同轨迹数量下的访问轨迹数。

具体实施方式

现在结合附图对本发明作进一步详细的说明。这些附图均为简化的示意图，仅以示意方式说明本发明的基本结构，因此其仅显示与本发明有关的构成。

本发明系统定义如下：

空间网络

我们将空间网络建模为一个无向连通图G(V,E,F,W)，其中V是顶点集，

是一个边集。顶点vi∈V表示道路交叉点或终点。定义边ek＝(vi，vj)∈E通过两个顶点，并表示路段顶点vi和vj之间的行进功能。函数F：V∪E→Geometries记录空间网络的几何信息.特别地，它将顶点和边分别映射到相应道路交叉口的点和代表相应路段的折线。函数W：E→R给每个边分配权重。边e的权重W(e)代表相应的路段长度或一些其他相关性质如燃油消耗或旅行时间，可以通过挖掘历史交通数据获得。

轨迹

轨迹是一个有限的有序序列<v1,v2,...,vn>，其中vi＝(pi,ti)，其中pi是样点(在顶点处)，ti是时间戳。在这项研究中，我们只考虑轨迹的空间属性。

兴趣区域

兴趣区域是一个子图

包含顶点c.V和边c.E，通过中心vm和半径r定义，其中c.vm是G中的顶点：r是从c到区域边界的网络距离。

空间密度相关性

给定空间网络中的任何两个顶点pa和pb，它们之间的网络最短路径由SP(pa，pb)表示，其长度由sd(pa,pb)表示。给出一个轨迹τ和空间网络中的顶点o，最小距离顶点o和轨迹τ之间的d_M(o,τ)定义为：

其中pi是τ中的点。

给定两个空间点p1和p2，空间影响因子I(p1,p2)定义如下：

ε是一个阈值。I(p1,p2)的值与sd(p1，p2)成反比。如果p1和p2之间的距离达到阈值，则设置它们之间的影响因子是0。阈值用于从查询区域进一步修剪轨迹。I(p1,p2)的值在范围内[0，e^-ε]，e^-ε∈(0，1)。

一个区域c与轨迹τ之间的空间密度相关性C_sd(c,τ)定义如下：

这里，pi是属于c的顶点，p∈τ是最接近区域中心c.m的顶点。pi.g是连接到pi的空间对象个数。空间距离和空间对象密度都被考虑在内。这些功能通过考虑空间物体的密度来扩展众所周知的最长公共子序列(LCSS)。

在TSR查询处理中，每个地区都扮演着同样重要的角色，所以我们使用Sigmoid函数归一化空间密度相关性C_sd(c,τ)到范围[0，1]。

Sigmoid函数如下：

S(x)＝1/(1+e^-x)

代入x＝C_sd(c,τ)，S(x)即为空间密度相关性归一化之后的值。

扩展算法中，通过组合每个区域ci∈C的空间密度相关性，一组区域的集合C和轨迹τ之间的空间密度相关性由下面给出：

其中，v是轨迹τ上的点，C’sd(c,v)是查询区域c与v之间的空间密度相关性。C’sd(C,v)表示查询区域集合C与轨迹τ的空间密度相关性。pi.g是附属于pi的空间对象的数量。sd(p,v)代表点p与点v之间的距离。*.head表示列表中第一个元素，*.tail表示列表中除head之外的所有元素构成的列表。

以下是本发明基于带序兴趣区域的轨迹查询的启发式扩张搜索扩展算法(简称BES算法)：

首先，我们利用现有的查询源选择策略(参见S.Shang,K.Zheng,C.S.Jensen,B.Yang,P.Kalnis,G.Li,and J.Wen.Discovery of path nearby clusters in spatial networks.IEEE Trans.Knowl.Data Eng.,27(6):1505–1518,2015.)从查询区域的中心选择一组查询源。其次，我们定义新的空间密度上界和下界来剪枝搜索空间。第三、基于优先级排名的启发式搜索战略调度使用多个查询源。我们保持和使用处理查询时的动态优先级排序堆。在每一个时间点，我们扩展排名最高的查询源，直到一个新的查询源成为顶级。该算法有两大优势：(一)进一步减小了搜索空间，避免重叠区域的遍历；(二)有效启发式搜索策略侧重于那些更容易是解决方案的轨迹，进一步提高查询性能；(三)能有效处理带序列的TSR查询。如图1所示，本发明算法的具体步骤如下：

1、最初，全局空间密度相关性下限LB设置为0，全局空间密度相关性上限UB设置为+∞。

2、我们利用现有的查询源选择策略从查询区域中心中选择一组查询源。现有的查询源选择策略指：给定一组空间对象O(例如，POI，地理标记的照片或地理标记的推文)和查询轨迹q，如果查询源c具有高的空间对象密度并且在空间上接近于q，则返回查询源c。

3、初始所有查询源优先级设置为0。从每个查询源按照基于优先级排名的启发式搜索。我们采用基于优先级排名的启发式调度策略进行Dijkstra扩展算法，可避免将不必要的搜索努力用于不太可能是最佳选择的轨迹。每个查询源pn都有一个标签p.l描述它的优先级。我们在包含这些查询源的p.l上维护一个动态的优先级堆。定义每个查询源p.l的优先级如下:

所有查询源的优先标签设置为0，并在每一步，我们搜索排名最高的查询源(一个最大优先级标签)，按照Dijkstra的算法进行网络扩展。对于每个新扫描的轨迹，如果没有被从p开始的扩展扫描，它被标记为已被p扫描。

4、按照新的公式计算空间密度的上下限，更新LB和UB。按照新的公式计算其空间密度相关性上限C’_sd(C,τ).ub和下限C’_sd(C,τ).lb，相应更新UB和LB。如果C’_sd(C,τ).lb>LB，LB更新为C’_sd(C,τ).lb；如果C’_sd(C,τ).ub<UB，UB更新为C’_sd(C,τ).ub。

BES算法进一步减小了搜索空间，从而避免重叠区域的遍历。查询区域集合C与轨迹τ的空间密度相关性上下界是：

对于查询源，空间密度下限估算公式为：

对于查询源，空间密度上限估算公式为：

其中，C是查询区域集合，τ是一条轨迹，C’_sd(C,τ)是轨迹τ与查询区域集合C的空间密度相关性，C’_sd(C,τ).lb代表这个相关性的下限，C’_sd(C,τ).ub代表这个相关性的上限；C.head表示集合C中第一个查询区域，τ.head表示τ中第一个元素，C’_sd(C.head,τ.head).lb表示查询区域C.head与τ.head相关性的下限，C’_sd(C.head,τ.head).ub表示查询区域C.head与τ.head相关性的上限，C.tail表示列表中除C.head之外的所有查询区域构成的列表，C’_sd(C.tail,τ) 代表查询区域集合C.tail与轨迹τ的相关性，C’_sd(C,τ.tail)代表查询区域集合C与轨迹τ.tail的相关性；

对于查询源，空间密度上下界估算公式见上，而对于非查询源的查询区域中心，BES定义了新的查询区域与轨迹空间密度上下界估算公式(以c2，τ1为例)：

5、如果LB>UB或所有搜索半径超过ε+p.dist/2(其中p.dist＝max{sd(p,p’),sd(p,p”)})，p’和p”是p的邻近查询源，sd(p,p’)代表点p和点p’之间的网络距离，sd(p,p”)代表点p和点p”之间的网络距离，ε是事先设置的阈值)，网络的相邻查询源扩展终止，并且C_sd(C,τ).ub小于LB的轨迹从Tf移除。T_f是所有被完全覆盖的轨迹的集合。如果p不是排名最高的查询源，网络中从p的扩展终止，我们开始搜索新排名第一的查询源。

6、细化。轨迹在Tf中根据C_sd(C,τ).ub的值从最大到最小排序。对于轨迹τ∈Tf，假设{p1,p2,...,pi}是最靠近区域中心{c1.m,c2.m,...,ci.m}的顶点。我们从{p1,p2,...,pi}执行Dijkstra扩展算法来计算pi和区域ci内顶点之间的网络距离。一旦

(其中Tr是一组细化的轨迹，而Tu是一组未细化的轨迹并且Tr∪Tu＝Tf，τ’是Tu中的一条轨迹)，细化终止，所有未细化的轨迹都被剪枝。返回空间密度相关性最大的轨迹。

图2显示了一个TSR查询实例。如图2所示，c1，c2，c3是TSR查询区域，p1，p2，p3是相应的区域中心，r1、r2和r3是半径。点p3，p4，…，p8是轨迹内的采样点。在轨迹τ1中，p6，p7，p8分别是离中心p1，p2和p3最近的采样点。在轨迹τ2中，p4，p5分别是离中心p1，p2最近的采样点。每个区域包含几个空间对象。只有在对该区域中心的空间接近性被考虑到时，轨迹τ2才被返回，因为轨迹τ2在空间上最接近该地区中心。如果我们考虑空间对象的分布，轨迹τ2则比轨迹τ1缺少吸引力，因为它更远离空间对象密度高的地区。当同时考虑以上两个方面时，轨迹τ1是最好的选择(尽管轨迹τ2是在空间距离上比τ1略好)。

图3显示了空间密度相关性的实施例。以图3为例，τ是一条轨迹，c1和c2是两个区域，p1和p2分别是它们的中心。顶点{p3，p4}∈τ分别是τ上离p1和p2最近的点，{p5,p6,p7,p8}∈c1，{p9，p10}∈c2。空间密度相关性Csd(c1,τ)and Csd(c2,τ)被计算为：Csd(c1,τ)＝ p1·g·I(p1,p3)+p5·g·I(p5,p3)+p6·g·I(p6,p3)+p7·g·I(p7,p3)+p8·g·I(p8,p3)，Csd(c2,τ)＝p2·g·I(p2,p4)+p9·g·I(p9,p4)+p10·g·I(p10,p3)。

图4为本发明一个BES算法实例，τ1已被从p1开始的搜索范围覆盖，p5∈τ1是τ1上最靠近p1的点。因此，τ1被以p1为圆心，dM(p1,τ1)为半径的圆正切，正切点为p5。如果re2＝dM(p1,τ1)-sd(p1,p2)，我们就可以确保圆形区域(p2,re2)被圆形区域(p1,dM(p1,τ1))包围，从而得出dM(p2,τ1)≥re2＝dM(p1,τ1)-sd(p1,p2)。另外，SP(p2,p1)+SP(p1,p5)是从p2到τ1的一条路径，因此得到dM(pm,τ)≤dM(pn,τ)+sd(pm,pn)。我们根据这些关系来确定区域与不同轨迹之间的距离的上下界限从而进行搜索剪枝，并在查询时保持和使用动态优先级排序堆，在每一个时间点，我们扩展排名最高的查询源，直到一个新的查询源成为顶级。

以下通过具体实验来验证本发明的效果：

我们使用从两个空间网络提取的图形，即北京路网(BRN)和北美道路网(NRN)。分别包含28,342个顶点和27,690条边，和17,813个顶点，179,179条边。图形由邻接列表索引。对于BRN，我们使用一个真实的北京出租车的轨迹数据集和实数数据集感兴趣的(空间物体)，其中包含80万个轨迹和30万个POI(兴趣点)。原始POI具有经度和纬度坐标，它们被映射到空间网络，分配给它们最近的顶点。对于BRN中的每个顶点p，我们记录具有其最近顶点的对象的数量。因此，我们不需要在TSR查询处理期间访问个人空间对象。我们与以前的研究分享POI设定[S.Shang,K.Zheng,C.S.Jensen,B.Yang,P.Kalnis,G.Li,and J.Wen.Discovery of path nearby clusters in spatial networks.IEEE Trans.Knowl.Data Eng.,27(6):1505–1518,2015.]。对于NRN，较大的合成数据用于研究可扩展性。NRN包含4,000,000条轨迹。对于NRN中的每个顶点p’，我们得出该数的附加空间物体，我们将这个数字存储为一个属性。我们有180万个派生空间物体。在BRN，默认距离阈值设置在10公里，而在NRN中，默认设置为200公里。所有算法都是在Java中实现并在Windows 8平台上运行，使用英特尔酷睿i7-3520M处理器(2.90GHz)和8GB内存。

默认情况下，BRN中的轨迹集大小设置为600,000，而在NRN设置为1000,000，轨迹长度在BRN中设置为20，在NRN中设置为100，在BRN和BRN中查询区域的数量设置为6。查询区域的平均半径从2公里变化到10公里，在BRN(默认6公里)；在NRN(默认150公里)从50公里到250公里变化。

1.剪枝效果

首先，我们设置实验来查看算法在图上的剪枝效果，实验结果如下：

	BES
剪枝率(BRN)	0.76
保留率(BRN)	0.24
剪枝率(NRN)	0.69
保留率(NRN)	0.31

表1 BES算法的剪枝效果

2.轨迹数的影响

图5给出了不同轨迹的数量|T|下算法的性能。直观地说，一个更大的|T|导致更多的轨迹被处理并产生更大的轨迹搜索空间。因此，本发明算法下的CPU时间和访问轨迹数都将更高。

以上述依据本发明的理想实施例为启示，通过上述的说明内容，相关工作人员完全可以在不偏离本项发明技术思想的范围内，进行多样的变更以及修改。本项发明的技术性范围并不局限于说明书上的内容，必须要根据权利要求范围来确定其技术性范围。

Claims

一种基于带序兴趣区域的轨迹查询的启发式扩张搜索扩展算法，其特征在于，包括如下步骤：

步骤1：初始设置全局空间密度相关性下限LB＝0，全局空间密度相关性上限UB＝+∞；定义空间密度相关性计算公式：

其中，v是轨迹τ上的点，C’_sd(c,v)是查询区域c与v之间的空间密度相关性；C’_sd(C,v)表示查询区域集合C与轨迹τ的空间密度相关性；p_i。g是附属于p_i的空间对象的数量；sd(p,v)代表点p与点v之间的距离；*.head表示列表中第一个元素，*.tail表示列表中除head之外的所有元素构成的列表；

步骤2：从查询区域中心中选择一组查询源；

步骤3：所有查询源优先级初始设置为0；从每个查询源按照基于优先级排名进行启发式搜索；

步骤4：计算空间密度的上限和下限，更新LB和UB；

步骤5：判断LB>UB或所有搜索半径超过ε+p.dist/2是否成立，其中，ε是事先设置的阈值，p.dist＝max{sd(p,p’),sd(p,p”)}，p’和p”是p的邻近查询源，sd(p,p’)代表点p和点p’之间的网络距离，sd(p,p”)代表点p和点p”之间的网络距离；如成立则网络的相邻查询源扩展终止，进入下一步骤6；如不成立，则回到步骤4；

步骤6：根据空间密度上限的值对轨迹进行排序；

步骤7：按照轨迹排序进一步细化，返回具有最大空间密度相关性的轨迹。
如权利要求1所述的算法，其特征在于，步骤2中，利用查询源选择策略从查询区域中心中选择一组查询源，所述查询源选择策略为：给定一组空间对象O和查询轨迹q，如果查询源c具有高的空间对象密度并且在空间上接近于q，则返回查询源c。
如权利要求1所述的算法，其特征在于，步骤3中，所述从每个查询源按照基于优先级排名进行启发式搜索具体为：采用基于优先级排名的启发式调度策略进行Dijkstra扩展算法，每个查询源pn都有一个标签p.l描述它的优先级，在包含这些查询源的p.l上维护一个动态的优先级堆，定义每个查询源p.l的优先级如下:

其中，p.c是一个包含了查询源p和所有以p为最近查询源的非查询源的查询区域中心的集合，|p.c|是它的大小。T_p是部分覆盖轨迹的集合，T_s(p)是被从p开始的搜索范围覆盖的轨迹集合；C’_sd(C,τ)是轨迹τ与查询区域集合C的空间密度相关性，C’_sd(C,τ).ub代表这个相关性的上限。
如权利要求1所述的算法，其特征在于，步骤4中，所述计算空间密度的上限和下限具体为：对于每一个新扫描的轨迹，如果没有被从p开始的扩展扫描，它被标记为已被p扫描，计算其空间密度上限C’_sd(C,τ).ub和下限C’_sd(C,τ).lb；

对于查询源，空间密度下限估算公式为：

对于查询源，空间密度上限估算公式为：

其中，C是查询区域集合，τ是一条轨迹，C’_sd(C,τ)是轨迹τ与查询区域集合C的空间密度相关性，C’_sd(C,τ).lb代表这个相关性的下限，C’_sd(C,τ).ub代表这个相关性的上限；C.head表示集合C中第一个查询区域，τ.head表示τ中第一个元素，C’_sd(C.head,τ.head).lb表示查询区域C.head与τ.head相关性的下限，C’_sd(C.head,τ.head).ub表示查询区域C.head与τ.head相关性的上限，C.tail表示列表中除C.head之外的所有查询区域构成的列表，C’_sd(C.tail,τ)代表查询区域集合C.tail与轨迹τ的相关性，C’_sd(C,τ.tail)代表查询区域集合C与轨迹τ.tail的相关性；

对于非查询源的查询区域中心，新的查询区域与轨迹空间密度上下界估算公式为，以c2，τ1为例：

其中，p1是一个查询源，p2是查询区域c₂的中心，是一个非查询源，p1是离p2最近的查询源，τ1是一条轨迹。p_i.g是附属于p_i的空间对象的数量，d_M(p1,τ1)代表点p1与轨迹τ1之间的网络距离，sd(p_i,p₂)代表点p_i和点p₂之间的网络距离。

其中，C₁表示τ被从c₁的中心开始的搜索范围覆盖，C₂表示τ没有被从c₁的中心开始的搜索范围覆盖。re_i表示从c_i的中心开始的搜索范围的半径。
如权利要求1所述的算法，其特征在于，步骤4中所述更新LB和UB具体为：如果C’_sd(C,τ).lb>LB，LB更新为C’_sd(C,τ).lb；如果C’_sd(C,τ).ub<UB，UB更新为C’_sd(C,τ).ub。
如权利要求1所述的算法，其特征在于，步骤5中所述网络的相邻查询源扩展终止，空间密度上限小于LB的轨迹从T_f中删除，T_f是所有被完全覆盖的轨迹的集合；如果p不是排名最高的查询源，网络中从p的扩展终止，开始搜索新排名第一的查询源。
如权利要求6所述的算法，其特征在于，步骤6中T_f中的轨迹根据空间密度上限的值排序。
如权利要求1所述的算法，其特征在于，步骤7中所述按照轨迹排序进一步细化，具体为：对于轨迹τ∈Tf，假设{p1,p2,...,pi}是最靠近区域中心{c1.m,c2.m,...,ci.m}的顶点，从{p1,p2,...,pi}执行Dijkstra扩展算法来计算pi和区域ci内顶点之间的网络距离，一旦
所述细化终止，返回具有最大空间密度相关性的轨迹；其中Tr是已经被细化的轨迹集合，Tu是未被细化的轨迹集合，Tr∪Tu＝Tf，τ’是Tu中的一条轨迹。