WO2018161729A1

WO2018161729A1 - 用户轨迹恢复方法及装置

Info

Publication number: WO2018161729A1
Application number: PCT/CN2018/073856
Authority: WO
Inventors: 耿杰
Original assignee: 华为技术有限公司
Priority date: 2017-03-07
Filing date: 2018-01-23
Publication date: 2018-09-13
Also published as: CN108574933B; EP3592000A1; EP3592000A4; CN108574933A; EP3592000B1

Abstract

本申请公开了用户轨迹恢复方法及装置，以至少提高用户轨迹恢复时的去噪精度。方法包括：获取待恢复轨迹的用户的原始轨迹点数据序列；基于映射模型和该原始轨迹点数据序列，在总体映射代价最小的情况下，确定在规整时间点上该用户所处的基站的标识，得到该用户的去噪轨迹点数据序列，其中，该规整时间点为固定时间间隔的时间点；该映射模型的限定条件包括：一个原始轨迹点数据映射到一个规整时间点的一个基站的标识上，以及在同一个规整时间点上多个原始轨迹点数据最多映射到一个基站的标识上；根据该去噪轨迹点数据序列，恢复该待恢复轨迹的用户的轨迹。

Description

用户轨迹恢复方法及装置

本申请要求于2017年3月7日提交中国专利局、申请号为201710132289.6，发明名称为“用户轨迹恢复方法及装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本发明涉及通信领域，尤其涉及用户轨迹恢复方法及装置。

背景技术

运营商每天会获得大量的用户通信数据，如A口信令数据、详细话单记录(calling detailed records，CDR)数据和测量报告(measurement reports，MR)数据等，这些数据包括了用户与服务基站之间的连接信息。由于基站位置已知，因此现有技术中运营商可以根据用户通信数据将基站位置作为用户在发生当前通信行为时所处的大致位置，形成一个个离散的轨迹点，如图1所示。如果将一个用户某一时间段内的所有轨迹点收集起来，就可以形成一条连续用户轨迹。这些用户轨迹可以为运营商提供附加的数据价值，比如运行商可以根据用户轨迹分析出用户的居住地和工作地，进而向用户提供服务和营销活动。

然而，若在同一时间段内，用户经常在连接的若干个基站内频繁切换，则会在用户轨迹点中形成噪声，从而会导致难以定位用户的位置，进而会对某一时间段内用户轨迹的恢复造成影响。

基于此问题，现有技术中提供了一种用户轨迹恢复的方案，该方案通过周期性的抽取用户轨迹点的方式恢复用户轨迹，虽然可以在一定程度上减少用户轨迹点中的噪声，但是去噪精度较低。因此，如何提高用户轨迹恢复时的去噪精度，是目前亟待解决的问题。

发明内容

本申请提供用户轨迹恢复方法及装置，以至少提高用户轨迹恢复时的去噪精度。

为达到上述目的，本申请提供如下技术方案：

第一方面，提供一种用户轨迹恢复方法，该方法包括：获取待恢复轨迹的用户的原始轨迹点数据序列，其中，该原始轨迹点数据序列中的每个原始轨迹点数据包括该原始轨迹点对应的基站的标识和采集时间点；基于映射模型和该原始轨迹点数据序列，在总体映射代价最小的情况下，确定在规整时间点上该用户所处的基站的标识，得到该用户的去噪轨迹点数据序列，其中，该去噪轨迹点数据序列中的每一个去噪轨迹点数据包括该去噪轨迹点数据对应的基站的标识和规整时间点；该规整时间点为固定时间间隔的时间点；该映射模型的限定条件包括：一个原始轨迹点数据映射到一个规整时间点的一个基站的标识上，以及在同一个规整时间点上多个原始轨迹点数据最多映射到一个基站的标识上；根据该去噪轨迹点数据序列，恢复该待恢复轨迹的用户的轨迹。由于规整时间点属于固定时间间隔的时间点；并且映射模型的限定条件包括：一个原始轨迹点数据映射到一个规整时间点的一个基站的标识上，以及在同一个规整时间点上多个原始轨迹点数据最多映射到一个基站的标识上。也就是说，可以将用户的频繁切换的基站映射到一个规整时间点的唯一的基站上。因此基于该方案，将去除用户在不同基站之间来回切换的情况，从而可以极大地提升轨迹恢复时去噪后的数据质量和精度。

在一种可能的设计中，根据该去噪轨迹点数据序列，恢复该待恢复轨迹的用户的轨迹，包括：基于该去噪轨迹点数据序列和预先训练好的用户-基站模型，确定该用户的基站粒度的去噪轨迹点数据序列；其中，该用户-基站模型的参数包括：N个基站之间的转移概率，其中，N为该原始轨迹点数据序列中包括的不同的基站的标识的数量；根据该基站粒度的去噪轨迹点数据序列，恢复该待恢复轨迹的用户的轨迹。基于该方案，可以将去噪轨迹点数据序列中缺失的数据填补上，形成一条连续的用户轨迹，使得每个规整时间点上都含有用户的轨迹点，进一步提升了用户轨迹恢复的精度。

在一种可能的设计中，根据该去噪轨迹点数据序列，恢复该待恢复轨迹的用户的轨迹，包括：基于该去噪轨迹点数据序列和预先训练好的用户-基站模型，确定该用户的基站粒度的去噪轨迹点数据序列；其中，该用户-基站模型的参数包括：N个基站之间的转移概率，其中，N为该原始轨迹点数据序列中包括的不同的基站的标识的数量；基于该基站粒度的轨迹点数据序列和预先训练好的基站-地理栅格模型，确定该用户的地理栅格粒度的去噪轨迹点数据序列；其中，该基站-地理栅格模型的参数包括：M个地理栅格之间的转移概率，以及每个地理栅格对该N个基站的输出概率，M为正整数；根据该地理栅格粒度的去噪轨迹点数据序列，恢复该待恢复轨迹的用户的轨迹。基于该方案，可以将去噪轨迹点数据序列中缺失的数据填补上，形成一条连续的用户轨迹，使得每个规整时间点上都含有用户的轨迹点，并且可以通过地理栅格的精度来控制用户轨迹恢复的精度，进一步提升了用户轨迹恢复的精度。

在一种可能的设计中，该原始轨迹点数据序列中的每个原始轨迹点数据还包括该原始轨迹点对应的基站的经度和纬度，以便于根据该基站的经度和纬度，获取地理栅格粒度的去噪轨迹点数据序列，进而根据该地理栅格粒度的去噪轨迹点数据序列，恢复该待恢复轨迹的用户的轨迹。当然，也可以根据原始轨迹点数据中的基站标识获取该基站标识对应的基站的经度和纬度，本申请对此不作具体限定。

在一种可能的设计中，基于该去噪轨迹点数据序列和预先训练好的用户-基站模型，确定该用户的基站粒度的去噪轨迹点数据序列，包括：根据该去噪轨迹点数据序列中的去噪轨迹点数据包含的规整时间点，确定该去噪轨迹点数据序列中缺失的轨迹点数据包含的规整时间点；根据该N个基站之间的转移概率以及第一预设公式，确定在该缺失的轨迹点数据包含的规整时间点上，该用户所处的基站分别对应该N个基站中的任意一个基站的情况下，由缺失的轨迹点数据包含的基站的标识所对应的基站和去噪轨迹点数据包含的基站的标识所对应的基站构成的第一完整路径的转移概率，其中，该第一预设公式包括：第一完整路径的转移概率＝该第一完整路径上各个基站之间的转移概率的乘积；将该第一完整路径的转移概率最大的路径上的多个基站确定为该待恢复轨迹的用户在不同规整时间点上所处的基站；根据该待恢复轨迹的用户在不同规整时间点上所处的基站，确定该待恢复轨迹的用户的基站粒度的去噪轨迹点数据序列。基于该轨迹恢复方法恢复出的基站粒度的去噪轨迹点数据序列由于具备最高的状态转移概率，因此可以极大提升了用户轨迹恢复的精度。

在一种可能的设计中，基于该基站粒度的轨迹点数据序列和预先训练好的基站-地理栅格模型，确定该用户的地理栅格粒度的去噪轨迹点数据序列，包括：根据该基站粒度的去噪轨迹点数据序列的每个基站粒度的去噪轨迹点数据包含的规整时间点、基站的标识、M个地理栅格之间的转移概率，以及每个地理栅格对N个基站的输出概率，基于第二预设公式，确定在每个规整时间点，能输出该规整时间点对应的基站的所有地理栅格所连接的第二完整路径的转移概率，该第二预设公式包括：P＝Y _1,1*X _1,2*Y _2,2*......*X _r,r+1*Y _r+1,r+1......；其中，Y _r+1,r+1表示第二完整路径上第r+1个规整时间点上的地理栅格对第r+1个规整时间点上的基站的输出概率；X _r,r+1表示第二完整路径上第r个规整时间点上的地理栅格与第r+1个规整时间点上的地理栅格的转移概率；将第二完整路径的转移概率最大的路径上的多个地理栅格确定为待恢复轨迹的用户在不同规整时间点上所处的地理栅格；根据待恢复轨迹的用户在不同规整时间点上所处的地理栅格，确定待恢复轨迹的用户的地理栅格粒度的去噪轨迹点数据序列。基于该轨迹恢复方法恢复出的地理栅格粒度的去噪轨迹点数据序列由于具备最高的状态转移概率，并且是比基站粒度小的地理栅格粒度，因此可以极大提升用户轨迹恢复的精度。

在一种可能的设计中，该方法还包括：获取训练该用户-基站模型的多个第一训练数据，其中，该多个第一训练数据中的每个第一训练数据中均包括基站的标识和采集时间点；根据该每个第一训练数据，确定从该N个基站的任意一个基站分别转移至该N个基站中的任意一个基站的次数；根据该从该N个基站的任意一个基站分别转移至该N个基站中的任意一个基站的次数，基于第三预设公式，确定该N个基站之间的转移概率，其中，该第三预设公式包括：

其中，α(n1,n2)表示从第n1个基站转移至第n2个基站的次数，

表示从该第n1个基站转移至该N个基站的总次数，ω(n1,n2)表示从该第n1个基站转移至该第n2个基站的转移概率。基于该方案，可以训练用户-基站模型，获得用户-基站模型的参数：N个基站之间的转移概率。

在一种可能的设计中，该方法还包括：获取训练该基站-地理栅格模型的多个第二训练数据，其中，该多个第二训练数据中的每个第二训练数据中均包括基站的标识、采集时间点、用户的经度和纬度；根据该每个第二训练数据中的用户的经度和纬度，确定M个地理栅格的任意一个地理栅格与M个地理栅格的任意一个地理栅格的距离；根据M个地理栅格的任意一个地理栅格与M个地理栅格的任意一个地理栅格的距离，结合预设规则，确定M个地理栅格的任意一个地理栅格与M个地理栅格的任意一个地理栅格之间的转移概率；根据每个第二训练数据，确定M个地理栅格中的任意一个地理栅格对N个基站中的任意一个基站的输出次数；根据M个地理栅格中的任意一个地理栅格对所述N个基站中的任意一个基站的输出次数，基于第四预设公式，确定M个地理栅格中的任意一个地理栅格对N个基站中的任意一个基站的输出概率，其中，第四预设公式包括：

其中，α(m,n3)表示第m个地理栅格对第n3个基站的输出次数，

表示第m个地理栅格对N个基站的输出总次数，ω(m,n3)表示第m个地理栅格对第n3个基站的输出概率。基于该方案，可以训练基站-地理栅格模型，获得基站-地理栅格模型的参数：M个地理栅格之间的转移概率，以及每个地理栅格对N个基站的输出概率。

在一种可能的设计中，本申请中的用户-基站模型为马尔科夫模型。

在一种可能的设计中，本申请中的基站-地理栅格模型为隐马尔科夫模型。

第二方面，提供一种用户轨迹恢复装置，该用户轨迹恢复装置具有实现上述方法的功能。该功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。该硬件或软件包括一个或多个与上述功能相对应的模块。

第三方面，提供一种用户轨迹恢复装置，包括：处理器和通信接口；该处理器与该通信接口通过总线相连，该处理器用于实现上述第一方面及其可能实现中任一所述的用户轨迹恢复方法。

在一种可能的设计中，该用户轨迹恢复装置点还包括存储器，该存储器用于存储计算机程序指令，该处理器与该存储器通过该总线连接，该处理器执行该存储器存储的程序指令，以使该用户轨迹恢复装置执行如上述第一方面及其可能实现中任一所述的用户轨迹恢复方法。

第四方面，提供了一种计算机可读存储介质，用于储存为上述用户轨迹恢复装置所用的计算机程序指令，当其在计算机上运行时，使得计算机可以执行上述第一方面中任意一项的用户轨迹恢复方法。

第五方面，提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机可以执行上述第一方面中任意一项的用户轨迹恢复方法。

其中，第二方面至第五方面中任一种设计方式所带来的技术效果可参见第一方面中不同设计方式所带来的技术效果，此处不再赘述。

附图说明

图1为现有技术中离散轨迹点示意图；

图2为本申请实施例提供的用户轨迹恢复装置的结构示意图；

图3为本申请实施例提供的原始轨迹点数据序列示意图；

图4为本申请实施例提供的用户轨迹恢复方法的流程示意图；

图5为本申请实施例提供的二维矩阵示意图；

图6为本申请实施例提供原始轨迹点在二维矩阵的映射示意图；

图7为本申请实施例提供的去噪轨迹点所对应的基站在规整时间点上的分布示意图；

图8为本申请实施例提供的马尔科夫模型预测示意图一；

图9为本申请实施例提供的马尔科夫模型预测示意图二；

图10为本申请实施例提供的马尔科夫模型预测示意图三；

图11为本申请实施例提供的基站粒度的用户轨迹；

图12本申请实施例提供的地理栅格对基站的输出分布示意图；

图13为本申请实施例提供的隐马尔科夫模型的路径连接示意图；

图14为本申请实施例提供的用户轨迹恢复装置的硬件结构示意图。

具体实施方式

为了方便表述，首先给出本申请下述实施例所涉及的一些关键术语的定义或解释如下：

A口信令数据：A口是指基站控制器(base station controller，BSC)和移动业务交换中心(mobile switching center，MSC)之间的接口。A口信令数据是指A口中记录的终端开机、关机、周期性位置更新、主被叫、短信收发和小区切换等数据。

CDR数据：记录用户在进行语音、短信和上网业务时的详细业务数据，包括通信号码、通信时长和基站连接信息等。

MR数据：用户在发生通信行为时向运营商上报的用户标识、MR的记录时间、连接的基站的标识和连接的基站的信号强度等信息。

运营商管道(over the top，OTT)数据：OTT数据是指从运营商数据管道中获取的内容服务商(如微信、地图)的数据，比如OTT数据可以包括用户标识、记录时间和用户精确经纬度信息。其中，用户精确经纬度信息通常用地理栅格标识进行表征，地理栅格是将地图进行网格划分后得到的网格阵列中的一个子网格，通常大小为50*50米。

马尔科夫模型(Markov Model，MM)：马尔科夫模型主要由状态的转移概率确定。本申请实施例中，状态指基站，状态的转移概率指用户的位置在基站与基站之间的转移概率。用户在每个离散时刻，只能位于其中的一个基站，在下一个时刻会根据该基站与其它基站之间的转移概率转移到另一个基站。其中，基站与基站之间的转移概率是根据用户的MR数据中的原始轨迹点数据序列或者恢复轨迹后的基站粒度的去噪轨迹点数据序列训练学习得到的。在将去噪轨迹点数据序列输入预先训练好的马尔科夫模型进行轨迹填充的时候，将填充后所获得的完整路径的转移概率最大的路径上的多个轨迹点数据组成的序列确定为待恢复轨迹的用户的基站粒度的去噪轨迹点数据序列。上述马尔科夫模型训练的过程和将去噪轨迹点数据序列输入预先训练好的马尔科夫模型进行轨迹恢复的过程将在下述实施例中详细阐述，此处不再赘述。

隐马尔科夫模型(Hidden Markov Model，HMM)：隐马尔科夫模型是用来描述一个状态不可见，但观测值可见的马尔科夫过程，主要由状态的转移概率和状态对观测值的输出概率确定。本申请实施例中，状态指地理栅格，观测值指基站。状态的转移概率是指用户的位置在地理栅格与地理栅格之间的转移概率；状态对观测值的输出概率是指地理栅格对基站的输出概率。其中，本申请实施例中，地理栅格对基站的输出概率，具体是指用户位于当前地理栅格时，对周围所有可能连接到的基站的连接概率。也就是说，本申请实施例中，隐马尔科夫模型的参数为地理栅格与地理栅格之间的转移概率和每个地理栅格对基站的输出概率。用户在每个离散时刻，只能处于其中的一个地理栅格，每个地理栅格只能输出众多连接的基站中的一个。在下一个时刻会根据该地理栅格与其它地理栅格之间的转移概率转移到另外一个地理栅格，并且根据转移后的地理栅格对基站的输出概率输出另外一个基站。其中，用户的位置在地理栅格与地理栅格之间的转移概率和地理栅格对基站的输出概率是根据用户的MR数据中的原始轨迹点数据序列和OTT数据中的用户的经度和纬度训练学习得到的；或者用户的位置在地理栅格与地理栅格之间的转移概率和地理栅格对基站的输出概率是根据恢复轨迹后的地理栅格粒度的去噪轨迹点数据序列训练学习得到的。在将去噪轨迹点数据序列输入预先训练好的隐马尔科夫模型进行地理栅格预测的时候，用户可以根据外部观测到的基站序列，推算出内部经历的地理栅格序列，从而得到地理栅格粒度的去噪轨迹点数据序列。上述隐马尔科夫模型训练的过程和将去噪轨迹点数据序列输入预先训练好的隐马尔科夫模型进行地理栅格预测的过程将在下述实施例中详细阐述，此处不再赘述。

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。其中，在本申请的描述中，除非另有说明，“多个”的含义是两个或两个以上。

首先，给出本申请实施例的一个应用场景：

假设运营商在2016年08月24日10:00-18:00这一时间段内收到用户A上报的多个MR数据，每个MR数据中均包括用户A在发生通信行为时向运营商上报的用户标识、MR的记录时间以及连接的基站的标识等，如表一所示。

表一

MR数据序列号	用户标识	MR的记录时间	基站的标识	......
1	用户A	2016-8-24 10:03:37	基站A	......
2	用户A	2016-8-24 10:14:25	基站B	......
3	用户A	2016-8-24 10:19:25	基站A	......
4	用户A	2016-8-24 10:39:10	基站C	......
5	用户A	2016-8-24 10:44:15	基站B	......
6	用户A	2016-8-24 10:56:03	基站C	......
7	用户A	2016-8-24 11:07:09	基站A	......
8	用户A	2016-8-24 11:15:16	基站A	......
......	......	......	......	......

由表一可以看出，在2016年08月24日10:00-18:00这段时间内，用户A经常在连接的若干个基站内频繁切换，比如，从基站A切换至基站B，从基站B再切换回基站A，从基站A又切换至基站C，从基站C又切换至基站B，......，等等。由于频繁切换，因此会在用户A的轨迹点中形成噪声，从而在恢复用户A在2016年08月24日10:00-18:00这一时间段内的轨迹时，会导致难以定位用户A的位置，进而会对这一时间段内用户A的轨迹恢复造成影响。基于此问题，现有技术中提供了一种用户轨迹恢复的方案，该方案通过周期性的抽取用户A的轨迹点的方式恢复用户A的轨迹，比如，每隔一个MR数据抽取一次，则抽取结果如表二所示：

表二

MR数据序列号	用户标识	MR的记录时间	连接的基站的标识
1	用户A	2016-8-24 10:03:37	基站A
3	用户A	2016-8-24 10:19:25	基站A
5	用户A	2016-8-24 10:44:15	基站B
7	用户A	2016-8-24 11:07:09	基站A
......	......	......	......

由表二可以看出，这可以在一定程度上减少用户A的轨迹点中的噪声，比如，用户A在第1个轨迹点(MR数据1对应的轨迹点)和第2个轨迹点(MR数据3对应的轨迹点)之间并未发生切换，连接的基站均是基站A。但是该方案去噪精度较低，比如，从第3个轨迹点(MR数据5对应的轨迹点)开始，用户A仍需要从基站A切换至基站B，从基站B再切换回基站A，......，因此，如何提高用户轨迹恢复时的去噪精度，是目前亟待解决的问题。

为解决该问题，本申请实施例提供用户轨迹恢复的方法和装置，可以提高用户轨迹恢复时的去噪精度，具体方案如下：

如图2所示，为本申请实施例提供的用户轨迹恢复装置的结构示意图。该用户轨迹恢复装置20包括获取模块201、去噪模块202、轨迹恢复模块203以及存储模块204。

用户轨迹恢复装置的获取模块201从运营商侧获取用户原始轨迹点数据序列，这些原始轨迹点数据序列包含有噪声(基站频繁切换)，并且在时间上是不连续的(某些时间段有许多数据，某些时间段没有数据)。去噪模块202用于将原始轨迹点数据序列中的噪声去除，获得去噪轨迹点数据序列，所述去噪轨迹点数据序列拥有规整的时间点信息(如每10分钟一个轨迹点)。但是去噪轨迹点数据序列仍然是不连续的，很多规整时间点上的数据是缺失的。轨迹恢复模块203用于将去噪轨迹点数据序列中缺失的数据填补上，形成一条连续的用户轨迹，使得每个规整时间点上都含有用户的轨迹点，称为用户最终轨迹点。其中，轨迹恢复模块203中的用户-基站模型可以恢复出基站粒度的轨迹点，基站-地理栅格模型可以恢复出栅格粒度的轨迹点，这些经过恢复的最终轨迹点会存入用户轨迹数据库，以支撑后续的服务和营销活动。具体的，

获取模块201，用于从运营商原始数据中获取待恢复轨迹的用户的原始轨迹点数据序列，该数据序列中的每个原始轨迹点数据均包括该原始轨迹点对应的基站的标识和采集时间点。

比如，在上述应用场景下，获取模块201可以根据表一所示的用户A上报的多个MR数据，获取用户A的多个原始轨迹点数据序列，其中，该数据序列中的每个原始轨迹点数据均包括该原始轨迹点对应的基站的标识和采集时间点。可选的，该数据序列中的每个原始轨迹点数据还可以包括该原始轨迹点对应的基站的经度和纬度，或者获取模块201可以根据原始轨迹点数据中的基站标识获取该基站标识对应的基站的经度和纬度。其中，如图3所示，这些原始轨迹点数据按照时间排序，分别是：

第1个原始轨迹点数据x ¹＝[基站A，10:03:37，121.46472，31.08572]；

第2个原始轨迹点数据x ²＝[基站B，10:14:25，121.46253，31.08744]；

第3个原始轨迹点数据x ³＝[基站A，10:19:25，121.46472，31.08572]；

第4个原始轨迹点数据x ₄＝[基站C，10:39:10，121.46752，31.08572]；等等，在此不再一一列举。

由图3中按照时间排序后的不同轨迹点数据包含的基站的标识或者结合上述应用场景的描述可知，用户A在待恢复轨迹的时间段内频繁切换，因此会在用户A的轨迹点中形成噪声。为了避免噪声对用户A这一时间段内的轨迹恢复造成影响，需要经过去噪模块202的去噪。

去噪模块202，用于利用最优化技术，将原始轨迹点数据序列中的噪声去除，获得去噪轨迹点数据序列，其中，原始轨迹点数据序列在去噪后所付出的时空代价最小。具体去噪方案将在下述实施例中描述，在此不再赘述。该去噪模块202可以极大地提升去噪后的数据质量和精度。

可选的，考虑到经过去噪模块202去噪后得到的去噪轨迹点数据序列虽然拥有规整的时间点信息(如每10分钟一个轨迹点)，但是去噪轨迹点数据序列仍然是不连续的，很多规整时间点上的数据是缺失的，为了进一步提高用户轨迹恢复的精度，需要经过轨迹恢复模块203的轨迹恢复。

轨迹恢复模块203，用于根据去噪轨迹点数据序列，恢复用户轨迹，得到最终轨迹点数据序列。如图2所示，本申请实施例中的轨迹恢复模块203中可以包括两个轨迹恢复模型，一个是用户-基站模型，输入为去噪轨迹点数据序列，输出为基站粒度的去噪轨迹点数据序列；一个是基站-地理栅格模型，输入为基站粒度的去噪轨迹点数据序列，输出为地理栅格粒度的去噪轨迹点数据序列，该地理栅格粒度的去噪轨迹点数据序列可作为最终轨迹点数据序列。具体轨迹恢复方案将在下述实施例中描述，在此不再赘述。该轨迹恢复模块203可以将去噪轨迹点数据序列中缺失的数据填补上，形成一条连续的用户轨迹，使得每个规整时间点上都含有用户的轨迹点，极大提升了用户轨迹恢复的精度。

需要说明的是，本申请实施例提供的轨迹恢复模块203中，也可以仅包含上述的用户-基站模型，该用户-基站模型输出的基站粒度的去噪轨迹点数据序列作为最终轨迹点数据序列，本申请实施例对此不作具体限定。

其中，本申请实施例中的用户-基站模型具体可以是上述的马尔科夫模型；本申请实施例中的基站-地理栅格模型具体可以是上述的隐马尔科夫模型。

可选的，考虑到采用基站粒度的去噪轨迹点数据序列训练用户-基站模型，采用地理栅格粒度的去噪轨迹点数据序列训练基站-地理栅格模型，会使得模型的训练结果更加准确，因此，本申请实施例提供的用户轨迹恢复装置20还包括存储模块204。

存储模块204，用于将基站粒度的去噪轨迹点数据序列和地理栅格粒度的去噪轨迹点数据序列存储在存储模块204的用户轨迹数据库中。其中，基站粒度的去噪轨迹点数据序列可用于训练用户-基站模型；地理栅格粒度的去噪轨迹点数据序列可用于训练基站-地理栅格模型。具体的模型训练方案将在下述实施例中描述，此处不再赘述。另外，最终轨迹点数据序列还用于支撑后续的服务和营销活动。

下面将结合图2所述的用户轨迹恢复装置，对本申请实施例提供的用户轨迹恢复方法进行阐述。如图4所示，为本申请实施例提供的用户轨迹恢复的一种可能的实现方法，包括如下步骤S401-S403：

S401、用户轨迹恢复装置获取待恢复轨迹的用户的原始轨迹点数据序列。

其中，图2中的获取模块201用于支持用户轨迹恢复装置执行本申请实施例中的步骤S401，相关描述可参考获取模块201部分，在此不再赘述。

S402、用户轨迹恢复装置基于映射模型和原始轨迹点数据序列，在总体映射代价最小的情况下，确定在规整时间点上，用户所处的基站的标识，得到用户的去噪轨迹点数据序列。

其中，该去噪轨迹点数据序列中的每一个去噪轨迹点数据包括该去噪轨迹点数据对应的基站的标识和规整时间点。该规整时间点为固定时间间隔的时间点。该映射模型的限定条件包括：一个原始轨迹点数据映射到一个规整时间点的一个基站的标识上，以及在同一个规整时间点上多个原始轨迹点数据最多映射到一个基站的标识上。

由于每一个去噪轨迹点数据由该去噪轨迹点数据对应的基站的标识和规整时间点两个元素组成，因此，一个原始轨迹点数据映射到一个规整时间点的一个基站的标识上，实际上是指，一个原始轨迹点数据只能与一个去噪轨迹点数据对应，在此进行统一说明，以下不再赘述。

一种可能的实现方式中，在步骤S402之前，还包括：用户轨迹恢复装置根据步骤401中获取的原始轨迹点数据序列中的基站的标识以及规整时间点创建二维矩阵。

其中，该二维矩阵中第n行第p列的矩阵元素y _n,p用(第n个基站的标识，第p个规整时间点)表示，n和p均为正整数。

示例性的，假设数据序列如图3所示，数据序列中不同的基站标识的数量为8，规整时间点分别为9:30:00、10:00:00、10:30:00、11:00:00、11：30:00、12:00:00、12:30:00、01:00:00、01:30:00、02:00:00等共计10个时间点，则根据数据序列中的每个原始轨迹点对应的基站的标识以及规整时间点创建的二维矩阵可以如图5所示。其中，该二维矩阵中第n行第p列的矩阵元素y _n,p用(第n个基站的标识，第p个规整时间点)表示。比如，若第一个基站的标识为基站A，第一个规整时间点为9:30:00，则y _1,1＝(基站A，9:30:00)。需要说明的是，这里为了方便表示，将二维矩阵以二维网格的方式呈现，其中，二维网格中的每个子网格代表二维矩阵中的一个矩阵元素，在此进行统一说明，以下不再赘述。

其中，本申请实施例中的规整时间点为固定时间间隔的时间点，其可以是提前预设好的，也可以是根据采集的原始轨迹点数据序列中的采集时间点确定的，比如预设时间段为9:00:00-14:00:00，预设时间间隔为30分钟，则将预设时间段根据预设时间间隔进行分割后可得到如图5中所示的规整时间点，本申请实施例对规整时间点的配置方式不作具体限定。

需要说明的是，图5所示的二维矩阵中，以原始轨迹点数据序列中的所有基站的标识列表为二维矩阵的纵轴，规整时间点列表为二维矩阵的横轴为例进行说明，当然，也可以以原始轨迹点数据序列中的所有基站的标识列表为二维矩阵的横轴，规整时间点列表为二维矩阵的纵轴，本申请实施例对此不作具体限定。

用户轨迹恢复装置基于映射模型和原始轨迹点数据序列，在总体映射代价最小的情况下，确定在规整时间点上用户所处的基站标识，得到用户的去噪轨迹点数据序列，具体可以是：用户轨迹恢复装置基于映射模型和原始轨迹点数据序列，确定将每个原始轨迹点数据分别映射到二维矩阵中时，在总体映射代价最小的情况下，每个原始轨迹点数据对应的矩阵元素，得到用户的去噪轨迹点数据序列。

由于二维矩阵中第n行第p列的矩阵元素y _n,p用(第n个基站的标识，第p个规整时间点)表示，因此当将每个原始轨迹点数据分别映射到二维矩阵中时，上述的映射模型的限定条件具体可以是：一个原始轨迹点数据映射到一个矩阵元素上，以及二维矩阵的每一列最多有一个矩阵元素与原始轨迹点数据有映射关系。

具体的，一种可能的实现方式中，用户轨迹恢复装置基于映射模型和原始轨迹点数据序列，确定将每个原始轨迹点数据分别映射到二维矩阵中时，在总体映射代价最小的情况下，每个原始轨迹点数据对应的矩阵元素，具体可以包括：根据预先设定的最优化目标函数和约束条件，确定将每个原始轨迹点数据分别映射到二维矩阵中时，在总体映射代价最小的情况下，每个原始轨迹点数据映射到每个矩阵元素上的权重；对于原始轨迹点数据x _t，确定f _t,n,p＝1时对应的矩阵元素，y _n,p为原始轨迹点数据x _t对应的矩阵元素，其中，f _t,n,p表示x _t映射到y _n,p的权重；其中，预先设定的最优化目标函数如公式(1)所示：

根据公式(1)，总体映射代价最小时对应的f _t,n,p如公式(2)所示：

总体映射代价最小时对应的

其中，N为原始轨迹点数据序列中包括的不同的基站的标识的数量；P为规整时间点的数量；T为原始轨迹点数据的数量；WORK(X,Y,F)表示以f _t,n,p的权重进行映射，所需要付出的总体代价；

表示使得WORK(X,Y,F)最小，

表示对变量k从1取值到K求和，d _t,n,p表示x _t映射到y _n,p的代价。

约束条件包括：f _t,n,p∈{0,1},a _n,p∈{1,2,......,T},b _n,p∈{0,1}；

M·b _n,p≥a _n,p；

其中，M为极大数；a _n,p表示可映射到y _n,p的原始轨迹点数据的数量；b _n,p表示y _n,p是否与原始轨迹点数据有映射关系，若有，b _n,p＝1；若没有，b _n,p＝0；

表示对于任意的n和p。

其中，f _t,n,p∈{0,1}约束x _t映射到y _n,p的权重为0或者1，若有映射，f _t,n,p＝1；若没有，f _t,n,p＝0。

a _n,p∈{1,2,......,T}约束可映射到y _n,p的原始轨迹点数据的数量为0到T之间的整数。

b _n,p∈{0,1}约束y _n,p是否与原始轨迹点数据有映射关系，若有，b _n,p＝1；若没有，b _n,p＝0。

约束x _t映射到y _n,p的权重为1的数量与可映射到y _n,p的原始轨迹点数据的数量相同，也就是说，若x _t映射到y _n,p的权重为1，表示x _t可映射到y _n,p上。

约束二维矩阵的每一列最多有一个矩阵元素与原始轨迹点数据有映射关系。

M·b _n,p≥a _n,p和

共同约束a _n,p与y _n,p不发生冲突，比如，若a _n,p＝0，则b _n,p＝0；若b _n,p＝1，则a _n,p≥1。

在上述约束条件的限制下，求解公式(1)和公式(2)即可确定在总体映射代价最小的情况下，每个原始轨迹点数据映射到每个矩阵元素上的权重。进而，对于原始轨迹点数据x _t，确定f _t,n,p＝1时对应的矩阵元素y _n,p为原始轨迹点数据x _t对应的矩阵元素。

比如，根据上述方式，将图3所示的原始轨迹点数据映射到图5所示的二维矩阵中，结果可以如图6所示。其中，

原始轨迹点数据x ₁对应的矩阵元素为y _6,1＝(基站F，9:30:00)；

原始轨迹点数据x ₂对应的矩阵元素为y _4,2＝(基站D，10:00:00)；

原始轨迹点数据x ₃对应的矩阵元素为y _4,2＝(基站D，10:00:00)；

原始轨迹点数据x ₄对应的矩阵元素为y _2,3＝(基站B，10:30:00)；等等，在此不再一一列举。

可选的，这里示例性的给出一种x _t映射到y _n,p的代价d _t,n,p的计算方式，如公式(3)所示：

d _t,n,p＝w _t·δ ^(t)(x _t,y _n,p)+w _s·δ ^(s)(x _t,y _n,p)；公式(3)

其中，w _s表示空间代价参数，w _t表示时间代价参数，分别用于调整时间和空间的权重，默认均为1；δ ^(t)(x _t,y _n,p)表示时间距离；δ ^(s)(x _t,y _n,p)表示空间距离。

其中，δ ^(t)(x _t,y _n,p)和δ ^(s)(x _t,y _n,p)的计算方式分别如公式(4)和公式(5)所示：

δ ^(t)(x _t,y _n,p)＝|x _t[t]-y _n,p[p]|；公式(4)

δ ^(s)(x _t,y _n,p)＝|x _t[lon]-y _n,p[lon]|+|x _t[lat]-y _n,p[lat]|；公式(5)

其中，[t]和[p]均表示时间点；[lon]表示经度；[lat]表示纬度。

需要说明的是，公式(5)中所需的基站的经度和纬度信息可以是步骤S401中获取的原始轨迹点数据序列中的原始轨迹点数据的一部分，也可以是基于步骤S401中获取的原始轨迹点数据序列中的原始轨迹点数据中的基站的标识获取的，比如，用户轨迹恢复装置中预先存储了基站的标识与基站的经度和纬度的对应关系，在获取基站的标识之后，可以根据该对应关系确定基站的经度和纬度。本申请实施例对基站的经度和纬度的获取方式不作具体限定。

由于该计算方式中利用时间和空间代价作为优化目标，因此可以使得原始轨迹点数据序列在去噪后所付出的时间和空间代价最小。

当然，也可以采用其他方式计算δ ^(t)(x _t,y _n,p)和δ ^(s)(x _t,y _n,p)，比如，采用

的方式计算δ ^(s)(x _t,y _n,p)，本申请实施例对此不作具体限定。

其中，上述步骤S402给出了本申请实施例提供的去噪方案，由图2中的去噪模块202支持用户轨迹恢复装置执行该步骤。由图3可以看出，用户A的原始轨迹点数据的采集时间点属于不规整的时间点，也就是说，相邻两个原始轨迹点数据的采集时间点的时间间隔并不固定；而由图6可以看出，在采用本申请实施例提供的去噪方案去噪后，用户A的去噪轨迹点数据(也就是矩阵元素)的时间点属于规整时间点，也就是说，相邻两个去噪轨迹点数据中的时间点的时间间隔是固定的。由图3可以看出，用户A在待恢复轨迹的时间段内频繁切换；而由图6可以看出，在采用本申请实施例提供的去噪方案去噪后，可以将用户A的频繁切换的基站映射到一个规整时间点的唯一的基站上。由于去除了用户A在不同基站之间来回切换的情况，因此，本申请实施例提供的去噪方案可以极大地提升去噪后的数据质量和精度。并且，由于本申请实施例在去噪时采用了最优化技术，因此可以使得原始轨迹点数据序列在去噪后所付出的代价最小。

S403、用户轨迹恢复装置根据去噪轨迹点数据序列，恢复待恢复轨迹的用户的轨迹。

其中，在用户轨迹恢复装置获取去噪轨迹点数据序列之后，可以根据该去噪轨迹点数据序列，采用现有的轨迹恢复方式获取待恢复轨迹的用户的轨迹，也可以采用上述图2所示的轨迹恢复模块203恢复待恢复轨迹的用户的轨迹，本申请实施例对此不作具体限定。其中，采用上述图2所示的轨迹恢复模块203恢复待恢复轨迹的用户的轨迹的具体方案将在下述实施例中描述，在此不再赘述。

本申请实施例提供的用户轨迹恢复方法，可以基于映射模型和原始轨迹点数据序列，在总体映射代价最小的情况下，确定在规整时间点上用户所处的基站的标识，得到用户的去噪轨迹点数据序列。由于规整时间点属于固定时间间隔的时间点；并且映射模型的限定条件包括：一个原始轨迹点数据映射到一个规整时间点的一个基站的标识上，以及在同一个规整时间点上多个原始轨迹点数据最多映射到一个基站的标识上。也就是说，可以将用户的频繁切换的基站映射到一个规整时间点的唯一的基站上。因此基于该方案，将去除用户在不同基站之间来回切换的情况，从而可以极大地提升轨迹恢复时去噪后的数据质量和精度。并且，由于本申请实施例在去噪时采用了最优化技术，因此可以使得原始轨迹点数据序列在去噪后所付出的代价最小。

如图6所示，考虑到去噪之后，在时间维度上会有很多空缺值。比如11:00:00、11:30:00、12:00:00、12:30:00……等规整时间点上都没有原始轨迹点数据映射，若采用现有的轨迹恢复方式获取待恢复轨迹的用户的轨迹，精度还不是很高，因此，本申请实施例还提供一种根据上述去噪轨迹点数据进行用户轨迹恢复的方式，即采用上述图2所示的轨迹恢复模块203恢复待恢复轨迹的用户的轨迹，通过将规整时间点上缺失的数据填补上，形成一条连续的用户轨迹来进行轨迹恢复，进一步极大提升了用户轨迹恢复的精度。

下面将给出采用上述图2所示的轨迹恢复模块203恢复待恢复轨迹的用户的轨迹的具体实现。这里以用户-基站模型为马尔科夫模型，基站-地理栅格模型为隐马尔科夫模型为例来进行说明。首先，给出马尔科夫模型和隐马尔科夫模型的训练过程如下。

马尔科夫模型(MM)训练过程：

假设有N个基站，分别对应马尔科夫模型中的N个状态。则马尔科夫模型训练过程中所需要确定的参数就是这N个基站之间的转移概率。其中，这N个基站之间的转移概率可以用一个N*N的矩阵来表达。具体训练过程可以如下：

将多个训练数据基于训练数据中包含的时间点进行排序之后，可以根据训练数据中包含的基站的标识确定从这N个基站中的任意一个基站分别转移至这N个基站中的任意一个基站的次数；进而，可以基于公式(6)计算这N个基站之间的转移概率。

其中，α(n1,n2)表示训练数据中从第n1个基站转移至第n2个基站的次数，

表示训练数据中从第n1个基站转移至这N个基站的总次数，ω(n1,n2)表示训练数据中从第n1个基站转移至第n2个基站的转移概率。

示例性的，假设有A、B、C三个基站(即N＝3)，分别对应马尔科夫模型中的三个状态。则马尔科夫模型训练过程中所需要确定的参数就是A、B、C这三个基站之间的转移概率。其中，A、B、C这三个基站之间的转移概率可以用一个3*3的矩阵来表达。假设在训练数据中，A、B、C这三个基站之间的转移一共发生了600次，转移次数如表三所示：

表三

则对于每一个起始状态，基于公式(6)将目标状态进行归一化，就完成了训练过程，可以得到如表四所示的基站与基站之间的转移概率：

表四

需要说明的是，上述马尔科夫模型训练过程中使用的训练数据可以是用户的MR数据中的原始轨迹点数据序列，也可以是经过轨迹恢复后的基站粒度的去噪轨迹点数据序列，比如经过图2所示的轨迹恢复模块203恢复后得到的基站粒度的去噪轨迹点数据序列，本申请实施例对此不作具体限定。考虑到采用基站粒度的去噪轨迹点数据序列训练马尔科夫模型，会使得模型的训练结果更加准确，因此，通常在获得一些经过轨迹恢复后的基站粒度的去噪轨迹点数据序列之后，可以将这些基站粒度的去噪轨迹点数据序列存储在图2所示的存储模块204的用户轨迹数据库中，以用于后续不断更新该马尔科夫模型，使得训练结果更加准确，进而后续进行轨迹恢复时的精度也更高。

隐马尔科夫模型(HMM)训练过程：

假设有M个地理栅格，分别对应隐马尔科夫模型中的M个状态；有N个基站，每个地理栅格会对这N个基站有输出概率。则隐马尔科夫模型训练过程中所需要确定的参数就是这M个地理栅格之间的转移概率，以及每个地理栅格对这N个基站的输出概率。其中，这M个地理栅格之间的转移概率可以用一个M*M的矩阵来表达；每个地理栅格对这N个基站的输出概率可以用一个M*N的矩阵来表达。具体训练过程如下：

将多个训练数据基于训练数据中包含的时间点进行排序之后，可以根据训练数据中包含的用地理栅格表征的用户的经度和纬度，确定M个地理栅格的任意一个地理栅格与M个地理栅格的任意一个地理栅格的距离；进而，根据预设规则确定M个地理栅格的任意一个地理栅格与M个地理栅格的任意一个地理栅格之间的转移概率，比如该预设规则可以是地理栅格与地理栅格之间的转移概率和地理栅格与地理栅格之间的距离成高斯分布。

将多个训练数据基于训练数据中包含的时间点进行排序之后，可以根据训练数据中包含的用地理栅格表征的用户的经度和纬度以及基站的标识，分别确定这M个地理栅格中的任意一个地理栅格对这N个基站中的任意一个基站的输出次数；进而，可以基于公式(7)计算M个地理栅格中的任意一个地理栅格对N个基站中的任意一个基站的输出概率。

其中，α(m,n3)表示训练数据中第m个地理栅格对第n3个基站的输出次数，

表示训练数据中第m个地理栅格对N个基站的输出总次数，ω(m,n3)表示训练数据中第m个地理栅格对第n3个基站的输出概率。

示例性的，假设有I、II、III三个地理栅格(即M＝3)，分别对应隐马尔科夫模型中的三个状态；有A、B两个基站(即N＝2)，每个地理栅格会对这两个基站有输出概率。则隐马尔科夫模型训练过程中所需要确定的参数就是I、II、III这三个地理栅格之间的转移概率，以及每个地理栅格对A、B这两个基站的输出概率。其中，I、II、III这三个地理栅格之间的转移概率可以用一个3*3的矩阵来表达；每个栅格对A、B这两个基站的输出概率可以用一个3*2的矩阵来表达。在隐马尔科夫模型中，地理栅格与地理栅格之间的转移概率可以根据规则来指定，比如地理栅格与地理栅格之间的转移概率和地理栅格与地理栅格之间的距离成高斯分布。假设地理栅格与地理栅格之间的距离(以米为单位)如表五所示：

表五

高斯分布的定义如公式(8)所示，由两个参数(μ，σ)决定：

假设均值μ＝0，标准差σ＝50，则将上述表五中的每一个距离分别带入公式(8)，可得如表六所示的地理栅格与地理栅格之间的转移概率：

表六

由于表六中地理栅格与地理栅格之间的转移概率不是归一化的转移概率，因此对于每一个起始状态，将目标状态进行归一化，可以得到如表七所示的地理栅格与地理栅格之间的转移概率。

表七

假设在训练数据中，I、II、III这三个地理栅格对A、B这两个基站的输出次数如表八所示：

表八

则对于每一个地理栅格，基于公式(7)将该地理栅格输出的基站进行归一化，就完成了训练过程，可以得到如表九所示的地理栅格对基站的输出概率：

表九

需要说明的是，上述隐马尔科夫模型训练过程中使用的训练数据可以是用户的MR数据中的原始轨迹点数据序列和与该MR数据对应的OTT数据，也可以是恢复轨迹后的地理栅格粒度的去噪轨迹点数据，比如经过图2所示的轨迹恢复模块203恢复后得到的地理栅格粒度的去噪轨迹点数据序列，本申请实施例对此不作具体限定。其中，MR数据中的原始轨迹点数据中包括用户的标识，用户在发生当前通信行为时所连接的基站的标识和MR数据的采集时间点；OTT数据包括用户的标识，采集时间点和用户的经度和纬度。MR数据与OTT数据通过用户的标识和采集时间点进行关联。考虑到采用地理栅格粒度的去噪轨迹点数据序列训练隐马尔科夫模型，会使得模型的训练结果更加准确，因此，通常在获得一些经过轨迹恢复后的地理栅格粒度的去噪轨迹点数据序列之后，可以将这些地理栅格粒度的去噪轨迹点数据序列存储在图2所示的存储模块204的用户轨迹数据库中，以用于后续不断更新该隐马尔科夫模型，使得训练结果更加准确，进而后续进行轨迹恢复时的精度也更高。

在根据上述方法训练马尔科夫模型和隐马尔科夫模型之后，可以将上述训练好的马尔科夫模型和隐马尔科夫模型存储在图2所示的轨迹恢复模块203中，进而，在去噪模块202输出去噪轨迹点数据序列之后，该轨迹恢复模块203可以基于训练好的马尔科夫模型和隐马尔科夫模型恢复用户轨迹，该恢复用户轨迹的过程也就是将上述规整时间点上缺失的数据填补上，形成一条连续的用户轨迹的过程，具体介绍如下。

首先，给出基于马尔科夫模型(MM)的轨迹恢复过程：

其中，马尔科夫模型的输入为：去噪模块202输出的去噪轨迹点数据序列。

马尔科夫模型的输出为：基站粒度的去噪轨迹点数据序列。

马尔科夫模型的轨迹恢复过程包括：获取去噪模块202输出的去噪轨迹点数据序列中的去噪轨迹点数据包含的基站的标识和规整时间点；根据规整时间点，确定去噪轨迹点数据序列中缺失的轨迹点数据包含的规整时间点；根据马尔科夫模型的参数，也就是N个基站之间的转移概率，结合公式(9)，确定在缺失的轨迹点数据包含的规整时间点上，用户所处的基站分别对应N个基站中的任意一个基站的情况下，由缺失的轨迹点数据包含的基站的标识所对应的基站和去噪轨迹点数据包含的基站的标识所对应的基站构成的第一完整路径的转移概率，并将第一完整路径的转移概率最大的路径上的多个基站确定为待恢复轨迹的用户在不同规整时间点上所处的基站；进而，根据待恢复轨迹的用户在不同规整时间点上所处的基站，确定待恢复轨迹的用户的基站粒度的去噪轨迹点数据序列。

第一完整路径的转移概率＝第一完整路径上各个基站之间的转移概率的乘积公式(9)

示例性的，假设马尔科夫模型中基站与基站之间的转移概率如表四所示，并且假设经过去噪模块202去噪后获得的去噪轨迹点所对应的基站在规整时间点上的分布示意图如图7所示，分别为：在时刻0对应一个去噪轨迹点数据，该去噪轨迹点数据中基站的标识为基站A，在时刻1和时刻2轨迹点数据缺失，在时刻3对应一个去噪轨迹点数据，该去噪轨迹点数据中基站的标识为基站C，则可以通过如下方式进行轨迹恢复，得到基站粒度的去噪轨迹点数据序列：

首先，根据表四，从时刻0开始，从每个可能的状态进行状态转移。比如，在表四中，当起始状态为基站A时，从基站A转移至基站A的转移概率为0.8，从基站A转移至基站B的转移概率为0.2，从基站A转移至基站C的转移概率为0。因此，从时刻0开始，从每个可能的状态进行状态转移之后，结果如图8所示。即，从时刻0开始，有两个分支：一个是在时刻1转移至基站A，一个是在时刻1转移至基站B，转移概率分别为0.8和0.2。

其次，根据表四，从时刻1开始，从每个可能的状态再次进行状态转移，结果如图9所示，具体可参考在时刻0进行状态转移的过程，此处不再赘述。

然后，再根据表四，从时刻2开始从每个可能的状态再次进行状态转移，转移至基站C，结果如图10所示，具体可参考在时刻0进行状态转移的过程，此处不再赘述。

最后，对于图10所示的从基站A到基站C的每一条路径，将该路径上所有的转移概率相乘，得到一个转移概率列表，如表十所示：

表十

转移路径	基站A到基站C的转移概率
基站A-基站A-基站A-基站C	0.8×0.8×0＝0
基站A-基站A-基站B-基站C	0.8×0.2×0.4＝0.064
基站A-基站B-基站A-基站C	0.2×0.12×0＝0
基站A-基站B-基站B-基站C	0.2×0.48×0.4＝0.0384
基站A-基站B-基站C-基站C	0.2×0.4×0.6＝0.048

进而，可以将转移概率最大的一条路径上的基站确定为用户A在不同规整时间点上所处的基站。比如，由表十可以得出，当转移路径为基站A-基站A-基站B-基站C时，从基站A到基站C的转移概率最大，为0.064，因此可以确定用户A在时刻1对应的基站为基站A，在时刻2对应的基站为基站B，恢复轨迹后的基站粒度的用户轨迹如图11所示。

基于该轨迹恢复方法恢复出的基站粒度的去噪轨迹点数据序列由于具备最高的状态转移概率，因此可以极大提升了用户轨迹恢复的精度。

其次，给出基于隐马尔科夫模型(HMM)的轨迹恢复过程：

隐马尔科夫模型的输入为：马尔科夫模型输出的基站粒度的去噪轨迹点数据序列。

隐马尔科夫模型的输出为：地理栅格粒度的去噪轨迹点数据序列。

隐马尔科夫模型的轨迹恢复过程包括：获取马尔科夫模型输出的基站粒度的去噪轨迹点数据序列中的去噪轨迹点数据包含的基站的标识和规整时间点；根据每个基站的标识、规整时间点以及隐马尔科夫模型中M个地理栅格之间的转移概率和每个地理栅格对N个基站的输出概率，结合公式(10)，确定在每个规整时间点能输出该规整时间点对应的基站的所有地理栅格所连接的第二完整路径的转移概率，并将第二完整路径的转移概率最大的路径上的多个地理栅格确定为待恢复轨迹的用户在不同规整时间点上所处的地理栅格后，根据待恢复轨迹的用户在不同规整时间点上所处的地理栅格，确定待恢复轨迹的用户的地理栅格粒度的去噪轨迹点数据序列。

P＝Y _1,1*X _1,2*Y _2,2*......*X _r,r+1*Y _r+1,r+1......；公式(10)

其中，Y _r+1,r+1表示第二完整路径上第r+1规整个时间点上的地理栅格对第r+1个规整时间点上的基站的输出概率；X _r,r+1表示第二完整路径上第r个规整时间点上的地理栅格与第r+1个规整时间点上的地理栅格的转移概率。

示例性的，假设隐马尔科夫模型中地理栅格与地理栅格的转移概率如表七所示，地理栅格对基站的输出概率如表九所示。并且假设地理栅格对基站的输出分布如图12所示，分别为：在时刻0和时刻1输出基站A，在时刻2和时刻3输出基站B，则可以通过如下方式预测出用户A在不同的规整时间点上所处的地理栅格编号，进而得到地理栅格粒度的去噪轨迹点数据序列：

首先，根据表九，从时刻0开始，将能输出这些观测值的所有可能状态(即地理栅格)分别列举出来，并连接出所有可能的状态转移路径，具体如图13所示。则经过所有这些可能的路径，都可能输出图12中的观测值序列。

其次，分别计算每个完整路径的转移概率，这里以图13中的路径1为例进行说明，则根据公式(10)可得路径1上的转移概率为：

P＝Y _I,A*X _I,II*Y _II,A*X _II,III*Y _III,B*X _III,III*Y _III,B

＝0.23*0.31*0.22*0.28*0.19*0.39*0.19＝6.2*10 ^-5

类似的，根据公式(10)可以计算出所有可能路径上的转移概率，进而可以确定所有可能的路径中转移概率最大的一条路径，将该路径上的地理栅格的标识确定为用户A在不同规整时间点上所处的地理栅格的标识。比如，若概率最大的一条路径为：III地理栅格-III地理栅格-II地理栅格-I地理栅格，则可以确定用户A在时刻0所处的地理栅格为III地理栅格，在时刻1所处的地理栅格为III地理栅格，在时刻2所处的地理栅格为II地理栅格，在时刻3所处的地理栅格为I地理栅格，进而可以得到地理栅格粒度的用户轨迹。

基于该轨迹恢复方法恢复出的地理栅格粒度的去噪轨迹点数据序列由于具备最高的状态转移概率，并且是比基站粒度小的地理栅格粒度，因此可以极大提升用户轨迹恢复的精度。

上面各实施例主要结合图2所示的用户轨迹恢复装置对本申请实施例提供用户轨迹恢复方法进行了介绍。可以理解的是，上述用户轨迹恢复装置为了实现上述功能，其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

如图14所示，为本申请实施例提供的一种用户轨迹恢复装置1400的硬件结构示意图，该用户轨迹恢复装置1400包括处理器1401，通信总线1402以及通信接口1404。

处理器1401可以是一个通用处理器，例如中央处理器(Central Processing Unit，CPU)，网络处理器(network processor，NP)，或CPU和NP的组合；处理器1401也可以是微处理器(MCU)，专用集成电路(application-specific integrated circuit，ASIC)，可编程逻辑器件(programmable logic device，PLD)或其组合。上述PLD可以是复杂可编程逻辑器件complex programmable logic device，CPLD)，现场可编程逻辑门阵列(field-programmable gate array，FPGA)，通用阵列逻辑(英文：generic array logic,缩写：GAL)或其任意组合。

通信总线1402可包括一通路，在上述组件之间传送信息。

通信接口1404，使用任何收发器一类的装置，用于与其他设备或通信网络通信，可以包括以太网接口，无线接入网(Radio Access Network，RAN)接口，无线局域网(Wireless Local Area Networks，WLAN)接口等。

可选的，如图14所示，用户轨迹恢复装置1400还可以包括存储器1403，存储器1403可以包括易失性存储器(英文：volatile memory)，例如随机存取存储器(英文：random-access memory，缩写：RAM)；存储器也可以包括非易失性存储器(英文：non-volatile memory)，例如快闪存储器(英文：flash memory)，硬盘(英文：hard disk drive，缩写：HDD)或固态硬盘(英文：solid-state drive，缩写：SSD)；存储器1403还可以包括上述种类的存储器的组合。

其中，存储器1403用于存储程序代码。处理器1401用于执行存储器1403中存储的程序代码，从而实现图4所述的用户轨迹恢复方法。

在具体实现中，处理器1401可以包括一个或多个CPU，例如图14中的CPU0和CPU1。CPU可以是一个单核，也可以是多核。

在具体实现中，作为一种实施例，用户轨迹恢复装置1400还可以包括输出设备1405和输入设备1406。输出设备1405和处理器1401通信，可以以多种方式来显示信息。例如，输出设备1405可以是液晶显示器(Liquid Crystal Display，LCD)，发光二级管(Light Emitting Diode，LED)显示设备，阴极射线管(Cathode Ray Tube，CRT)显示设备，或投影仪(projector)等。输入设备1406和处理器1401通信，可以以多种方式接受用户的输入。例如，输入设备1406可以是鼠标、键盘、触摸屏设备或传感设备等。

上述的用户轨迹恢复装置1400可以是一个通用计算机设备或者是一个专用计算机设备。在具体实现中，用户轨迹恢复装置1400可以是台式机、便携式电脑、网络服务器、掌上电脑(Personal Digital Assistant，PDA)、移动手机、平板电脑、无线终端设备、嵌入式设备或有图14中类似结构的设备。本申请实施例不限定用户轨迹恢复装置1400的类型。

由于本申请实施例提供的用户轨迹恢复装置可用于执行上述用户轨迹恢复方法，因此其所能获得的技术效果可参考上述方法实施例，本申请实施例在此不再赘述。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件程序实现时，可以全部或部分地以计算机程序产品的形式来实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或者数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line，DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可以用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如，软盘、硬盘、磁带)，光介质(例如，DVD)、或者半导体介质(例如固态硬盘(solid state disk，SSD))等。

尽管在此结合各实施例对本申请进行了描述，然而，在实施所要求保护的本申请过程中，本领域技术人员通过查看所述附图、公开内容、以及所附权利要求书，可理解并实现所述公开实施例的其他变化。在权利要求中，“包括”(comprising)一词不排除其他组成部分或步骤，“一”或“一个”不排除多个的情况。单个处理器或其他单元可以实现权利要求中列举的若干项功能。相互不同的从属权利要求中记载了某些措施，但这并不表示这些措施不能组合起来产生良好的效果。

尽管结合具体特征及其实施例对本申请进行了描述，显而易见的，在不脱离本申请的精神和范围的情况下，可对其进行各种修改和组合。相应地，本说明书和附图仅仅是所附权利要求所界定的本申请的示例性说明，且视为已覆盖本申请范围内的任意和所有修改、变化、组合或等同物。显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

一种用户轨迹恢复方法，其特征在于，所述方法包括：

获取待恢复轨迹的用户的原始轨迹点数据序列，其中，所述原始轨迹点数据序列中的每个原始轨迹点数据包括该原始轨迹点对应的基站的标识和采集时间点；

基于映射模型和所述原始轨迹点数据序列，在总体映射代价最小的情况下，确定在规整时间点上所述用户所处的基站的标识，得到所述用户的去噪轨迹点数据序列，其中，所述去噪轨迹点数据序列中的每一个去噪轨迹点数据包括该去噪轨迹点数据对应的基站的标识和规整时间点；所述规整时间点为固定时间间隔的时间点；所述映射模型的限定条件包括：一个原始轨迹点数据映射到一个规整时间点的一个基站的标识上，以及在同一个规整时间点上多个原始轨迹点数据最多映射到一个基站的标识上；

根据所述去噪轨迹点数据序列，恢复所述待恢复轨迹的用户的轨迹。
根据权利要求1所述的方法，其特征在于，所述根据所述去噪轨迹点数据序列，恢复所述待恢复轨迹的用户的轨迹，包括：

基于所述去噪轨迹点数据序列和预先训练好的用户-基站模型，确定所述用户的基站粒度的去噪轨迹点数据序列；其中，所述用户-基站模型的参数包括：N个基站之间的转移概率，其中，N为所述原始轨迹点数据序列中包括的不同的基站的标识的数量；

根据所述基站粒度的去噪轨迹点数据序列，恢复所述待恢复轨迹的用户的轨迹。
根据权利要求1所述的方法，其特征在于，所述根据所述去噪轨迹点数据序列，恢复所述待恢复轨迹的用户的轨迹，包括：

基于所述去噪轨迹点数据序列和预先训练好的用户-基站模型，确定所述用户的基站粒度的去噪轨迹点数据序列；其中，所述用户-基站模型的参数包括：N个基站之间的转移概率，其中，N为所述原始轨迹点数据序列中包括的不同的基站的标识的数量；

基于所述基站粒度的轨迹点数据序列和预先训练好的基站-地理栅格模型，确定所述用户的地理栅格粒度的去噪轨迹点数据序列；其中，所述基站-地理栅格模型的参数包括：M个地理栅格之间的转移概率，以及每个地理栅格对所述N个基站的输出概率，M为正整数；

根据所述地理栅格粒度的去噪轨迹点数据序列，恢复所述待恢复轨迹的用户的轨迹。
根据权利要求2或3所述的方法，其特征在于，所述基于所述去噪轨迹点数据序列和预先训练好的用户-基站模型，确定所述用户的基站粒度的去噪轨迹点数据序列，包括：

根据所述去噪轨迹点数据序列中的去噪轨迹点数据包含的规整时间点，确定所述去噪轨迹点数据序列中缺失的轨迹点数据包含的规整时间点；

根据所述N个基站之间的转移概率以及第一预设公式，确定在所述缺失的轨迹点数据包含的规整时间点上，所述用户所处的基站分别对应所述N个基站中的任意一个基站的情况下，由所述缺失的轨迹点数据包含的基站的标识所对应的基站和所述去噪轨迹点数据包含的基站的标识所对应的基站构成的第一完整路径的转移概率，其中，所述第一预设公式包括：第一完整路径的转移概率＝所述第一完整路径上各个基站之间的转移概率的乘积；

将所述第一完整路径的转移概率最大的路径上的多个基站确定为所述待恢复轨迹的用户在不同规整时间点上所处的基站；

根据所述待恢复轨迹的用户在不同规整时间点上所处的基站，确定所述待恢复轨迹的用户的基站粒度的去噪轨迹点数据序列。
根据权利要求2-4任一项所述的方法，其特征在于，所述方法还包括：

获取训练所述用户-基站模型的多个第一训练数据，其中，所述多个第一训练数据中的每个第一训练数据中均包括基站的标识和采集时间点；

根据所述每个第一训练数据，确定从所述N个基站的任意一个基站分别转移至所述N个基站中的任意一个基站的次数；

根据所述从所述N个基站的任意一个基站分别转移至所述N个基站中的任意一个基站的次数，基于第三预设公式，确定所述N个基站之间的转移概率，其中，所述第三预设公式包括：

其中，α(n1,n2)表示从第n1个基站转移至第n2个基站的次数，
表示从所述第n1个基站转移至所述N个基站的总次数，ω(n1,n2)表示从所述第n1个基站转移至所述第n2个基站的转移概率。
根据权利要求2-5任一项所述的方法，其特征在于，所述用户-基站模型为马尔科夫模型。
根据权利要求3-6任一项所述的方法，其特征在于，所述基站-地理栅格模型为隐马尔科夫模型。
一种用户轨迹恢复装置，其特征在于，所述装置包括：获取模块、去噪模块和轨迹恢复模块；

所述获取模块，用于获取待恢复轨迹的用户的原始轨迹点数据序列，其中，所述原始轨迹点数据序列中的每个原始轨迹点数据包括该原始轨迹点对应的基站的标识和采集时间点；

所述去噪模块，用于基于映射模型和所述原始轨迹点数据序列，在总体映射代价最小的情况下，确定在规整时间点上所述用户所处的基站的标识，得到所述用户的去噪轨迹点数据序列，其中，所述去噪轨迹点数据序列中的每一个去噪轨迹点数据包括该去噪轨迹点数据对应的基站的标识和规整时间点；所述规整时间点为固定时间间隔的时间点；所述映射模型的限定条件包括：一个原始轨迹点数据映射到一个规整时间点的一个基站的标识上，以及在同一个规整时间点上多个原始轨迹点数据最多映射到一个基站的标识上；

所述轨迹恢复模块，用于根据所述去噪轨迹点数据序列，恢复所述待恢复轨迹的用户的轨迹。
根据权利要求8所述的装置，其特征在于，所述轨迹恢复模块具体用于：

基于所述去噪轨迹点数据序列和预先训练好的用户-基站模型，确定所述用户的基站粒度的去噪轨迹点数据序列；其中，所述用户-基站模型的参数包括：N个基站之间的转移概率，其中，N为所述原始轨迹点数据序列中包括的不同的基站的标识的数量；

根据所述基站粒度的去噪轨迹点数据序列，恢复所述待恢复轨迹的用户的轨迹。
根据权利要求8所述的装置，其特征在于，所述轨迹恢复模块具体用于：

基于所述去噪轨迹点数据序列和预先训练好的用户-基站模型，确定所述用户的基站粒度的去噪轨迹点数据序列；其中，所述用户-基站模型的参数包括：N个基站之间的转移概率，其中，N为所述原始轨迹点数据序列中包括的不同的基站的标识的数量；

基于所述基站粒度的轨迹点数据序列和预先训练好的基站-地理栅格模型，确定所述用户的地理栅格粒度的去噪轨迹点数据序列；其中，所述基站-地理栅格模型的参数包括：M个地理栅格之间的转移概率，以及每个地理栅格对所述N个基站的输出概率，M为正整数；

根据所述地理栅格粒度的去噪轨迹点数据序列，恢复所述待恢复轨迹的用户的轨迹。
根据权利要求9或10所述的装置，其特征在于，所述轨迹恢复模块具体用于：

根据所述去噪轨迹点数据序列中的去噪轨迹点数据包含的规整时间点，确定所述去噪轨迹点数据序列中缺失的轨迹点数据包含的规整时间点；

根据所述N个基站之间的转移概率以及第一预设公式，确定在所述缺失的轨迹点数据包含的规整时间点上，所述用户所处的基站分别对应所述N个基站中的任意一个基站的情况下，由所述缺失的轨迹点数据包含的基站的标识所对应的基站和所述去噪轨迹点数据包含的基站的标识所对应的基站构成的第一完整路径的转移概率，其中，所述第一预设公式包括：第一完整路径的转移概率＝所述第一完整路径上各个基站之间的转移概率的乘积；

将所述第一完整路径的转移概率最大的路径上的多个基站确定为所述待恢复轨迹的用户在不同规整时间点上所处的基站；

根据所述待恢复轨迹的用户在不同规整时间点上所处的基站，确定所述待恢复轨迹的用户的基站粒度的去噪轨迹点数据序列。
根据权利要求9-11任一项所述的装置，其特征在于，所述轨迹恢复模块还具体用于：

获取训练所述用户-基站模型的多个第一训练数据，其中，所述多个第一训练数据中的每个第一训练数据中均包括基站的标识和采集时间点；

根据所述每个第一训练数据，确定从所述N个基站的任意一个基站分别转移至所述N个基站中的任意一个基站的次数；

根据所述从所述N个基站的任意一个基站分别转移至所述N个基站中的任意一个基站的次数，基于第三预设公式，确定所述N个基站之间的转移概率，其中，所述第三预设公式包括：

其中，α(n1,n2)表示从第n1个基站转移至第n2个基站的次数，
表示从所述第n1个基站转移至所述N个基站的总次数，ω(n1,n2)表示从所述第n1个基站转移至所述第n2个基站的转移概率。
根据权利要求9-12任一项所述的装置，其特征在于，所述用户-基站模型为马尔科夫模型。
根据权利要求10-13任一项所述的装置，其特征在于，所述基站-地理栅格模型为隐马尔科夫模型。
一种用户轨迹恢复装置，其特征在于，所述装置包括：处理器和通信接口；

所述处理器与所述通信接口通过总线相连；

所述通信接口，用于与外部通信；

所述处理器，用于执行如权利要求1-7任意一项所述的用户轨迹恢复方法。
根据权利要求15所述的装置，其特征在于，所述装置还包括存储器；

所述存储器用于存储计算机程序指令，所述存储器与所述处理器通过所述总线连接；

所述处理器具体用于：

当所述用户轨迹恢复装置运行时，所述处理器执行所述存储器存储的所述计算机执行指令，以使所述用户轨迹恢复装置执行如权利要求1-7任意一项所述的用户轨迹恢复方法。