WO2016188380A1

WO2016188380A1 - 用户设备的确定方法及装置

Info

Publication number: WO2016188380A1
Application number: PCT/CN2016/082927
Authority: WO
Inventors: 韦薇; 陆平; 范贤友; 宋国杰; 贾培申; 刘丹萌
Original assignee: 中兴通讯股份有限公司
Priority date: 2015-05-28
Filing date: 2016-05-20
Publication date: 2016-12-01
Also published as: CN106304015A; CN106304015B

Abstract

本发明实施例提供了一种用户设备的确定方法及装置，其中，该方法包括：确定指定时间段位于指定空间范围内的潜在用户设备；获取与该潜在用户设备对应的关联信息；依据关联信息在潜在用户设备中确定指定用户设备。通过本发明解决了相关技术中不能通过移动设备对相关用户进行识别的问题，进而实现了高效、快速对用户进行有效识别，优化人力部署，节省人力资源的效果。

Description

用户设备的确定方法及装置

技术领域

本申请涉及通信领域，例如涉及一种用户设备的确定方法及装置。

背景技术

在公共安全领域，异常事件发生时需要安全人员通过对事件的调查，从大量人群中寻找事件相关人员，通过对相关人员的调查去寻找线索。而随着科技的发展，移动电话的迅速普及，移动通话数据的价值逐渐凸显，从数据中识别与异常事件相关人员，以指导安全人员的侦查工作，对公共安全问题具有重要意义。

针对相关技术中，不能通过移动设备对相关用户进行识别的问题，还未提出有效的解决方案。

发明内容

本发明实施例提供了一种用户设备的确定方法及装置，以至少解决相关技术中不能通过移动设备对相关用户进行识别的问题。

本发明实施例提供了一种用户设备的确定方法，包括：确定指定时间段位于指定空间范围内的潜在用户设备；获取与所述潜在用户设备对应的关联信息；依据所述关联信息在所述潜在用户设备中确定指定用户设备。

可选地，确定指定时间段位于指定空间范围内的潜在用户设备包括：获取第一类用户设备的位置信息，当所述第一类用户设备在所述指定时间段内且位于所述指定空间范围内时，将所述第一类用户设备作为所述潜在用户设备；获取第二类用户设备的轨迹信息，当所述轨迹信息满足在所述指定时间段内且位于所述指定空间范围内时，将所述第二类用户设备作为所述潜在用户设备。

可选地，获取第二类用户设备的轨迹信息包括：根据与所述第二类用户设备对应的用户的历史通话记录信息挖掘所述用户的移动规律性；根据所述移动规律性确定所述第二类用户设备的轨迹信息。

可选地，确定指定时间段位于指定空间范围内的潜在用户设备包括：获取与所述第二类用户设备对应的用户的离散熵；在所述离散熵小于预定阈值的情况下，根据所述用户的历史通话记录信息获取所述用户的移动规律性，根据所述移动规律性确定所述第二类用户设备；在所述离散熵大于或者等于所述预定阈值的情况下，根据数据库中所有用户的历史通话信息确定所述第二类用户设备。

可选地，所述关联信息包括以下至少之一：所述潜在用户设备对应用户的居住地与工作地信息、与所述潜在用户设备对应的用户的社会关系信息、与所述潜在用户设备对应的用户的人口特征信息。

可选地，获取与所述潜在用户设备对应的用户的社会关系信息包括：根据以下至少之一的信息获取所述用户的社会关系信息：所述用户设备进行通话的时间特征信息、与所述用户设备在相同时间处于相同位置的其他用户设备的信息、与所述用户设备存在共同联系人的其他用户设备的信息。

可选地，依据所述关联信息在所述潜在用户设备中确定指定的用户设备包括：获取所述关联信息包括的指定信息的权重；根据所述权重对所述潜在用户设备中的多个用户设备进行排序；将排序结果位于预定次序的用户设备确定为所述指定用户设备。

本发明实施例还提供了一种用户设备的确定装置，包括：第一确定模块，设置为确定指定时间段位于指定空间范围内的潜在用户设备；获取模块，设置为获取与所述潜在用户设备对应的关联信息；第二确定模块，设置为依据所述关联信息在所述潜在用户设备中确定指定用户设备。

可选地，所述第一确定模块包括：第一获取单元，设置为获取第一类用户设备的位置信息；在所述第一类用户设备在所述指定时间段内且在所述指定空间范围内时，将所述第一类用户设备作为所述潜在用户设备；第二获取单元，设置为获取第二类用户设备的轨迹信息，在所述轨迹信息满足在所述指定时间段内位于所述指定空间范围内时，将所述第二类用户设备作为所述潜在用户设备。

可选地，所述第二获取单元包括：挖掘子单元，设置为根据与所述第二类用户设备对应的用户的历史通话记录信息挖掘所述用户的移动规律性；确定子单元，设置为根据所述移动规律性确定所述第二类用户设备的轨迹信息。

可选地，所述第一确定模块还设置为获取与所述第二类用户设备对应的用户的离散熵；在所述离散熵小于预定阈值的情况下，根据所述用户的历史通话记录信息获取所述用户的移动规律性，根据所述移动规律性确定所述第二类用户设备；在所述离散熵大于或者等于所述预定阈值的情况下，根据数据库中所有用户的历史通话信息确定所述第二类用户设备。

本发明实施例还提供一种非易失性的计算机可读存储介质，存储有计算机可执行指令，所述计算机可执行指令用于执行上述方法。

本发明实施例还提供一种设备，该设备包括一个或多个处理器、存储器以及一个或多个程序，所述一个或多个程序存储在存储器中，当被一个或多个处理器执行时，执行上述方法。

本发明实施例，通过确定指定时间段位于指定空间范围内的潜在用户设备；获取与该潜在用户设备对应的关联信息；依据关联信息在潜在用户设备中确定指定用户设备。解决了相关技术中不能通过移动设备对相关用户进行识别的问题，进而实现了快速对用户进行识别，节省人力资源的效果。

附图说明

此处所说明的附图用来提供对本发明实施例的理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本发明实施例，并不构成对本发明实施例的不当限定。在附图中：

图1是根据本发明实施例的用户设备确定方法的流程图；

图2是根据本发明实施例的用户设备确定装置的结构框图；

图3是根据本发明实施例的用户设备确定装置的结构框图(一)；

图4是根据本发明实施例的用户设备确定装置的结构框图(二)；

图5是根据本发明实施例的通话数据的用户异常排序方法流程图；

图6是根据本发明实施例的轨迹预测流程图；

图7是根据本发明实施例的通话数据的OD识别流程图；

图8是根据本发明实施例的犯罪学地理画像示意图；

图9是根据本发明实施例的排序模块流程图；

图10是根据本发明实施例的用户识别系统结构图；

图11是根据本发明实施例一的地理画像示意图；

图12是根据本发明实施例的用户识别流程图；

图13是根据本发明实施例提供的一种设备的硬件结构示意图。

实施方式

下文中将参考附图并结合实施例来详细说明本发明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

在本实施例中提供了一种用户设备的确定方法，图1是根据本发明实施例的用户设备确定方法的流程图，如图1所示，该流程包括如下步骤：

步骤S102，确定指定时间段位于指定空间范围内的潜在用户设备；

步骤S104，获取与潜在用户设备对应的关联信息；

步骤S106，依据关联信息在潜在用户设备中确定指定用户设备。

通过上述步骤，在众多的潜在用户设备中确定指定用户设备的过程中，可以根据潜在用户设备的关联信息进行确定，从而可以确定指定用户设备对应的用户，相较于传统人工排查的方式，上述步骤解决了相关技术中不能通过移动设备对相关用户进行识别的问题，达到了快速对用户进行识别，节省人力资源的效果。

上述步骤S102中涉及到确定指定时间段位于指定空间范围内的潜在用户设备，在一个实施例中，获取第一类用户设备的位置信息，当第一类用户设备在指定时间段内且在指定空间范围内时，将第一类用户设备作为潜在用户设备。在另一个可选实施例中，获取第二类用户设备的轨迹信息，当轨迹信息满足在指定时间段内且位于指定空间范围内时，将第二类用户设备作为潜在用户设备。从而对指定时间段内且在指定空间范围内的潜在用户设备以及依据用户设备的轨迹信息推断在指定时间段位于指定空间范围的潜在用户设备均进行了统计。

在上述获取第二类用户设备的轨迹信息的过程中，在一个可选实施例中，根据与第二类用户设备对应的用户的历史通话记录信息挖掘该用户的移动规律性，根据移动规律性确定第二类用户设备的轨迹信息。

在确定指定时间段且位于指定空间范围内的第二类用户设备时，在一个可选实施例中，获取与第二类用户设备对应的用户的离散熵，在离散熵小于预定阈值的情况下，根据该用户的历史通话记录信息获取该用户的移动规律性，根据移动规律性确定第二类用户设备。在另一个可选实施例中，在离散熵大于或者等于该预定阈值的情况下，根据数据库中所有用户的历史通话信息确定该第二类用户设备。从而对第二类用户设备进行了相对精确的确定。

上述的关联信息可以包括多种信息，下面对此进行举例说明。在一个可选实施例中，关联信息可以是潜在用户设备对应用户的居住地与工作地信息，或者可以是与潜在用户设备对应的用户的社会关系信息，也可以是与潜在用户设备对应的用户的人口特征信息。其中，用户的人口特征信息可以是用户的年龄或者用户的性别等。

在一个可选实施例中，根据以下至少之一的信息获取用户的社会关系信息：用户设备进行通话的时间特征信息、与用户设备在相同时间处于相同位置的其他用户设备的信息、与用户设备存在共同联系人的其他用户设备的信息。从而可以获取与潜在用户设备对应的用户的社会关系信息。

潜在用户设备的数量可能有很多个，因此，需要从多个潜在用户设备中确定一个或者多个指定的用户设备，在一个可选实施例中，获取上述关联信息包括的指定信息的权重，根据该权重对潜在用户设备中的多个用户设备进行排序；将排序结果位于预定次序的用户设备确定为指定用户设备。从而完成了根据关联信息在潜在用户设备中确定指定的用户设备。

在本实施例中还提供了一种用户设备的确定装置，该装置可实现上述实施例及可选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图2是根据本发明实施例的用户设备确定装置的结构框图，如图2所示，该装置包括：第一确定模块22，设置为确定指定时间段位于指定空间范围内的潜在用户设备；获取模块24，设置为获取与该潜在用户设备对应的关联信息；第二确定模块26，设置为依据该关联信息在潜在用户设备中确定指定用户设备。

图3是根据本发明实施例的用户设备确定装置的结构框图(一)，如图3所示，第一确定模块22包括：第一获取单元222，设置为获取第一类用户设备的位置信息；当第一类用户设备在指定时间段内且位于指定空间范围内时，将第一类用户设备作为潜在用户设备；第二获取单元224，设置为获取第二类用户设备的轨迹信息，当轨迹信息满足在指定时间段内且位于指定空间范围内时，将第二类用户设备作为潜在用户设备。

图4是根据本发明实施例的用户设备确定装置的结构框图(二)，如图4所示，第二获取单元224包括：挖掘子单元2242，设置为根据与第二类用户设备对应的用户的历史通话记录信息挖掘该用户的移动规律性；确定子单元2244，设置为根据移动规律性确定第二类用户设备的轨迹信息。

可选地，第一确定模块22还可设置为获取与第二类用户设备对应的用户的离散熵；在离散熵小于预定阈值的情况下，根据该用户的历史通话记录信息获取该用户的移动规律性，根据移动规律性确定第二类用户设备；在该离散熵大于或者等于该预定阈值的情况下，根据数据库中所有用户的历史通话信息确定第二类用户设备。

需要说明的是，上述多个模块是可以通过软件或硬件来实现的，对于后者，可以通过以下方式实现，但不限于此：上述多个模块均位于同一处理器中；或者，上述多个模块分别位于多个处理器，例如第一处理器、第二处理器和第三处理器中。

针对相关技术中存在的上述问题，下面结合实施例进行说明，在下述的可选实施例中结合了上述可选实施例及其可选实施方式。

本可选实施例结合计算机技术与数据科学的发展，结合公共安全领域的知识背景，利用社会网络分析的方法，提供一种数字化的异常事件中相关人员的排查方法，识别与异常事件相关的用户并结合领域知识提供相关度排名。该方法相比于相关的人工排查方法，有更快的响应速度和更全面的覆盖范围，可以有效辅助安全人员的排查工作。由于手机的普及，手机通话数据是海量的，且覆盖了城市的绝大部分人口。借助数据科学的发展，利用数据挖掘和社会网络分析的手段，从这些通话数据中可以分析用户出行的源和目的地(Origin and Destination，简称为OD)信息(此处的OD特指通勤OD，即上下班出行的源和目的地，即家和办公地)，社会关系及轨迹模式等信息，这些信息为确定异常事件中相关人员与该异常事件的相关度定义提供基础和依据。图5是根据本发明实施例的通话数据的用户异常排序方法流程图，如图5所示，通过对原始数据进行清洗与加密、轨迹预测、OD识别、社会关系识别、用户特征识别以及对经过上述处理后的数据进行相关性排序，进而实现了基于通话数据的用户异常排序。

本可选实施例结合基于通话数据的OD识别、社会关系及用户特征识别，提供一种对异常事件中相关用户的识别与排序方法。主要步骤为：

步骤1.数据预处理。

该部分可将收集到的原始通话数据处理成需要的格式。首先从原始通话数据中抽取需要的属性域，包括用户标识(加密后的手机号码)、通话基站位置(即通话基站标识)、通话时间。其中，用户隐私是通话数据中的重要问题，因此需要对用户手机号码进行加密，生成只用于标识用户的键值。原始的通话数据通常是海量且冗余的，通过预处理筛选出所需要的数据，可以有效减小数据量，提高后续处理的效率。

步骤2.基于轨迹预测的异常用户范围圈定。

图6是根据本发明实施例的轨迹预测流程图，下面对图6进行说明。异常事件发生时，潜在相关用户是指在与异常事件相关的一定时间范围[t₁，t₂]内一定空间范围[s₁，s₂]内的用户。但由于通话数据并不是实时连续的，如果用户设备在异常事件发生的时间段内未暴露位置，但在时间段[t₁，t₂]内可能位于空间[s₁，s₂]内的用户设备，也应该划分在潜在用户群内。因此我们引入用户的轨迹预测模块，来处理这类用户持有的用户设备。轨迹预测的处理过程为：

对于离散熵较大的用户，采用群体轨迹预测模型(Crowd Trajectory Predictor，简称为CTP)，可用动态贝叶斯网络实现。对于离散熵小的用户，采用个人轨迹预测模型(Individual Trajectory Predictor，简称为ITP)。

其中，可以预先设置预设阈值，并将用户的离散熵与该预设阈值比较，当离散熵大于或者等于该预设阈值时，确定用户的离散熵较大；当离散熵小于该预设阈值时，确定用户的离散熵较小。

离散熵可用于衡量用户的可预测性，定义如下：

其中，i表示基站的序列号，i的取值为正整数，n为大于等于1的正整数，Ri表示基站标识，p(R_i)为用户在该基站的覆盖范围的区域内出现的频繁度，。离散熵越大，用户的运动规律性就越低。

定义一种数据结构UltraPattern＝<h₁，R₁><h₂，R₂>…<h_n，R_n>，其中h_i表示时间片(预设将一天的24个小时均等划分为24个时间片，每个时间片1个小时)，R_i表示基站标识，这样的数据结构可用于表示用户的移动轨迹。

算法实现如下：

输入：预测用户的ID，预测异常事件的日期及时间点。

输出：基站标识，代表用户在预测时间点可能所在的位置，按支持度大小排序。

根据输入，从数据库中取异常事件发生的预测日期内，预测时间点前两个小时的通话记录，其中，该通话记录中包括基站位置信息，该基站位置信息即用户当前位置所在基站的基站标识，作为预测依据。

若预测依据为空，则使用个人预测模型：处理用户的个人历史移动通话数据，挖掘用户移动的规律性，压缩历史通话数据得到一个二维数组UltraPattern[24][7]，该二维数组可以表示以一周为周期，每天24个小时，每小时一个通话记录的通话记录数组。预测过程：以预测时间点对应的所有位置的每一个所在基站的基站标识作为备选预测位置，并按照支持度排序。预测结束。

其中，在二维数组UltraPattern[24][7]中记录了用户在预测时间点所处的一个或多个基站对应的基站标识，其含义是指用户在预测时间点出现在这一个或多个基站的覆盖范围区域内的概率较大。

若预测依据不为空，根据用户的历史信息，计算用户的离散熵。

若用户的离散熵小于预设阈值，即用户运动的周期性比较强，则建立个人预测模型UltraPattern[24][7]。预测过程：以预测依据在UltraPattern[24][7]中匹配出下一时刻的位置作为预测结果，若没有完全匹配的路径，则使用群体预测模型。

若用户的离散熵大于或等于预设阈值，使用群体预测模型。在同一个城市，基站位置有限，人类活动很大程度上有一定的共性，所以可根据数据库中所有用户历史移动信息预测用户的下一时刻位置。首先训练群体预测模型：将一天分为24个时间片，利用数据库中所有用户的历史通话记录，训练出24个转移预测矩阵，每个转移预测矩阵的横纵坐标分别代表基站序列号，其中，每个转移预测矩阵的横坐标代表的基站序列号可以与纵坐标代表的基站序列号相同或者不同。

例如，从0点整-0点59分59秒的前一个时间段(简称为0点小时时间片)到从1点整到1点59分59秒的后一个时间段(简称为1点小时时间片)训练出转移预测矩阵A0，其第i行第j列的元素a0_i，j表示用户0点小时时间片在基站序列号为i的基站覆盖范围区域内，而1点小时时间片在基站序列号为j的基站覆盖范围区域内的概率。预测过程：在给定预测依据，即已知用户当前位置的情况下，可从相应时间对应的矩阵中取值，查看以用户当前位置的基站标识对应的基站序号为横坐标的那一行数据，取其中较大的多个值并按降序排列，按此顺序取这几个值对应的纵坐标，其纵坐标代表基站序列号，再将基站序列号转换为基站标识，作为预测结果返回。预测结束。

步骤3.基于通话数据的OD识别、社会关系识别、用户特征识别。

利用通话数据，对用户的通勤OD、社会关系及特征(如年龄、性别)等进行识别，可以描绘出用户的社会肖像。这些特征与异常事件当事人的相关程度，为排查人员提供了有效信息。

a)OD识别

由于工业社会的发展，城市人群工作与生活方式具有一定的规律性，通勤OD(居住地与工作地)是最基础的出行模式。在相关技术中存在基于通话数据的简单而有效的通勤OD挖掘方法。

在相关技术中OD识别的实现细节具体算法流程如下：

基于手机通话数据的大规模人群通勤OD发现方法为：

输入：每个用户的通话数据T，T＝{<手机号，通话基站，通话时间>}，其中，每个用户的通话数据T包括用户的手机号(加密后的手机号)、通话基站标识和在该基站的覆盖范围区域内的通话时间。

输出：每个用户的居住地和工作地泊点，即OD泊点。

时空改进方法：

1.将每个用户的通话数据分为两个集合，Tday和Tnight，分别代表白天和夜晚的通话数据。

2.分别对Tday和Tnight通话数据进行统计。

3.将通话数据按照通话基站进行划分，每个通话基站对应一个通话次数。

4.(空间改进)将通话基站按对应的通话次数从大到小排列，然后将排列之后的通话基站进行空间合并，形成新的通话位置点。

5.(时间改进)根据通话周期性，计算每个通话位置点的通话频繁度。

6.(条件筛选)根据通话位置点的通话频繁度，对通话位置点进行筛选，删除通话稀疏的通话位置点。

其中，可以预先设定一个通话频率阈值，当通话频繁度小于该通话频率阈值时，确定该通话位置点的通话稀疏。

7.将Tday和Tnight通话数据中通话频繁度最大的位置点作为D和O，即工作地和居住地。

8.输出每个用户的通勤OD。

图7是根据本发明实施例的通话数据的OD识别流程图，如图7所述，该流程包括如下步骤：

步骤S702，对通话数据进行预处理；

步骤S704，对每个通话位置点的通话频率进行统计；

步骤S706，空间合并优化；

步骤S708，时间合并优化。

b)社会关系识别

把用户的社会关系划分为三类：家人、同事和其他。不同关系的用户之间，在通话行为和位置的时间、空间分布上具有差异性。从通话数据及OD信息中，提取通话时间、相处时间(结合OD信息)及一些群体信息(如共同联系人)等相关的特征，利用分类模型(如决策树、随机森林等)对用户之间的关系进行识别。社会关系的识别用于定义用户与异常事件当事人之间的社会关系相关度。社会关系识别的过程：

将社会关系分为三大类：家人、同事和其他。将有联系的两个用户组织成一个用户对，关系的识别转换为分类问题，分类该用户对是家人关系、同事关系还是其他。采用决策树模型，提取的特征有如下三类：

通话时间特征

其中，工作时间可以是指周一至周五的8点-12点和13点-17点，傍晚可以是指北京时间17点-19点，晚上可以是指北京时间19点-23点，深夜可以是指北京时间23点-次日3点。

相处时间增益特征

特征名称	说明
周中平均相处时长	在正常工作日内，用户对平均每天的相处时长
周末平均相处时长	在周末，用户对平均每天的相处时长
周末时间增益	T_Δ，用户对周末和周中平均相处时长的变化量

群体结构特征

c)用户特征识别

通话数据中可能不包括用户的年龄、性别等信息，有些电信运营商的申请号码记录中可能会有比较完整的用户信息，但这些信息一方面隐私性要求较高，一方面数据完整性和真实性不能保证。通过统计发现不同性别或年龄段的用户，在通话习惯上具有一定的差异性。因此可以通过提取相关的特征值，利用分类模型(决策树、随机森林等)对用户的性别、年龄进行识别。用户的年龄与性别信息对辅助社会关系相似度有一定帮助，比如，从一些实证分析案例中的结论来看，故意杀人案件中加害人与被害人之间关系在性别上具有差异性，在年龄上具有“重合性”，其中，参考资料为：[1].《中国人民公安大学学报：社科版》，2006年第2期，《故意杀人案件中加害人与被害人关系的实证分析》，作者：高维俭、查国防。

关于用户特征识别的过程为：

用户的性别、年龄等信息在真实的数据中有一定缺陷，使用机器学习的方法对性别与年龄识别可以在一定程度上弥补这一缺陷。将年龄划分为三个年龄段(18-25，26-40，41-60)，这样年龄的识别问题转化为多类别的分类问题。可以从外部系统(例如客户关系管理系统)获取部分用户的分类标签(该分类标签可为用户的性别分类信息和/或年龄分类信息)，再从通话数据中提取所有用户的多个通话特征值(该多个通话特征值可包括如下表所示的特征值)。然后采用监督学习的方法(例如采用决策树模型)，判定其他用户(未从外部系统获取该其他用户的分类标签)的分类标签。

步骤4.排序过程

排序部分分三类：空间关系、社会关系和基于领域模型的排序，从三个角度全面地分析用户与异常事件的相关程度。

a)空间关系的排序

在基于空间关系的排序中，我们从两个方面考查用户与异常事件的当事人空间行为的关系：一，在一定时间段内，与异常事件当事人轨迹相似度较高的用户可疑程度高；二，该用户事发当日与以往的空间行为模式有较大差异，则其可疑程度较高。我们参考文本信息检索领域中“文本向量”的概念和余弦相似度的度量方法，来处理用户轨迹及轨迹之间的相似程度。

在文本信息检索领域，常将一篇文档组织为一个文档向量，向量的元素为词项在该文档中的出现次数(或者TF/IDF值)，结合余弦相似度，返回相似文档。余弦相似度的理论模型如下：

对于两个向量α和β，两向量之间夹角越小，其相似度越高。而通过余弦定理，可以求得其夹角的余弦值与两向量之间的关系：

通过将用户的轨迹组织为向量，向量中的元素为用户在该基站出现的平均次数，分别求出用户与异常事件当事人轨迹的余弦相似度s₁，该用户以往空间向量与当日空间向量的余弦相似度s₂，则该用户在空间行为上的可疑程度为：

b)社会关系的排序

当异常事件发生时，首先根据异常事件的时间和空间位置进行过滤，筛选潜在可疑用户集合即在一定时间范围内出现在该位置一定范围内的用户集合S。对于用户集合S中的用户，查看其与异常事件当事人之间社会关系的重合度，结合该用户的性别与年龄信息，给出排序结果。

结合相关的实证分析结果，在故意杀人案件中，发生在熟人之间的几率为78.5％，远高于发生在陌生人之间的概率21.5％，详见[2].Darcy Kim Rossmo，M.A.，Simon Fraser University，1987，Geographic profiling：target patterns of serial murderers。因此相关用户与异常事件当事人的社会关系重合度越高，其可疑度应越高，且更可能提供与异常事件相关的更多信息。实证分析又指出，在加害人中，80.9％的几率年龄在18-44区段；从性别上考虑，加害人85.9％为男性，只有14.1％为女性，详见[1].《中国人民公安大学学报：社科版》，2006年第2期，《故意杀人案件中加害人与被害人关系的实证分析》，作者：高维俭、查国防。从实证研究的成果考虑，依次以社交圈重合度、性别和年龄为排序基准，给出基于社会关系的异常排序结果。

关于社会关系的重合度，我们采用适合对符号度量或布尔值度量的Jaccard相似系数：

c)领域模型的排序

根据犯罪学地理画像理论，详见[2].Darcy Kim Rossmo，M.A.，Simon Fraser University，1987，Geographic profiling：target patterns of serial murderers.对罪犯的心理基于如下两个假设：

犯罪嫌疑人不会在离固定活动点(家、工作地等)很近的地方犯罪，因为这样不仅容易暴露自己，犯罪目标也较少；

离罪犯的固定工作点越远的地方，他在那里犯罪的可能性越小。因为这样会增加很多交通/逃逸的不便。

其中，示例性的，可以以犯罪嫌疑人的固定活动点(家或者工作地)为圆心预先设定两个活动半径r1和r2，其中，位于r1内的范围表示离犯罪嫌疑人的固定活动点很近的地方，位于r2之外的范围表示离犯罪嫌疑人的固定活动点很远的地方。

图8是根据本发明实施例的犯罪学地理画像示意图，如图8所示，r1为以犯罪嫌疑人固定活动地(家或者工作地)为圆心的较小圆周的半径、r2为以犯罪嫌疑人固定活动地(家或者工作地)为圆心的较大圆周的半径。

连环案件是满足上述假设的犯罪，如多次实施谋杀、抢劫、强奸等犯罪；而这种方法也适合于一次犯罪涉及多个地点的案例，比如一起谋杀中罪犯被目击、谋杀、抛尸的地点都不同的情况。

基于上述的两个假设，对于异常事件，可疑人员的固定活动点(OD点)通常在以该事件发生地为圆心，不同半径所形成的同心圆构成的环内。此处的距离计算是基于交通路网，采用曼哈顿距离。

首先根据事件发生地信息，找出环形区域内的基站，对以这些基站为O/D的人员进行重点排查。如果有多个事件发生地，对那些环形区域交叉的基站，以这些基站为O/D的人员的嫌疑度更大。因此，基于地理画像，以相关人员O/D点出现在环形区域中的概率倒序排列。

步骤5.结合异常事件的具体情境，选择不同的变量和变量的次序对相关用户排序，得到综合排序序列。

针对异常事件的不同情况，结合领域专家的意见选择上述多个变量中全部或部分，并确定变量的优先次序，对用户进行排序。如针对一系列连续作案的嫌犯，出现在事件现场的次数和OD点处于事件环形区域内的次数对排序结果的影响更大；而对于有组织的团伙犯罪，如团伙欺诈行为，轨迹的尾随效应比较明显，在已知一名嫌疑人时，其他犯罪嫌疑人与之的社会关系的重合度也较高；对于团伙聚众闹事或恐怖事件，社会关系重合度与空间轨迹重合度较高。

图9是根据本发明实施例的排序模块流程图，下文将结合实施案例和图9，对技术方案做详细说明。尽管不同实施例下，排序时侧重点不同，但对于相关用户的识别和数据准备工作都是相同的。至少包含如下部分：

第一部分：数据的存储与清洗。

手机通话数据的数据量很大，不仅有数量庞大的用户，同时每天都会产生大量的记录，因此对于数据的入库存储的挑战较大，使用分布式数据管理系统和分层存储体系会是一个良好的技术方案。图10是根据本发明实施例的用户识别系统结构图，如图10所示，使用计算机集群与分布式文件系统(Hadoop Distributed File System，HDFS)作为第一层原始记录数据存储，而通话数据的获取是通过并行的数据获取模块拉取到集群中；在HDFS的基础之上，构建数据清洗的流水线，将最近30天来的数据放入响应速度更快的数据库系统中，在数据库之上构建后续的处理模块。当处理模块需要使用30天之前的数据时，可以进一步访问HDFS。具体步骤：

步骤1：利用并行数据获取模块，将通话数据的原始记录拉取到计算机集群的分布式文件系统中。

步骤2：通过一个Map-reduce映射-化简的数据预处理的流水线任务，将原始的通话数据处理成需要的模式，如去除冗余的信息，对手机号加密等操作。然后将处理的数据存入数据库系统，可以根据系统负载情况控制载入数据库的数据量，既考虑到数据库的负载能力又考虑到任务处理速度的需求，一般载入数据库的数据量可以至少为30天以上的数据。对于数据的存储有很多的优化方案，如根据日期进行切分，或对数据进行压缩等。

数据清洗与加密模块，是对获取的原始通话数据做一定的去冗余和加密处理。该模块包含于服务器端。

原始的通话数据包含较多的域，如漫游状态、用户手机移动设备国际身份码(International Mobile Equipment Identity，简称为IMEI)等无关信息，共计二十多个属性段。而实际使用的字段很有限，包括基站信息和通话记录信息。其中，基站信息的字段包括：基站的经纬度和编号；通话记录信息的字段包括：加密后的手机号码，对端的手机号码，通话时间，基站编号。

用户隐私是手机通话数据的一个重要问题。为了保护用户的隐私，我们对原始数据的手机号码进行加密处理手机号码的作用仅用来唯一标识手机用户，并无实际意义，因此可以使用其他一一对应的字符串或数字代替。加密后的用户手机号只用于唯一地区分用户，而无法判断具体用户身份，很好地符合了用户隐私的要求。

第二部分：请求处理模块

对于不同的应用场景，对数据的侧重点不同，通过对请求的特征分析与设定，针对不同的场景做不同的处理，对提高排序的相关度有重要作用。结合实施例对此做说明。

第三部分：业务逻辑模块

业务逻辑模块包括上一部分介绍的异常用户范围的圈定，基于通话数据的OD识别、社会关系识别、用户特征识别和后续的排序过程。结合实施例对此做相应的说明。

实施例一

某地连续发生多起强奸案件，从被害人描述来看，很可能是同一人所为，体貌特征难以确定，但携带手机。由于作案现场没有摄像头，警方难以确定嫌疑人的体貌特征，但根据被害人的描述，嫌疑人携带了手机。此种情形下，对于多次出现在现场中的用户，应列入重点怀疑对象。从犯罪学地理画像看，其OD落入事件的环形区域的用户也有较大嫌疑。从年龄与性别角度讲，18-45岁之间的男性可能性较大。从轨迹上来说，具有尾随性特征或与往日移动模式差别较大的用户其可疑性较高。在这种情形下，可设定的相关性权重从大到小依次为：出现在案件中的次数、OD落在案件环形区域内的概率、性别与年龄、轨迹相关度、社会关系相关度，举例说明，上述5个相关性参数的权重可以分别设置为90、80、70、60、50。

步骤1：根据多次案件的时间和地点，结合轨迹预测模块，圈定这些时间段与区域内可能出现过的手机用户的集合P。

步骤2：统计P中每个用户出现在案件相关集合中的次数α。

步骤3：针对P中的用户，进行OD识别，识别出每个用户的OD点。

步骤4：统计P中每个用户的OD落在案件环形区域的概率β。

可选地，如何确定环形大小圆半径可有两种方式。方式之一，结合地理画像实证研究，在不区分地形、路网、犯罪类别等的情况下，简化认为，以事件发生地为圆心，罪犯的固定地点在以“案发地点之间最大距离的2倍”为半径的多个圆的相交区域的概率较大，故计算环形区域时小圆半径分别设置为0和“案发地点之间最大距离的2倍”。图11是根据本发明实施例一的地理画像示意图，如图11所示设置多个大圆区域，圆心代表各案发现场。OD落在多个大圆相交区域的用户可疑度更高，即图11中布满小三角的区域。统计P中每个用户的OD落在多个大圆相交区域的概率β。第二种方式，环形区域内外半径的设定可通过以往破获的案件中嫌疑人OD与案件地点的距离的统计量确定。如将距离降序排列，即将嫌疑人OD与案件地点的距离按照由远至近的顺序依次排列为一队，并且可以将排列之后的多个距离值分为两部分，可选地，可将多个距离值排列的队列平分为两部分。其中，取外半径为前一半排列队列中所有距离的平均值，内半径为后一半排列队列中所有距离的平均值；或者取全部距离平均值再各增减0.5倍，如计算嫌疑人OD与案件地点的全部距离的平均值V1，并将该平均值增加0.5倍(即1.5V1)作为外半径，将该平均值减小0.5倍(即0.5V1)作为内半径；或者取中位数再各增减0.5倍等。

步骤5：计算P中用户与被害人案件发生前N个小时的轨迹的相关度γ。

其中，在案件发生前，通常会存在加害人尾随被害人的情况，并且从尾随到案件发生也需要一定的时间。例如，当案件发生在一天中的上午(如8：00-12：00)时，通常N的取值为大于2且小于10；而当案件发生在一天中的下午(如 12：00-17：00)时，通常N的取值为大于2且小于20。

步骤6：查找P中用户的性别、年龄信息δ。如数据库中无用户记录，则通过机器学习已训练好的模型，对这些用户进行识别，并将识别的结果存入数据库中。

步骤7：对P中的用户进行社会关系的识别，找出每个用户的社会关系集合。在可选的实施中，通过构建用户的社会关系、OD、性别、年龄等的数据库，引入缓存机制。即当数据库中有用户的相关记录，便直接从数据库中取出相应结果；而当数据库没有这些用户的相关记录时，调用机器学习模块中训练的模型，对这些用户的社会关系进行识别，并将结果存入数据库，供以后使用。

步骤8：计算P中用户与被害人在社会关系上的相关程度ε。

步骤9：依次以α，β，γ，δ，ε降序对P进行排序，并显示排序结果。根据权重计算并得出综合的相关度排序结果。

α×90+β×80+γ×70+δ×60+ε×50

图12是根据本发明实施例的用户识别流程图，用户识别流程请参见图12。

除了如实施例一所述根据场景的分析来确定不同因素的相关度权重大小外，还可以选择忽略一些因素，详见如下实施例二和实施例三。

实施例二

被害人报案在一条古董街上被人诈骗，以高价购买了伪造古董。根据被害人的描述，其先后遭受多人的劝说，疑似多人合作各自扮演各自角色的团伙犯案。但仅凭受害人的描述，警方无法获得足以确认犯罪嫌疑人的特征。

在这种场景下，嫌疑人的轨迹与受害人的轨迹相似度较高，因此轨迹相关度的影响较大；而从社会关系的角度讲，团伙之间电话交流较多，因此相互间互为社会关系网的可能性较大，即社会关系的相关度会较高；其他因素的影响较小。此种情况下，往往可以从轨迹与社会关系这两个因素中获得重要信息。

与实施例一相比，实施例二的计算过程可以省去性别年龄及OD模块。

实施例三

对于群体事件，如聚众闹事、群体斗殴类事件，参与人之间往往相互之间有较多的联系，因此社会关系的重合度较高；从性别、年龄的角度讲，一般多为18-40之间的男性；而轨迹的相关度也有一定影响。OD信息等对这类事件的影响较小，在排序时可以选择忽略该因素。

简述基本步骤如下：

步骤1：根据被害人的描述，确定异常事件发生的时间和地点。结合轨迹预测模块，圈定该时间段和区域的相关用户集合P。

步骤2：计算P中用户与被害人之间的轨迹相似度γ。

步骤3：从数据库中查找P中用户的社会关系，如数据库中无用户记录，则利用机器学习得到的社会关系识别模型，通过社会关系识别模块识别出其社会关系，并将结果存入数据库中。

步骤4：计算P中用户与被害人之间的社会关系相关度ε。

步骤5：查找P中用户的性别、年龄信息，与“18-40之间的男性”相符合的概率δ。如数据库中无用户记录，则通过机器学习已训练好的模型，对这些用户进行识别，并将识别的结果存入数据库中。

步骤6：依次以社会关系相关度、轨迹相关度、年龄、性别对P中用户进行排序，并返回排序结果。相关度参数权重由高到低顺序为社会关系相关度、性别和年龄相符合的概率、轨迹相关度，举例说明，权重依次分别设置为90、80、40。根据权重计算并得出综合的相关度排序结果。

ε×90+δ×80+γ×40

该实施例下的过程图与图12一致，仅在根据不同场景的分析下确定不同影响因素的排序优先次序上有所差异。

综上所述，本发明实施例针对异常事件对潜在用户群的识别与排序过程进行了系统的自动化处理，从数据的清洗处理，到潜在相关用户群的识别与排序过程进行了整理，形成了整体可运作与实现的系统方案。其中，在对潜在用户群的界定、空间行为的相关性以及综合领域知识、社会关系和空间行为三个因素的排序思想上，本发明实施例提供了新颖可操作的解决方案。由于涉及大量的数据操作，系统复杂性较高，要求模型应有较快的响应速度，因而OD识别、社会关系及用户特征的识别过程也可以通过线下的训练完成，将识别结果储存进数据库，供排序步骤查询使用。

无线通信运营商为了保证通信系统和通信功能的正常运行，会保存大量与通信相关的数据，如通话、短信、开关机等手机状态的日志，一般以基站的空间位置信息为单位。而数据挖掘技术的发展使得数据的价值得以有效呈现，基于通话数据，可以识别用户的通勤OD、社会关系及轨迹模式等信息，这些信息对于发掘异常事件中相关人员的相关程度具有重要意义。用户的通勤OD，即家与工作地，是工业社会发展的产物，是用户移动规律的基本模式。OD信息与相关的领域知识结合，如犯罪地理画像，反映领域模型下用户与异常事件的相关程度；利用社群发现技术从数据中识别用户社会关系，通过社会关系可以考察用户与异常事件的相关程度；而基于用户的轨迹信息，从空间行为上对用户与异常事件的相关性分析，以及基于移动通话数据，综合领域知识、社会关系及空间行为三个方面，分析用户与异常事件的相关性，对异常事件的及时处理有重要意义。相较于传统人工排查的方式，凭借更全面的数据和大数据技术手段，以更快的响应速度确定重点的和优先的排查范围，进而优化人力部署；在公安刑侦领域，这就是在帮助警察抓住破案的黄金时期，众所周知，刑侦中分秒必争就意味着化解危机、挽救生命和维护社会正义安宁。

在另外一个实施例中，还提供了一种软件，该软件用于执行上述实施例及可选实施方式中描述的技术方案。

在另外一个实施例中，还提供了一种存储介质，该存储介质中存储有上述软件，该存储介质包括但不限于以下任意一种：光盘、软盘、硬盘、可擦写存储器等。

显然，本领域的技术人员应该明白，上述的本发明实施例的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。。

图13是根据本发明实施例的一种设备的硬件结构示意图，如图13所示，该设备包括：

一个或多个处理器810，图13中以一个处理器810为例；

存储器820；

所述设备还可以包括：输入装置830和输出装置840。

所述设备中的处理器810、存储器820、输入装置830和输出装置840可以通过总线或者其他方式连接，图13中以通过总线连接为例。

存储器820作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本发明实施例中的用户设备的确定方法对应的程序指令/模块(例如，附图2所示的第一确定模块22、获取模块24和第二确定模块26)。处理器810通过运行存储在存储器820中的软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例的用户设备的确定方法。

存储器820可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据终端设备的使用所创建的数据等。此外，存储器820可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，存储器820可选包括相对于处理器810远程设置的存储器，这些远程存储器可以通过网络连接至终端设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置830可设置为接收输入的数字或字符信息，以及产生与终端的用户设置以及功能控制有关的键信号输入。输出装置840可包括显示屏等显示设备。

所述一个或者多个模块存储在所述存储器820中，当被所述一个或者多个处理器810执行时，执行上述方法实施例的用户设备的确定方法。

工业实用性

本发明实施例提供的用户设备的确定方法，解决了相关技术中不能通过移动设备对相关用户进行识别的问题，进而实现了高效、快速对用户进行有效识别，优化人力部署，节省人力资源的效果。

Claims

一种用户设备的确定方法，包括：

确定指定时间段位于指定空间范围内的潜在用户设备；

获取与所述潜在用户设备对应的关联信息；以及

依据所述关联信息从所述潜在用户设备中确定指定用户设备。
根据权利要求1所述的方法，其中，确定指定时间段位于指定空间范围内的潜在用户设备，包括：

获取第一类用户设备的位置信息，当所述第一类用户设备在所述指定时间段内且位于所述指定空间范围内时，将所述第一类用户设备作为所述潜在用户设备；以及

获取第二类用户设备的轨迹信息，当所述轨迹信息满足在所述指定时间段内且位于所述指定空间范围内时，将所述第二类用户设备作为所述潜在用户设备。
根据权利要求2所述的方法，其中，获取第二类用户设备的轨迹信息，包括：

根据与所述第二类用户设备对应的用户的历史通话记录信息挖掘所述用户的移动规律性；以及

根据所述移动规律性确定所述第二类用户设备的轨迹信息。
根据权利要求2所述的方法，其中，确定指定时间段位于指定空间范围内的潜在用户设备，包括：

获取与所述第二类用户设备对应的用户的离散熵；

在所述离散熵小于预定阈值的情况下，根据所述用户的历史通话记录信息获取所述用户的移动规律性，根据所述移动规律性确定所述第二类用户设备；以及

在所述离散熵大于或者等于所述预定阈值的情况下，根据数据库中所有用户的历史通话信息确定所述第二类用户设备。
根据权利要求1所述的方法，其中，所述关联信息包括以下至少之一：

所述潜在用户设备对应用户的居住地与工作地信息、与所述潜在用户设备对应的用户的社会关系信息、与所述潜在用户设备对应的用户的人口特征信息。
根据权利要求5所述的方法，其中，获取与所述潜在用户设备对应的用户的社会关系信息，包括：

根据以下至少之一的信息获取所述用户的社会关系信息：

所述用户设备进行通话的时间特征信息、与所述用户设备在相同时间处于相同位置的其他用户设备的信息、与所述用户设备存在共同联系人的其他用户设备的信息。
根据权利要求5所述的方法，其中，依据所述关联信息在所述潜在用户设备中确定指定的用户设备包括：

获取所述关联信息包括的指定信息的权重；

根据所述权重对所述潜在用户设备中的多个用户设备进行排序；

将排序结果位于预定次序的用户设备确定为所述指定用户设备。
一种用户设备的确定装置，包括：

第一确定模块，设置为确定指定时间段位于指定空间范围内的潜在用户设备；

获取模块，设置为获取与所述潜在用户设备对应的关联信息；

第二确定模块，设置为依据所述关联信息在所述潜在用户设备中确定指定用户设备。
根据权利要求8所述的装置，其中，所述第一确定模块包括：

第一获取单元，设置为获取第一类用户设备的位置信息，当所述第一类用户设备在所述指定时间段内且位于所述指定空间范围内时，将所述第一类用户设备作为所述潜在用户设备；

第二获取单元，设置为获取第二类用户设备的轨迹信息，当所述轨迹信息满足在所述指定时间段内且位于所述指定空间范围内时，将所述第二类用户设备作为所述潜在用户设备。
根据权利要求9所述的装置，其中，所述第二获取单元包括：

挖掘子单元，设置为根据与所述第二类用户设备对应的用户的历史通话记录信息挖掘所述用户的移动规律性；

确定子单元，设置为根据所述移动规律性确定所述第二类用户设备的轨迹信息。
根据权利要求9所述的装置，其中，所述第一确定模块还设置为：

获取与所述第二类用户设备对应的用户的离散熵；在所述离散熵小于预定阈值的情况下，根据所述用户的历史通话记录信息获取所述用户的移动规律性，根据所述移动规律性确定所述第二类用户设备；在所述离散熵大于或者等于所述预定阈值的情况下，根据数据库中所有用户的历史通话信息确定所述第二类用户设备。
一种非易失性的计算机可读存储介质，存储有计算机可执行指令，所述计算机可执行指令设置为执行权利要求1-7任一项的方法。