WO2020238631A1 - 一种基于手机信令数据的人群类型识别方法 - Google Patents

一种基于手机信令数据的人群类型识别方法 Download PDF

Info

Publication number
WO2020238631A1
WO2020238631A1 PCT/CN2020/090065 CN2020090065W WO2020238631A1 WO 2020238631 A1 WO2020238631 A1 WO 2020238631A1 CN 2020090065 W CN2020090065 W CN 2020090065W WO 2020238631 A1 WO2020238631 A1 WO 2020238631A1
Authority
WO
WIPO (PCT)
Prior art keywords
mobile phone
signaling data
population
phone signaling
crowd
Prior art date
Application number
PCT/CN2020/090065
Other languages
English (en)
French (fr)
Inventor
张改
陆振波
万紫吟
张静芬
丁达
张念启
施玉芬
刘晓庆
丁向燕
Original Assignee
南京瑞栖智能交通技术产业研究院有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 南京瑞栖智能交通技术产业研究院有限公司 filed Critical 南京瑞栖智能交通技术产业研究院有限公司
Publication of WO2020238631A1 publication Critical patent/WO2020238631A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data

Definitions

  • the invention belongs to the technical field of crowd type identification, and in particular relates to a crowd type identification method based on mobile phone signaling data.
  • user portrait was originally proposed by Cooper, the father of interactive design, and was used as an interactive design tool to promote and consolidate user-centered design ideas.
  • user portrait is an important tool to realize user-centric interaction design.
  • the design team can always pay attention to users and their needs in the product and service design process, so as to reach a consensus with users.
  • travelers are users in the transportation system, and the user profile research on travelers is the identification of crowd types, which can provide technical support for population studies in transportation planning.
  • the process of constructing user portraits is essentially a process of describing virtual users in short text, that is, abstracting user characteristics into phrase tags, where virtual users in each group have similar goals, needs, and behaviors.
  • the short text involved in this description process is called portrait description.
  • portrait description There are two types of user portrait construction processes in existing research: one is that product designers and operators abstract typical users from user groups based on user needs; the other is based on each user’s behavior and views in products and services And other data, generate a collection of tags describing the user.
  • the portrait obtained by the former is essentially a tool for describing user needs, and is used to help different designers think about problems from the user's perspective in the product and service design process.
  • the portrait obtained by the latter is essentially a tagged user model, used to portray user intentions. Obviously, the former emphasizes qualitative analysis and neglects quantitative calculation, while the latter emphasizes quantitative calculation and neglects qualitative analysis.
  • Clustering methods have a long history of research in various scientific fields, and k-means, as one of the most popular and common clustering algorithms, was first proposed in 1955. In the 60 years since the k-means algorithm was proposed, thousands of clustering algorithms have been proposed, but the k-means algorithm is still widely used. This algorithm is a mature and effective method for unlabeled sample classification. It aggregates and groups samples by measuring the similarity between the essences of samples. In the research of mobile phone signaling data, related researchers have applied it to the study of travel pattern recognition of travelers, but no researcher has applied it to the recognition of travelers' crowd types.
  • Ma Chunjing et al. discloses a method for identifying floating population based on mobile phone signaling data. It includes the following steps: 1) Take each user as a research unit, extract the user’s mobile phone signaling data for one day, and arrange them in chronological order; 2) Divide the research area into central urban areas, research cities, and research provinces. The attribute value field is assigned to the region; 3) Define the floating population, and then further classify the floating population according to the movement law of mobile phone signaling data between regions; 4) Formulate the identification rule algorithm of the floating population according to the movement law between regions; 5 ) Use Java programming to realize the identification and statistics of different types of floating population. This solution only extracts the user's mobile phone signaling data for one day, and identifies the floating population from the spatial distribution dimension, while ignoring the influence of the time dimension on population identification.
  • the existing crowd type identification methods based on mobile phone signaling data generally only use simple logical judgment rules to identify and extract a certain target population, and the setting of rules has strong subjectivity and A wealth of prior empirical knowledge is required, and the accuracy of model recognition largely depends on the formulation of these rules. At the same time, this method of identifying a single target population has poor scalability. Due to the large differences in the characteristics required to classify different types of populations, it is difficult to reproduce target population recognition under other research purposes. Aiming at the existing shortcomings, the present invention provides a crowd type identification method based on mobile phone signaling data.
  • the present invention is based on the mobile phone signaling data, from the overall perspective of the data sample, extracts travel-related characteristics of the crowd and basic user attribute information to enhance the applicability of the method to different types of crowds. Then the optimal feature set is selected by distance entropy method to remove redundant features, and then the selected features are used to divide the population using the k-means cluster analysis method of unsupervised machine learning, and finally the cluster clusters are combined with the feature distribution of each population Perform crowd type recognition.
  • the use of machine learning methods to classify and identify the population uses the information contained in the cell phone signaling data to the greatest extent, reduces the need for prior experience knowledge, reduces human intervention, and improves the objectivity of the method.
  • the technical scheme of the present invention is: a method for identifying a crowd type based on mobile phone signaling data, which includes the following steps:
  • step S3 Combine the travel-related characteristics of the crowd and the basic attribute information of the mobile phone user extracted in step S2 to form a feature set, and use the distance entropy method to filter the optimal feature subset.
  • step S4 According to the feature subset selected in step S3, an unsupervised k-means cluster analysis method is used to divide the population.
  • S5. Perform population type identification on each cluster based on the distribution of characteristics of each population.
  • the mobile phone signaling data includes mobile phone identification code, time stamp, event type, base station number, base station latitude and longitude, and number attribution;
  • the basic attribute information of the mobile phone user includes age, gender, number attribution, and Domicile.
  • step S2 includes the following steps:
  • the working time interval refers to the time range of normal working hours of mobile phone users, such as a working time interval derived from prior experience and knowledge from 9 am to 5 pm.
  • step S3 includes the following steps:
  • step S4 is
  • step S44 Repeat step S42 until the current mean vector is not updated.
  • step S5 includes
  • the present invention proposes a crowd type identification method based on cell phone signaling data, which extracts and selects crowd travel-related features according to cell phone signaling data, and then uses k-means unsupervised clustering analysis method to divide the crowd, and combines the crowd status
  • the distribution of related features is used to identify the type of population.
  • this invention can more fully mine the information in the mobile phone signaling data, and use the machine learning method to analyze the category attributes of the crowd from a global perspective. It not only reduces the dependence and demand on prior experience knowledge, improves the applicability of the method, but also avoids the subjectivity brought by the rule judgment method.
  • Figure 1 is a schematic flow diagram of the present invention
  • Figure 2 is a heat map of crowd distribution in an embodiment
  • Fig. 3 is an example diagram of three types of groups of people divided based on mobile phone signaling data in an embodiment.
  • step S1 a 13-day mobile phone signaling data in Kunshan City, Jiangsu province is taken as an example. During this period, 5,863,054 mobile phone users appeared in Kunshan City.
  • the basic attribute information of mobile phone users includes age, gender, number attribution, household registration, and mobile phone unique identifier, as shown in Table 1.
  • step S2 based on the mobile phone signaling data, the relevant characteristics of the crowd travel are extracted. Types and definitions are shown in Table 2, and an example of aggregated statistics based on travel characteristics of the crowd is shown in Table 3:
  • step S3 the distance entropy method is used to sort the features according to their importance.
  • This embodiment takes the feature set composed of EXISTS_DAYS, ULD, UWD, ON_LSD, and ON_WSD as an example.
  • the features in order of importance from high to low are ON_WSD, UWD, EXISTS_DAYS, ON_LSD, and ULD.
  • Table 4 Shown:
  • Table 4 Feature selection example based on distance entropy method
  • step S4 the network graph is divided based on EXISTS_DAYS, UWD and ON_WSD using the k-means clustering analysis algorithm.
  • the heat map of crowd distribution based on EXISTS_DAYS and UWD is shown in Figure 2, and the result of crowd division is shown in Figure 3 (Clustering Center The number is set to 3, including 4242272 people in the square, 600820 people in the circle, and 1019962 people in the triangle).
  • step S5 the population is roughly divided into transit population, floating population, and resident population.
  • the resident population lives in the research area most of the time within the research time range, the frequency of leaving the research area is relatively low, EXISTS_DAYS, UWD and ON_WSD are relatively large; the floating population is generally a mid-to-long-term business trip population or cross-border travel population, and their travel behaviors are relatively regular during a period of time.
  • the environment frequency is higher, EXISTS_DAYS, UWD and ON_WSD are smaller.
  • the square is the transit population
  • the circle is the floating population
  • the triangle is the resident population.
  • this embodiment combines mobile phone signaling data with mobile phone user basic attribute information to mine and extract crowd travel-related characteristics.
  • the number of days of appearance, days of work, days of residence, and work hours of work are proposed.
  • Statistical fields such as the number of days and the number of days of residence in the residence period.
  • the k-means clustering method is used to cluster the mobile phone signaling data and divide the cluster clusters. Combining the distribution of various types of population in the corresponding characteristics, the population type identification population is performed on each cluster.
  • the present invention can more fully mine the information in the cell phone signaling data, and use the machine learning method to analyze the category attributes of the crowd from a global perspective. It not only reduces the dependence and demand on prior experience knowledge, improves the applicability of the method, but also avoids the subjectivity brought by the rule judgment method.

Abstract

一种基于手机信令数据的人群类型识别方法,属于人群类型识别技术领域。该方法将手机信令数据与手机用户基本属性信息相结合,对人群出行相关特征挖掘与提取。通过计算样本全体间的总距离熵,利用后向消除法对各特征按重要程度进行排序,以进行特征选择。基于筛选出的特征,利用k-means聚类方法对手机信令数据进行聚类分析,划分聚类簇。结合各类人群在相应特征中的分布情况,对各聚类簇进行人群类型识别人群。相比现有技术,可以更加充分挖掘手机信令数据中的信息,利用机器学习的方法从全局的角度分析人群的类别属性。不仅减少了对先验经验知识的依赖与需求,提高了方法的适用性,而且可以避免规则判别法所带来的主观性。

Description

一种基于手机信令数据的人群类型识别方法 技术领域
本发明属于人群类型识别技术领域,尤其涉及一种基于手机信令数据的人群类型识别方法。
背景技术
通信与互联网技术的发展与普及应用,应运而生的是对其背后蕴藏的大量潜在信息的大数据的挖掘研究。据工信部统计,截止2015年底,全国手机用户已达12.86亿,手机普及率为每百人94.5部。其手机信令数据以其内涵丰富、采样率高以及时效性好等优良特性吸引了大量学者的关注。然而手机信令数据出于保护隐私以及数据采集字段自身的一些局限性的缘故,很难获取准确的带有标签的样本信息,如出行者的类型属性以及出行方式,这将阻碍交通分析、交通规划等相关专题研究的进一步推进。
用户画像概念最初由交互设计之父Cooper提出,被用来作为一种交互式设计工具,以促进和巩固以用户为中心的设计思路。作为用户研究的重要组成部分,用户画像是实现以用户为中心的交互设计的重要工具。通过用户画像,设计团队在产品、服务设计过程中能时刻关注用户及其需求,从而与用户达成共识。在交通领域,出行者即为交通系统中的用户,通过对出行者进行用户画像研究即为人群类型识别,可以为交通规划中人口专题研究提供技术支持。构建用户画像的过程本质上是以短文本描述虚拟用户的过程,即把用户特征抽象成短语标签,其中每个组内的虚拟用户具有相似的目标、需求和行为等。这一描述过程中所涉及的短文本称为画像描述。现有研究中存在两类用户画像构建过程:一类是产品设计人员、运营人员根据用户需求从用户群体中抽象出典型用户;另一类是根据每个用户在产品、服务中的行为、观点等数据,生成描述用户的标签集合。前者得到 的画像本质上是一个描述用户需求的工具,用于帮助不同设计人员在产品、服务设计过程中站在用户的角度去思考问题。而后者得到的画像本质上是一个标签化的用户模型,用于刻画用户意图。很显然,前者重定性分析而轻定量计算,后者重定量计算而轻定性分析。
聚类方法在各种科学领域已有长久的研究历史,k-means,作为其中一种最流行最普遍的聚类算法于1955年首次提出。在k-means算法提出后的六十几年里,有上千种聚类算法被提出,但是k-means算法仍被广泛使用。该算法是一种成熟有效的无标签样本分类方法,通过测量样本本质间的相似度来对样本进行聚合分组。在手机信令数据研究方面,已有相关学者将其应用于出行者的出行模式识别研究,而目前尚无研究者将其应用于出行者的人群类型识别。
在基于手机信令数据的人群类型识别中,绝大多数是通过规则判别法来实现的。这样的识别方法需首先确定人群活动规律,并在区分不同类型人群时需确定相应的特征的取值范围。这些阈值的选取需要丰富的先验知识,且具有较强的主观性。同时,这种方法的拓展性较差,对特殊日期以及研究区域较为敏感,可移植性较差。
目前,马春景等人公开了一种基于手机信令数据的流动人口识别方法。包括以下步骤:1)以每个用户作为研究单元,提取该用户一天的手机信令数据,并按时间顺序排列;2)将研究区域划分成中心城区、研究市域以及研究省域,对每个区域赋予属性值字段attribute;3)定义流动人口,然后根据手机信令数据在区域间的移动规律将流动人口进一步细化分类;4)根据区域间的移动规律制定流动人口的判别规则算法;5)利用Java编程实现不同类别的流动人口的识别与统计。该方案只提取了用户一天的手机信令数据,从空间分布的维度来识别流动人口,而忽略了时间维度对人口识别的影响。
发明内容
现有的基于手机信令数据的人群类型识别方法,在进行分析时一般只会运用简单逻辑判断的规则法对某一种目标人群进行识别提取,而规则的设定具有较强的主观性而且需要丰富的先验经验知识,模型识别的准确度很大程度上取决于这些规则的制定。同时这种对单一目标人群的识别方法延展性较差,由于划分不同类型人群所需选取的特征差异较大,其很难复现到其他研究目的下的目标人群识别。针对现有缺陷,本发明提供一种基于手机信令数据的人群类型识别方法。
本发明基于手机信令数据,从数据样本整体角度出发,提取人群出行相关特征以及用户基本属性信息,以增强方法对不同类型人群的适用性。然后通过距离熵法筛选出最优特征集合以去除冗余特征,然后利用选取的特征运用无监督机器学习的k-means聚类分析法对人群进行划分,最后结合各人群特征分布对聚类簇进行人群类型识别。运用机器学习的方法对人群进行划分识别极大限度的利用手机信令数据中蕴含的信息,降低对先验经验知识的需求,并减少人为干预,提高了方法的客观性。
本发明的技术方案为:一种基于手机信令数据的人群类型识别方法,包括如下步骤:
S1、获取研究地区研究时间段内的手机信令数据以及其对应的手机用户基本属性信息。
S2、基于手机信令数据,对人群出行相关特征进行提取。
S3、将步骤S2提取的人群出行相关特征以及手机用户基本属性信息组成特征集合,运用距离熵法筛选出最优特征子集。
S4、根据步骤S3选取的特征子集,运用无监督的k-means聚类分析法进行人群划分。
S5、结合各人群特征分布情况对各聚类簇进行人群类型识别。
进一步的,所述步骤S1中,手机信令数据包括手机识别码、时间戳、事件类型、基站编号、基站经纬度和号码归属地;所述手机用户基本属性信息包括年龄、性别、号码归属地和户籍所在地。
进一步的,步骤S2包括如下步骤:
S21、遍历数据集,分别统计在研究时间范围内所有出现的手机用户出现的天数;
S22、根据先验经验知识并结合研究区域实际情况,确定工作时间区间以及居住时间区间,然后根据手机用户在这些区间内各逗留地的逗留时间长短,分别进行职住地,即居住地和工作地识别;如果没有满足条件的逗留地,则职住地记为0。其中,工作时间区间是指手机用户正常工作时间的时间范围,比如早上九点到下午五点就根据先验经验知识得出的一种工作时间区间。
S23、基于已识别出职住地的手机用户,分别统计他们在其居住地出现的天数、在其工作地出现的天数、居住时段在其居住地出现的天数以及工作时段在其工作地出现的天数。
进一步的,步骤S3包括以下步骤:
S31、遍历数据集,计算各样本间的欧氏距离,样本x i和x j之间的欧氏距离D ij计算公式如下(其中max k和min k分别表示第k个特征的最大值与最小值,M表示特征数)。注释:遍历数据集就是指提取数据集里的每一个数据,样本是指如江苏省昆山市某13天手机信令数据,表三是这个数据集的表头,表头下面的每一行数据就是一个样本。
Figure PCTCN2020090065-appb-000001
S32、计算各样本之间的相似性度量,并归一化到0到1之间,样本连续变量x i和x j之间的相似性S ij计算公式如下(其中α为控制参数,控制相似度的衰减性质,理论上取
Figure PCTCN2020090065-appb-000002
其中
Figure PCTCN2020090065-appb-000003
为对象间平均距离):
Figure PCTCN2020090065-appb-000004
离散变量间的相似性计算公式如下,其中M为离散型变量数:
Figure PCTCN2020090065-appb-000005
S33、计算各样本之间的距离熵,样本x i和x j之间的距离熵E ij计算公式如下:
E ij=-S ijlogS ij-(1-S ij)*log(1-S ij)
S34、计算样本总体的距离熵,计算公式如下,其中N表示样本数:
Figure PCTCN2020090065-appb-000006
S35、采用后向消除法作为搜索策略,遍历特征集,计算每次除去一个特征的总体距离熵,取值最小的总体距离熵对应去除的特征即为最不重要特征,然后从特征集中剔除这个特征,将其放到新特征集中;重复上述过程一次迭代直到所有特征都转移到了新特征集中,将新特征集逆序即得到特征的重要性排序。
进一步的,步骤S4的流程为
S41、从样本集中随机选择k个样本作为初始均值向量{μ 12,...,μ k};
S42、遍历样本集,计算每个样本x与各均值向量的欧式距离,并根据与其距离最近的均值向量μ i确定其簇标记C i
S43、划分完所有样本后,重新计算均值向量,计算公式如下:
Figure PCTCN2020090065-appb-000007
S44、重复步骤S42,直到当前均值向量均未更新。
S45、输出簇划分C={C 1,C 2,...,C k}。
进一步的,步骤S5包括
S51、根据人群活动特性差异以及研究精度需求进行人群细化分类;
S52、确定不同人群类型各特征的大致空间分布;
S53、结合人群特性分布对各聚类簇进行人群类型判断。
有益效果:
本发明提出一种基于手机信令数据的人群类型识别方法,根据手机信令数据进行人群出行相关特征提取与选择,然后运用k-means无监督的聚类分析方法进行人群划分,并结合人群在相关特征上的分布进行人群类型识别。相比现有技术,该发明可以更加充分挖掘手机信令数据中的信息,利用机器学习的方法从全局的角度分析人群的类别属性。不仅减少了对先验经验知识的依赖与需求,提高了方法的适用性,而且可以避免规则判别法所带来的主观性。
附图说明
图1为本发明的流程示意图;
图2为实施例中的人群分布热力图;
图3为实施例中的基于手机信令数据的三类人群划分示例图。
具体实施方式
下面结合附图和具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
实施例1
步骤S1中以江苏省昆山市某13天手机信令数据为例,此期间在昆山市出现的手机用户为5863054人。手机用户基本属性信息包括年龄、性别、号码归属地、 户籍和手机唯一标识符,如表1所示。
表1手机用户基本属性信息
Figure PCTCN2020090065-appb-000008
步骤S2中基于手机信令数据,提取人群出行的相关特征。类型及释义及如表2所示,基于人群出行特征的汇聚统计示例如表3所示:
表2人群出行相关特征类型及释义
Figure PCTCN2020090065-appb-000009
Figure PCTCN2020090065-appb-000010
表3基于人群出行特征的汇聚统计示例
Figure PCTCN2020090065-appb-000011
步骤S3中运用距离熵法对特征按重要程度进行排序。本实施例以EXISTS_DAYS、ULD、UWD、ON_LSD和ON_WSD组成的特征集为例,计算后得到特征按重要程度从高到低的排列顺序为ON_WSD、UWD、EXISTS_DAYS、ON_LSD和ULD,计算示例如表4所示:
表4基于距离熵法的特征选择示例
Figure PCTCN2020090065-appb-000012
Figure PCTCN2020090065-appb-000013
步骤S4中基于EXISTS_DAYS、UWD和ON_WSD利用k-means聚类分析算法对网络图进行划分,基于EXISTS_DAYS和UWD的人群分布热力图如图2所示,人群划分结果如图3所示(聚类中心数设置为3,其中方块4242272人,圆圈600820人,三角形1019962人)。
步骤S5中将人群大致分成过境人口、流动人口以及常驻人口,考虑到常驻人口在研究时间范围内,其大部分时间都生活居住在研究区域内,离开研究区域频率相对较低,EXISTS_DAYS、UWD和ON_WSD较大;流动人口一般为中长期出差人口或跨境出行人口,一段时间内出行行为较为规律,EXISTS_DAYS、UWD和ON_WSD相对较大;而过境人口一般在研究区域逗留时间较短,离境频率较高,EXISTS_DAYS、UWD和ON_WSD较小。由此推断方块为过境人口,圆圈为流动人口,三角形为常驻人口。
可见,本实施例将手机信令数据与手机用户基本属性信息相结合,以进行人群出行相关特征的挖掘与提取,提出了出现天数、工作地出现天数、居住地出现 天数、工作时段工作地出现天数以及居住时段居住地出现天数等统计字段。
通过计算样本全体间的总距离熵,然后利用后向消除法对各特征按重要程度进行排序,以进行特征选择。
基于筛选出的特征,利用k-means聚类方法对手机信令数据进行聚类分析,划分聚类簇。结合各类人群在相应特征中的分布情况,对各聚类簇进行人群类型识别人群。本发明相比现有技术,该发明可以更加充分挖掘手机信令数据中的信息,利用机器学习的方法从全局的角度分析人群的类别属性。不仅减少了对先验经验知识的依赖与需求,提高了方法的适用性,而且可以避免规则判别法所带来的主观性。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。

Claims (6)

  1. 一种基于手机信令数据的人群类型识别方法,其特征在于:
    包括如下步骤:
    S1、获取研究地区、研究时间段内的手机信令数据以及其对应的手机用户基本属性信息,即获得数据集;
    S2、基于手机信令数据,提取人群出行相关特征;
    S3、将步骤S2提取的人群出行相关特征以及手机用户基本属性信息组成特征集合,运用距离熵法筛选出最优特征子集;
    S4、根据步骤S3选取的最优特征子集,运用无监督的k-means聚类分析法进行人群划分;
    S5、结合各人群特征分布情况对各聚类簇进行人群类型识别。
  2. 如权利要求1所述的基于手机信令数据的人群类型识,其特征在于:所述步骤S1中,手机信令数据包括手机唯一识别码、时间戳、事件类型、基站编号、基站经纬度和号码归属地;所述手机用户基本属性信息包括年龄、性别、号码归属地、户籍所在地和手机唯一识别码。
  3. 如权利要求1所述的基于手机信令数据的人群类型识,其特征在于:步骤S2所述的基于手机信令数据的人群出行相关特征提取,包括以下步骤:
    S21、遍历数据集,分别统计在研究时间范围内所有出现的手机用户出现的天数;
    S22、根据先验经验知识并结合研究区域实际情况,确定工作时间区间以及居住时间区间,然后根据手机用户在这些区间内各逗留地的逗留时间长短,分别进行职住地,即居住地和工作地识别;如果没有满足条件的逗留地,则职住地记为0;
    S23、基于已识别出职住地的手机用户,分别统计他们在其居住地出现的天 数、在其工作地出现的天数、居住时段在其居住地出现的天数以及工作时段在其工作地出现的天数。
  4. 如权利要求1所述的基于手机信令数据的人群类型识别方法,其特征在于:所述步骤S3包括以下步骤:
    S31、遍历数据集,计算各样本间的欧氏距离,样本x i和x j之间的欧氏距离D ij计算公式如下:
    Figure PCTCN2020090065-appb-100001
    其中max k和min k分别表示第k个特征的最大值与最小值,M表示特征数;
    S32、计算各样本之间的相似性度量,并归一化到0到1之间,样本连续变量x i和x j之间的相似性S ij计算公式如下:
    Figure PCTCN2020090065-appb-100002
    其中α为控制参数,控制相似度的衰减性质,取
    Figure PCTCN2020090065-appb-100003
    其中
    Figure PCTCN2020090065-appb-100004
    为对象间平均距离;
    离散变量间的相似性计算公式如下,其中M为离散型变量数:
    Figure PCTCN2020090065-appb-100005
    S33、计算各样本之间的距离熵,样本x i和x j之间的距离熵E ij计算公式如下:
    E ij=-S ijlogS ij-(1-S ij)*log(1-S ij)
    S34、计算样本总体的距离熵,计算公式如下,其中N表示样本数:
    Figure PCTCN2020090065-appb-100006
    S35、对特征集采用后向消除法,计算每次除去一个特征的总体距离熵,取值最小的总体距离熵对应去除的特征即为最不重要特征,然后从特征集中剔除这个特征,将其放到新特征集中;重复上述过程一次迭代直到所有特征都转移到了 新特征集中,将新特征集逆序即得到特征的重要性排序。
  5. 如权利要求1所述的基于手机信令数据的人群类型识别方法,其特征在于:所述步骤S4包括
    S41、从样本集中随机选择k个样本作为初始均值向量{μ 12,...,μ k};
    S42、遍历样本集,计算每个样本x与各均值向量的欧式距离,并根据与其距离最近的均值向量μ i确定其簇标记C i
    S43、划分完所有样本后,重新计算均值向量,计算公式如下:
    Figure PCTCN2020090065-appb-100007
    S44、重复步骤S42,直到当前均值向量均未更新;
    S45、输出簇划分C={C 1,C 2,...,C k}。
  6. 如权利要求1所述的基于手机信令数据的人群类型识别方法,其特征在于:步骤S5包括
    S51、根据人群活动特性差异以及研究精度需求进行人群细化分类;
    S52、确定不同人群类型各特征的大致空间分布;
    S53、结合人群特性分布对各聚类簇进行人群类型判断。
PCT/CN2020/090065 2019-05-31 2020-05-13 一种基于手机信令数据的人群类型识别方法 WO2020238631A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201910467120.5 2019-05-31
CN201910467120.5A CN110245981B (zh) 2019-05-31 2019-05-31 一种基于手机信令数据的人群类型识别方法

Publications (1)

Publication Number Publication Date
WO2020238631A1 true WO2020238631A1 (zh) 2020-12-03

Family

ID=67885707

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2020/090065 WO2020238631A1 (zh) 2019-05-31 2020-05-13 一种基于手机信令数据的人群类型识别方法

Country Status (2)

Country Link
CN (1) CN110245981B (zh)
WO (1) WO2020238631A1 (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112711576A (zh) * 2020-12-11 2021-04-27 上海城市交通设计院有限公司 一种识别手机信令数据高铁、飞机城际出行方式的方法
CN112906790A (zh) * 2021-02-20 2021-06-04 国网江苏省电力有限公司营销服务中心 一种基于用电数据的独居老人识别方法和系统
CN113722878A (zh) * 2021-07-16 2021-11-30 东南大学 一种基于身份感知数据且面向仿真的交通需求确定方法
CN113918838A (zh) * 2021-11-12 2022-01-11 合众新能源汽车有限公司 基于停留数据的目标人群识别方法、系统和可读介质
CN113935881A (zh) * 2021-12-16 2022-01-14 北京融信数联科技有限公司 一种基于大数据的人口结构分析方法、系统及可读存储介质
CN114219379A (zh) * 2022-02-22 2022-03-22 北京融信数联科技有限公司 一种适用于社区服务圈的资源配套评估方法、及系统
CN114363823A (zh) * 2021-05-26 2022-04-15 科大国创云网科技有限公司 基于mr常驻地和建筑物轮廓的人口密度监测方法及系统
CN114422973A (zh) * 2022-03-30 2022-04-29 北京融信数联科技有限公司 一种基于大数据的网约车司机智能识别方法、系统及可读存储介质
CN115409434A (zh) * 2022-11-02 2022-11-29 北京融信数联科技有限公司 基于信令大数据的区域人口统计方法、系统及存储介质
CN115730763A (zh) * 2022-11-11 2023-03-03 中山大学 基于终端信令数据的工作日设施可达性计算方法及装置
CN116193369A (zh) * 2022-12-13 2023-05-30 南京大学 一种基于手机信令数据的居住人口生成率估算方法
CN116233759A (zh) * 2023-04-25 2023-06-06 北京城建交通设计研究院有限公司 一种居民出行轨迹调查方法及系统

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110245981B (zh) * 2019-05-31 2021-10-01 南京瑞栖智能交通技术产业研究院有限公司 一种基于手机信令数据的人群类型识别方法
CN110751046B (zh) * 2019-09-19 2022-05-17 深圳云天励飞技术有限公司 一种用户识别方法、装置、可读存储介质及终端设备
CN111385753B (zh) * 2019-10-24 2022-01-04 南京瑞栖智能交通技术产业研究院有限公司 一种基于手机信令数据的医疗设施可达性评估方法
CN111026738A (zh) * 2019-11-08 2020-04-17 福建新大陆软件工程有限公司 区域人口监控方法、系统、电子设备及存储介质
CN111737605A (zh) * 2020-07-09 2020-10-02 南京瑞栖智能交通技术产业研究院有限公司 一种基于手机信令数据的出行目的识别方法及装置
CN112070265A (zh) * 2020-07-24 2020-12-11 北京大学 家庭拥有子女状态的预测方法及装置
CN112165686B (zh) * 2020-08-27 2021-09-03 同济大学 基于手机信令数据的城市访客识别方法、装置、存储介质
CN112512032B (zh) * 2020-11-16 2021-09-14 南京瑞栖智能交通技术产业研究院有限公司 一种基于手机信令数据的对外出行人群识别方法
CN112633108B (zh) * 2020-11-20 2023-04-07 移通科技(杭州)有限公司 基于数据治理的人流监测分析系统和方法
CN113011924A (zh) * 2021-03-24 2021-06-22 华南理工大学 农贸市场物流配送与服务体系识别方法、系统、设备及介质
CN113657235A (zh) * 2021-08-10 2021-11-16 太原理工大学 一种基于图像处理的路网交通拥堵模式识别方法
CN114302333A (zh) * 2021-12-27 2022-04-08 中国电信股份有限公司 用户识别方法及装置、电子设备及介质
CN115002680B (zh) * 2022-07-28 2022-12-27 北京融信数联科技有限公司 基于手机信令的人群职业类型获取方法、系统和存储介质
CN116992267B (zh) * 2023-09-28 2024-01-23 北京融信数联科技有限公司 一种基于信令数据的区域人口性别识别方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104123466A (zh) * 2014-07-24 2014-10-29 中国软件与技术服务股份有限公司 一种基于常态模式的大数据态势分析预警方法及系统
CN104156403A (zh) * 2014-07-24 2014-11-19 中国软件与技术服务股份有限公司 一种基于聚类的大数据常态模式提取方法及系统
US20160314174A1 (en) * 2013-12-10 2016-10-27 China Unionpay Co., Ltd. Data mining method
CN107133318A (zh) * 2017-05-03 2017-09-05 北京市交通信息中心 一种基于手机信令数据的人口识别方法
CN107358265A (zh) * 2017-07-17 2017-11-17 南京华苏科技有限公司 基于谱聚类的外来常住人口识别方法
CN110245981A (zh) * 2019-05-31 2019-09-17 南京瑞栖智能交通技术产业研究院有限公司 一种基于手机信令数据的人群类型识别方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105721467B (zh) * 2016-02-16 2019-01-11 上海交通大学 社交网络Sybil群体检测方法
CN105657666B (zh) * 2016-03-31 2019-04-30 东南大学 一种基于手机定位数据的商务就业人群居住地识别方法
CN106096631B (zh) * 2016-06-02 2019-03-19 上海世脉信息科技有限公司 一种基于手机大数据的流动人口分类识别分析方法
CN107977673B (zh) * 2017-11-15 2021-05-14 上海世脉信息科技有限公司 一种基于大数据的经济活动人口识别方法
CN109461106A (zh) * 2018-10-11 2019-03-12 浙江公共安全技术研究院有限公司 一种多维信息感知处理方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160314174A1 (en) * 2013-12-10 2016-10-27 China Unionpay Co., Ltd. Data mining method
CN104123466A (zh) * 2014-07-24 2014-10-29 中国软件与技术服务股份有限公司 一种基于常态模式的大数据态势分析预警方法及系统
CN104156403A (zh) * 2014-07-24 2014-11-19 中国软件与技术服务股份有限公司 一种基于聚类的大数据常态模式提取方法及系统
CN107133318A (zh) * 2017-05-03 2017-09-05 北京市交通信息中心 一种基于手机信令数据的人口识别方法
CN107358265A (zh) * 2017-07-17 2017-11-17 南京华苏科技有限公司 基于谱聚类的外来常住人口识别方法
CN110245981A (zh) * 2019-05-31 2019-09-17 南京瑞栖智能交通技术产业研究院有限公司 一种基于手机信令数据的人群类型识别方法

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112711576B (zh) * 2020-12-11 2023-03-10 上海城市交通设计院有限公司 一种识别手机信令数据高铁、飞机城际出行方式的方法
CN112711576A (zh) * 2020-12-11 2021-04-27 上海城市交通设计院有限公司 一种识别手机信令数据高铁、飞机城际出行方式的方法
CN112906790A (zh) * 2021-02-20 2021-06-04 国网江苏省电力有限公司营销服务中心 一种基于用电数据的独居老人识别方法和系统
CN112906790B (zh) * 2021-02-20 2023-08-18 国网江苏省电力有限公司营销服务中心 一种基于用电数据的独居老人识别方法和系统
CN114363823A (zh) * 2021-05-26 2022-04-15 科大国创云网科技有限公司 基于mr常驻地和建筑物轮廓的人口密度监测方法及系统
CN114363823B (zh) * 2021-05-26 2023-09-19 科大国创云网科技有限公司 基于mr常驻地和建筑物轮廓的人口密度监测方法及系统
CN113722878B (zh) * 2021-07-16 2022-11-01 东南大学 一种基于身份感知数据且面向仿真的交通需求确定方法
CN113722878A (zh) * 2021-07-16 2021-11-30 东南大学 一种基于身份感知数据且面向仿真的交通需求确定方法
CN113918838B (zh) * 2021-11-12 2024-04-12 合众新能源汽车股份有限公司 基于停留数据的目标人群识别方法、系统和可读介质
CN113918838A (zh) * 2021-11-12 2022-01-11 合众新能源汽车有限公司 基于停留数据的目标人群识别方法、系统和可读介质
CN113935881A (zh) * 2021-12-16 2022-01-14 北京融信数联科技有限公司 一种基于大数据的人口结构分析方法、系统及可读存储介质
CN114219379A (zh) * 2022-02-22 2022-03-22 北京融信数联科技有限公司 一种适用于社区服务圈的资源配套评估方法、及系统
CN114422973A (zh) * 2022-03-30 2022-04-29 北京融信数联科技有限公司 一种基于大数据的网约车司机智能识别方法、系统及可读存储介质
CN114422973B (zh) * 2022-03-30 2022-06-28 北京融信数联科技有限公司 一种基于大数据的网约车司机智能识别方法、系统及可读存储介质
CN115409434A (zh) * 2022-11-02 2022-11-29 北京融信数联科技有限公司 基于信令大数据的区域人口统计方法、系统及存储介质
CN115730763A (zh) * 2022-11-11 2023-03-03 中山大学 基于终端信令数据的工作日设施可达性计算方法及装置
CN116193369A (zh) * 2022-12-13 2023-05-30 南京大学 一种基于手机信令数据的居住人口生成率估算方法
CN116193369B (zh) * 2022-12-13 2023-10-27 南京大学 一种基于手机信令数据的居住人口生成率估算方法
CN116233759B (zh) * 2023-04-25 2023-07-28 北京城建交通设计研究院有限公司 一种居民出行轨迹调查方法及系统
CN116233759A (zh) * 2023-04-25 2023-06-06 北京城建交通设计研究院有限公司 一种居民出行轨迹调查方法及系统

Also Published As

Publication number Publication date
CN110245981A (zh) 2019-09-17
CN110245981B (zh) 2021-10-01

Similar Documents

Publication Publication Date Title
WO2020238631A1 (zh) 一种基于手机信令数据的人群类型识别方法
CN110223168B (zh) 一种基于企业关系图谱的标签传播反欺诈检测方法及系统
Xu et al. Understanding aggregate human mobility patterns using passive mobile phone location data: A home-based approach
Mazimpaka et al. Trajectory data mining: A review of methods and applications
CN106650273B (zh) 一种行为预测方法和装置
Chang et al. Understanding user’s travel behavior and city region functions from station-free shared bike usage data
CN111813835B (zh) 一种基于手机信令和poi数据的公共活动中心识别系统
CN106332052B (zh) 基于移动通信终端的微区域治安预警方法
CN109918674B (zh) 一种基于案件要素相似性建模的案件串并方法
CN111178721A (zh) 一种智慧旅游系统
CN110109908A (zh) 基于社会基础信息挖掘人物潜在关系的分析系统及方法
CN116384889A (zh) 基于自然语言处理技术的情报大数据智能分析方法
Chen et al. A practical approach to determining critical macroeconomic factors in air-traffic volume based on K-means clustering and decision-tree classification
Zhang et al. Hunting image: Taxi search strategy recognition using sparse subspace clustering
Rabbi et al. An Approximation For Monitoring The Efficiency Of Cooperative Across Diverse Network Aspects
Dashdorj et al. Semantic enrichment of mobile phone data records
He et al. Space–time classification of public transit smart card users’ activity locations from smart card data
Jiao et al. Understanding the land use function of station areas based on spatiotemporal similarity in rail transit ridership: A case study in Shanghai, China
Zhou et al. Big data for intrametropolitan human movement studies A case study of bus commuters based on smart card data
CN112699955A (zh) 一种用户分类方法、装置、设备及存储介质
CN110610446A (zh) 一种基于两步聚类思路的县域城镇分类方法
Reyes et al. Dynamic grouping of vehicle trajectories
Huang et al. Detecting neighborhood gentrification at scale via street-level visual data
CN113516850B (zh) 基于空间句法分析的管道沿线交通流量数据采集方法
Xu et al. MM-UrbanFAC: Urban functional area classification model based on multimodal machine learning

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20814427

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20814427

Country of ref document: EP

Kind code of ref document: A1